شماره ركورد :
1137791
عنوان مقاله :
جستاري بر فرايند سازماندهي و بازيابي متون وبي مبتني بر تجميع مفاهيم معنايي در راستاي سازماندهي دانش
عنوان به زبان ديگر :
An Investigation into the Process of Organizing and Retrieving Web Texts based on the Integration of Semantic Concept in order to Organize Knowledge
پديد آورندگان :
انبايي فريماني، سعيده دانشگاه آزاد اسلامي مشهد - گروه مهندسي كامپيوتر , طباطبايي، حميد دانشگاه آزاد اسلامي قوچان، ايران - گروه مهندسي كامپيوتر , كفاشان كاخكي، مجتبي دانشگاه فردوسي مشهد - گروه علم اطلاعات و دانش شناسي
تعداد صفحه :
26
از صفحه :
1879
تا صفحه :
1904
كليدواژه :
متن كاوي , طبقه بندي متن , الگوسازي عنوان , بازيابي , سازماندهي دانش , واكشي اطلاعات متقابل نقطه اي
چكيده فارسي :
سازماندهي و بازيابي دانش منتشر شده در محيط وب بعنوان يكي از مهمترين كاربردهاي متن كاوي مطرح شده است. از جمله چالش هاي سازماندهي مجموعه عظيمي از متون در قالب يك پيكره متني، ابعاد زياد ويژگي ها و خلوت بودن ماتريس ويژگي ها است. نحوه ي انتخاب ويژگي ها و نحوه ي كاهش ويژگي ها در اين مسئله تاثير بسزايي در بالاتر رفتن دقت سازماندهي و بازيابي متون دارد. در بسياري از پژوهش ها به بررسي منفك اين دو چالش پرداخته شده است. اين پژوهش با رويكرد توجه همزمان به اين دو چالش شرح يافته است. پس از تعيين متون مرتبط با 20 گروه خبري وبي و پس از فاز پيش پردازش متون با استفاده از الگوريتم الگو سازي عنوان[1] ال دي اي[2]، كيسه اي (تجميعي) از مفاهيم معنايي براي پيكره ي متني مورد نظر ساخته شد. به منظور بررسي ميزان تاثير واژه هاي پيكره متون در هر مفهوم پنهان، به بررسي نحوه ي وزن دهي واژگان يك پيكره، در مفاهيم استخراج شده توسط الگوريتم ال دي اي پرداخته شد. از اين رو، براي هر متن يك توزيع احتمال رخداد حول هر عنوان استخراج گرديد كه براي سازماندهي و بازيابي دانش موجود در آن مورد استفاده قرار گرفت. براي سازماندهي آن از الگوريتم نزديكترين K همسايه با معيار شباهت واگراي كولبك ليبلر كه ميزان فاصله دو توزيع احتمال را مي سنجد؛ استفاده شد. نتايج آزمون ها نشان داد كه ميزان صحت سازماندهي روش پيشنهادي در صورتي كه از معيار وزن دهي واكشي اطلاعات متقابل نقطه اي و الگوريتم KL-KNN استفاده شده باشد 82/5% است. نتايج تحليل ها نشان داد كه اين روش داراي دقت مشابهي با روش هايي است كه از فنون يادگيري عميق استفاده مي نمايند. افزون بر اين، روش بكارگرفته در اين پژوهش نشان دهنده پيچيدگي كمتري در فرايند سازماندهي و بازيابي متون مورد مطالعه پژوهش بود.
چكيده لاتين :
Improvement in information retrieval performance relates to the method of knowledge extraction from large amounts of text information on web. Text classification is a way of knowledge extraction with supervised machine learning methods. This paper proposed Kullback-Leibler divergence KNN for classifying extracted features based on term weighting with Latent Dirichlet Allocation algorithm. LDA is Non-Negative matrix factorization method proposed for topic modeling and dimension reduction of high dimensional feature space. In traditional LDA, each component value is assigned using the information retrieval Term Frequency measure. While this weighting method seems very appropriate for information retrieval, it is not clear that it is the best choice for text classification problems. Actually, this weighting method does not leverage the information implicitly contained in the categorization task to represent documents. In this paper, we introduce a new weighting method based on Point wise Mutual Information for accessing the importance of a word for a specific latent concept, then each document classified based on probability distribution over the latent topics. Experimental result investigated when we used Pointwise Mutual Information measure for term weighing and K Nearest Neighbor with Kullback-Leibler distance for classification, accuracy has been 82.5%, with the same accuracy versus probabilistic deep learning methods.
سال انتشار :
1398
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
فايل PDF :
8048901
لينک به اين مدرک :
بازگشت