شماره ركورد :
1041231
عنوان مقاله :
روشي جديد براي خوشه‌بندي اسناد HTML با استفاده از الگوريتم‌هاي تلفيقي
عنوان به زبان ديگر :
A New Method to Cluster HTML Documents Using Mixed Algorithms
پديد آورندگان :
شعار، مريم دانشگاه آزاد اسلامي واحد تهران شمال- دانشكده مديريت- گروه مديريت صنعتي , سالارنژاد، علي اصغر
تعداد صفحه :
26
از صفحه :
37
تا صفحه :
62
كليدواژه :
افزونگي اطلاعات , خوشه‌بندي اسناد Html , داده‌كاوي , سيستم‌هاي استخراج اطلاعات , كلاس‌بندي
چكيده فارسي :
با عنايت به حجم بالاي اطلاعات كنوني وب توجه به سيستم‌هاي خودكار استخراج اطلاعات بيشتر شده است. از مهم‌ترين روش‌هاي خودكار استخراج اطلاعات، خوشه‌بندي مي‌باشد. روش‌هاي خوشه‌بندي زيادي تابه‌حال ارائه شده است كه اكثراً مبتني بر مدل برداري مي‌باشند. در اين مدل با هر سند مانند مجموعه‌اي از كلمات برخورد مي‌گردد و توالي كلمات در جمله، ناديده گرفته مي‌شود. ازآنجايي‌كه معاني در زبان طبيعي به‌طور كامل وابسته به توالي كلمات مي‌باشند نقيصه بزرگي در اين روش‌ها احساس مي‌گردد. براي رفع اين نقيصه در اين مقاله روشي جديد در خوشه‌بندي اسناد Html ارائه گرديده است كه در آن الگوريتم Stc براي خوشه‌بندي Snippet ها لحاظ شده‌است. اين روش كه با عنوان خوشه‌بندي بر اساس جملات كليدي Ks_Stc مطرح شده براي هر سند بردار وزن‌داري تهيه مي‌كند و با استفاده از اين بردار، جملات كليدي هر متن از سند استخراج مي‌گردد و نهايتاً اين جملات كليدي براي خوشه‌بندي به الگوريتم Stc داده مي‌شود.
چكيده لاتين :
Given the high volume of web information, more attention has been paid to the automatic data extraction systems. One of the most important methods of data extraction is clustering. Today, many clustering methods are provided which are mostly based on vector models. In these models, each document is treated like a set of words, and the sequence of words in the sentence is ignored. Since the meanings in the natural language are completely dependent on the sequence of words, a great deal of shortcomings is observed in these methods. To overcome these shortcomings, this paper presents a new method for clustering HTML documents in which STC algorithm is considered for clustering snippets. This method, called clustering based on KS_STC key sentences, provides a weighted vector for each document and using this vector, the key sentences of each text are extracted from the document. Finally, these key sentences are given for clustering to the STC algorithm.
سال انتشار :
1397
عنوان نشريه :
مطالعات مديريت كسب و كار هوشمند
فايل PDF :
7566985
عنوان نشريه :
مطالعات مديريت كسب و كار هوشمند
لينک به اين مدرک :
بازگشت