كليدواژه :
متنكاوي , بازيابي اطلاعات , زمينه كاربر , رتبه بندي نتايج موتور جستجو
چكيده فارسي :
يكي از بزرگترين مشكلات پيشروي موتورهاي جستجو، رفع ابهاماتي است كه در جستار كاربران وجود دارد. اين ابهامات ميتواند دلايل متعددي داشته باشد كه از جمله آنها تعدد معاني و مفاهيم مرتبط با يك جستار يا كاربردهاي مختلف آن جستار است. اگر موتور جستجو نتواند اين ابهام را به شكل صحيح برطرف كند، در ارائه نتايج خود به كاربر دچار اختلال و خطا خواهد شد و نياز كاربر را برطرف نخواهد كرد. اين موضوع نقش مهمي در تعيين ميزان كارايي موتور جستجو خواهد داشت. در اين مقاله هدف آن است تا با جمع آوري اطلاعات زمينه كاربر در طول زمان، به تفسير جستار كاربر كمك كرده و درنتيجه آن رتبهبندي نتايج موتور جستجو را بهبود بخشيم. زمينه كاربر به هر اطلاعاتي گفته ميشود كه به شناخت ويژگيها و خصوصيات كاربر كمك كند. در اين مقاله متن صفحات وبي كه كاربر از آنها بازديد ميكند، مورد پردازش قرار ميگيرند تا مفاهيم اصلي و كليدي آنها استخراج شود. استخراج اين مفاهيم (زمينه كاربر) كه در سمت كاربر و بر روي سيستم وي اتفاق خواهد افتاد، با افزونه اي خواهد بود كه به همين منظور توليد و بر روي مرورگر نصب ميشود؛ سپس زمينه كاربر، در ساختاري خاص در سمت كاربر و براي هر كاربر بهصورت خصوصي نگهداري ميشوند. هنگامي كه جستجويي انجام ميشود (با توجه به خلاصه اي كه موتور جستجو در ازاي معرفي هر پيوند ارائه ميدهد)، ميزان شباهت نتايج موتور جستجو با زمينه كاربر مورد محاسبه قرار گرفته و بهازاي هر نتيجه ميزان شباهت آن با زمينه كاربر محاسبه ميشود؛ سپس آن نتايجي به كاربر پيشنهاد ميشوند (در مرورگر پررنگ ميشوند) كه با زمينه وي تطبيق بيشتري داشته باشند. همانطوركه از نتايج آزمايشهاي پايان مقاله مشهود است، استفاده از زمينه كاربر در رتبهبندي نتايج موتور جستجو تاثير قابل توجهي دارد. بررسيها نشان ميدهد كه در ارائه 10 نتيجه اول مربوط به 30 جستار داراي ابهام، به طور ميانگين روش پيشنهادي 43% و موتور جستجوي گوگل 16% از نتايج خود را مرتبط با مفهوم اصلي جستار مورد نظر ارائه كرده اند.
چكيده لاتين :
Today, the importance of text processing and its usages is well known among researchers and students. The amount of textual, documental materials increase day by day. So we need useful ways to save them and retrieve information from these materials. For example, search engines such as Google, Yahoo, Bing and etc. need to read so many web documents and retrieve the most similar ones to the user query. In this example, necessity of real time ability should be mentioned. Keyphrase extraction and some other fields like Information extraction, natural language processing, text summarization, query understanding, machine translation, and text similarity are subsets of text processing. So many efforts in text processing have been established, but there are still many open problems, especially in semantically document understanding subjects. Although these subjects seem not to be very hard for humankind but they are very complex and confusing for a computer, because there is no standard structure to save documents so that computers be able to extract semantics and contents. Document understanding and keyphrase extraction are some of the most important text processing goals. Many statistical and linguistic approaches are proposed in order to address these complex goals. Some methods work based on multi documents and some others on single document which all are generally more difficult than multi documents methods. Some methods use learning algorithms with training data and some others do not. Using natural language processing tools or resources -like ontologies- are effective ways to improve results, but these tools are not reliable for all languages. There are some articles for keyphrase extraction based on co-occurrence and also some statistical methods. Moreover, sometimes it is an important feature for a method to make real time outputs. Based on these characteristics, many approaches have been proposed in the literature.
In this paper, we present a new approach for keyphrase extraction from a single document. We present a language-independent approach based on combination of statistical information extracted from document and some logical rules named fundamental text rules. In this approach, there is no need to any natural language processing, nor to ontology and nor to any document corpus. We illustrate a real time method to understand each document focuses by extracting its phrases from segmented document without using any learning algorithm. Then, the Score for each phrase is calculated based on its occurrence and its related phrases occurrences. Then, fundamental text rules omit some phrases based on their scores and their places in text. Remained phrases shows the document focuses. Evaluation shows that our approach takes a high recall and precision in key phrase extraction with very good accuracy in text focuses understanding. These keyphrases extracted of a text presents the most important concepts of that text and it is used to retrieve documents in search engines more efficiently.