شماره ركورد كنفرانس :
3376
عنوان مقاله :
معرفي رويكردي جديد در بهبود دقت الگوريتم رتبه بندي TF_IDF جهت بازيابي اسناد متني
عنوان به زبان ديگر :
A New Approach to Improve the Accuracy of the TF_IDF Ranking Algorithm in Text Retrieval
پديدآورندگان :
نعمتي عزيزه azize.nemati94@gmail.com دانشگاه گلستان , كرباسي سهيلا s.karbasi@gu.ac.ir دانشگاه گلستان
كليدواژه :
بازيابي اطلاعات , وب كاوي , مدل وزني TF_IDF , رتبه بندي اسناد , آنتروپي
عنوان كنفرانس :
چهارمين كنفرانس بين المللي وب پژوهي
چكيده فارسي :
امروزه وب گسترده جهاني به عنوان بزرگترين منبع دادهها، به كمك موتورهاي جستجوي وب، بعنوان يكي از پر كاربردترين ابزار استخراج اطلاعات به شمار مي رود. با توجه به رشد روز افزون وب، فراهم كردن اطلاعات مرتبط با پرسجوي كاربر توسط موتورهاي جستجو بسيار مشكل شده است. نياز فعلي موتورهاي جستجو آن است كه بتوانند اسناد را با بالاترين دقت در اختيار كاربران قرار دهند. بنابراين موتورهاي جستجو از تكنيك هاي مختلف وب كاوي براي رتبه بندي نتايج جستجو استفاده مي كنند. براي اين منظور الگوريتم هاي رتبه بندي متنوعي ارائه شده است.
در اين تحقيق، براي رتبه بندي اسناد از الگوريتم وزني TF_IDF استفاده مي شود كه با اضافه كردن پارامتر آنتروپي مربوط به تعداد تكرار واژه هاي پرسجوي كاربر در متن اسناد، دقت رتبه بندي اسناد در بازيابي اطلاعات، ارزيابي مي شود. نكات قابل توجه بدست آمده از بررسي هاي انجام شده بر روي پرسش هاي استاندارد، رويكردي جديد جهت افزايش كارايي سيستم هاي جستجوي متني را ارائه مي نمايد كه پاسخ هاي حاصل از آزمايشات بعدي، حاكي از تصديق آن مي باشد. به اين ترتيب رويكرد پيشنهادي در اين مقاله از شاخه محتواكاوي وب استفاده مي كند و نتايج نشان مي دهد كه مي تواند به نسبت حجم داده هاي كلكسيون تست، دقت بازيابي اسناد آن را به ميزان قابل توجهي افز ايش دهد.
چكيده لاتين :
Today, the World Wide Web is considered as the largest source of data with the help of Web search engines, as one of the most useful tools for extracting information. Due to the web growth, providing information related to user queries by search engines is very difficult. Also, the effectiveness of the information retrieval systems is largely dependent on term-weighting. Therefore, search engines use different web mining techniques to rank search results. For this purpose, various ranking algorithms are presented.
In this research, the weighting algorithm TF_IDF is used to rank the documents. By introducing the entropy parameter related to the number of user query words in the text of the documents, the accuracy of the ranking of the documents in the information retrieval is evaluated. The remarkable points obtained from the surveys on standard questions provide a new approach to increasing the efficiency of text search systems, which the responses from subsequent experiments demonstrate its validation. The proposed approach in this paper uses the Standard Web collections and the results show that it can significantly increase the accuracy of retrieval in terms of the volume of test data collection.