عنوان مقاله :
ارائه يك روش جديد بازيابي اطلاعات مناسب براي متون حاصل از بازشناسي گفتار
عنوان به زبان ديگر :
Introducing a new information retrieval method applicable for speech recognized texts
پديد آورندگان :
ديانت، روح الله دانشگاه قم - دانشكده فني و مهندسي - گروه مهندسي فناوري اطلاعات , علي احمدي، مرتضي دانشگاه قم - دانشكده فني و مهندسي - گروه مهندسي فناوري اطلاعات , اخلاقي، محمد يحيي دانشگاه خاتم النبيين كابل، افغانستان - گروه علوم كامپيوتر , باباعلي، باقر دانشگاه تهران - دانشكده رياضي، آمار و علوم كامپيوتر - پرديس علوم
كليدواژه :
بازيابي اطلاعات , بازشناسي گفتار , سند , پرس و جو , فاصله لونشتاين
چكيده فارسي :
در اين مقاله، يك پيش پردازش روي روشهاي بازيابي اطلاعات، ارائه مي شود كه براي بازيابي اطلاعات حاصل از متون بازشناسي شده ي گفتاري، مناسب است. اين پيش پردازش، به شكل تركيبي از اصلاح و گسترش پرس و جو مي باشد. ورودي هاي مسئله، اسناد متني بدست آمده از بازشناسي گفتار و پرس و جو مي باشد و هدف، يافتن اسناد مرتبط با كلمه پرس و جو است. مشكل آن است كه متن حاصل از بازشناسي گفتار، همواره داراي درصد خطايي در بازشناسي است كه ممكن است منجر به اين شود كه كلماتي كه در واقع مرتبط هستند و به علت وقوع خطاي بازشناسي دگرگون شده اند مرتبط تشخيص داده نشوند. ايده ي روش ارائه شده، تشخيص خطاي بازشناسي در كلمات و در نظر گرفتن كلمات مشابه براي آن دسته از كلماتي است كه به عنوان خطا تشخيص دادهشده اند. براي تشخيص كلمه ي خطا، پارامتري به عنوان احتمال خطا در كلمه تعريف مي شود كه بزرگ بودن آن بيانگر امكان بيشتر وقوع خطا در كلمه است. همچنين براي تشخيص كلمات مشابه، ابتدا با استفاده از معيار فاصله لونشتاين، كلمات مشابه اوليه را پيدا مي كنيم. سپس احتمال تبديل اين كلمات مشابه به كلمه پرس و جوي اصلي، محاسبه مي شود. كلمات مشابه معنايي، از بين كلماتي كه احتمال تبديل بيشتري دارند، بر اساس يك سطح آستانه انتخاب ميشوند. اكنون در الگوريتم بازيابي، علاوه بر كلمه اصلي، كلمات مشابه آن نيز در جستجو، مرتبط در نظر گرفته مي شوند. نتايج پيادهسازيها نشان ميدهد كه الگوريتم ارائهشده، معيار F را به ميزان حداكثر 30% بهبود ميبخشد.
چكيده لاتين :
In this article a pre-processing method is introduced which is applicable in speech recognized texts retrieval task. We have a text corpus, t generated from a speech recognition system and a query as inputs, to search queries in these documents and find relevant documents. A basic problem in a typical speech recognized text is some error percentage in recognition. This, results erroneously assigning to irrelevant documents.The idea of this proposed method, is to detect error-prone terms and to find similar words for each term. A parameter is defined which calculates the probability for occurring errors in the error-prone words. To recognize similar words for each specific term, based on a criterion called average detection rate (ADR) and levenshtein distance criterion, some candidates are chosen as the initial similar words set. and then, a conversion probability is defined based on the conversion rate (CR) and the noisy channel model (NCM) and the words with higher probability based on a threshold level are selected as the final similar words. In the retrieval process, these words are considered in the search step in addition to the base word. Implementation result shows a significant improvement up to 30% of F-measure in information retrieval method with consideration of this pre-processing.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها