شماره ركورد :
1201324
عنوان مقاله :
تشخيص عبارت‌هاي گفتاري براي اخبار فارسي صداوسيماي جمهوري اسلامي ايران
پديد آورندگان :
ويسي ، هادي دانشگاه تهران - دانشكده علوم و فنون نوين , قريشي ، اكبر دانشگاه صداوسيما - دانشكده فني و مهندسي رسانه , باستان‌فرد ، اعظم دانشگاه آزاد اسلامي واحد كرج
از صفحه :
67
تا صفحه :
88
كليدواژه :
تشخيص عبارت‌هاي گفتاري فارسي , جستجوي كليدواژه , بازشناسي گفتار , سازمان صداوسيما , كلدي
چكيده فارسي :
هدف از تشخيص عبارت‌هاي گفتاري يا جستجوي كليدواژه، تشخيص و جستجوي مجموعه‌اي از كليدواژه‌ها در مجموعه‌اي از اسناد گفتاري (مانند سخنراني‌ها،‌ جلسه‌ها) است. در اين پژوهش تشخيص عبارت‌هاي گفتاري فارسي برپايه سامانه‌هاي بازشناسي گفتار با كاربرد در بازيابي اطلاعات در بايگاني‌هاي گفتاري و ويدئويي سازمان صدا و سيما طراحي و پياده‌سازي شده است. براي اين كار، ابتدا اسناد گفتاري به متن، بازشناسي، سپس بر روي اين متون جستجو انجام مي‌شود. براي آموزش سامانه بازشناسي گفتار فارسي، دادگان فارس‌دات بزرگ به‌كار رفته است. اين سامانه به نرخ خطاي واژه 2.71 درصد بر روي همين دادگان و 28.23 درصد بر روي دادگان اخبار فارسي با استفاده از مدل‌ زير فضاي مخلوط گوسي (SGMM) رسيد. براي تشخيص عبارت‌هاي گفتاري از روش پايه واژگان نماينده استفاده شده و با استفاده از شبكه حافظه كوتاهمدت ماندگار و دسته‌بندي زماني پيوندگرا (LSTMCTC) روشي براي بهبود تشخيص واژگان خارج از واژگان (OOV) پيشنهاد شده است. كارايي سامانه تشخيص عبارات با روش واژه‌هاي نماينده بر روي دادگان فارس‌دات بزرگ بر طبق معيار ارزش وزني واقعي عبارت (ATWV) برابر با 0.9206 براي كليدواژه‌هاي داخل واژگان و برابر با 0.2 براي كليدواژه‌هاي خارج از واژگان رسيد كه اين نرخ براي واژگان OOV با استفاده از روش LSTMCTC با حدود پنجاه درصد بهبود به مقدار 0.3058 رسيد؛ همچنين، در تشخيص عبارت‌هاي گفتاري بر روي دادگان اخبار فارسي، ATWV برابر 0.8008 حاصل شد.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها
لينک به اين مدرک :
بازگشت