عنوان مقاله :
تشخيص عبارتهاي گفتاري براي اخبار فارسي صداوسيماي جمهوري اسلامي ايران
پديد آورندگان :
ويسي ، هادي دانشگاه تهران - دانشكده علوم و فنون نوين , قريشي ، اكبر دانشگاه صداوسيما - دانشكده فني و مهندسي رسانه , باستانفرد ، اعظم دانشگاه آزاد اسلامي واحد كرج
كليدواژه :
تشخيص عبارتهاي گفتاري فارسي , جستجوي كليدواژه , بازشناسي گفتار , سازمان صداوسيما , كلدي
چكيده فارسي :
هدف از تشخيص عبارتهاي گفتاري يا جستجوي كليدواژه، تشخيص و جستجوي مجموعهاي از كليدواژهها در مجموعهاي از اسناد گفتاري (مانند سخنرانيها، جلسهها) است. در اين پژوهش تشخيص عبارتهاي گفتاري فارسي برپايه سامانههاي بازشناسي گفتار با كاربرد در بازيابي اطلاعات در بايگانيهاي گفتاري و ويدئويي سازمان صدا و سيما طراحي و پيادهسازي شده است. براي اين كار، ابتدا اسناد گفتاري به متن، بازشناسي، سپس بر روي اين متون جستجو انجام ميشود. براي آموزش سامانه بازشناسي گفتار فارسي، دادگان فارسدات بزرگ بهكار رفته است. اين سامانه به نرخ خطاي واژه 2.71 درصد بر روي همين دادگان و 28.23 درصد بر روي دادگان اخبار فارسي با استفاده از مدل زير فضاي مخلوط گوسي (SGMM) رسيد. براي تشخيص عبارتهاي گفتاري از روش پايه واژگان نماينده استفاده شده و با استفاده از شبكه حافظه كوتاهمدت ماندگار و دستهبندي زماني پيوندگرا (LSTMCTC) روشي براي بهبود تشخيص واژگان خارج از واژگان (OOV) پيشنهاد شده است. كارايي سامانه تشخيص عبارات با روش واژههاي نماينده بر روي دادگان فارسدات بزرگ بر طبق معيار ارزش وزني واقعي عبارت (ATWV) برابر با 0.9206 براي كليدواژههاي داخل واژگان و برابر با 0.2 براي كليدواژههاي خارج از واژگان رسيد كه اين نرخ براي واژگان OOV با استفاده از روش LSTMCTC با حدود پنجاه درصد بهبود به مقدار 0.3058 رسيد؛ همچنين، در تشخيص عبارتهاي گفتاري بر روي دادگان اخبار فارسي، ATWV برابر 0.8008 حاصل شد.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها