مرکز منطقه ای اطلاع رساني علوم و فناوري - آماده‌سازي دادگان گفتار محاوره‌اي فارسي جهت مدل‌سازي ناشيوايي‌ها در بازشناسي گفتار محاوره‌اي

شماره ركورد كنفرانس :

3848

عنوان مقاله :

آماده‌سازي دادگان گفتار محاوره‌اي فارسي جهت مدل‌سازي ناشيوايي‌ها در بازشناسي گفتار محاوره‌اي

عنوان به زبان ديگر :

Preparing a Persian Spontaneous Speech Database for Disfluency Modeling in Spontaneous Speech Recognition

پديدآورندگان :

حسن‌آبادي محمد mohammad_hasanabady@yahoo.com فارغ‌التحصيل كارشناسي ارشد، آزمايشگاه پردازش گفتار، دانشگاه صنعتي شريف، , بحراني محمد bahrani@sharif.edu استاديار، مركز زبان‌ها و زبان‌شناسي، دانشگاه صنعتي شريف، , جعفري الهام elhamjafarice@gmail.com فارغ‌التحصيل كارشناسي، دانشكدۀ مهندسي كامپيوتر، دانشگاه صنعتي شريف

تعداد صفحه :

كليدواژه :

گفتار محاوره‌اي , ناشيوايي‌هاي آكوستيكي , دادگان , بازشناسي گفتار

سال انتشار :

1395

عنوان كنفرانس :

دومين همايش ملي زبان شناسي پيكره اي

زبان مدرك :

فارسي

چكيده فارسي :

يكي از مهم‌ترين تفاو‌ت‌هاي گفتار رسمي و گفتار محاوره‌اي در رخداد ناشيوايي‌هاي آكوستيكي و زباني است. يكي از راه‌هاي افزايش دقت سيستم‌هاي بازشناسي گفتار محاوره‌اي، مدل‌سازي و شناسايي صحيح انواع اين ناشيوايي‌ها در فرآيند بازشناسي گفتار مي‌باشد. با توجه به اين‌كه مدل‌سازي ناشيوايي‌ها در گفتار محاوره‌اي نيازمند دادگاني است كه شامل اين ناشيوايي‌ها باشد، در نتيجه، اولين گام در اين زمينه جمع‌آوري و آماده‌سازي دادگان صوتي متشكل از گفتار محاوره‌اي بوده است. بر اين اساس در اين مقاله حدود 15 ساعت از سخنراني‌هاي رهبر انقلاب اسلامي (حضرت آيت‌الله خامنه‌اي) جمع‌آوري و سپس در يك فرآيند علمي تقطيع و برچسب‌گذاري شده است. در فرايند برچسب‌دهي، علاوه بر رونوشت دقيق متني، ناشيوايي‌هاي آكوستيكي و زباني نيز مشخص شده و دادگان حاصل به‌صورت يك دادگان استاندارد ارائه شده است.

چكيده لاتين :

One of the most important differences between formal speech and spontaneous speech lies in acoustic and language disfluencies. In order to increase the output accuracy of spontaneous speech recognition systems, one of the approaches is correct detection of these disfluencies along with their modeling in the training process of speech recognition systems. Since disfluency modeling in spontaneous speech requires database containing such disfluencies, the first step is the collection and preparation of audio database of spontaneous speech. Thus, around 15 hours of the lectures of supreme leader of Islamic revolution (Ayatollah Khamenei) has been collected and then segmented and labeled in a deliberate procedure. In the process of labeling, in addition to textual precise transcription, acoustic and language disfluencies have been specified and the database is presented as a standard Persian Spontaneous Database (PSD).

كشور :

ايران

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=36&DC=200203