شماره ركورد كنفرانس :
4817
عنوان مقاله :
تهيۀ دادگانهاي گفتاري و متني براي سامانۀ بازشناسي خودكار مكالمات خلبان و واحدهاي مراقبت پرواز
عنوان به زبان ديگر :
Preparation of Spoken and Textual Corpora for Automatic Speech Recognition System for Pilot-Air Traffic Service Units Communications
پديدآورندگان :
بحراني محمد bahrani@atu.ac.ir استاديار، دانشكدۀ علوم رياضي و رايانه، دانشگاه علامه طباطبائي , آزادمنش مهسا mahsa.azadmanesh@yahoo.com دانشآموختۀ كارشناسي ارشد زبانشناسي رايانشي، دانشگاه صنعتي شريف
كليدواژه :
بازشناسي گفتار , دادگان مكالمات هوانوردي , پيكرۀ خاصمنظوره
عنوان كنفرانس :
سومين همايش ملي زبان شناسي پيكره اي
چكيده فارسي :
اين مقاله به مرحلۀ آمادهسازي پيكرههاي گفتاري و متني براي يك سامانۀ بازشناسي گفتار خاصمنظوره به نام «سامانۀ بازشناسي خودكار مكالمات خلبان و واحدهاي مراقبت پرواز» ميپردازد. در اين مقاله، در اولين مرحله از طراحي سامانۀ بازشناسي گفتار، به تهيۀ دادگانهاي گفتاري و متني موردنياز براي آموزش سامانه ميپردازيم. بدينمنظور، بخشهايي از مكالمات واقعي صورتگرفته بين خلبانها و برج مراقبت را از واحد مراقبت فرودگاه مهرآباد با اخذ مجوزهاي لازم دريافت كرديم. مكالماتِ جمعآوريشده ابتدا پالايش شده و بخشهاي اضافي آن حذف ميگردد و سپس توسط افراد خبره، متن معادل با آنها مطابق با يك سري استانداردهاي خاص، توليد ميشود. در مرحلۀ بعد، فايلهاي صوتي مكالمات به همراه معادل متني آنها به قطعات كوچكتر تقسيم ميشوند؛ همچنين صورتهاي واجي انواع كلمات موجود در متن به صورت دستي توليد ميشود. براي تهيۀ دادگان متني نيز علاوه بر متون مربوط به مكالمات، دادههاي متني ديگري نيز از منابع مرتبط جمعآوري ميشود. دادههاي متني، مورد پالايش و يكدستسازي قرار ميگيرند و درنهايت كلمات موجود در آنها استخراج ميشود تا در مراحل بعد واجنويسي گردند. اين كلمات به همراه كلمات استخراجي از دادگان صوتي، مجموعه واژگان سامانۀ بازشناسي گفتار را تشكيل ميدهند. در اين پژوهش، در حدود 152 دقيقه مكالمۀ صوتي به صورت تقطيع و برچسبدهيشده و همچنين يك دادگان متني پالايششده با حدود 63400 كلمه جمعآوري شده است. اين دادهها در مراحل بعدي پژوهش، براي آموزش مدلهاي صوتي و زباني سامانۀ بازشناسي گفتار به كار ميروند.