مرکز منطقه ای اطلاع رساني علوم و فناوري - تهيۀ دادگان‌هاي گفتاري و متني براي سامانۀ بازشناسي خودكار مكالمات خلبان و واحدهاي مراقبت پرواز

چكيده فارسي :

اين مقاله به مرحلۀ آماده‌سازي پيكره‌هاي گفتاري و متني براي يك سامانۀ بازشناسي گفتار خاص‌منظوره به نام «سامانۀ بازشناسي خودكار مكالمات خلبان و واحدهاي مراقبت پرواز» مي‌پردازد. در اين مقاله، در اولين مرحله از طراحي سامانۀ بازشناسي گفتار، به تهيۀ دادگان‌هاي گفتاري و متني موردنياز براي آموزش سامانه مي‌پردازيم. بدين‌منظور، بخش‌هايي از مكالمات واقعي صورت‌گرفته بين خلبان‌ها و برج مراقبت را از واحد مراقبت فرودگاه مهرآباد با اخذ مجوزهاي لازم دريافت كرديم. مكالماتِ جمع‌آوري‌شده ابتدا پالايش شده و بخش‌هاي اضافي آن حذف مي‌گردد و سپس توسط افراد خبره، متن معادل با آنها مطابق با يك سري استانداردهاي خاص، توليد مي‌شود. در مرحلۀ بعد، فايل‌هاي صوتي مكالمات به همراه معادل متني آنها به قطعات كوچكتر تقسيم مي‌شوند؛ همچنين صورت‌هاي واجي انواع كلمات موجود در متن به صورت دستي توليد مي‌شود. براي تهيۀ دادگان متني نيز علاوه بر متون مربوط به مكالمات، داده‌هاي متني ديگري نيز از منابع مرتبط جمع‌آوري مي‌شود. داده‌هاي متني، مورد پالايش و يك‌دست‌سازي قرار مي‌گيرند و درنهايت كلمات موجود در آنها استخراج مي‌شود تا در مراحل بعد واج‌نويسي گردند. اين كلمات به همراه كلمات استخراجي از دادگان صوتي، مجموعه واژگان سامانۀ بازشناسي گفتار را تشكيل مي‌دهند. در اين پژوهش، در حدود 152 دقيقه مكالمۀ صوتي به صورت تقطيع و برچسب‌دهي‌شده و همچنين يك دادگان متني پالايش‌شده با حدود 63400 كلمه جمع‌آوري شده است. اين داده‌ها در مراحل بعدي پژوهش، براي آموزش مدل‌هاي صوتي و زباني سامانۀ بازشناسي گفتار به كار مي‌روند.