مرکز منطقه ای اطلاع رساني علوم و فناوري - طراحي و ضبط پايگاه‌ دادگان گفتاري براي سيستم‌هاي تبديل متن به گفتار فارسي

شماره ركورد :

979551

عنوان مقاله :

طراحي و ضبط پايگاه‌ دادگان گفتاري براي سيستم‌هاي تبديل متن به گفتار فارسي

عنوان به زبان ديگر :

Designing and Recording a Speech Database for Persian TTS Systems

پديد آورندگان :

طاهري اردلي، مرتضي دانشگاه شهركرد , خرم، سهيل دانشگاه صنعتي شريف , عاصمي، مصطفي پژوهشگاه علوم انساني و مطالعات فرهنگي , صامتي، حسين دانشگاه صنعتي شريف , بي جن خان، محمود دانشگاه تهران

تعداد صفحه :

از صفحه :

تا صفحه :

كليدواژه :

پايگاه‌دادگان گفتاري , تبديل متن به گفتار , نواي گفتار , پيكرة متني

چكيده فارسي :

مقالة حاضر به ارائة روشي براي طراحي و ساختِ پايگاه‌ دادگاني مختص سيستم‌هاي تبديل متن به گفتار با در نظر گرفتن ساخت نوايي فارسي مي‌پردازد. اين مجموعه به لحاظ آوايي و نوايي غني و مشتمل بر 2826 نمونه جملة فارسي است. اين نمونه جملات در شرايط استوديو و با تك‌صداي گويندة خانم كه به صورت حرفه‌اي در زمينة صدا فعاليت مي‌كند ضبط شده است. پوشش حالت‌هاي مختلف نوايي در كنار پوشش حالت‌هاي مختلف آوايي از نقاط قوت اين پايگاه است كه براي نخستين بار در سيستم‌هاي تبديل متن به گفتارِ فارسي لحاظ مي‌شود. اين مجموعه در كنار فايل‌هاي صوتي، داراي برچسب‌هاي متن و صورت آوايي است كه به صورت دستي اصلاح شده‌‌اند. در نهايت، با بكارگيري مجموعه دادگان مذكور و با استفاده از روش بازسازي گفتار آماري ـ پارامتري ساخت صدا انجام گرفت. آزمودني‌ها كيفيت صداي ساخته‌شده را با استفاده از معيار ميانگينِ امتيازاتِ نظردهي MOS) 4.3) ارزيابي كردند.

چكيده لاتين :

This paper presents a method for designing and building a speech database for Persian TTS systems taking account of Persian prosodic structure. This collection, containing 2826 phonetically and prosodically rich utterances, was recorded under studio conditions with a female voice talent speaker. In addition to common practice of covering phonetic units, the coverage of prosodic units has been considered in preparation of this collection as a novel procedure in building Persian databases. The current database consists of sound files and their corresponding manually-corrected orthographic and phonetic transcriptions. Finally, we used the prepared database to do speech synthesis using a statistical-parametric method. The subjects evaluated the generated voices 4.3 in terms of MOS criterion.

سال انتشار :

1395

عنوان نشريه :

پژوهش هاي زبان شناسي تطبيقي

فايل PDF :

3698151

عنوان نشريه :

پژوهش هاي زبان شناسي تطبيقي

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=8&DC=979551