شماره ركورد :
1017916
عنوان مقاله :
شبكه عصبي پيچشي با پنجره‌هاي قابل تطبيق براي بازشناسي گفتار
عنوان به زبان ديگر :
Adaptive Windows Convolutional Neural Network for Speech Recognition
پديد آورندگان :
ذوقي، تكتم دانشگاه صنعتي اميركبير , همايون پور، محمد مهدي دانشگاه صنعتي اميركبير
تعداد صفحه :
18
از صفحه :
13
تا صفحه :
30
كليدواژه :
پنجره‌هاي قابل تطبيق , شبكه عصبي پيچشي , شبكه عصبي عميق , بازشناسي گفتار
چكيده فارسي :
در حالي‌كه سامانه‌هاي بازشناسي گفتار به‌طور پيوسته در حال ارتقا مي‌باشند و شاهد استفاده گسترده از آن‌ها مي‌باشيم، اما دقت اين سامانه‌ها فاصله زيادي نسبت به توان بازشناسي انسان دارد و در شرايط ناسازگار اين فاصله افزايش مي‌يابد. يكي از علل اصلي اين مسئله تغييرات زياد سيگنال گفتار است. در سال‌هاي اخير، استفاده از شبكه‌هاي عصبي عميق در تركيب با مدل مخفي ماركف، موفقيت‌هاي قابل توجهي در حوزه پردازش گفتار داشته ‌است. اين مقاله به‌دنبال مدل‌كردن بهتر گفتار با استفاده از تغيير ساختار در شبكه عصبي پيچشي عميق است؛ به‌نحوي كه با تنوعاتِ بيان گويندگان در سيگنال گفتار منطبق‌تر شود. در اين راه، مدل‌هاي موجود و انجام استنتاج بر روي آن‌ها را بهبود و گسترش خواهيم داد. در اين مقاله با ارائه شبكه پيچشي عميق با پنجره­هاي قابل تطبيق سامانه بازشناسي گفتار را نسبت به تفاوت بيان در بين گويندگان و تفاوت در بيان‌هاي يك گوينده مقاوم خواهيم كرد. تحليل­ها و نتايج آزمايش‌هاي صورت‌گرفته بر روي دادگان گفتار فارس­دات و TIMIT نشان داد كه روش پيشنهادي خطاي مطلق بازشناسي واج را نسبت به شبكه پيچشي عميق به­ترتيب به ميزان 2/1 و 1/1 درصد كاهش مي‌دهد كه اين مقدار در مسئله بازشناسي گفتار مقدار قابل توجهي است.
چكيده لاتين :
Although, speech recognition systems are widely used and their accuracies are continuously increased, there is a considerable performance gap between their accuracies and human recognition ability. This is partially due to high speaker variations in speech signal. Deep neural networks are among the best tools for acoustic modeling. Recently, using hybrid deep neural network and hidden Markov model (HMM) leads to considerable performance achievement in speech recognition problem because deep networks model complex correlations between features. The main aim of this paper is to achieve a better acoustic modeling by changing the structure of deep Convolutional Neural Network (CNN) in order to adapt speaking variations. In this way, existing models and corresponding inference task have been improved and extended. Here, we propose adaptive windows convolutional neural network (AWCNN) to analyze joint temporal-spectral features variation. AWCNN changes the structure of CNN and estimates the probabilities of HMM states. We propose adaptive windows convolutional neural network in order to make the model more robust against the speech signal variations for both single speaker and among various speakers. This model can better model speech signals. The AWCNN method applies to the speech spectrogram and models time-frequency varieties. This network handles speaker feature variations, speech signal varieties, and variations in phone duration. The obtained results and analysis on FARSDAT and TIMIT datasets show that, for phone recognition task, the proposed structure achieves 1.2%, 1.1% absolute error reduction with respect to CNN models respectively, which is a considerable improvement in this problem. Based on the results obtained by the conducted experiments, we conclude that the use of speaker information is very beneficial for recognition accuracy.
سال انتشار :
1397
عنوان نشريه :
پردازش علائم و داده ها
فايل PDF :
7500378
عنوان نشريه :
پردازش علائم و داده ها
لينک به اين مدرک :
بازگشت