شماره ركورد :
1002914
عنوان مقاله :
بهبود سيستم جداسازي منبع مبتني بر آناليز تركيب شنيداري در زبان فارسي
عنوان به زبان ديگر :
Enhancement of CASA-Based Source Separation System in Farsi
پديد آورندگان :
گراوانچي زاده، مسعود دانشگاه تبريز - دانشكده مهندسي برق و كامپيوتر , دادور، پريا دانشگاه تبريز - دانشكده مهندسي برق و كامپيوتر , بهادرنيا، بابك دانشگاه تبريز - دانشكده مهندسي برق و كامپيوتر
تعداد صفحه :
12
از صفحه :
273
تا صفحه :
284
كليدواژه :
بهبود كيفيت گفتار , جداسازي منبع دو گوشي , تبديل موجك , حداقل ميانگين مربعات خطا (MMSE) , بهينه سازي ازدحام ذرات بر مبناي يادگيري (LPSO)
چكيده فارسي :
در اين مقاله، سيستم ­هاي جديدي به­ منظور بهبود عملكرد سيستم جداكننده گفتار دو گوشي با نام MESSL ارائه مي­شود. در سيستم جداساز سيگنال، ابتدا، با استفاده از الگوريتم EM، مدل­ هاي گوسي پارامترهاي اختلاف فاز درون­ گوشي (IPD) و اختلاف شدت درون ­گوشي (ILD) به ­دست مي­آيند. سپس، با استفاده از مدل به ­دست ­آمده براي هر منبع، ماسك نرمي استخراج شده كه با ضرب آن در تبديل فوريه زمان­ كوتاه (STFT) سيگنال مخلوط، سيگنال هدف جدا مي‌شود. به ­علت عملكرد ناقص سيستم در امر جداسازي، دو سيستم پس ­پردازش به­ منظور حذف سيگنال‌هاي ناخواسته از سيگنال هدف، پيشنهاد مي­شود. روش پيشنهادي اول حذف وفقي نويز با استفاده از بهينه­ سازي ازدحام ذرات بر مبناي يادگيري (LPSO) است. سيستم پس­ پردازش پيشنهادي دوم شامل دو مرحله است. در مرحله اول اين سيستم، از روش حذف نويز تبديل موجك به­ منظور حذف بخش اعظم سيگنال تداخل استفاده مي­شود. در مرحـله دوم، روش حداقل ميانگين مربعات خطا (MMSE) جهت ارتقاء هرچه بيش­تر كيفيـت سيگنال هدف جدا­ شده به كار مي ­رود. ارزيابي و مقايسه سيستم­هاي پيشنهادي براي دادگان فارسي نشان ­مي­دهد كه سيستم پيشنهادي دوم در بهبود كيفيت سيگنال هدف جداشده خوب عمل مي ­كند و از نظر محاسباتي نيز كارآمد است.
چكيده لاتين :
In this paper, new systems to enhance the performance of binaural source separation system, called MESSL, are proposed. In the source separation system, first, the Gaussian models for the interaural phase difference (IPD) and interaural level difference (ILD) parameters are obtained by using the EM algorithm. Then, by using the generated model for each source, a soft mask is extracted and multiplied with the short-time Fourier transform (STFT) of the mixture signal to separate the target signal. Because of incomplete performance of the separation system, two post-processing systems are proposed to remove the unwanted signals from the target signal. The first proposed method is the adaptive noise cancellation using learning-based particle swarm optimization (LPSO). The second proposed post-processing system includes two stages. In the first stage of this system, the denoising technique of the Wavelet transform is employed to remove the main part of the distracter signal. In the second step, the minimum mean-squares-error (MMSE) approach is used to enhance further the quality of the separated target signal. Evaluation and comparison of the proposed systems for Farsi database shows that the second proposed system performs well in the enhancement of the separated target speech and is also computationally efficient.
سال انتشار :
1395
عنوان نشريه :
مهندسي برق دانشگاه تبريز
فايل PDF :
7432698
عنوان نشريه :
مهندسي برق دانشگاه تبريز
لينک به اين مدرک :
بازگشت