عنوان مقاله :
بهبود سيستم جداسازي منبع مبتني بر آناليز تركيب شنيداري در زبان فارسي
عنوان به زبان ديگر :
Enhancement of CASA-Based Source Separation System in Farsi
پديد آورندگان :
گراوانچي زاده، مسعود دانشگاه تبريز - دانشكده مهندسي برق و كامپيوتر , دادور، پريا دانشگاه تبريز - دانشكده مهندسي برق و كامپيوتر , بهادرنيا، بابك دانشگاه تبريز - دانشكده مهندسي برق و كامپيوتر
كليدواژه :
بهبود كيفيت گفتار , جداسازي منبع دو گوشي , تبديل موجك , حداقل ميانگين مربعات خطا (MMSE) , بهينه سازي ازدحام ذرات بر مبناي يادگيري (LPSO)
چكيده فارسي :
در اين مقاله، سيستم هاي جديدي به منظور بهبود عملكرد سيستم جداكننده گفتار دو گوشي با نام MESSL ارائه ميشود. در سيستم جداساز سيگنال، ابتدا، با استفاده از الگوريتم EM، مدل هاي گوسي پارامترهاي اختلاف فاز درون گوشي (IPD) و اختلاف شدت درون گوشي (ILD) به دست ميآيند. سپس، با استفاده از مدل به دست آمده براي هر منبع، ماسك نرمي استخراج شده كه با ضرب آن در تبديل فوريه زمان كوتاه (STFT) سيگنال مخلوط، سيگنال هدف جدا ميشود. به علت عملكرد ناقص سيستم در امر جداسازي، دو سيستم پس پردازش به منظور حذف سيگنالهاي ناخواسته از سيگنال هدف، پيشنهاد ميشود. روش پيشنهادي اول حذف وفقي نويز با استفاده از بهينه سازي ازدحام ذرات بر مبناي يادگيري (LPSO) است. سيستم پس پردازش پيشنهادي دوم شامل دو مرحله است. در مرحله اول اين سيستم، از روش حذف نويز تبديل موجك به منظور حذف بخش اعظم سيگنال تداخل استفاده ميشود. در مرحـله دوم، روش حداقل ميانگين مربعات خطا (MMSE) جهت ارتقاء هرچه بيشتر كيفيـت سيگنال هدف جدا شده به كار مي رود. ارزيابي و مقايسه سيستمهاي پيشنهادي براي دادگان فارسي نشان ميدهد كه سيستم پيشنهادي دوم در بهبود كيفيت سيگنال هدف جداشده خوب عمل مي كند و از نظر محاسباتي نيز كارآمد است.
چكيده لاتين :
In this paper, new systems to enhance the performance of binaural source separation system, called MESSL, are proposed.
In the source separation system, first, the Gaussian models for the interaural phase difference (IPD) and interaural level difference
(ILD) parameters are obtained by using the EM algorithm. Then, by using the generated model for each source, a soft mask is extracted
and multiplied with the short-time Fourier transform (STFT) of the mixture signal to separate the target signal. Because of incomplete
performance of the separation system, two post-processing systems are proposed to remove the unwanted signals from the target signal.
The first proposed method is the adaptive noise cancellation using learning-based particle swarm optimization (LPSO). The second
proposed post-processing system includes two stages. In the first stage of this system, the denoising technique of the Wavelet transform
is employed to remove the main part of the distracter signal. In the second step, the minimum mean-squares-error (MMSE) approach is
used to enhance further the quality of the separated target signal. Evaluation and comparison of the proposed systems for Farsi database
shows that the second proposed system performs well in the enhancement of the separated target speech and is also computationally
efficient.
عنوان نشريه :
مهندسي برق دانشگاه تبريز
عنوان نشريه :
مهندسي برق دانشگاه تبريز