شماره ركورد
1002914
عنوان مقاله
بهبود سيستم جداسازي منبع مبتني بر آناليز تركيب شنيداري در زبان فارسي
عنوان به زبان ديگر
Enhancement of CASA-Based Source Separation System in Farsi
پديد آورندگان
گراوانچي زاده، مسعود دانشگاه تبريز - دانشكده مهندسي برق و كامپيوتر , دادور، پريا دانشگاه تبريز - دانشكده مهندسي برق و كامپيوتر , بهادرنيا، بابك دانشگاه تبريز - دانشكده مهندسي برق و كامپيوتر
تعداد صفحه
12
از صفحه
273
تا صفحه
284
كليدواژه
بهبود كيفيت گفتار , جداسازي منبع دو گوشي , تبديل موجك , حداقل ميانگين مربعات خطا (MMSE) , بهينه سازي ازدحام ذرات بر مبناي يادگيري (LPSO)
چكيده فارسي
در اين مقاله، سيستم هاي جديدي به منظور بهبود عملكرد سيستم جداكننده گفتار دو گوشي با نام MESSL ارائه ميشود. در سيستم جداساز سيگنال، ابتدا، با استفاده از الگوريتم EM، مدل هاي گوسي پارامترهاي اختلاف فاز درون گوشي (IPD) و اختلاف شدت درون گوشي (ILD) به دست ميآيند. سپس، با استفاده از مدل به دست آمده براي هر منبع، ماسك نرمي استخراج شده كه با ضرب آن در تبديل فوريه زمان كوتاه (STFT) سيگنال مخلوط، سيگنال هدف جدا ميشود. به علت عملكرد ناقص سيستم در امر جداسازي، دو سيستم پس پردازش به منظور حذف سيگنالهاي ناخواسته از سيگنال هدف، پيشنهاد ميشود. روش پيشنهادي اول حذف وفقي نويز با استفاده از بهينه سازي ازدحام ذرات بر مبناي يادگيري (LPSO) است. سيستم پس پردازش پيشنهادي دوم شامل دو مرحله است. در مرحله اول اين سيستم، از روش حذف نويز تبديل موجك به منظور حذف بخش اعظم سيگنال تداخل استفاده ميشود. در مرحـله دوم، روش حداقل ميانگين مربعات خطا (MMSE) جهت ارتقاء هرچه بيشتر كيفيـت سيگنال هدف جدا شده به كار مي رود. ارزيابي و مقايسه سيستمهاي پيشنهادي براي دادگان فارسي نشان ميدهد كه سيستم پيشنهادي دوم در بهبود كيفيت سيگنال هدف جداشده خوب عمل مي كند و از نظر محاسباتي نيز كارآمد است.
چكيده لاتين
In this paper, new systems to enhance the performance of binaural source separation system, called MESSL, are proposed.
In the source separation system, first, the Gaussian models for the interaural phase difference (IPD) and interaural level difference
(ILD) parameters are obtained by using the EM algorithm. Then, by using the generated model for each source, a soft mask is extracted
and multiplied with the short-time Fourier transform (STFT) of the mixture signal to separate the target signal. Because of incomplete
performance of the separation system, two post-processing systems are proposed to remove the unwanted signals from the target signal.
The first proposed method is the adaptive noise cancellation using learning-based particle swarm optimization (LPSO). The second
proposed post-processing system includes two stages. In the first stage of this system, the denoising technique of the Wavelet transform
is employed to remove the main part of the distracter signal. In the second step, the minimum mean-squares-error (MMSE) approach is
used to enhance further the quality of the separated target signal. Evaluation and comparison of the proposed systems for Farsi database
shows that the second proposed system performs well in the enhancement of the separated target speech and is also computationally
efficient.
سال انتشار
1395
عنوان نشريه
مهندسي برق دانشگاه تبريز
فايل PDF
7432698
عنوان نشريه
مهندسي برق دانشگاه تبريز
لينک به اين مدرک