مرکز منطقه ای اطلاع رساني علوم و فناوري - بهبود سيستم جداسازي منبع مبتني بر آناليز تركيب شنيداري در زبان فارسي

شماره ركورد :

1002914

عنوان مقاله :

بهبود سيستم جداسازي منبع مبتني بر آناليز تركيب شنيداري در زبان فارسي

عنوان به زبان ديگر :

Enhancement of CASA-Based Source Separation System in Farsi

پديد آورندگان :

گراوانچي زاده، مسعود دانشگاه تبريز - دانشكده مهندسي برق و كامپيوتر , دادور، پريا دانشگاه تبريز - دانشكده مهندسي برق و كامپيوتر , بهادرنيا، بابك دانشگاه تبريز - دانشكده مهندسي برق و كامپيوتر

تعداد صفحه :

از صفحه :

273

تا صفحه :

284

كليدواژه :

بهبود كيفيت گفتار , جداسازي منبع دو گوشي , تبديل موجك , حداقل ميانگين مربعات خطا (MMSE) , بهينه سازي ازدحام ذرات بر مبناي يادگيري (LPSO)

چكيده فارسي :

در اين مقاله، سيستم هاي جديدي به منظور بهبود عملكرد سيستم جداكننده گفتار دو گوشي با نام MESSL ارائه ميشود. در سيستم جداساز سيگنال، ابتدا، با استفاده از الگوريتم EM، مدل هاي گوسي پارامترهاي اختلاف فاز درون گوشي (IPD) و اختلاف شدت درون گوشي (ILD) به دست ميآيند. سپس، با استفاده از مدل به دست آمده براي هر منبع، ماسك نرمي استخراج شده كه با ضرب آن در تبديل فوريه زمان كوتاه (STFT) سيگنال مخلوط، سيگنال هدف جدا مي‌شود. به علت عملكرد ناقص سيستم در امر جداسازي، دو سيستم پس پردازش به منظور حذف سيگنال‌هاي ناخواسته از سيگنال هدف، پيشنهاد ميشود. روش پيشنهادي اول حذف وفقي نويز با استفاده از بهينه سازي ازدحام ذرات بر مبناي يادگيري (LPSO) است. سيستم پس پردازش پيشنهادي دوم شامل دو مرحله است. در مرحله اول اين سيستم، از روش حذف نويز تبديل موجك به منظور حذف بخش اعظم سيگنال تداخل استفاده ميشود. در مرحـله دوم، روش حداقل ميانگين مربعات خطا (MMSE) جهت ارتقاء هرچه بيشتر كيفيـت سيگنال هدف جدا شده به كار مي رود. ارزيابي و مقايسه سيستمهاي پيشنهادي براي دادگان فارسي نشان ميدهد كه سيستم پيشنهادي دوم در بهبود كيفيت سيگنال هدف جداشده خوب عمل مي كند و از نظر محاسباتي نيز كارآمد است.

چكيده لاتين :

In this paper, new systems to enhance the performance of binaural source separation system, called MESSL, are proposed. In the source separation system, first, the Gaussian models for the interaural phase difference (IPD) and interaural level difference (ILD) parameters are obtained by using the EM algorithm. Then, by using the generated model for each source, a soft mask is extracted and multiplied with the short-time Fourier transform (STFT) of the mixture signal to separate the target signal. Because of incomplete performance of the separation system, two post-processing systems are proposed to remove the unwanted signals from the target signal. The first proposed method is the adaptive noise cancellation using learning-based particle swarm optimization (LPSO). The second proposed post-processing system includes two stages. In the first stage of this system, the denoising technique of the Wavelet transform is employed to remove the main part of the distracter signal. In the second step, the minimum mean-squares-error (MMSE) approach is used to enhance further the quality of the separated target signal. Evaluation and comparison of the proposed systems for Farsi database shows that the second proposed system performs well in the enhancement of the separated target speech and is also computationally efficient.

سال انتشار :

1395

عنوان نشريه :

مهندسي برق دانشگاه تبريز

فايل PDF :

7432698

عنوان نشريه :

مهندسي برق دانشگاه تبريز

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=8&DC=1002914