شماره ركورد :
1125853
عنوان مقاله :
ارائه يك مدل پارامتريك تطبيقي جهت كشف و رده‌بندي وقايع صوتي در سيگنال‌هاي محيطي
عنوان به زبان ديگر :
Providing an Adaptive Model with two Adjustable Parameters for Audio Event Detection and Classification in Environmental Signals
پديد آورندگان :
درخشان، مراد دانشگاه صنعتي شاهرود - دانشكده مهندسي كامپيوتر و فناوري اطلاعات , مروي، حسين دانشگاه صنعتي شاهرود - دانشكده مهندسي كامپيوتر و فناوري اطلاعات , حسن پور، حميد دانشگاه صنعتي شاهرود - دانشكده مهندسي كامپيوتر و فناوري اطلاعات
تعداد صفحه :
12
از صفحه :
565
تا صفحه :
576
كليدواژه :
كشف وقايع صوتي , صداهاي محيطي , الگوريتم‌هاي يادگيري بدون نظارت , سيستم‌هاي نظارت صوتي , سيستم‌هاي كسب اطلاعات مبتني بر صدا , سيستم‌هاي پارامتريك تطبيقي
چكيده فارسي :
كشف وقايع صوتي در محيط كار و زندگي يك نياز مدرن جهت گردآوري اطلاعات است. تاكنون بيشتر تحقيق‌ها بر واقعه صوتي خاص و يا تعداد محدودي از وقايع صوتي برجسته متمركز بوده‌است. در اينجا يك مدل‌سازي جديد جهت كشف تمام وقايع صوتي رخ‌داده در ركورد و تعيين محدوده زماني براي هر يك از آن‌ها ارائه شده‌است. نوآوري شامل مدل‌سازي جديد همراه با پارامترهاي تطبيقي در مدل است. پس از استخراج ويژگي‌ها و تعيين مقادير دو پارامتر آلفا و بتا از دو قطعه‌بندي مجزا و تركيب خروجي آن‌ها براي تعيين وقايع صوتي و محدوده زماني آن‌ها استفاده شده‌است. اين وقايع جهت رده‌بندي به الگوريتم KNN فرستاده مي‌شوند. پارامترها امكان دقت بيشتر و يا ميزان كشف حداكثري را ممكن مي‌سازند. وقايع صوتي آزمايش‌شده شامل 16 نوع صداي اتاق كار اداري هستند كه برخي شبيه هم و بعضي نيز مشابه نويز محيط هستند. در سنجش عملكرد برحسب واقعه، ميزان درستي كشف 70.1 درصد، فراخواني 75.8 درصد و ميزان F1، 72.8 درصد بوده‌است. همچنين ميزان F1 برحسب فريم 80.6 درصد حاصل شد. مقدار F1 برحسب واقعه، نسبت به قبل 10.8% بهبود داشته‌است كه مويدكارآمدي مدل پيشنهادي است.
چكيده لاتين :
Audio event detection (AED) is a modern way to collect data about human activities in the workplace or in other life environments. We proposed a novel adaptable model based on using two parameters, α and ᵦ to detect all audio events that may be present in a given record accompanied by their time limits in which they occur. After feature extraction and setting the values of the two key parameters, alpha and beta, the audio sequence will be sent into two distinct sub-systems for event detection. The outputs from the two sub-classifiers are then combined and necessary refinements are made on the event time limits. The final detected events are sent to the KNN classifier. The parameters serve as a trade-off tool between precision and recall expectation in the detection process. In the tests, 16 different audio events of an office room were detected, some being similar to each other and some have very similar characteristics to those of the background noise. At frame-based (FB) level, the precision rate was 70.1%, the rate of recall was 75.8%, and F1-measure was 72.8%. The F1-measure has increased by 10.8% suggesting promising applications of the model.
سال انتشار :
1398
عنوان نشريه :
مهندسي برق دانشگاه تبريز
فايل PDF :
7758755
لينک به اين مدرک :
بازگشت