عنوان مقاله :
ارائه يك مدل پارامتريك تطبيقي جهت كشف و ردهبندي وقايع صوتي در سيگنالهاي محيطي
عنوان به زبان ديگر :
Providing an Adaptive Model with two Adjustable Parameters for Audio Event Detection and Classification in Environmental Signals
پديد آورندگان :
درخشان، مراد دانشگاه صنعتي شاهرود - دانشكده مهندسي كامپيوتر و فناوري اطلاعات , مروي، حسين دانشگاه صنعتي شاهرود - دانشكده مهندسي كامپيوتر و فناوري اطلاعات , حسن پور، حميد دانشگاه صنعتي شاهرود - دانشكده مهندسي كامپيوتر و فناوري اطلاعات
كليدواژه :
كشف وقايع صوتي , صداهاي محيطي , الگوريتمهاي يادگيري بدون نظارت , سيستمهاي نظارت صوتي , سيستمهاي كسب اطلاعات مبتني بر صدا , سيستمهاي پارامتريك تطبيقي
چكيده فارسي :
كشف وقايع صوتي در محيط كار و زندگي يك نياز مدرن جهت گردآوري اطلاعات است. تاكنون بيشتر تحقيقها بر واقعه صوتي خاص و يا تعداد محدودي از وقايع صوتي برجسته متمركز بودهاست. در اينجا يك مدلسازي جديد جهت كشف تمام وقايع صوتي رخداده در ركورد و تعيين محدوده زماني براي هر يك از آنها ارائه شدهاست. نوآوري شامل مدلسازي جديد همراه با پارامترهاي تطبيقي در مدل است. پس از استخراج ويژگيها و تعيين مقادير دو پارامتر آلفا و بتا از دو قطعهبندي مجزا و تركيب خروجي آنها براي تعيين وقايع صوتي و محدوده زماني آنها استفاده شدهاست. اين وقايع جهت ردهبندي به الگوريتم KNN فرستاده ميشوند. پارامترها امكان دقت بيشتر و يا ميزان كشف حداكثري را ممكن ميسازند. وقايع صوتي آزمايششده شامل 16 نوع صداي اتاق كار اداري هستند كه برخي شبيه هم و بعضي نيز مشابه نويز محيط هستند. در سنجش عملكرد برحسب واقعه، ميزان درستي كشف 70.1 درصد، فراخواني 75.8 درصد و ميزان F1، 72.8 درصد بودهاست. همچنين ميزان F1 برحسب فريم 80.6 درصد حاصل شد. مقدار F1 برحسب واقعه، نسبت به قبل 10.8% بهبود داشتهاست كه مويدكارآمدي مدل پيشنهادي است.
چكيده لاتين :
Audio event detection (AED) is a modern way to collect data about human activities in the workplace or in other life environments. We proposed a novel adaptable model based on using two parameters, α and ᵦ to detect all audio events that may be present in a given record accompanied by their time limits in which they occur. After feature extraction and setting the values of the two key parameters, alpha and beta, the audio sequence will be sent into two distinct sub-systems for event detection. The outputs from the two sub-classifiers are then combined and necessary refinements are made on the event time limits. The final detected events are sent to the KNN classifier. The parameters serve as a trade-off tool between precision and recall expectation in the detection process. In the tests, 16 different audio events of an office room were detected, some being similar to each other and some have very similar characteristics to those of the background noise. At frame-based (FB) level, the precision rate was 70.1%, the rate of recall was 75.8%, and F1-measure was 72.8%. The F1-measure has increased by 10.8% suggesting promising applications of the model.
عنوان نشريه :
مهندسي برق دانشگاه تبريز