بهبود قدرت تعميم مدل ‌هاي تشخيص كلام نفرت ‌انگيز مبتني بر تطبيق دامنه

پديد آورندگان

نوراللهي ، فاطمه دانشگاه قم - دانشكده فني و مهندسي - گروه مهندسي كامپيوتر و فناوري اطلاعات , برادران ، راضيه دانشگاه قم - دانشكده فني و مهندسي - گروه مهندسي كامپيوتر و فناوري اطلاعات , اميرخاني ، حسين دانشگاه قم - دانشكده فني و مهندسي - گروه مهندسي كامپيوتر و فناوري اطلاعات

از صفحه

125

تا صفحه

141

كليدواژه

كلام نفرت‌انگيز , تطبيق دامنه , تعميم , طبقه‌بندي , ترنسفورمر

چكيده فارسي

امروزه با رشد فعاليت در شبكه‌هاي اجتماعي شاهد افزايش كلام نفرت ‌انگيز به صورت برخط هستيم و به ‌همين منظور مسئلۀ تشخيص نفرت در فضاي مجازي داراي اهميت است. همچنين تطبيق دامنه نيز در اين مسئله و به‌طوركلي در حوزۀ پردازش زبان طبيعي، يكي از چالش‌هاي مهم است. در بسياري از مسائل، ضمن تغيير دامنه با افت عملكرد مواجهيم كه اين موضوع در مسئلۀ نفرت نيز صادق است. در اين پژوهش با استفاده از روش‌هاي تطبيق دامنه سعي در افزايش قدرت تعميم‌پذيري مدل‌هاي تشخيص نفرت خواهيم داشت. براي اين منظور روش‌هاي مبتني بر ترنسفورمر شامل آموزش خصمانۀ دامنه و تركيب متخصصان را به كار مي‌گيريم و همچنين از آموزش چند منبعي استفاده مي‌كنيم. آزمايش‌ها با استفاده از چهار مجموعه‌داده در حوزۀ نفرت انجام مي‌شوند. در ابتدا مد‌ل‌ها را به‌صورت درون‌ دامنه‌اي و تك منبعي ارزيابي مي‌كنيم. در مرحلۀ بعد با اضافه كردن دامنه‌هاي ديگر به بخش آموزش، شاهد افت نتايج و انتقال منفي هستيم. سپس آزمايش‌هاي برون دامنه‌اي را ابتدا به‌صورت تك منبعي با مدل DistilBERT انجام مي‌دهيم كه با تغيير دامنه نتايج به طور قابل توجهي كاهش مي‌يابند. به‌منظور افزايش قدرت تطبيق دامنۀ مدل‌ در بخش برون دامنه‌اي، روي چند منبع آموزش را انجام مي‌دهيم كه حدوداً در نيمي از موارد سبب بهبود نتايج مي‌شود كه نتيجۀ معناداري نيست. در ادامه با استفاده از روش‌هاي مبتني بر ترنسفورمر شامل آموزش خصمانۀ دامنه و تركيب متخصصان سعي در افزايش قدرت تطبيق دامنۀ مدل‌ها خواهيم داشت كه در 87% از آزمايش‌هاي برون دامنه‌اي چند منبعي شاهد افزايش عملكرد هستيم. البته اين روش‌ها در عملكرد آزمايش‌هاي درون دامنه‌اي هم مؤثر هستند. مسئلۀ مهمي كه گاهي موجب افت‌وخيز چشمگير نتايج مي‌شود، مجموعه‌داده‌ها هستند. شباهت داده‌ها و تشابه توزيع بعضي دامنه‌ها باعث افزايش قدرت تطبيق دامنۀ مدل مي‌شوند.

عنوان نشريه

پردازش علائم و داده ها

عنوان نشريه

پردازش علائم و داده ها

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=1389047