|
|
بهبود قدرت تعمیم مدل های تشخیص کلام نفرت انگیز مبتنی بر تطبیق دامنه
|
|
|
|
|
نویسنده
|
نوراللهی فاطمه ,برادران راضیه ,امیرخانی حسین
|
منبع
|
پردازش علائم و داده ها - 1403 - شماره : 1 - صفحه:125 -141
|
چکیده
|
امروزه با رشد فعالیت در شبکههای اجتماعی شاهد افزایش کلام نفرت انگیز به صورت برخط هستیم و به همین منظور مسئلۀ تشخیص نفرت در فضای مجازی دارای اهمیت است. همچنین تطبیق دامنه نیز در این مسئله و بهطورکلی در حوزۀ پردازش زبان طبیعی، یکی از چالشهای مهم است. در بسیاری از مسائل، ضمن تغییر دامنه با افت عملکرد مواجهیم که این موضوع در مسئلۀ نفرت نیز صادق است. در این پژوهش با استفاده از روشهای تطبیق دامنه سعی در افزایش قدرت تعمیمپذیری مدلهای تشخیص نفرت خواهیم داشت. برای این منظور روشهای مبتنی بر ترنسفورمر شامل آموزش خصمانۀ دامنه و ترکیب متخصصان را به کار میگیریم و همچنین از آموزش چند منبعی استفاده میکنیم. آزمایشها با استفاده از چهار مجموعهداده در حوزۀ نفرت انجام میشوند. در ابتدا مدلها را بهصورت درون دامنهای و تک منبعی ارزیابی میکنیم. در مرحلۀ بعد با اضافه کردن دامنههای دیگر به بخش آموزش، شاهد افت نتایج و انتقال منفی هستیم. سپس آزمایشهای برون دامنهای را ابتدا بهصورت تک منبعی با مدل distilbert انجام میدهیم که با تغییر دامنه نتایج به طور قابل توجهی کاهش مییابند. بهمنظور افزایش قدرت تطبیق دامنۀ مدل در بخش برون دامنهای، روی چند منبع آموزش را انجام میدهیم که حدوداً در نیمی از موارد سبب بهبود نتایج میشود که نتیجۀ معناداری نیست. در ادامه با استفاده از روشهای مبتنی بر ترنسفورمر شامل آموزش خصمانۀ دامنه و ترکیب متخصصان سعی در افزایش قدرت تطبیق دامنۀ مدلها خواهیم داشت که در 87% از آزمایشهای برون دامنهای چند منبعی شاهد افزایش عملکرد هستیم. البته این روشها در عملکرد آزمایشهای درون دامنهای هم موثر هستند. مسئلۀ مهمی که گاهی موجب افتوخیز چشمگیر نتایج میشود، مجموعهدادهها هستند. شباهت دادهها و تشابه توزیع بعضی دامنهها باعث افزایش قدرت تطبیق دامنۀ مدل میشوند.
|
کلیدواژه
|
کلام نفرتانگیز، تطبیق دامنه، تعمیم، طبقهبندی، ترنسفورمر
|
آدرس
|
دانشگاه قم, دانشکده فنی و مهندسی, گروه مهندسی کامپیوتر و فناوری اطلاعات, ایران, دانشگاه قم, دانشکده فنی و مهندسی, گروه مهندسی کامپیوتر و فناوری اطلاعات, ایران, دانشگاه قم, دانشکده فنی و مهندسی, گروه مهندسی کامپیوتر و فناوری اطلاعات, ایران
|
پست الکترونیکی
|
amirkhani@qom.ac.ir
|
|
|
|
|
|
|
|
|
domain adaptation-based method for improving generalization of hate speech detection models
|
|
|
Authors
|
nourollahi fatemeh ,baradaran razieh ,amirkhani hossein
|
Abstract
|
today, with the growth of activity in social media, we see an increase in hate speech online and for this reason, the issue of recognizing hate in cyberspace is important. also, domain adaptation is one of the important challenges in this task and in general in the field of natural language processing. in many issues, while changing the domain, we face a drop in performance, which is also true in the task hate speech. in this research, we try to increase the generalizability of hate detection models by using domain adaptation methods. for this purpose, we use transformer-based methods, including domain adversarial training and mixture of experts, and we also use multi-source training. experiments are conducted using four datasets in the domain of hate. at first, we evaluate the models in an in-domain and single-source manner. in the next step, by adding other domains to the education section, we see a drop in results and a negative transfer. then we perform the out-of-domain tests first as a single source with the distilbert model, which significantly reduces the results by changing the domain. in order to increase the power of domain adaptation of the model in the out-of-domain part, we perform the training on several sources, leads to improve the results in about half of the cases, which is not significant. in the following, we try to increase the domain adaptation power of the models, using transformer-based methods including domain adversarial training and the mixture of experts, which leads to increase in performance in 87% of multi-source out-of-domain tests. of course, these methods are also effective in the performance of in-domain tests. an important issue that sometimes causes a significant drop in results is datasets. the similarity of the data and the similarity of the distribution of some domains increase the power of domain adaptation of the model and on the contrary.
|
Keywords
|
hate speech ,classification ,transformer ,domain adaptation ,generalization
|
|
|
|
|
|
|
|
|
|
|