|
|
تشخیص متون توهینآمیز در موتورهای جستجو با استفاده از یادگیری ماشین
|
|
|
DOR
|
20.1001.2.0020193782.1400.1.1.25.3
|
نویسنده
|
سیفی نیما ,امینیان مهدی
|
منبع
|
وب پژوهي - 1400 - دوره : 7 - هفتمین کنفرانس بین المللی وب پژوهی - کد همایش: 00201-93782
|
|
|
چکیده
|
با توجه به گسترش محتوا در بسترهای رسانهای و ارتباطی مختلف و همچنین دسترسی کاربران به این امکانات، لزوم بررسی محتوای به اشتراک گذاشته شده به ویژه در ابعاد فرهنگی و اجتماعی به منظور ارائه دادههای با کیفیت به افراد حاضر در این عرصهها همواره احساس میشود. یکی از مسائلی که در محتوای متنی، به خصوص محتوای ویژه کودکان، فرهنگی، دانشگاهی و ... بسیار پر اهمیت است تشخیص متون توهینآمیز به کار برده شده است که در این مقاله به آن پرداخته می شود. با استفاده از یادگیری ماشین (svm، naïve bayes و knn) دادههای پیشپردازش شده را به مدل مورد نظر آموزش میدهیم و انتظار داریم که خروجی مدلی باشد که با دریافت متن احتمال رکیک بودن محتوا را تشخیص دهد. دادههای مورد نظر مجموعهای از جستجوهای انجام شده در یک موتور جستجوی فارسی هستند که به منظور افزایش محتوا، دوباره این عبارات را در گوگل جستجو کرده و صفحه اول نتیجه را به دادهها اضافه میکنیم. سپس تشخیص میدهیم که داده مورد نظر رکیک میباشد یا خیر (برچسب گذاری). مدل مورد نظر این دادهها را یادگیری کرده و پس از آن مدلی داریم که میتواند احتمال رکیک بودن داده ورودی را تشخیص دهد. نتایج بدستآمده نشان میدهد که معیار اندازه گیری صحت (precision) در مدل های naïve bayes، svm و knn به ترتیب برابر با ٪94.05 ، ٪97.28 و ٪86.48 خواهد بود.
|
کلیدواژه
|
یادگیری ماشین ,پردازش زبان طبیعی ,تشخیص کلمات رکیک ,Vm ,Naïve Bayes ,Knn
|
آدرس
|
دانشگاه گیلان, ایران, دانشگاه گیلان, ایران
|
پست الکترونیکی
|
mahdi.aminian@guilan.ac.ir
|
|
|
|
|
|
|
|
|
Offensive Context Detection in Search Engines Using Machine Learning
|
|
|
Authors
|
|
Abstract
|
Due to the expansion of content in various medias and communication platforms, as well as users access to these facilities, the requirement of shared contents checking is more considered. Specifically, it can be more important in the cultural and social contexts to provide High-quality data for people working in these fields. Detection of offensive contexts is one of important web researches, which is used in textual contents, for example children's contents, cultural, academic, and other subjects. A preprocessed dataset is learned by Machine Learning methods (SVM, Naïve Bayes and KNN), and the final model can detect the possibility of offensive texts received as inputs. The data, we are looking for, is a collection of searches performed on a Persian search engine. In order to increase contents dataset, these queries have been re-searched in Google and added the first page of the results to the dataset, then we determined whether the data is rude or not (labeling). The selected model will learn this data and then the trained model that can detect the possibility that the input data is offensive. The results show that the precision of the Naïve Bayes, SVM and KNN models can be 94.05%, 97.28% and 86.48%, respectively.
|
Keywords
|
یادگیری ماشین ,پردازش زبان طبیعی ,تشخیص کلمات رکیک ,VM ,Naïve Bayes ,KNN
|
|
|
|
|
|
|
|
|
|
|