تشخیص متون توهین‌آمیز در موتورهای جستجو با استفاده از یادگیری ماشین

Fa | Ar | En

تشخیص متون توهین‌آمیز در موتورهای جستجو با استفاده از یادگیری ماشین

DOR	20.1001.2.0020193782.1400.1.1.25.3
نویسنده	سیفی نیما ,امینیان مهدی
منبع	وب پژوهي - 1400 - دوره : 7 - هفتمین کنفرانس بین المللی وب پژوهی - کد همایش: 00201-93782
چکیده	با توجه به گسترش محتوا در بسترهای رسانه‌ای و ارتباطی مختلف و همچنین دسترسی کاربران به این امکانات، لزوم بررسی محتوای به اشتراک گذاشته شده به ویژه در ابعاد فرهنگی و اجتماعی به منظور ارائه داده‌های با کیفیت به افراد حاضر در این عرصه‌ها همواره احساس می‌شود. یکی از مسائلی که در محتوای متنی، به خصوص محتوای ویژه کودکان، فرهنگی، دانشگاهی و ... بسیار پر اهمیت است تشخیص متون توهین‌آمیز به کار برده شده است که در این مقاله به آن پرداخته می شود. با استفاده از یادگیری ماشین (svm، naïve bayes و knn) داده‌های پیش‌پردازش شده را به مدل مورد نظر آموزش می‌دهیم و انتظار داریم که خروجی مدلی باشد که با دریافت متن احتمال رکیک بودن محتوا را تشخیص دهد. داده‌های مورد نظر مجموعه‌ای از جستجو‌های انجام شده در یک موتور جستجوی فارسی هستند که به منظور افزایش محتوا، دوباره این عبارات را در گوگل جستجو کرده و صفحه اول نتیجه را به داده‌ها اضافه می‌کنیم. سپس تشخیص می‌دهیم که داده مورد نظر رکیک می‌باشد یا خیر (برچسب گذاری). مدل مورد نظر این داده‌ها را یادگیری کرده و پس از آن مدلی داریم که می‌تواند احتمال رکیک بودن داده ورودی را تشخیص دهد. نتایج بدست‌آمده نشان می‌دهد که معیار اندازه گیری صحت‌ (precision) در مدل های naïve bayes، svm و knn به ترتیب برابر با ٪94.05 ، ٪97.28 و ٪86.48 خواهد بود.
کلیدواژه	یادگیری ماشین ,پردازش زبان طبیعی ,تشخیص کلمات رکیک ,vm ,naïve bayes ,knn
آدرس	دانشگاه گیلان, ایران, دانشگاه گیلان, ایران
پست الکترونیکی	mahdi.aminian@guilan.ac.ir

Offensive Context Detection in Search Engines Using Machine Learning

Authors
Abstract	Due to the expansion of content in various medias and communication platforms, as well as users access to these facilities, the requirement of shared contents checking is more considered. Specifically, it can be more important in the cultural and social contexts to provide High-quality data for people working in these fields. Detection of offensive contexts is one of important web researches, which is used in textual contents, for example children's contents, cultural, academic, and other subjects. A preprocessed dataset is learned by Machine Learning methods (SVM, Naïve Bayes and KNN), and the final model can detect the possibility of offensive texts received as inputs. The data, we are looking for, is a collection of searches performed on a Persian search engine. In order to increase contents dataset, these queries have been re-searched in Google and added the first page of the results to the dataset, then we determined whether the data is rude or not (labeling). The selected model will learn this data and then the trained model that can detect the possibility that the input data is offensive. The results show that the precision of the Naïve Bayes, SVM and KNN models can be 94.05%, 97.28% and 86.48%, respectively.
Keywords	یادگیری ماشین ,پردازش زبان طبیعی ,تشخیص کلمات رکیک ,VM ,Naïve Bayes ,KNN