>
Fa   |   Ar   |   En
   تشخیص متون توهین‌آمیز در موتورهای جستجو با استفاده از یادگیری ماشین  
   
DOR 20.1001.2.0020193782.1400.1.1.25.3
نویسنده سیفی نیما ,امینیان مهدی
منبع وب پژوهي - 1400 - دوره : 7 - هفتمین کنفرانس بین المللی وب پژوهی - کد همایش: 00201-93782
چکیده    با توجه به گسترش محتوا در بسترهای رسانه‌ای و ارتباطی مختلف و همچنین دسترسی کاربران به این امکانات، لزوم بررسی محتوای به اشتراک گذاشته شده به ویژه در ابعاد فرهنگی و اجتماعی به منظور ارائه داده‌های با کیفیت به افراد حاضر در این عرصه‌ها همواره احساس می‌شود. یکی از مسائلی که در محتوای متنی، به خصوص محتوای ویژه کودکان، فرهنگی، دانشگاهی و ... بسیار پر اهمیت است تشخیص متون توهین‌آمیز به کار برده شده است که در این مقاله به آن پرداخته می شود. با استفاده از یادگیری ماشین (svm، naïve bayes و knn) داده‌های پیش‌پردازش شده را به مدل مورد نظر آموزش می‌دهیم و انتظار داریم که خروجی مدلی باشد که با دریافت متن احتمال رکیک بودن محتوا را تشخیص دهد. داده‌های مورد نظر مجموعه‌ای از جستجو‌های انجام شده در یک موتور جستجوی فارسی هستند که به منظور افزایش محتوا، دوباره این عبارات را در گوگل جستجو کرده و صفحه اول نتیجه را به داده‌ها اضافه می‌کنیم. سپس تشخیص می‌دهیم که داده مورد نظر رکیک می‌باشد یا خیر (برچسب گذاری). مدل مورد نظر این داده‌ها را یادگیری کرده و پس از آن مدلی داریم که می‌تواند احتمال رکیک بودن داده ورودی را تشخیص دهد. نتایج بدست‌آمده نشان می‌دهد که معیار اندازه گیری صحت‌ (precision) در مدل های naïve bayes، svm و knn به ترتیب برابر با ٪94.05 ، ٪97.28 و ٪86.48 خواهد بود.
کلیدواژه یادگیری ماشین ,پردازش زبان طبیعی ,تشخیص کلمات رکیک ,Vm ,Naïve Bayes ,Knn
آدرس دانشگاه گیلان, ایران, دانشگاه گیلان, ایران
پست الکترونیکی mahdi.aminian@guilan.ac.ir
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved