>
Fa   |   Ar   |   En
   تشخیص صفحات اسپم با استفاده از الگوریتم xgboost  
   
نویسنده رشیدپور ریحانه ,زارع بیدکی علی محمد
منبع مهندسي برق و مهندسي كامپيوتر ايران - 1403 - دوره : 22 - شماره : 4 - صفحه:287 -294
چکیده    امروزه موتورهای جستجو دروازه ورود به وب هستند. با افزایش محبوبیت وب، تلاش برای بهره‌برداری تجاری، اجتماعی و سیاسی از وب نیز افزایش یافته و در نتیجه تشخیص یک محتوای خوب از اسپم برای موتورهای جستجو دشوار شده است. مفهوم اسپم وب نخستین بار در سال 1996 معرفی شد و خیلی زود به عنوان یکی از چالش‌های کلیدی برای صنعت موتور جستجو شناخته شد. پدیده اسپم اساساً به این دلیل اتفاق می‌افتد که بخش قابل توجهی از مراجعات به صفحه وب از موتور جستجو می‌آیند و کاربران تمایل به بررسی اولین نتایج جستجو دارند. هدف از شناسایی صفحات اسپم این است که این صفحات با استفاده از استراتژی‌های فریب قادر به کسب رتبه بالا نباشند. تلاش ما ارائه روشی موثر در شناسایی صفحات اسپم و در نتیجه کاهش حضور اسپم در نتایج اول جستجوست. در این مقاله دو روش برای مقابله با اسپم وب پیشنهاد شده است. روش اول به نام xgspam صفحات اسپم را بر اساس الگوریتم یادگیری xgboost با دقت 94.27% شناسایی می‌کند. در روش دوم به نام xgsspam راهکاری برای چالش نامتوازن‌بودن داده‌های وب با استفاده از ترکیب الگوریتم بیش‌نمونه‌برداری smote با مدل دسته‌بندی xgboost ارائه شده که به دقت 95.44% در شناسایی صفحات اسپم می‌رسد.
کلیدواژه اسپم وب، الگوریتم دسته‌بندی xgboost، متوازن ‌سازی داده، یادگیری ماشین
آدرس دانشگاه یزد, دانشکده مهندسی کامپیوتر, ایران, دانشگاه یزد, دانشکده مهندسی کامپیوتر, ایران
پست الکترونیکی alizareh@yazd.ac.ir
 
     
   
Authors
  
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved