|
|
ارائه راهکار برای مقابله با فریب ایجادشده بهوسیله رباتها بهمنظور بهبود رتبهبندی ترافیکی تارنماها
|
|
|
|
|
نویسنده
|
عبدی زهرا ,مازوچی مجتبی ,پورمینا محمدعلی
|
منبع
|
پردازش علائم و داده ها - 1400 - شماره : 4 - صفحه:69 -80
|
چکیده
|
با گسترش اینترنت و فضای وب، برقراری ارتباط و کسب اطلاعات در بین افراد از شکل سنتی و اولیه خود فاصله گرفته و به درون تارنماها کشیده شده است. همچنین فضای جهانی وب، فرصت بزرگی را برای کسب و کارها فراهم میکند تا ارتباط خود را با مشتری بهبود ببخشند و بازار خود را در دنیای برخط گسترش دهند. کسب و کارها برای بررسی میزان بازدید و محبوبیت سایتهایشان از معیاری به نام رتبهبندی ترافیکی استفاده میکنند. رتبهبندی ترافیکی میزان بازدیدکنندگان یک سایت را اندازه گرفته و براساس همین آمار، رتبهای را به سایت اختصاص میدهد. یکی از مهمترین چالشهای موجود در رتبهبندی، ایجاد ترافیک جعلی تولیدشده بهوسیله برنامههای کاربردی به نام ربات است. رباتها اجزای نرمافزاری مخرب مورد استفاده برای تولید هرزنامهها، راهاندازی حملات مختلکننده سامانه، فیشینگ، سرقت هویت و خروج اطلاعات و دیگر فعالیتهای غیر قانونی هستند تاکنون روشهای مختلفی برای شناسایی و کشف ربات صورت گرفته است. در این پژوهش، شناسایی رباتها از طریق تحلیل و پردازش لاگ دسترسی وب سرور و استفاده از روشهای دادهکاوی، انجام میشود. نتایج تجربی نشان میدهد که روش پیشنهادی در این پژوهش با کشف ویژگیهای جدید و معرفی شرط جدید در برچسبگذاری نشستها، باعث بهبود دقت در شناسایی رباتها و در نتیجه ایجاد بهبود در رتبهبندی ترافیکی تارنماها نسبت به کارهای پیشین شده است.
|
کلیدواژه
|
رتبهبندی ترافیکی، شناسایی ربات، برچسبگذاری نشست، لاگ دسترسی وب سرور، دادهکاوی
|
آدرس
|
دانشگاه آزاد اسلامی واحد علوم و تحقیقات, دانشکده برق و کامپیوتر, ایران, پژوهشگاه ارتباطات و فناوری اطلاعات, ایران, دانشگاه آزاد اسلامی واحد علوم و تحقیقات, دانشکده برق و کامپیوتر, ایران
|
پست الکترونیکی
|
pourmina@srbiau.ac.ir
|
|
|
|
|
|
|
|
|
Representing a method to identify and contrast with the fraud which is created by robots for developing websites’ traffic ranking
|
|
|
Authors
|
abdi zahra ,mazoochi mojtaba ,pourmina mohammadali
|
Abstract
|
With the expansion of the Internet and the Web, communication and information gathering between individual has distracted from its traditional form and into web sites. The World Wide Web also offers a great opportunity for businesses to improve their relationship with the client and expand their marketplace in online world. Businesses use a criterion called traffic ranking to determine their site #39;s popularity and visibility. Traffic ranking measures the amount of visitors to a site and based on these statistics, allocates a ranking to the site. One of the most important challenges in the ranking is the creation of fake traffic that generated by applications called robots. Robots are malicious software components that used to generate spam, set up distributed denial of services attacks, fishing, identity theft, removal of information and other illegal activities .there are already several ways to identify and discover the robot. According to Doran et al., The identification methods are divided into two categories: offline and realtime. The offline detection method is divided into three categories: Syntactical Log Analysis, Traffic Pattern Analysis, and Analytical Learning Techniques. The realtime method is performed by the Turing test system. In this research, the identification of robots is done through the offline method by analysis and processing of access logs to the web server and the use of data mining techniques. In this method, first, the features of each session are extracted, then generally these sessions are labeled with three conditions into two categories of human and robot. Finally, by using data mining tool, web robots are detected. In all previous studies, the features are extracted from each sessions, for example in first studies, Tan Kumar extracted 25 features of sessions. After that Bomhardt et al. used 34 features to identify the robots. In 2009 Stassopoulou et al. used 6 features that was extracted from sessions and so on. But in this research, features are extracted from sessions of a unique user. Experimental results show that the proposed method in this research, by discovering new features and introducing a new condition in session labeling, improves the accuracy of identifying robots and moreover, improves the ranking of web traffic from previous work.
|
Keywords
|
Traffic Ranking ,Robot Detection ,Session Labeling ,Web Server Access Log ,Data Mining
|
|
|
|
|
|
|
|
|
|
|