|
|
تشخیص بدافزار با استفاده از داده کاوی و الگوریتم های کلیدی تقویت گرادیان حداکثری و جنگل تصادفی
|
|
|
|
|
نویسنده
|
بختیاری سعید
|
منبع
|
فناوري اطلاعات و ارتباطات انتظامي - 1401 - دوره : 3 - شماره : 1 - صفحه:55 -68
|
چکیده
|
یکی از راه های تامین امنیت، تشخیص بدافزار در سامانه های کامپیوتری توسط روش های شناسایی بدافزار می باشد. از آنجایی که این امر هزینه مالی، زمانی و انسانی زیادی را به همراه دارد، تحقیق پیش رو در صدد بوده تا با تکیه بر استخراج اطلاعات مفید از داده های خام بدون نیاز به اجرای نمونه و کلاسه بندی بر اساس این ویژگی ها، هزینه های ذکر شده را کاهش دهد. در این راستا برای هر نمونه بدافزار مجموعه ای از ویژگی های مبتنی بر محتوا با استفاده از مکانیسم های پیشرفته محاسبه شده است. همچنین، ویژگی های آماری قدرتمندی به عنوان مکملی برای ویژگی های مبتنی بر محتوا در نظر گرفته شده اند. لذا، باتوجه به یافته های تحقیق صورت گرفته بر روی دیتاست بدافزار مایکروسافت با نام big 2015، یک کلاسه کننده مقرون به صرفه و کاملا خودکار ارائه گردیده است. در روش ارائه شده با استفاده از الگوریتم تقویت گرادیان حداکثری (xgboost) و جنگل تصادفی، میزان دقت کلاسه کننده 99.81 بدست آمده است و خطای پیش بینی کننده به میزان 0.00470 تعیین گردیده است. یافته های این تحقیق نشان می دهد، دست آورد این تحقیق، تعیین برتری ویژگی های تکرار عملگرها، تکرار شناسه سگمنت ها، تصاویر استخراج شده از بد افزارها نسبت به دیگر ویژگی ها میباشد. در نتیجه، با بهره گیری از این تحقیق در سامانه های ids، ips و آنتی ویروسهای بومی، میتوان دقت تشخیص بدافزارها را افزایش داده و همچنین میزان خطای تشخیص بدافزارها و جرایم رایانه ای را کاهش داد.
|
کلیدواژه
|
یادگیری ماشین، داده کاوی، تشخیص نفوذ، بدافزار، xgboost ، random forest
|
آدرس
|
دانشگاه پلیس, گروه فتا, ایران
|
پست الکترونیکی
|
saeid.bakhtiarii@chmail.ir
|
|
|
|
|
|
|
|
|
Malware detection using XGBoost and Random Forest.
|
|
|
Authors
|
bakhtiari saeid
|
Abstract
|
One of the ways to ensure security is to detect malware in computer systems by malware detection methods. Since this entails a lot of financial, time and human costs, the present research intends to rely on extracting useful information from raw data without the need to perform sampling and classification based on these features, costs reduce the listed. In this regard, for each malware sample, a set of contentbased features has been calculated using advanced mechanisms. Also, powerful statistical features are considered as a complement to contentbased features. Therefore, according to the research findings on the Microsoft malware database called BIG 2015, a costeffective and fully automated classifier has been presented. In the proposed method using XGB algorithm and Random Forest, the accuracy of the classifier is 99.81 and the predictor error is set to 0.00470. The findings of this study show that the achievement of this research is to determine the superiority of operator replication features, segment ID replication, images extracted from malware over other features. As a result, by using this research in IDS, IPS and native antivirus systems, it is possible to increase the accuracy of malware detection and also reduce malware detection errors and computer crimes.
|
Keywords
|
XGBoost ,Random forest
|
|
|
|
|
|
|
|
|
|
|