|
|
روش طبقهبندی بدافزار با استفاده از ویژگی های بصری سازی و تعبیه سازی کلمه براساس یادگیری عمیق
|
|
|
|
|
نویسنده
|
بسطامی اسماعیل ,سلطانی زاده هادی ,رحمانی منش محمد ,کشاورزی پرویز
|
منبع
|
پدافند الكترونيكي و سايبري - 1402 - دوره : 11 - شماره : 1 - صفحه:1 -13
|
چکیده
|
با رشد انفجاری تهدیدات برای امنیت اینترنت، بصریسازی بدافزارها در حوزه طبقهبندی بدافزارها به یک حوزه مطالعه امیدوار کننده در زمینه امنیت و یادگیری ماشین تبدیل شده است. این مقاله یک روش بصریسازی برای تجزیه و تحلیل بدافزار را بر اساس ویژگیهای تعبیهسازی دنبالههای کددستوری پیشنهاد میکند. بر اساس برخی اطلاعات کمکی مانند تعبیهسازی کلمه، روش اصلی طبقهبندی بدافزار پیشنهادی، انتقال اطلاعات آموخته شده از حوزه بدافزار به حوزه تصویر است که نیاز به مدلسازی همبستگی بین این حوزهها دارد. با این حال، اکثر روشهای فعلی از مدلسازی روابط غفلت میکنند که منجر به طبقهبندی نادرست بدافزارها میشود. برای غلبه بر این چالش، ما وظیفه تعبیهسازی کلمه را به عنوان استخراج اطلاعات معنایی در نظر می-گیریم. روش پیشنهادی یک روش طبقهبندی بدافزار با استفاده از مفاهیم تعبیهسازی کلمات و بصریسازی از توالی های کددستور و یک روش شبکههای عصبی شامل یادگیری عمیق (cnn) را پیشنهاد میکند. نتایج ما نشان میدهد که از مدلهای بصری در حوزه تصاویر میتوان برای طبقهبندی کارآمد بدافزارها استفاده کرد. ما روش خود را بر روی مجموعه داده kaggle ارزیابی کردیم و میانگین دقت طبقهبندی 0.9896 و امتیاز f1 برابر 0.9807 بدست آوردیم.
|
کلیدواژه
|
تشخیص بدافزار، بصری سازی بدافزار، تعبیه سازی بدافزار، تجزیه و تحلیل استاتیک، الگوریتم cnn
|
آدرس
|
دانشگاه سمنان, ایران, دانشگاه سمنان, ایران, دانشگاه سمنان, ایران, دانشگاه سمنان, ایران
|
پست الکترونیکی
|
pkeshavarzi@semnan.ac.ir
|
|
|
|
|
|
|
|
|
a malware classification method using visualization and word embedding features
|
|
|
Authors
|
bastami e. ,soltanizadeh h. ,rahmanimanesh m. ,keshavarzi p.
|
Abstract
|
with the explosive growth of threats to internet security, malware visualization in malware classification has become a promising study area in security and machine learning. this paper proposes a visualization method for malware analysis based on word embedding features of byte sequences.based on some assistant information such as word embedding, the basic to a strong malware classification approach is to transfer the learned information from the malware domain to the image domain, which needs correlation modeling between these domains. however, most current methods neglect to model the relationships in an embedding way, ensue in low performance of malware classification. to catch this challenge, we consider the word embeddings duty as a semantic information extraction. our proposed method aims to learn effective representations of malware families, which takes as input a set of embedded vectors corresponding to the malware. word embedding is designed to generate features of a malware sample by leveraging its malware semantics. our results show that visual models in the domain of images can be used for efficient malware classification. we evaluated our method on the kaggle dataset of windows pe file instances, obtaining an average classification accuracy of 0.9896%.
|
Keywords
|
malware detection ,malware visualization ,malware embedding ,static analysis ,cnn algorithm
|
|
|
|
|
|
|
|
|
|
|