روش طبقه‌بندی بدافزار با استفاده از ویژگی های بصری سازی و تعبیه سازی کلمه براساس یادگیری عمیق

Fa | Ar | En

روش طبقه‌بندی بدافزار با استفاده از ویژگی های بصری سازی و تعبیه سازی کلمه براساس یادگیری عمیق


نویسنده	بسطامی اسماعیل ,سلطانی زاده هادی ,رحمانی منش محمد ,کشاورزی پرویز
منبع	پدافند الكترونيكي و سايبري - 1402 - دوره : 11 - شماره : 1 - صفحه:1 -13
چکیده	با رشد انفجاری تهدیدات برای امنیت اینترنت، بصری‌سازی بدافزارها در حوزه طبقه‌بندی بدافزارها به یک حوزه مطالعه امیدوار کننده در زمینه امنیت و یادگیری ماشین تبدیل شده است. این مقاله یک روش بصری‌سازی برای تجزیه و تحلیل بدافزار را بر اساس ویژگی‌های تعبیه‌سازی دنباله‌های کددستوری پیشنهاد می‌کند. بر اساس برخی اطلاعات کمکی مانند تعبیه‌سازی کلمه، روش اصلی طبقه‌بندی بدافزار پیشنهادی، انتقال اطلاعات آموخته شده از حوزه بدافزار به حوزه تصویر است که نیاز به مدل‌سازی همبستگی بین این حوزه‌ها دارد. با این حال، اکثر روش‌های فعلی از مدل‌سازی روابط غفلت می‌کنند که منجر به طبقه‌بندی نادرست بدافزارها می‌شود. برای غلبه بر این چالش، ما وظیفه تعبیه‌سازی کلمه را به عنوان استخراج اطلاعات معنایی در نظر می-گیریم. روش پیشنهادی یک روش طبقه‌بندی بدافزار با استفاده از مفاهیم تعبیه‌سازی کلمات و بصری‌سازی از توالی های کددستور و یک روش شبکه‌های عصبی شامل یادگیری عمیق (cnn) را پیشنهاد می‌کند. نتایج ما نشان می‌دهد که از مدل‌های بصری در حوزه تصاویر می‌توان برای طبقه‌بندی کارآمد بدافزارها استفاده کرد. ما روش خود را بر روی مجموعه داده kaggle ارزیابی کردیم و میانگین دقت طبقه‌بندی 0.9896 و امتیاز f1 برابر 0.9807 بدست آوردیم.
کلیدواژه	تشخیص بدافزار، بصری سازی بدافزار، تعبیه سازی بدافزار، تجزیه و تحلیل استاتیک، الگوریتم cnn
آدرس	دانشگاه سمنان, ایران, دانشگاه سمنان, ایران, دانشگاه سمنان, ایران, دانشگاه سمنان, ایران
پست الکترونیکی	pkeshavarzi@semnan.ac.ir

a malware classification method using visualization and word embedding features

Authors	bastami e. ,soltanizadeh h. ,rahmanimanesh m. ,keshavarzi p.
Abstract	with the explosive growth of threats to internet security, malware visualization in malware classification has become a promising study area in security and machine learning. this paper proposes a visualization method for malware analysis based on word embedding features of byte sequences.based on some assistant information such as word embedding, the basic to a strong malware classification approach is to transfer the learned information from the malware domain to the image domain, which needs correlation modeling between these domains. however, most current methods neglect to model the relationships in an embedding way, ensue in low performance of malware classification. to catch this challenge, we consider the word embeddings duty as a semantic information extraction. our proposed method aims to learn effective representations of malware families, which takes as input a set of embedded vectors corresponding to the malware. word embedding is designed to generate features of a malware sample by leveraging its malware semantics. our results show that visual models in the domain of images can be used for efficient malware classification. we evaluated our method on the kaggle dataset of windows pe file instances, obtaining an average classification accuracy of 0.9896%.
Keywords	malware detection ,malware visualization ,malware embedding ,static analysis ,cnn algorithm