استخراج ویژگیهای ساختاری پوشه های رایانه ای مبتنی بر تحلیل و ارزیابی آماری
|
|
|
|
|
نویسنده
|
وفایی جهان مجید
|
منبع
|
پردازش علائم و داده ها - 1395 - دوره : 13 - شماره : 4 - صفحه:43 -62
|
چکیده
|
پوشه ها مهم ترین منبع ارائه اطلاعات به صورت های مختلف از قبیل متن، صوت، تصویر، صفحات وب و غیره هستند؛ تحلیل و آنالیز فایل ها به منظور شناخت و بررسی ویژگی ها و خصوصیات منحصربه فرد آن ها، یکی از مسائل بسیار مهم در زمینه حریم خصوصی، امنیت اطلاعات، شناسایی نوع فایل ها، تحلیل ساختاری کدها و غیره می باشد. در این مقاله با تحلیل و آنالیز آماری بر روی محتوای باینری فایل ها مبتنی بر مدل ngram، ویژگی ها و خصوصیات مختلف یک فایل مورد بررسی قرار گرفته است. علاوه بر این به منظور کاهش حجم محاسبات و حافظه مورد نیاز مدل ngram، از خوشه بندی لغات استفاده شده و محتوای هر فایل در دو حالت کامل و بلوک بندی شده مورد تجزیه و تحلیل قرار گرفته است. در حالت کامل ویژگی هایی همچون آنتروپی، فراوانی، tfidf، خود همبستگی و در حالت بلوکی، ویژگی هایی همچون نرخ آنتروپی، بعد فرکتال، فاصله و غیره بررسی شده است. نتایج بررسی ها نشان داده ویژگی های استخراج شده در روش اول به خوبی می توانند خصوصیات منحصر به فرد فایل های jpg، mp3، swf و html را منعکس نمایند. ویژگی های استخراج شده در روش دوم نیز به خوبی می توانند خصوصیات فایل های doc، html و pdf را منعکس نمایند.
|
کلیدواژه
|
مدل n-gram، خوشهبندی لغات، نرخ آنتروپی، فاصله کانبرا و بعد فرکتال
|
آدرس
|
دانشگاه آزاد اسلامی واحد مشهد, گروه کامپیوتر, ایران
|
پست الکترونیکی
|
vafaeija@yahoo.com
|
|
|
|
|