طبقه‌بندی روش‌های شناسایی داده‌های تکراری در جهت تسهیل فرایند پاکسازی داده‌ها

Fa | Ar | En

طبقه‌بندی روش‌های شناسایی داده‌های تکراری در جهت تسهیل فرایند پاکسازی داده‌ها


نویسنده	جعفری مهدی ,عبدالله زاده بار فروش احمد
منبع	سيزدهمين كنفرانس بين المللي فناوري اطلاعات و دانش - 1401 - دوره : 13 - سیزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش - کد همایش: 01220-64879 - صفحه:0 -0
چکیده	روز به روز حجم داده‌های تولید شده توسط انسان‌ها در حال افزایش است. این داده‌ها اگر به درستی مدیریت شوند می‌توانند در امر تجزیه و تحلیل و استخراج دانش از آنها مفید واقع شوند. داده‌ها اغلب پس از جمع‌آوری، یکپارچه‌سازی و ذخیره‌سازی با مشکلات کیفیتی روبرو می‌شوند. این مشکلات کیفیتی در جهت بهبود کیفیت داده‌ها و به دنبال آن استخراج دانش مفید از آنها در طی فرایند تجزیه و تحلیل باید در ابتدا شناسایی شده و سپس پردازش‌های متناسب در جهت مقابله با آنها انجام شود. داده‌های تکراری به عنوان یکی از مشکلات کیفیتی رایج و مهم مورد توجه این مقاله است. از گذشته تاکنون پژوهش‌های متعددی بر مبنای رویکردهای مختلف از جمله مبتنی بر قانون، مبتنی بر مفاهیم یادگیری، مبتنی بر خرد جمعی و ... در جهت شناسایی انواع مختلف داده های تکراری انجام و هر یک از آنها منجر به ارائه یک روش نوین در جهت مقابله با این مشکل شده است. هدف ما در این مقاله ارائه یک طبقه‌بندی از روش-های شناسایی داده‌های تکراری و به دنبال آن بحث و تجزیه و تحلیل هر یک از روش‌های مطرح بر اساس طبقه بندی ارائه شده است.
کلیدواژه	پاکسازی داده ها، شناسایی داده های تکراری، کیفیت داده ها، کلان داده
آدرس	, iran, , iran
پست الکترونیکی	ahmadaku@aut.ac.ir



Authors