|
|
طبقهبندی روشهای شناسایی دادههای تکراری در جهت تسهیل فرایند پاکسازی دادهها
|
|
|
|
|
نویسنده
|
جعفری مهدی ,عبدالله زاده بار فروش احمد
|
منبع
|
سيزدهمين كنفرانس بين المللي فناوري اطلاعات و دانش - 1401 - دوره : 13 - سیزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش - کد همایش: 01220-64879 - صفحه:0 -0
|
چکیده
|
روز به روز حجم دادههای تولید شده توسط انسانها در حال افزایش است. این دادهها اگر به درستی مدیریت شوند میتوانند در امر تجزیه و تحلیل و استخراج دانش از آنها مفید واقع شوند. دادهها اغلب پس از جمعآوری، یکپارچهسازی و ذخیرهسازی با مشکلات کیفیتی روبرو میشوند. این مشکلات کیفیتی در جهت بهبود کیفیت دادهها و به دنبال آن استخراج دانش مفید از آنها در طی فرایند تجزیه و تحلیل باید در ابتدا شناسایی شده و سپس پردازشهای متناسب در جهت مقابله با آنها انجام شود. دادههای تکراری به عنوان یکی از مشکلات کیفیتی رایج و مهم مورد توجه این مقاله است. از گذشته تاکنون پژوهشهای متعددی بر مبنای رویکردهای مختلف از جمله مبتنی بر قانون، مبتنی بر مفاهیم یادگیری، مبتنی بر خرد جمعی و ... در جهت شناسایی انواع مختلف داده های تکراری انجام و هر یک از آنها منجر به ارائه یک روش نوین در جهت مقابله با این مشکل شده است. هدف ما در این مقاله ارائه یک طبقهبندی از روش-های شناسایی دادههای تکراری و به دنبال آن بحث و تجزیه و تحلیل هر یک از روشهای مطرح بر اساس طبقه بندی ارائه شده است.
|
کلیدواژه
|
پاکسازی داده ها، شناسایی داده های تکراری، کیفیت داده ها، کلان داده
|
آدرس
|
, iran, , iran
|
پست الکترونیکی
|
ahmadaku@aut.ac.ir
|
|
|
|
|
|
|
|
|
|
|
|
Authors
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|