>
Fa   |   Ar   |   En
   طبقه‌بندی روش‌های شناسایی داده‌های تکراری در جهت تسهیل فرایند پاکسازی داده‌ها  
   
نویسنده جعفری مهدی ,عبدالله زاده بار فروش احمد
منبع سيزدهمين كنفرانس بين المللي فناوري اطلاعات و دانش - 1401 - دوره : 13 - سیزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش - کد همایش: 01220-64879 - صفحه:0 -0
چکیده    روز به روز حجم داده‌های تولید شده توسط انسان‌ها در حال افزایش است. این داده‌ها اگر به درستی مدیریت شوند می‌توانند در امر تجزیه و تحلیل و استخراج دانش از آنها مفید واقع شوند. داده‌ها اغلب پس از جمع‌آوری، یکپارچه‌سازی و ذخیره‌سازی با مشکلات کیفیتی روبرو می‌شوند. این مشکلات کیفیتی در جهت بهبود کیفیت داده‌ها و به دنبال آن استخراج دانش مفید از آنها در طی فرایند تجزیه و تحلیل باید در ابتدا شناسایی شده و سپس پردازش‌های متناسب در جهت مقابله با آنها انجام شود. داده‌های تکراری به عنوان یکی از مشکلات کیفیتی رایج و مهم مورد توجه این مقاله است. از گذشته تاکنون پژوهش‌های متعددی بر مبنای رویکردهای مختلف از جمله مبتنی بر قانون، مبتنی بر مفاهیم یادگیری، مبتنی بر خرد جمعی و ... در جهت شناسایی انواع مختلف داده های تکراری انجام و هر یک از آنها منجر به ارائه یک روش نوین در جهت مقابله با این مشکل شده است. هدف ما در این مقاله ارائه یک طبقه‌بندی از روش-های شناسایی داده‌های تکراری و به دنبال آن بحث و تجزیه و تحلیل هر یک از روش‌های مطرح بر اساس طبقه بندی ارائه شده است.
کلیدواژه پاکسازی داده ها، شناسایی داده های تکراری، کیفیت داده ها، کلان داده
آدرس , iran, , iran
پست الکترونیکی ahmadaku@aut.ac.ir
 
     
   
Authors
  
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved