|
|
ارائه یک روش جدید برای تخمین مقادیر گمشده در مجموعه داده
|
|
|
|
|
نویسنده
|
ضیاالدینی سلیمه ,ابارقی مینا
|
منبع
|
مدل سازي در مهندسي - 1397 - دوره : 16 - شماره : 55 - صفحه:155 -162
|
|
|
چکیده
|
اغلب مجموعه داده های مربوط به داده کاوی و ماشین یادگیری دارای داده هایی با مقادیر missing values یا داده گمشده می باشند. چگونگی برخورد با داده گمشده و نیز ارائه راهکارهایی مبتنی بر تخمین مقدار مربوط به داده گمشده، منجر به بروز یک مسئله بسیار مهم در زمینه داده کاوی و ماشین یادگیری شده است. در بین الگوریتم های داده کاوی، الگوریتم c4.5، به دلیل کارآیی، استفاده در کاربردهای مختلف داده کاوی و نیز توانایی در کار کردن و تخمین مقدار داده گمشده در مجموعه داده ها، به طور مکرر مورد استفاده قرار گرفته است. پژوهشگران و محققان روش ها و الگوهای متعددی جهت برخورد با مقادیر داده گمشده و تخمین مقدار آن در مجموعه داده های الگوریتم c4.5 ارائه داده اند که هر یک از روش ها به نحوی موجب افزایش دقت درخت تصمیم و در نتیجه تولید یک درخت تصمیم موثر و کاراتر شده است. لذا در مقاله حاضر ابتدا به بررسی و مرور روش ها و راهکارهای ارائه شده پیشین و سپس به ارائه روش پیشنهادی با عنوان روش جابجایی خصوصیت ها جهت تخمین مقادیر گمشده در مجموعه داده پرداخته خواهد شد و سپس در پایان به مقایسه و ارزیابی دقت حاصل شده روش پیشنهادی با روش های حذف و میانگین خواهیم پرداخت.
|
کلیدواژه
|
داده کاوی، داده گمشده، الگوریتم C4.5، مجموعه داده، درخت تصمیم
|
آدرس
|
, ایران, , ایران
|
|
|
|
|
|
|
|
|
|
|
A New Algorithm to Predict Missing Values in Datasets
|
|
|
Authors
|
abaraghi mina ,ziaadini salimeh
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|