مقابله با عدم تعادل طبقاتی دادهها در یادگیری ماشین: ارزیابی و مقایسه تکنیکهای متعادلسازی مجموعه دادههای نامتعادل
|
|
|
|
|
نویسنده
|
شجاعیان ابوذر ,مویدی فاطمه
|
منبع
|
دومين كنفرانس ملي تحول ديجيتال و سيستم هاي هوشمند - 1402 - دوره : 2 - دومین کنفرانس ملی تحول دیجیتال و سیستم های هوشمند - کد همایش: 02231-67491 - صفحه:0 -0
|
چکیده
|
در عصر دیجیتال امروزی، یادگیری ماشین به یک فناوری ضروری برای سازمانها و افراد تبدیل شده است. با رشد تصاعدی دادهها و اطلاعات دیجیتال، قابلیتهای پردازش کارآمد داده یک نیاز ضروری است. با این حال، یادگیری ماشین با چالشهای متعددی مواجه می شود، از جمله مسئله عدم تعادل کلاس، که اغلب با افزایش حجم دادهها به وجود می آید. عدم تعادل کلاس به حالتی گفته می شود که در آن تعداد نمونههای یک کلاس به طور قابل توجهی از کلاس دیگر بیشتر است و منجر به توزیع نامتوازن می شود. این عدم تعادل طبقاتی میتواند اثرات مضری بر عملکرد طبقهبندی داشته باشد که باعث میشود توسعه استراتژیهای موثر برای مدیریت مجموعه دادههای نامتعادل و بهبود نتایج طبقهبندی را ضروری میکند. پرداختن به این موضوع نیازمند روشهای متعادلسازی موثر برای افزایش عملکرد مدل و کاهش حساسیت است. در این مقاله، ما یک بررسی کامل از تکنیکهای متعادلسازی smote، adasyn، smoteboost، rusboost و adaboost انجام دادهایم. ارزیابی بر روی مجموعه دادههای نامتعادل مختلف بهدستآمده از kaggle با استفاده از ماتریس در همریختگی انجام شده است که دامنههای متنوع و نسبتهای عدم تعادل طبقاتی را نشان میدهد و از نمایش گسترده چالشهایی که در عمل با آن مواجه میشوند اطمینان حاصل میکند. هر روش به طور سیستماتیک از نظر توانایی آن برای افزایش عملکرد پیشبینی، کاهش تاثیر عدم تعادل کلاس و بهبود استحکام کلی مدل ارزیابی شده است.
|
کلیدواژه
|
متعادل سازی دیتاست، مدیریت دادههای نامتعادل، دیتاست نامتعادل، نمونهگیری مصنوعی، handling imbalanced dataset
|
آدرس
|
, iran, , iran
|
پست الکترونیکی
|
fmoayyedi@gmail.com
|
|
|
|
|