مقابله با عدم تعادل طبقاتی داده‌ها در یادگیری ماشین: ارزیابی و مقایسه تکنیک‌های متعادل‌سازی مجموعه داده‌های نامتعادل

Fa | Ar | En

مقابله با عدم تعادل طبقاتی داده‌ها در یادگیری ماشین: ارزیابی و مقایسه تکنیک‌های متعادل‌سازی مجموعه داده‌های نامتعادل


نویسنده	شجاعیان ابوذر ,مویدی فاطمه
منبع	دومين كنفرانس ملي تحول ديجيتال و سيستم هاي هوشمند - 1402 - دوره : 2 - دومین کنفرانس ملی تحول دیجیتال و سیستم های هوشمند - کد همایش: 02231-67491 - صفحه:0 -0
چکیده	در عصر دیجیتال امروزی، یادگیری ماشین به یک فناوری ضروری برای سازمان‌ها و افراد تبدیل شده است. با رشد تصاعدی داده‌ها و اطلاعات دیجیتال، قابلیت‌های پردازش کارآمد داده یک نیاز ضروری است. با این حال، یادگیری ماشین با چالش‌های متعددی مواجه می شود، از جمله مسئله عدم تعادل کلاس، که اغلب با افزایش حجم داده‌ها به وجود می آید. عدم تعادل کلاس به حالتی گفته می شود که در آن تعداد نمونه‌های یک کلاس به طور قابل توجهی از کلاس دیگر بیشتر است و منجر به توزیع نامتوازن می شود. این عدم تعادل طبقاتی می‌تواند اثرات مضری بر عملکرد طبقه‌بندی داشته باشد که باعث می‌شود توسعه استراتژی‌های موثر برای مدیریت مجموعه داده‌های نامتعادل و بهبود نتایج طبقه‌بندی را ضروری می‌کند. پرداختن به این موضوع نیازمند روش‌های متعادل‌سازی موثر برای افزایش عملکرد مدل و کاهش حساسیت است. در این مقاله، ما یک بررسی کامل از تکنیک‌های متعادل‌سازی smote، adasyn، smoteboost، rusboost و adaboost انجام داده‌ایم. ارزیابی بر روی مجموعه داده‌های نامتعادل مختلف به‌دست‌آمده از kaggle با استفاده از ماتریس در همریختگی انجام شده است که دامنه‌های متنوع و نسبت‌های عدم تعادل طبقاتی را نشان می‌دهد و از نمایش گسترده چالش‌هایی که در عمل با آن مواجه می‌شوند اطمینان حاصل می‌کند. هر روش به طور سیستماتیک از نظر توانایی آن برای افزایش عملکرد پیش‌بینی، کاهش تاثیر عدم تعادل کلاس و بهبود استحکام کلی مدل ارزیابی شده است.
کلیدواژه	متعادل سازی دیتاست، مدیریت داده‌های نامتعادل، دیتاست نامتعادل، نمونه‌گیری مصنوعی، handling imbalanced dataset
آدرس	, iran, , iran
پست الکترونیکی	fmoayyedi@gmail.com

class imbalance handing in machine learning: evaluation and comparison of balancing techniques for unbalanced datasets

Authors