چالش‌ها و راه‌حل‌هایی در جمع‌آوری داده و ارزیابی مدل‌ها در یادگیری ماشین نظارت شده، مطالعه مروری

Fa | Ar | En

چالش‌ها و راه‌حل‌هایی در جمع‌آوری داده و ارزیابی مدل‌ها در یادگیری ماشین نظارت شده، مطالعه مروری


نویسنده	علی اکبری سعیده ,حجازی پیمان ,هرمزی مقدم زینب
منبع	كومش - 1402 - دوره : 25 - شماره : 6 - صفحه:551 -561
چکیده	هدف: هدف اصلی یادگیری ماشین یک فرآیند پیچیده است که از طریق تعیین مدل و آموزش آن با استفاده از حجم زیادی از داده‌ها، انجام می‌شود. در گذشته، تمرکز اصلی در این زمینه بیش‌تر بر روی بهبود ساختار مدل‌ها و الگوریتم‌ها بوده است، اما اخیراً تمرکز بهتری به‌ سمت کیفیت و کمیت داده‌ها صورت گرفته است. هدف از این مقاله‌ی مروری بررسی چالش‌ها در جمع‌آوری د‌اده‌ها و ارزیابی مدل در یادگیری ماشین نظارت شده و ارائه‌ی راه حل برای آن است.مواد و روش‌ها: در این مطالعه چالش‌های پیش روی محققان جهت جمع‌آوری داده و ارزیابی مدل‌های یادگیری ماشین نظارت شده به روش مطالعه‌ی مروری مورد بررسی قرار گرفت، مستندات از پایگاه‌های مطالعاتی pubmed، scopus، science direct و موتور جست‌وجو google scholar در بازه‌ی زمانی 2001 الی 2023 بازیابی شد که پس از غربالگری متن کامل 17 مقاله بررسی و به مطالعه وارد شد.یافته‌ها: در بررسی مطالعات انجام شده چهار چالش عمده در جمع‌آوری داده‌ها در حیطه‌ی یادگیری ماشین نظارت شده که عبارتند از: تعداد ناکافی نمونه، داده‌های آموزشی غیر نماینده، کیفیت پایین داده و ویژگی‌های غیر مرتبط یافت شد. در ارزیابی مدل نیز با چهار چالش که عبارتند از: بیش برازش، کمبود برازش، در دسترس نبودن داده کافی جهت اعتبارسنجی و عدم تطبیق داده‌ها به‌دست آمد.نتیجه‌گیری: افزایش تعداد نمونه، استفاده از الگوریتم انتخاب تصادفی، پاک‌سازی داده، استفاده از آزمون آماری صحیح، انتخاب ویژگی، استخراج ویژگی، استفاده از مدل ساده‌تر، تکنیک k-fold و پردازش داده‌ها از جمله مواردی است که رعایت آن باعث دست‌یابی به مدلی با عملکرد بهتر می‌شود.
کلیدواژه	یادگیری ماشین نظارت شده، جمع‌آوری داده، ارزیابی مدل
آدرس	دانشگاه علوم پزشکی سمنان, دانشکده پیراپزشکی, گروه پرتوشناسی, ایران, دانشگاه علوم پزشکی سمنان, دانشکده پزشکی, گروه فیزیک پزشکی, ایران, دانشگاه علوم پزشکی ایران, مرکز تحقیقات بیولوژِی پرتو, دانشکده پیراپزشکی, گروه علوم پرتویی, ایران
پست الکترونیکی	zhormozi69@gmail.com

challenges and solutions in data collection and model evaluation in supervised machine learning: a review article

Authors	aliakbari saeedeh ,hejazi payman ,hormozi-moghaddam zeinab
Abstract	introduction: the main purpose of machine learning is a complex process that is carried out by determining the model and training it using a large volume of data. in the past, the main focus in this field was more on improving the structures of models and algorithms, but recently more emphasis has been placed on the quality and quantity of data. this article aims to provide an overview of the problems in data collection and offer a solution for them.materials and methods: in this study, the challenges faced by researchers in collecting data and evaluating supervised machine-learning models were examined through a review method. documentation from pubmed, scopus, science direct databases, and google scholar search engine from 2001 to 2023 was retrieved. after screening, a total of 17 full articles were reviewed and included in the study.results: the findings indicate that researchers in supervised machine learning studies face four challenges in data collection, which are: insufficient number of samples, unrepresentative training data, poor data quality, and irrelevant features, and in model evaluation, they face four challenges: overfitting, lack of generalizability, lack of sufficient data for validation, and mismatched data.conclusion: increasing the sample size, utilizing a random selection algorithm, data cleansing, using the correct statistical test, feature selection, feature extraction, using a simpler model, the k-fold technique, and data processing are among the factors that contribute to achieving a model with better performance.
Keywords	supervised machine learning ,data collection ,model evaluation