|
|
چالشها و راهحلهایی در جمعآوری داده و ارزیابی مدلها در یادگیری ماشین نظارت شده، مطالعه مروری
|
|
|
|
|
نویسنده
|
علی اکبری سعیده ,حجازی پیمان ,هرمزی مقدم زینب
|
منبع
|
كومش - 1402 - دوره : 25 - شماره : 6 - صفحه:551 -561
|
چکیده
|
هدف: هدف اصلی یادگیری ماشین یک فرآیند پیچیده است که از طریق تعیین مدل و آموزش آن با استفاده از حجم زیادی از دادهها، انجام میشود. در گذشته، تمرکز اصلی در این زمینه بیشتر بر روی بهبود ساختار مدلها و الگوریتمها بوده است، اما اخیراً تمرکز بهتری به سمت کیفیت و کمیت دادهها صورت گرفته است. هدف از این مقالهی مروری بررسی چالشها در جمعآوری دادهها و ارزیابی مدل در یادگیری ماشین نظارت شده و ارائهی راه حل برای آن است.مواد و روشها: در این مطالعه چالشهای پیش روی محققان جهت جمعآوری داده و ارزیابی مدلهای یادگیری ماشین نظارت شده به روش مطالعهی مروری مورد بررسی قرار گرفت، مستندات از پایگاههای مطالعاتی pubmed، scopus، science direct و موتور جستوجو google scholar در بازهی زمانی 2001 الی 2023 بازیابی شد که پس از غربالگری متن کامل 17 مقاله بررسی و به مطالعه وارد شد.یافتهها: در بررسی مطالعات انجام شده چهار چالش عمده در جمعآوری دادهها در حیطهی یادگیری ماشین نظارت شده که عبارتند از: تعداد ناکافی نمونه، دادههای آموزشی غیر نماینده، کیفیت پایین داده و ویژگیهای غیر مرتبط یافت شد. در ارزیابی مدل نیز با چهار چالش که عبارتند از: بیش برازش، کمبود برازش، در دسترس نبودن داده کافی جهت اعتبارسنجی و عدم تطبیق دادهها بهدست آمد.نتیجهگیری: افزایش تعداد نمونه، استفاده از الگوریتم انتخاب تصادفی، پاکسازی داده، استفاده از آزمون آماری صحیح، انتخاب ویژگی، استخراج ویژگی، استفاده از مدل سادهتر، تکنیک k-fold و پردازش دادهها از جمله مواردی است که رعایت آن باعث دستیابی به مدلی با عملکرد بهتر میشود.
|
کلیدواژه
|
یادگیری ماشین نظارت شده، جمعآوری داده، ارزیابی مدل
|
آدرس
|
دانشگاه علوم پزشکی سمنان, دانشکده پیراپزشکی, گروه پرتوشناسی, ایران, دانشگاه علوم پزشکی سمنان, دانشکده پزشکی, گروه فیزیک پزشکی, ایران, دانشگاه علوم پزشکی ایران, مرکز تحقیقات بیولوژِی پرتو, دانشکده پیراپزشکی, گروه علوم پرتویی, ایران
|
پست الکترونیکی
|
zhormozi69@gmail.com
|
|
|
|
|
|
|
|
|
challenges and solutions in data collection and model evaluation in supervised machine learning: a review article
|
|
|
Authors
|
aliakbari saeedeh ,hejazi payman ,hormozi-moghaddam zeinab
|
Abstract
|
introduction: the main purpose of machine learning is a complex process that is carried out by determining the model and training it using a large volume of data. in the past, the main focus in this field was more on improving the structures of models and algorithms, but recently more emphasis has been placed on the quality and quantity of data. this article aims to provide an overview of the problems in data collection and offer a solution for them.materials and methods: in this study, the challenges faced by researchers in collecting data and evaluating supervised machine-learning models were examined through a review method. documentation from pubmed, scopus, science direct databases, and google scholar search engine from 2001 to 2023 was retrieved. after screening, a total of 17 full articles were reviewed and included in the study.results: the findings indicate that researchers in supervised machine learning studies face four challenges in data collection, which are: insufficient number of samples, unrepresentative training data, poor data quality, and irrelevant features, and in model evaluation, they face four challenges: overfitting, lack of generalizability, lack of sufficient data for validation, and mismatched data.conclusion: increasing the sample size, utilizing a random selection algorithm, data cleansing, using the correct statistical test, feature selection, feature extraction, using a simpler model, the k-fold technique, and data processing are among the factors that contribute to achieving a model with better performance.
|
Keywords
|
supervised machine learning ,data collection ,model evaluation
|
|
|
|
|
|
|
|
|
|
|