|
|
بررسی 6 روش طبقه بندی جهت یافتن بهترین روش پیش بینی سرطان ریه مبتنی داده های نامتعادل
|
|
|
|
|
نویسنده
|
صادقی رقیه ,باستان فرد اعظم
|
منبع
|
اولين كنفرانس ملي پژوهش و نوآوري در هوش مصنوعي - 1402 - دوره : 1 - اولین کنفرانس ملی پژوهش و نوآوری در هوش مصنوعی - کد همایش: 02230-75197 - صفحه:0 -0
|
چکیده
|
هدف ما از ارائه این مقاله یافتن بهترین الگوریتم جهت پیش بینی سرطان ریه است. این مقاله به بررسی طبقه بندی های نظارت شده و ارزیابی عملکرد شش روش طبقه بندی می پردازد. در این مقاله، مجموعهای از روشهای نظارت شده برای پیشبینی سرطان ریه پیشنهاد شده است و نتایج بر روی مجموعه دادههای سرطان ریه آزمایش میشوند. پس از حذف داده های تکراری، با بررسی مجموعه داده های اولیه، عدم تعادل مجموعه داده ها مشخص می شود و تمایل مجموعه داده ها به سمت نمونه های مثبت (مبتلا به سرطان) است. یکی از چالش های مجموعه داده ها عدم تعادل است که بر کارایی مدل تاثیر می گذارد. با این حال، مجموعه داده به دو بخش آموزش و آزمایش تقسیم می شود و مجموعه داده با تمام الگوریتم ها مدل سازی شده است. در مرحله بعد تکنیک وزن دهی برای متعادل کردن توزیع داده ها اعمال می شود و تمام الگوریتم ها مجددا روی مجموعه داده اجرا می شود. مقایسه ای بین خروجی هر دو حالت صورت می گیرد و بهترین الگوریتم برای پیش بینی سرطان ریه انتخاب می شود. ماشین بردار پشتیبان (svm)، k-نزدیکترین همسایه (knn)، درختان تصمیم (dt)، جنگل تصادفی (rf)، بیزین (nb)، رگرسیون لجستیک (rl) روی مجموعه داده حاصل اعمال می شوند و نتایج با هم مقایسه می شوند. ارزیابی مدل ها به کمک چهار معیار دقت کلی، نرخ مثبت کاذب، دقت، یادآوری انجام می شود. جهت اجرای مدل ها از زبان برنامه نویسی پایتون استفاده می شود. مجموعه داده مورد استفاده در این بررسی شامل 309 رکورد و 16 ویژگی است که از سایت kaggle به دست آمده است.
|
کلیدواژه
|
سرطان ریه، یادگیری ماشین، پیشبینی، طبقه بندیهای نظارت شده
|
آدرس
|
, iran, , iran
|
پست الکترونیکی
|
azambastanfard1397@gmail.com
|
|
|
|
|
|
|
|
|
review of 6 classification methods to find the best lung cancer prediction method based on unbalanced data
|
|
|
Authors
|
|
Abstract
|
our goal in presenting this article is to find the best algorithm for predicting lung cancer. this article examines supervised classifications and evaluates the performance of six classification methods. in this article, after removing the duplicate data, by examining the primary data set, the imbalance of the data set is determined that the tendency of the data set is towards positive samples (with cancer). one of the challenges of the data set is imbalance, which affects the efficiency of the model. however, the data set is divided into two parts, training and testing, and the data set is modeled with all algorithms. in the next step, the weighting technique is applied to balance the data distribution and all the algorithms are run again on the data set. a comparison is made between the output of both modes and the best algorithm is selected for predicting lung cancer. supervised classification algorithms are applied to the dataset and the results are compared. the evaluation of the models is done with the help of four general accuracy criteria, false positive rate, precision and recall. python programming language is used to run the models. the dataset used in this study consists of 309 records and 16 features obtained from the kaggle site.
|
Keywords
|
lung cancer ,machine learning ,prediction ,supervised classifications
|
|
|
|
|
|
|
|
|
|
|