|
|
طبقهبندی دادههای نامتوازن در تشخیص اولیه بیماریهای پستان با روشهای آدابوست، شبکه عصبی احتمالی و k تا نزدیکترین همسایه
|
|
|
|
|
نویسنده
|
درزی محمد ,الفت بخش آسیه ,گرگین سعید ,اویسی فرید ,هاشمی عصمت السادات ,علوی نسرین السادات
|
منبع
|
بيماري هاي پستان ايران - 1395 - دوره : 9 - شماره : 2 - صفحه:7 -11
|
چکیده
|
مقدمه: سرطان پستان یکی از سرطان های شایع در ایران بوده و هرگونه اقدام تشخیصی به هنگام در این مورد می تواند جان بسیاری از مبتلایان به این سرطان را نجات بخشد. هدف از این پژوهش طبقه بندی داده های نامتوازن مربوط به بانوان مراجعه کننده به کلینیک پژوهشکده سرطان پستان جهاددانشگاهی به منظور تعیین وضعیت ایشان و طبقه بندی نرمال و یا غیرنرمال بودن پستان مراجعه کنندگان بود. مجموعه داده های نامتوازن یکی از چالش های پیش روی طراحی سیستم های پزشک یار برای طبقه بندی و تعیین وضعیت بیمار محسوب می شود که در این پژوهش از روش های سطح داده برای حل آن استفاده شد.روش بررسی: در این مطالعه برای طبقه بندی داده های 918 نفر، سه الگوریتم adaboost.m1، k تا نزدیک ترین همسایه و شبکه عصبی احتمالی به خدمت گرفته شد. از آنجا که داده های این مطالعه نامتوازن بود، برای حل این مساله از روش بیش نمونه برداری تصادفی کلاس اقلیت، زیرنمونه برداری تصادفی کلاس اکثریت و بیش نمونه برداری مصنوعی کلاس اقلیت استفاده شد. به منظور پیاده سازی الگوریتم ها از امکانات و ابزارهای نرم افزار متلب و آر استفاده گردید. همچنین برای ورودی الگوریتم های طبقه بندی از 60 متغیر مندرج در کاربرگ های شرح حال و معاینه فیزیکی مراجعان استفاده شد. معیارهای دقت و fmeasure به منظور ارزیابی در مرحله آزمون الگوریتم ها مورد استفاده قرار گرفت. یافته ها: بر اساس معیارهای دقت و fmeasure، بهترین عملکرد الگوریتم های سه گانه این مطالعه در مواجهه با مجموعه داده تولیدشده با روش بیش نمونه برداری مصنوعی کلاس اقلیت بود. در این راستا عملکرد الگوریتم های adaboost.m1، k تا نزدیک ترین همسایه و شبکه عصبی احتمالی در مواجهه با مجموعه داده مذکور و بر اساس معیارهای دقت و fmeasure به ترتیب عبارتند از: 5/93 و 6/93، 5/79 و 7/87 و 86 و 9/91 بدست آمد.نتیجه گیری: روش های مختلفی برای حل مساله عدم توازن مجموعه داده ها به منظور طبقه بندی وجود دارد؛ نمونه گیری مجدد که از روش های سطح داده محسوب می شود یکی از متداول ترین آنهاست. از سه روش نمونه گیری مجددی که در این مطالعه استفاده شد، بهترین عملکرد طبقه بندها در مواجهه با مجموعه داده ایجاد شده در نتیجه نمونه گیری مجدد به روش بیش نمونه برداری مصنوعی کلاس اقلیت بود. از بین الگوریتم های به خدمت گرفته شده و بر اساس معیارهای دقت و fmeasure بهترین عملکرد در تمامی مجموعه داده های این مطالعه متعلق به الگوریتم adaboost.m1 بود.
|
کلیدواژه
|
عدم توازن داده، طبقهبندی، بیماری پستان، adaboost.m1 ، شبکه عصبی احتمالی، نمونهگیری مجدد، k تا نزدیک ترین همسایه
|
آدرس
|
پژوهشکده فناوری اطلاعات و ارتباطات جهاد دانشگاهی, ایران, مرکز تحقیقات سرطان پستان جهاد دانشگاهی, ایران, سازمان پژوهشهای علمی و صنعتی ایران, ایران, پژوهشکده فناوری اطلاعات و ارتباطات جهاد دانشگاهی, ایران, مرکز تحقیقات سرطان پستان جهاد دانشگاهی, ایران, مرکز تحقیقات سرطان پستان جهاد دانشگاهی, ایران
|
|
|
|
|
|
|
|
|
|
|
Imbalanced Data Classification for Primary Diagnosis of Breast Diseases by AdaBoost.M1, K-Nearest Neighbor and Probabilistic Neural Network
|
|
|
Authors
|
Darzi Mohammad ,Olfat Bakhsh Asiye ,Gorgin Saeid ,Oveisi Farid ,Hashemi Esmat ,Alavi Nasrin
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|