|
|
روش های باز نمونه گیری برای تحلیل فنوتایپ های نامتعادل در مطالعات وابستگی ژنتیکی
|
|
|
|
|
نویسنده
|
جهانگیری مینا ,کاظم نژاد انوشیروان ,اکبرزاده مهدی ,دانشپور مریم سادات
|
منبع
|
شانزدهمين كنفرانس آمار ايران - 1401 - دوره : 16 - شانزدهمین کنفرانس آمار ایران - کد همایش: 01220-18271 - صفحه:0 -0
|
چکیده
|
مدل های رده بندی پارامتری (مدل رگرسیون لجستیکو مدل تحلیل ممیزی) و ناپارامتری همانند الگوریتم هایمبتنی بر درخت، شبکه های عصبی مصنوعی و ماشین بردار حامل، نسبتبه توزیع چوله بین رده های متغیر پاسخ دوتایی،استوار نمی باشند و این مدل ها، همه مشاهدات متعلق به رده با کم ترین فراوانی را به عنوان رده با بیشترین فراوانیپیش بینی می کنند. در این صورت، ممکن است که صحت پیشگویانه مدل خوب گردد ولی میزان منفی کاذب مدل بهشدت افزایش می یابد و نمی توان به نتایج معتبری برای استنباط دست یافت. بنابراین چندین روش برای حل مشکلعدم تعادل بین رده های متغیر پیامد دوتایی پیشنهاد شده اند و در این مقاله، به بحث درباره متداولترین این روش ها(تکنیک های باز نمونه گیری) پرداخته می شود. همچنین با استفاده از یک مجموعه داده واقعی نامتعادل به دست آمدهبه مقایسه این روش ها، با استفاده از اندازه های صحت تشخیصی (tcgs) از مطالعه ژنتیک کاردیومتابولیک تهرانهمچون حساسیت، اختصاصیت، ارزش اخباری مثبت، ارزش اخباری منفی، شاخصیودن، صحت، نسبت درستنمایی مثبت، نسبت درستنمایی منفی و مساحت زیر منحنی (auc) roc می پردازیم.
|
کلیدواژه
|
مطالعه وابستگی ژنتیکی، فنوتایپ نامتعادل، روش های نمونه گیری، درخت رده بندی.
|
آدرس
|
, iran, , iran, , iran, , iran
|
|
|
|
|
|
|
|
|
|
|
resampling methods for analyzing the unbalanced phenotypes ingenetic association studies
|
|
|
Authors
|
|
Abstract
|
the parametric classification models (logistic regression model and discriminantanalysis) and nonparametric classification models such as tree-based algorithms, artificialneural networks, and support vector machines are not robust to the skew distribution betweenbinary outcome variable classes. thus, these models predict all observations of a classwith less frequency as a class with more frequency. in this case, the model has good accuracybut a high false-negative rate and cannot conclude valid results. so, several remedialapproaches are proposed to deal with the unbalanced binary outcome variables. in this paper,we discuss these approaches (resampling technique) and compare these approaches usingunbalanced real data from tehran genetic cardiometabolic study (tcgs) based on the accuracymeasures such as sensitivity, specificity, positive predictive value, negative predictivevalue, youden’s index, accuracy, positive likelihood ratio, negative likelihood ratio, and areaunder the curve (auc).
|
Keywords
|
genetic association study ,unbalanced phenotype ,resampling methods ,classificationtree.
|
|
|
|
|
|
|
|
|
|
|