|
|
مقایسه روشهای مدلبندی پاسخ ترتیبی از قبیل درخت تصمیم، انباشت تصادفی ترتیبی و رگرسیون نسبت پیوسته جریمه شده در دادههای با ابعاد بالا
|
|
|
|
|
نویسنده
|
ترکاشوند زهرا ,محجوب حسین ,سلطانیان علیرضا ,فرهادیان مریم
|
منبع
|
طب جنوب - 1400 - دوره : 24 - شماره : 5 - صفحه:454 -468
|
چکیده
|
زمینه: در بسیاری از تحقیقات در حوزههای پزشکی و بهداشتی متغیر پاسخ ماهیت ترتیبی دارد. روش های مرسوم مبتنی بر فرض استقلال میان متغیرهای پیشگو و همچنین زیاد بودن تعداد نمونه ها (n) در مقایسه با تعداد کووریت ها (p) هستند. لذا برای داده های ژنتیکی با ابعاد بالا که در آنها p>n می باشد، استفاده از مدل های مرسوم امکانپذیر نیست. در پژوهش حاضر از روش های رگرسیون نسبت پیوسته جریمه شده، درخت تصمیم و انباشت ترتیبی برای پیش بینی پاسخ های ترتیبی استفاده خواهد شد. مواد و روشها: در مطالعه حاضر از سه دیتاست استفاده شد. مجموعه داده bcell حاوی اطلاعات 12625 ژن در 128 بیمار که پاسخ در چهار سطح ترتیبی قرار داشت، داده hcc مرتبط با سرطان کبد شامل 1469 ژن در 56 بیمار که پاسخ در سه سطح ترتیبی قرار داشت و همچنین داده قلب شامل اطلاعات پنج متغیر در 294 بیمار تحت آنژیوگرافی که پاسخ در 5 سطح قرار داشت. عملکرد روش های مدنظر با استفاده از مجموعه داده یکسان آموزش و آزمون براساس شاخصهایی از قبیل دقت، گاما و کاپا مورد مقایسه قرار گرفت.یافتهها: در دو مجموعه داده با ابعاد بالا مدل انباشت ترتیبی از توانایی پیشبینی بالاتری برخوردار بود. در حالی که برای مجموعه داده با ابعاد پایین مدل رگرسیون نسبت پیوسته جریمه شده عملکرد پیشبینی بهتری داشت.نتیجهگیری: انتخاب بهترین مدل پیشبینی از بین مدلهای بکار رفته بستگی به مجموعه داده مورد استفاده دارد و برای هر مجموعه داده بایستی روشهای مختلف را مورد بررسی قرار داد تا به بهترین مدل دست یافت.
|
کلیدواژه
|
پاسخ ترتیبی، روش رگرسیون نسبت پیوسته جریمه شده، روش انباشت ترتیبی، دادههای بیان ژن
|
آدرس
|
دانشگاه علوم پزشکی همدان, دانشکده بهداشت, گروه آمار زیستی, ایران, دانشگاه علوم پزشکی همدان, دانشکده بهداشت, مرکز تحقیقات علوم بهداشتی, گروه آمار زیستی, ایران, دانشگاه علوم پزشکی همدان, دانشکده بهداشت, مرکز تحقیقات مدلسازی بیماریهای غیرواگیر, گروه آمار زیستی, ایران, دانشگاه علوم پزشکی همدان, دانشکده بهداشت, مرکز تحقیقات علوم بهداشتی, گروه آمار زیستی, ایران
|
پست الکترونیکی
|
maryam_farhadian80@yahoo.com
|
|
|
|
|
|
|
|
|
Comparison of Ordinal Response Modeling Methods like Decision Trees, Ordinal Forest and L1 Penalized Continuation Ratio Regression in High Dimensional Data
|
|
|
Authors
|
Torkashvand Zahra ,Mahjub Hossein ,Soltanian Ali Reza ,Farhadian Maryam
|
Abstract
|
Background: Response variables in most medical and healthrelated research have an ordinal nature.Conventional modeling methods assume predictor variables to be independent, and consider a large number of samples (n) compared to the number of covariates (p). Therefore, it is not possible to use conventional models for high dimensional genetic data in which p > n. The present study compared the predictive performance of decision trees, ordinal forest, and L1 penalized continuation ratio regression.Materials and Methods: In the present study, three data sets were used. The Bcell data contained 12,625 gene expression data related to 128 patients with four ordinal levels of response variables. The HCC data related to liver cancer included 1469 genes of 56 patients with three ordinal levels of response variables. The Heart data contained information of five variables in 294 patients undergoing angiography with five ordinal levels of response variables. The performance of the methods was compared based on the same training and test datasets using indicators such as accuracy, gamma, and kappa.Results: For two highdimensional data sets, the ordinal forest model had a higher predictive ability while for the lowdimensional data set, the L1 penalized continuation ratio model had a better predictive performance.Conclusion: The selection of the best prediction model depends on the data set, and for each data, different methods should be considered to achieve the best model.
|
Keywords
|
Ordinal response ,Ordinal Forest ,L1 Penalized Continuation Ratio Regression ,High dimensional data
|
|
|
|
|
|
|
|
|
|
|