مقایسه دقت الگوریتم‌های یادگیری ماشین در تخمین داده‌های گمشده حاصل از آزمایش‌های ریزآرایه dna

Fa | Ar | En

مقایسه دقت الگوریتم‌های یادگیری ماشین در تخمین داده‌های گمشده حاصل از آزمایش‌های ریزآرایه dna


نویسنده	مشیری مریم ,قادری زفره ای مصطفی ,قانع گلمحمدی فرزان
منبع	پژوهشهاي سلولي و ملكولي - 1394 - دوره : 28 - شماره : 4 - صفحه:612 -622
چکیده	وجود داده‌های گمشده در داده‌های ریزآرایه، سبب کاهش دقت رسم شبکه‌های تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیم‌بندی تخصصی ژن‌ها و سایر تحلیل‌ها می‌شود. بنابراین تخمین دادههای گمشده مرحله مهمی در پیش پردازش داده‌های ریزآرایه، محسوب می‌شود. عملکرد الگوریتمهای تخمین در مجموعه داده‌های مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسب‌ترین الگوریتم به منظور دستیابی به بیشترین دقت در محاسبات داده‌های گمشده از اهمیت خاصی برخوردار است. در این مطالعه از سه مجموعه داده آزمایش‌های ریزآرایه استفاده شد. پس از مشخص کردن ابعاد ماتریس بیانی و نرمال کردن داده‌ها، درصدهای مختلفی از گمشدگی، بر مجموعه داده‌های مورد مطالعه اعمال شد. سپس نتایج حاصل با استفاده از 11 الگوریتم بر پایه یادگیری ماشین، به منظور بررسی میزان دقت هر یک از الگوریتم‌ها در تعیین میزان درصد گمشدگی، مورد مقایسه قرار گرفت. بر اساس نتایج، دقت الگوریتم‌های مختلف به مجموعه داده به کار رفته، درصد گمشدگی و توزیع گمشدگی داده‌ها وابسته است. همچنین تعداد نمونه‌های آزمایشی موجود در مجموعه داده‌ها نیز می تواند بر دقت الگوریتم‌های تخمین داده‌های گمشده موثر باشد. نتایج بیانگر کاهش دقت تمامی الگوریتم‌ها با افزایش درصد داده‌های گمشده بود، اما الگوریتم‌های least square adaptive و local least square دقت بیشتری در مقابل افزایش درصد گمشدگی داده‌ها نسبت به سایر الگوریتم‌ها نشان دادند.
کلیدواژه	الگوریتم‌های بر پایه یادگیری ماشین، تخمین داده‌های گمشده، ریزآرایه
آدرس	دانشگاه فردوسی مشهد, دانشکده کشاورزی, گروه علوم دامی, ایران, دانشگاه یاسوج, دانشکده کشاورزی, گروه علوم دامی, ایران, پژوهشگاه بیوتکنولوژی کشاورزی ایران, گروه زیست‌شناسی سیستم‌ها, ایران
پست الکترونیکی	farazanaa@gmail.com

Comparison of machine learning algorithms on missing values estimation accuracy of microarray datasets

Authors
Abstract	Existence of missing values in DNA microarray data would decrease the accuracy of regulatory gene networks construction and may cause mistake in clustering and classifying gene expression for downstream analysis. Therefore, missing value imputation is a pivotal step in preprocessing of DNA microarray data. Selection a proper algorithm for achieving the most accurate conclusions in missing values imputation remains to be quite compelling. In this study, three microarray datasets were used to compare the performance of different machine learning algorithms in imputing DNA microarray missing values. In this way, after determining the dimensions of matrix of expression data and normalizing the data, different missing percentages were applied on each datasets. By running 11 machine learning algorithms on these datasets, the accuracy of each algorithm under different conditions were measured. Based on the results, the accuracy of different algorithms depended on missing value percentages and its distribution in the dataset. Also, the number of experimental samples in the datasets affected the accuracy of missing values imputation algorithms. The results showed a decreasing trend in accuracy by increasing the percentage of missing data in the dataset. In general, Least Square Adaptive and Local Least Square algorithms shown to be more robust in terms of accuracy when the level of missing values percentage increased in the dataset. Therefore, we would suggest these algorithms could be considered in working out sound missing values imputation in DNA microarray data.
Keywords