|
|
مقایسه دقت الگوریتمهای یادگیری ماشین در تخمین دادههای گمشده حاصل از آزمایشهای ریزآرایه dna
|
|
|
|
|
نویسنده
|
مشیری مریم ,قادری زفره ای مصطفی ,قانع گلمحمدی فرزان
|
منبع
|
پژوهشهاي سلولي و ملكولي - 1394 - دوره : 28 - شماره : 4 - صفحه:612 -622
|
چکیده
|
وجود دادههای گمشده در دادههای ریزآرایه، سبب کاهش دقت رسم شبکههای تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیمبندی تخصصی ژنها و سایر تحلیلها میشود. بنابراین تخمین دادههای گمشده مرحله مهمی در پیش پردازش دادههای ریزآرایه، محسوب میشود. عملکرد الگوریتمهای تخمین در مجموعه دادههای مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسبترین الگوریتم به منظور دستیابی به بیشترین دقت در محاسبات دادههای گمشده از اهمیت خاصی برخوردار است. در این مطالعه از سه مجموعه داده آزمایشهای ریزآرایه استفاده شد. پس از مشخص کردن ابعاد ماتریس بیانی و نرمال کردن دادهها، درصدهای مختلفی از گمشدگی، بر مجموعه دادههای مورد مطالعه اعمال شد. سپس نتایج حاصل با استفاده از 11 الگوریتم بر پایه یادگیری ماشین، به منظور بررسی میزان دقت هر یک از الگوریتمها در تعیین میزان درصد گمشدگی، مورد مقایسه قرار گرفت. بر اساس نتایج، دقت الگوریتمهای مختلف به مجموعه داده به کار رفته، درصد گمشدگی و توزیع گمشدگی دادهها وابسته است. همچنین تعداد نمونههای آزمایشی موجود در مجموعه دادهها نیز می تواند بر دقت الگوریتمهای تخمین دادههای گمشده موثر باشد. نتایج بیانگر کاهش دقت تمامی الگوریتمها با افزایش درصد دادههای گمشده بود، اما الگوریتمهای least square adaptive و local least square دقت بیشتری در مقابل افزایش درصد گمشدگی دادهها نسبت به سایر الگوریتمها نشان دادند.
|
کلیدواژه
|
الگوریتمهای بر پایه یادگیری ماشین، تخمین دادههای گمشده، ریزآرایه
|
آدرس
|
دانشگاه فردوسی مشهد, دانشکده کشاورزی, گروه علوم دامی, ایران, دانشگاه یاسوج, دانشکده کشاورزی, گروه علوم دامی, ایران, پژوهشگاه بیوتکنولوژی کشاورزی ایران, گروه زیستشناسی سیستمها, ایران
|
پست الکترونیکی
|
farazanaa@gmail.com
|
|
|
|
|
|
|
|
|
Comparison of machine learning algorithms on missing values estimation accuracy of microarray datasets
|
|
|
Authors
|
|
Abstract
|
Existence of missing values in DNA microarray data would decrease the accuracy of regulatory gene networks construction and may cause mistake in clustering and classifying gene expression for downstream analysis. Therefore, missing value imputation is a pivotal step in preprocessing of DNA microarray data. Selection a proper algorithm for achieving the most accurate conclusions in missing values imputation remains to be quite compelling. In this study, three microarray datasets were used to compare the performance of different machine learning algorithms in imputing DNA microarray missing values. In this way, after determining the dimensions of matrix of expression data and normalizing the data, different missing percentages were applied on each datasets. By running 11 machine learning algorithms on these datasets, the accuracy of each algorithm under different conditions were measured. Based on the results, the accuracy of different algorithms depended on missing value percentages and its distribution in the dataset. Also, the number of experimental samples in the datasets affected the accuracy of missing values imputation algorithms. The results showed a decreasing trend in accuracy by increasing the percentage of missing data in the dataset. In general, Least Square Adaptive and Local Least Square algorithms shown to be more robust in terms of accuracy when the level of missing values percentage increased in the dataset. Therefore, we would suggest these algorithms could be considered in working out sound missing values imputation in DNA microarray data.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|