|
|
اثر تراکم نشانگرها و اندازه جمعیت مرجع بر صحت مستندسازی در داده شبیه سازی شده
|
|
|
|
|
نویسنده
|
محمدی یحیی
|
منبع
|
تحقيقات توليدات دامي - 1399 - دوره : 9 - شماره : 2 - صفحه:15 -22
|
چکیده
|
در پژوهش حاضر، اثر اندازه جمعیت مرجع و تعداد نشانگرهای چندشکلی تک نوکلئوتیدی (snp) گم شده بر صحت مستندسازی (ایمپیوتیشن) مورد بررسی قرار گرفت. از نرمافزار qmsim برای ایجاد بانک اطلاعاتی مرجع به تعداد 1000 حیوان شبیه سازی شده استفاده شد. از داده های مرجع دو دسته ایجاد شد: دسته اول (a) شامل ژنوتیپ های اصلی حاوی داده های گم شده (تعداد 52 هزار نشانگر snp) و دسته دوم (b) با خروج داده های گم شده از مجموع داده ها (تعداد 37 هزار نشانگر snp) ایجاد شد. در هر دو دسته، تعداد جمعیت مرجع با 100، 250، 500 و 750 حیوان شبیه سازی شد. تعداد نشانگرهای snp حذف شده به طور تصادفی و با نسبت های 15، 30، 55، 70 و 95 درصد در هر دو دسته شبیه سازی شد. بر اساس همبستگی بین ارزش نشانگرهای snp اصلی قبل از حذف و ارزش آن ها بعد از مستندسازی، صحت برآورد شد. نتایج مطالعه حاضر نشان داد که صحت مستندسازی تحت تاثیر اندازه جمعیت مرجع و تراکم نشانگرهای snp گم شده قرار داشت. با افزایش اندازه جمعیت مرجع از 100 به 750 حیوان، متوسط صحت مستندسازی در هر دو دسته افزایش یافت. بیشترین میزان صحت برای جمعیت مرجع با 750 حیوان در دامنه 0.89 تا 0.98 برای دسته a و 0.90 تا 0.99 برای دسته b مشاهده شد. به طور کلی، نتایج نشان داد که اگر اندازه جمعیت مرجع به اندازه کافی باشد، علی رغم تعداد زیاد نشانگر snp گم شده، صحت مستندسازی تغییر زیادی نخواهد کرد.
|
کلیدواژه
|
ارزیابی ژنومی، داده های گم شده، دام، صحت پیش بینی، مستندسازی
|
آدرس
|
دانشگاه ایلام, دانشکده کشاورزی, گروه علوم دامی, ایران
|
پست الکترونیکی
|
mohamadi_yahya@yahoo.com
|
|
|
|
|
|
|
|
|
Impact of marker density and reference population size on accuracy of imputation in simulated data
|
|
|
Authors
|
Mohammadi Y.
|
Abstract
|
In this study, effect of the reference population size and the number of missing single nucleotide polymorphisms (SNPs) on imputation accuracy was assessed. The QMSim software was used to create a reference database of 1000 simulated animals. Two datasets were created from the database reference: The first dataset (A), included original genotypes, containing the missing SNPs (52,000 SNP markers), and the second one (B) included the same genotypes without the missing data (37,000 SNP markers). In both datasets, animals were simulated for a reference population with the size of 100, 250, 500 and 750. The deleted SNPs were simulated randomly in both datasets with the proportion of 15%, 30%, 55%, 70%, and 95%. The accuracy was determined based on the correlation between the original SNP values before deletion and its values after imputation. The results of this study showed that the accuracy of the imputation was influenced by the size of reference population and density of the deleted SNP markers. By increasing the reference population size from 100 to 750 animals in both datasets, the average accuracy of the imputation was increased. The highest accuracy in the reference population of 750 animals was from 0.89 to 0.98 in dataset A and 0.90 to 0.99 in dataset B. Generally, the results showed that if the size of the reference population is sufficient, the imputation accuracy does not much change, despite large number of missing SNPs.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|