>
Fa   |   Ar   |   En
   بررسی عملکرد الگوریتم هوشمند تجزیه مقدار تکین (Svd) در بازیابی ژنوتیپ‌های از دست رفته در سناریوهای مختلف از تعداد نشانگر، اندازه جمعیت و فراوانی آلل نادر  
   
نویسنده غفوری کسبی فرهاد ,گودر تله جردی علی
منبع پژوهشهاي علوم دامي ايران - 1397 - دوره : 10 - شماره : 4 - صفحه:553 -560
چکیده    هدف از این تحقیق بررسی عملکرد الگوریتم هوشمند تجزیه مقدار تکین31(svd) در بازیابی ژنوتیپ‌های از دست رفته بود. به این منظور، ژنومی متشکل از 1 کروموزوم به طول یک مورگان که بر روی آن در سناریوهای مختلف به‌ترتیب 500، 1000، 1500، 2000، 2500 و 3000 نشانگر تک نوکلئوتیدی دو آللی (snp) با فراوانی اولیه یکسان 0.5 توزیع شده بود برای 1000 فرد شبیه‌سازی شد. در ادامه جهت ایجاد فایل اطلاعات در چهارچوب اطلاعات”تعیین ژنوتیپ با توالی‌یابی“42(gbs) اطلاعات ژنوتیپی به ‌ترتیب 5%، 10%، 25%، 50%، 75% و 90% از snpهای افراد از ماتریس ژنوتیپی حذف شده و مجدداً توسط روش svd بازیابی شدند. درصد ژنوتیپ‌های به‌درستی بازیابی شده (نسبت تعداد ژنوتیپ‌های به درستی بازیابی شده به کل ژنوتیپ‌های از دست رفته) به‌عنوان شاخصی از صحت بازیابی ژنوتیپ (r) در سناریوهای مختلف مورد استفاده قرار گرفت. صحت بازیابی ژنوتیپ‌های از دست رفته با استفاده از روش svd قابل توجه بود به طوری که با افزایش درصد ژنوتیپ‌های از دست رفته تا 50%، svd با صحتی در حدود 80% ژنوتیپ‌های از دست رفته را بازیابی نمود. در سناریوهای 75% و 90% ژنوتیپ از دست رفته صحت بازیابی ژنوتیپ کاهش یافته و به ترتیب 70% و 48% بود. در شرایط برابر از تعداد نشانگر و درصد ژنوتیپ از دست رفته، با افزایش تعداد افراد حاضر در جمعیت از 1000 به 2000 فرد، توانایی بازیابی ژنوتیپ توسط روش svd افزایش یافت. در یک درصد ثابت از ژنوتیپ‌های از دست رفته، با افزایش تعداد نشانگر صحت بازیابی ژنوتیپ افزایش یافت به نحوی که با افزایش تعداد نشانگر از 500 به 3000 نشانگر، حدوداً 10% به صحت بازیابی ژنوتیپ افزوده شد. یک رابطه معکوس بین میزان فراوانی آلل نادر (maf) و r مشاهده شد به گونه‌ای که با افزایش maf از 0.01 به 0.40 صحت بازیابی ژنوتیپ به میزان 8 درصد کاهش یافت. به طور کلی نتایج این تحقیق نشان داد که الگوریتم svd با صحت بالایی می‌تواند ژنوتیپ‌های از دست رفته را بازیابی کند به ‌ویژه زمانی که درصد ژنوتیپ‌های از دست رفته کم باشد، اندازه جمعیت بزرگ باشد و فراوانی آلل نادر نیز پایین باشد.
کلیدواژه الگوریتم Svdi;بازیابی ژنوتیپ; Snp.
آدرس دانشگاه بوعلی سینا, دانشکده کشاورزی, گروه علوم دامی, ایران, دانشگاه بوعلی سینا, دانشکده پیرادامپزشکی, گروه پاتوبیولوژی, ایران
پست الکترونیکی a.goudarz@basu.ac.ir
 
   Studing the Performance of Intelegent Singular Value Decomposition Algorithm (SVD) in Imputation of Missing Genotypes  
   
Authors Goudarz Talleh Jerdi Ali ,ghafouri-kesbi farhad
Abstract    Introduction By implementing genomic selection, high accurate estimates of breeding values in newborn individuals could be obtained in the absence of phenotypic records. In genomic selection, selection decisions are based on genomic breeding values predicted from highdensity SNP pannels. Dramatic advances in sequencing technologies are providing highly dimensional molecular marker information at low cost. Next generation sequencing protocols such as genotype by sequencing (GBS) technology have been suggested as an efficient and costeffective genotyping method for genomic selection in cattle. It capable of providing acceptable marker density for genomic selection or genomewide association studies at roughly one third of the cost of currently available genotyping technologies. However, polymorphic loci scored by GBS can contain a large proportion of missing data across samples because random fragments of the genome are sequenced at low depth, leading some loci to have zero coverage in some individuals. Most analyses require a complete dataset therefore, marker imputation is a necessary step before GBS data can be used for most purposes such as genomic selection. Order of markers is unknown in GBS data. Therefore, an imputation method which does not require previous information about the order of the markers is needed for imputing GBS data. Nonparametric models from the machinelearning repository have been proposed as an alternative to deal with such situations. These models do not follow a particular parametric design. Several different machinelearning approaches are currently used for genotype imputation and it is important to assess the performance of diverse methodologies and identify the methods that can provide the greatest predictive accuracy in a given population. Singular value decomposition imputation (SVD is capable to impute missed markers in GBS data. The aim of this study was assessing the performance of intelligent SVD algorithm for imputation of missing genotypes.Materials and Methods A genome consisted of one Morgan chromosome was simulated using the hypred package on which in different scenarios, respectively, 500, 1000, 1500, 2000, 2500 and 3000 SNPs with equal initial frequency of 0.5 were arrayed for 1000 individuals. Coding for each genotype with A1 and A2 alleles were 2 for A1A1, 0 for A2A2 and 1 for A1A2 or A2A1, respectively. Then, in the framework of genotyping by sequencing data (GBS), genotype information of 5%, 10%, 25%, 50%, %75 and 90% of SNPs were masked and then imputed with SVD algorithm. Imputation accuracy (r) was assessed by the percentage of genotypes imputed correctly (number of genotypes correctly imputed/total number of masked genotypes). The effect of number of genotyped individuals (1000 and 2000 individuals), number of genotyped SNPs (500, 1000, 1500, 2000, 2500 and 3000 SNP) and levels of minor allele frequency (MAF) (0.01, 0.05, 0.1, 0.2, 0.3 and 0.4) on imputation accuracy were also studied.Results and discussion The SVD imputation accuracy was noticeable. So by increasing the percentage of masked markers up to 50%, SVD was imputed missing genotypes with accuracy equal to 80%. In the scenarios of 70% and 90% of missing genotypes, the accuracy of imputation decreased and was 70% and 48%, respectively. In parallel to increase in the size of the population from 1000 to 2000 individuals, the imputation performance of SVD was increased, especially in the scenarios of 75% and 90% of masked genotypes. In parallel to increase in the number of markers, the imputation accuracy (r) increased in such a way that with increasing the number of markers from 500 to 3000 SNP, the accuracy of imputation increased by almost %10. An inverse relationship was observed between MAF and r in a way that by increasing MAF from 0.01 to 0.40, the accuracy of imputation decreased by 8%. In other words, markers with lower MAF were imputed with higher accuracy.Conclusion SVD performed well regarding genotype imputation for GBS platforms in a way that missing data can be imputed with reasonable accuracy even if the level of missing data are high up to 50%and even greater accuracies may result if number of individuals in the population is high and level of MAF of genotyped SNPs is low. Therefore, SVD can be recommended for genotype imputation in genome assisted evaluation.
Keywords
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved