پیاده‌سازی و بهینه‌سازی مرحله حاشیه‌نویسی و تفسیر داده‌های نسل نوین توالی‌یابی برای بیماری ناشنوایی غیر‌سندرمیک اتوزومی مغلوب

Fa | Ar | En

پیاده‌سازی و بهینه‌سازی مرحله حاشیه‌نویسی و تفسیر داده‌های نسل نوین توالی‌یابی برای بیماری ناشنوایی غیر‌سندرمیک اتوزومی مغلوب


نویسنده	شاه حسینی مهدی ,مولوی نیوشا ,طباطبائی‌فر محمدامین ,صحتی محمدرضا
منبع	انفورماتيك سلامت و زيست پزشكي - 1399 - دوره : 7 - شماره : 4 - صفحه:435 -444
چکیده	مقدمه: دقت و زمان لازم برای آنالیز داده‌های نسل نوین توالی‌یابی (ngs) بسته به ابزارهای استفاده شده برای هم‌ترازی، فراخوانی واریانت، حاشیه‌نویسی، اولویت‌بندی و فیلترینگ واریانت‌ها، تسلط افراد به تحلیل و تفسیر داده‌ها و ظرفیت محاسباتی آزمایشگاه متفاوت بوده و بهینه‌سازی آن یک مسئله چالش برانگیز است.روش: یک نرم‌افزار کاربردی به منظور بهینه‌سازی مرحله‌ سوم آنالیز داده‌های ngs طراحی و با زبان برنامه‌نویسی c# پیاده‌سازی شد. در این مطالعه روند حاشیه‌نویسی، فیلترینگ و تفسیر داده‌های ngs برای بیماری ناشنوایی غیرسندرمیک با وراثت اتوزومی مغلوب به طور اختصاصی بهینه شده است.نتایج: داده مربوط به بیماری که دارای یک جهش بیماری‌زای تایید شده توسط آنالیز ژنتیکی فامیلی بود و تعداد واریانت‌های اولیه در فایل حاصل از آنالیز مراحل اولیه وی شامل 671829 واریانت می‌شد توسط نرم‌افزار پیاده‌سازی شده مورد تحلیل قرار گرفت. بعد از انجام مرحله‌ اولویت بندی خودکار واریانت‌ها با استفاده از فایل bed، تعداد واریانت‌ها 508 شد. با توجه به شجره‌ی خانوادگی بیمار در مرحله بعدی آنالیز واریانت‌های هوموزیگوت انتخاب شدند و به این ترتیب تعداد واریانت‌ها به 187 رسید. بعد از اعمال آستانه فراوانی جمعیتی 0/6% در پایگاه‌های داده genomad و exac تعداد واریانت‌های باقی‌مانده به ترتیب 110 و 3 واریانت شد. پاتوژن شناسایی شده نهایی با نتیجه‌ی توالی‌یابی سنگر که به منظور بررسی هم‌تفکیکی واریانت مورد نظر در خانواده انجام شده بود، همخوانی داشت. مدت زمان آنالیز توسط نرم‌افزار طراحی شده بر روی یک کامپیوتر شخصی متوسط 15 دقیقه بود.نتیجه‌گیری: نرم‌افزار طراحی شده کاملاً گرافیکی و بدون نیاز به کدنویسی است که علاوه بر قابلیت مقایسه و یکپارچه کردن فایل‌های ورودی، امکان ایجاد یک دیتابیس داخلی از فایل‌های آنالیز شده، امکان اعمال محدودیت ناحیه آنالیز و آستانه‌گذاری بر فیلدهای مختلف پایگاه‌های داده‌ انتخابی توسط کاربر را دارد.
کلیدواژه	نسل نوین توالی‌یابی، حاشیه‌نویسی، تعیین اثر واریانت، فیلترینگ واریانت‌ها
آدرس	دانشگاه علوم پزشکی اصفهان, دانشکده فناوری‌های نوین پزشکی, گروه بیوانفورماتیک, ایران, دانشگاه علوم پزشکی اصفهان, دانشکده پزشکی, گروه ژنتیک و بیولوژی مولکولی, ایران, دانشگاه علوم پزشکی اصفهان, دانشکده پزشکی, گروه ژنتیک و بیولوژی مولکولی, ایران, دانشگاه علوم پزشکی اصفهان, دانشکده فناوری‌های نوین پزشکی, گروه بیوانفورماتیک, ایران
پست الکترونیکی	mr.sehhati@amt.mui.ac.ir

Implementation and Optimization of Annotation and Interpretation Step of Next-Generation Sequencing Data for Non-Syndromic Autosomal Recessive Hearing Loss

Authors	Shahhoseini Mehdi ,Molavi Newsha ,Tabatabaiefar Mohammad Amin ,Sehhati Mohammadreza
Abstract	Introduction: The precision and time required for analysis of data in nextgeneration sequencing (NGS) depends on many factors including the tools utilized for alignment, variant calling, annotation and filtering of variants, personnel expertise in data analysis and interpretation, and computational capacity of the lab and its optimization is a challenging task. Method: An application software was designed and implemented in C# for optimizing the third step of NGS data analysis. In this study, annotation, filtering, and interpretation of NGS data were specifically optimized for nonsyndromic autosomal recessive hearing loss disease.Results: Wholeexome sequencing data of a patient with a pathogenic mutation confirmed by familial genetic analysis, which contained a total number of 671829 variants after primary analysis, were evaluated by the implemented software. After filtering the variants based on a predefined BED file, 508 variants remained. According to the patient rsquo;s pedigree, in the next step of analysis, homozygote variants were selected and only 187 variants remained. After applying the population frequency threshold of 0.6% on gnomeAD and ExAC databases, the number of variants reached 110 and 3, respectively. The identified pathogen was approved by the results of Sanger sequencing done for family cosegregation. This analysis took about 15 minutes on a moderate PC.Conclusion: The designed software is a fully graphical one that has the capability of comparing, viewing, filtering, and merging input files without any coding. Moreover, it can construct a local database from the analyzed files and apply region constraints and userdefined thresholds on various fields of the database.
Keywords	Next-Generation Sequencing ,Annotation ,Variant Effect ,Variant Filtering