|
|
ارائه یک روش خوشهبندی گراف-محور جهت شناسایی جمعیتهای سلولی در دادههای توالییابی rna سلول-منفرد
|
|
|
|
|
نویسنده
|
عینی پور امین ,مصلح محمد ,انصاری اصل کریم
|
منبع
|
انفورماتيك سلامت و زيست پزشكي - 1399 - دوره : 7 - شماره : 1 - صفحه:60 -72
|
چکیده
|
مقدمه: استفاده از فناوری »توالی یابی rna سلولمنفرد « باعث شناخت بهتر ساختارهای سلولی شده و دادههای با وضوح بسیار بالایی از بیان ژنهای مختلف هر سلول را در یک زمان واحد ارائه میدهد. یکی از زمینه های پرکاربرد در این حوزه، خوشه بندی داده ها بر اساس ژنهای بیان شده است که بعضاً منتج به شناسایی جمعیت های سلولی جدید می گردد. عملکرد روش های پیشنهادی عمدتاً به شکل جمعیت ها و ابعاد داده ها بستگی دارد؛ لذا توسعه یک روش که بتواند فارغ از این موانع به شناسایی جمعیت های سلولی بپردازد، بسیار مهم است. روش: در روش پیشنهادی که یک روش کتابخانه ای بود، ابتدا تعداد جمعیتهای سلولی تخمین زده شد. این تخمین از آن جهت اهمیت دارد که در دنیای واقعی، اطلاعات اولیه مثل تعداد و نوع جمعیتهای سلولی در دسترس نیست. سپس با استفاده از یک کرنل گاوسی مبتنی بر گراف، ضمن کاهش ابعاد مسئله، اقدام به شناسایی جمعیتهای سلولی با روش خوشهبندی kmeans++ شد.نتایج: نتایج پیادهسازی نشان داد که روش پیشنهادی میتواند نسبت به سایر روشهای یادگیری ماشین ارائه شده در این زمینه، بهبود قابل قبولی را حاصل کند. به عنوان مثال برای معیار ari، مقادیر 100، 93/47 و 84/69 به ترتیب برای مجموعه دادههای سلولمنفرد kolod، buettner و usoskin حاصل شد.نتیجه گیری: روش پیشنهادی بدون هیچ اطلاعات اولیه در مورد تعداد و نوع جمعیتهای سلولی و فارغ از ابعاد بالای مسئله، می تواند اقدام به خوشهبندی و در نتیجه شناسایی جمعیتهای سلولی با دقت و کیفیت بالایی نماید.
|
کلیدواژه
|
توالییابی rna سلول-منفرد، خوشهبندی، شناسایی جمعیتهای سلولی، کرنل گاوسی مبتنی بر گراف
|
آدرس
|
دانشگاه آزاد اسلامی واحد دزفول, گروه مهندسی کامپیوتر, ایران, دانشگاه آزاد اسلامی واحد دزفول, گروه مهندسی کامپیوتر, ایران, دانشگاه شهید چمران اهواز, دانشکده مهندسی, گروه مهندسی برق, ایران
|
|
|
|
|
|
|
|
|
|
|
A Graph-Based Clustering Approach to Identify Cell Populations in Single-Cell RNA Sequencing Data
|
|
|
Authors
|
Einipour Amin ,Mosleh Mohammad ,Ansari-Asl Karim
|
Abstract
|
Introduction: The emergence of singlecell RNAsequencing (scRNAseq) technology has provided new information about the structure of cells, and provided data with very high resolution of the expression of different genes for each cell at a single time. One of the main uses of scRNAseq is data clustering based on expressed genes, which sometimes leads to the detection of rare cell populations. However, the results of the proposed methods mainly depend on the shape of the cell populations and the dimensions of the data. Therefore, it is very important to develop a method that can identify cell populations regardless of these obstacles.Method: In the proposed method, which was a library method, at first, the number of clusters (cell populations) was estimated. Estimating the number of clusters is important because in the real world, basic information such as the number and type of cell populations is not available. Thereafter, using a graphbased Gaussian kernel, while reducing the dimensions of the problem, the cell populations were identified by means of the kmeans++ clustering.Results: The results of the implementation showed that the proposed method can achieve an acceptable improvement compared to other machine learning methods presented in this regard. For example, for the ARI criterion, values of 100, 93.47 and 84.69 were obtained for Kolod, Buettner, and Usoskin singlecell data sets, respectively.Conclusion: The proposed method can cluster and thus identify cell populations with high accuracy and quality without having any basic information about the number and type of cell populations, regardless of the high dimensions of the problem.
|
Keywords
|
Single-cell RNA-sequencing ,Clustering ,Identification of Cell Populations ,Graph-based Gaussian Kernel
|
|
|
|
|
|
|
|
|
|
|