>
Fa   |   Ar   |   En
   مدل‌سازی شباهت بیمار با استفاده از بازنمایی هوشمند خلاصه پرونده برای پیش‌بینی تشخیص نهایی  
   
نویسنده معمارزاده هدی ,قدیری ناصر ,لطفی شهرضا مریم
منبع مديريت اطلاعات سلامت - 1402 - دوره : 20 - شماره : 2 - صفحه:65 -71
چکیده    مقدمه: داده های متنی ثبت شده در پرونده الکترونیک سلامت electronic health record (ehr) در بردارنده اطلاعات مهمی از شرح حال بیمار و مسیر درمانی اوست ولی به دلیل آنکه بدون ساختار ذخیره میشود نمیتواند به صورت مستقیم در الگوریتم های تحلیل داده مورد استفاده قرار گیرد. یکی از راه های ساختارمند کردن داده های متنی تولید بردار بازنمایی از آن هاست. این مطالعه چهارچوبی به منظور تولید بردار بازنمایی از متن های خلاصه پرونده ارائه داده است. روش بررسی: در این مطالعه پیمایشی از بازنمایی متن خلاصه پرونده بیماران برای تولید بردار متناظر با هر متن استفاده شده است. برای بازنمایی از مدل های زبانی که از آخرینروش های پردازش متن هستند استفاده شده است. مجموعه داده شامل متن خلاصه پرونده بیش از 26000٫ بیمار از پایگاه داده medical information mart for intensive care iii (mimic-iii) است. برای تحلیل کیفیت بردارهای بازنمایی از مسئله پیشبینی تشخیص استفاده شده و معیارهای ارزیابی برای هر مدل زبانی گزارش شده است. یافته ها: از بین مدل های زبانی استفاده شده در طراحی بهترین مدل بازنمایی برای متن خلاصه پرونده مدل bio-bert و سپس مدل scibert است که به ترتیب نتایج 0/715 و 0/713 را برای معیار ارزیابی roc_auc تولید کرده اند. این معیار ارزیابی برای بررسی کیفیت مدل های پیشبینی استفاده میشود. استفاده از پیش پردازش متن بالینی و نگاشت موجودیت های بالینی به اسامی استاندارد آنها در پایگاه دانش the unified medical language system - umls معیارهای ارزیابی برای مدل های زبانی خاص حوزه زیست پزشکی بهبود یافته است و بیشترین بهبود مربوط به مدل umlsbert است که روی اسامی استاندارد پایگاه دانش آموزش دیده است. نتیجه گیری: بر اساس یافته های این مطالعه مدل های زبانی bio-bert و scibert که روی داده های مقالات بالینی آموزش دیده اند به عنوان بهترین گزینه برای بازنمایی اطلاعات نهفته متن خلاصه پرونده به بردارها پیشنهاد میشوند. با این وجود به دلیل آنکه متن خلاصه پرونده از نظر ساختار و محتوا با متن مقالات علمی متفاوت است، پیش پردازش متن های بالینی به منظور شناسایی موجودیت ها و نگاشت آنها به منابع دانش برای استفاده از اسامی استاندارد مفاهیم بالینی باعث بهبود نتایج به دست آمده در مدل های زبانی میگردد.
کلیدواژه پردازش متن بالینی، انفورماتیک پزشکی، مدل های زبانی
آدرس دانشگاه صنعتی اصفهاناصفهان, دانشکده برق و کامپیوتر, گروه نرم افزار, ایران, دانشگاه صنعتی اصفهان, دانشکده برق و کامپیوتر, گروه نرم افزار, ایران, دانشگاه اصفهان، پردیس شهررضا, گروه مهندس کامپیوتر, ایران
پست الکترونیکی m.lotfi@shr.ui.ac.ir
 
   patient similarity model using discharge sheet representation and final diagnosis prediction  
   
Authors memarzadeh hoda ,ghadiri nasser ,lotfi shahreza maryam
Abstract    introduction: the clinical trials recorded in the electronic health record (ehr) contains important information about the patient's history and the treatments performed. since clinical notes are stored unstructured, they cannot be applied directly in machine learning algorithms. one way to structure textual data is to represent them as vectors. methods: in this research, the discharge sheets are used to generate the vector corresponding for each patient. language models are used to represent the latest text processing methods. the dataset contains the discharge sheets of more than 26,000 patient records from the medical information mart for intensive care iii (mimic-iii) database. to analyze the quality of representation framework, the diagnosis prediction downstream task is used and the evaluation criteria are reported for each language model. results: among the llms used in the framework, the best one for the discharge sheets is the bio-bert model and then the scibert model, which produced the roc_auc 0.715 and 0.713 respectively. this evaluation criterion is used to check the quality of forecasting models. the use of clinical text preprocessing and mapping of clinical entities to their standard names in the umls knowledge base has improved the evaluation criteria for specific language models in the biomedical field, and the greatest improvement is related to the umlsbert model, which is trained on the standard names of the knowledge base. conclusion: bio-bert and scibert language models that trained on the data of clinical papers are suggested as the best option for representing the discharge sheet to vectors. however, since the for discharge sheets are different from the scientific paper in terms of structure and content, the preprocessing of clinical trials in order to identify entities and map them to knowledge sources to fetch the standard names of clinical concepts improves the results obtained in clinical llms. keywords: natural language processing; health informatics; large language model.
Keywords natural language processing; health informatics; large language model
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved