>
Fa   |   Ar   |   En
   مدل ‌سازی موضوعی متنی بر روی ریز نوشته‌های رسانه‌های اجتماعی فارسی  
   
نویسنده متقی ‌نیا زینب ,فیضی درخشی محمدرضا
منبع پژوهشهاي نظري و كاربردي هوش ماشيني - 1403 - دوره : 2 - شماره : 2 - صفحه:185 -201
چکیده    ظهور رسانه‌های اجتماعی فرصت‌های فزاینده‌ای برای اشتراک افکار کاربران فراهم می‌کنند. روزانه میلیاردها ریزنوشته در رسانه‌های اجتماعی تولید می‌شود که تحلیل آن‌ها در حوزه متن‌کاوی و تحلیل محتوا امری ضروری است. استخراج موضوعات دقیق از ریزنوشته‌ها در مقیاس بزرگ کاری مهم و چالش ‌برانگیز است. مطالعات اندکی در زمینه تشخیص موضوع در ریزنوشته‌های فارسی انجام‌ شده است و الگوریتم‌های موجود قابل‌توجه نیستند. ازاین‌رو بر آن شدیم در حوزه تشخیص موضوع در زبان فارسی به مطالعه بپردازیم. مدل‌سازی موضوعی از روش‌های تشخیص موضوع است که گروه‌هایی از کلمات را به‌عنوان موضوع از اسناد استخراج می‌کنند. اخیراَ مدل‌های موضوع عصبی بهبودهایی برای افزایش انسجام مدل‌سازی موضوعی نشان داده‌است. همچنین، تعبیه‌های متنی مدل‌‌های عصبی را ارتقا داده‌اند. بدین‌سبب، در این تحقیق دو مدل‌ موضوعی متنی ترکیبی و مدل موضوعی متنی zeroshot‌ برای استخراج موضوع در ریزنوشته‌های شبکه‌های اجتماعی فارسی ارائه شده‌است. این دو مدل بازنمایی‌ متنی از پیش آموزش‌دیده‌شده bert فارسی را در مدل‌های موضوع عصبی گنجانده‌اند. نتایج آزمایش‌ها نشان می‌دهد که این دو روش نسبت به روش‌های مورد مقایسه با بالاترین مقدار f1-measure‌، تنوع موضوع و امتیاز انسجام بالا بهترین عملکرد را از خود نشان می‌دهند. همچنین مدل موضوعی متنی zeroshot‌ نسبت به مدل موضوعی متنی ترکیبی نتایج بهتری از لحاظ معیارهای ارزیابی داشته ‌است.
کلیدواژه مدل ‌سازی موضوع، ریزنوشته، رسانه اجتماعی، تشخیص موضوع، تعبیه متن
آدرس دانشگاه تبریز, دانشکده مهندسی برق و کامپیوتر، آزمایشگاه سیستم های پردازش هوشمند رایانه ای, گروه مهندسی کامپیوتر, ایران, دانشگاه تبریز, دانشکده مهندسی برق و کامپیوتر، آزمایشگاه سیستم‌های پردازش هوشمند رایانه‌ای, گروه مهندسی کامپیوتر, ایران
پست الکترونیکی mfeizi@tabrizu.ac.ir
 
   contextual topic modeling of persian social media short texts  
   
Authors mottaghinia zeynab ,feizi-derakhshi mohammad-reza
Abstract    the emergence of social media creates opportunities for users to share their thoughts. billions of short texts are produced on social media daily, and their analysis in text mining and content analysis is essential. detecting topics from short texts on a large scale is an important and challenging task. few studies have been conducted on topic detection in persian short texts, and the existing algorithms are not remarkable. therefore, we decided to study the topic detection in persian. topic modeling is a topic detection technique that extracts groups of words as topics from documents. recently, neural topic models have shown improvements in increasing the coherence of topic modeling. also, text embeddings have enhanced neural models. for this reason, in this study, two combined topic models and the zeroshot topic model are presented for topic detection in persian social media short texts. these two models incorporate pre-trained bert text representation into neural topic models. the experimental results show that these two methods outperform the comparison methods with the highest f1-measure, topic diversity, and coherence score. also, the zeroshot topic model has better results in terms of evaluation metrics than the combined topic model.
Keywords topic modeling ,short text ,social media ,topic detection ,sentence embedding
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved