|
|
|
|
مدل سازی موضوعی متنی بر روی ریز نوشتههای رسانههای اجتماعی فارسی
|
|
|
|
|
|
|
|
نویسنده
|
متقی نیا زینب ,فیضی درخشی محمدرضا
|
|
منبع
|
پژوهشهاي نظري و كاربردي هوش ماشيني - 1403 - دوره : 2 - شماره : 2 - صفحه:185 -201
|
|
چکیده
|
ظهور رسانههای اجتماعی فرصتهای فزایندهای برای اشتراک افکار کاربران فراهم میکنند. روزانه میلیاردها ریزنوشته در رسانههای اجتماعی تولید میشود که تحلیل آنها در حوزه متنکاوی و تحلیل محتوا امری ضروری است. استخراج موضوعات دقیق از ریزنوشتهها در مقیاس بزرگ کاری مهم و چالش برانگیز است. مطالعات اندکی در زمینه تشخیص موضوع در ریزنوشتههای فارسی انجام شده است و الگوریتمهای موجود قابلتوجه نیستند. ازاینرو بر آن شدیم در حوزه تشخیص موضوع در زبان فارسی به مطالعه بپردازیم. مدلسازی موضوعی از روشهای تشخیص موضوع است که گروههایی از کلمات را بهعنوان موضوع از اسناد استخراج میکنند. اخیراَ مدلهای موضوع عصبی بهبودهایی برای افزایش انسجام مدلسازی موضوعی نشان دادهاست. همچنین، تعبیههای متنی مدلهای عصبی را ارتقا دادهاند. بدینسبب، در این تحقیق دو مدل موضوعی متنی ترکیبی و مدل موضوعی متنی zeroshot برای استخراج موضوع در ریزنوشتههای شبکههای اجتماعی فارسی ارائه شدهاست. این دو مدل بازنمایی متنی از پیش آموزشدیدهشده bert فارسی را در مدلهای موضوع عصبی گنجاندهاند. نتایج آزمایشها نشان میدهد که این دو روش نسبت به روشهای مورد مقایسه با بالاترین مقدار f1-measure، تنوع موضوع و امتیاز انسجام بالا بهترین عملکرد را از خود نشان میدهند. همچنین مدل موضوعی متنی zeroshot نسبت به مدل موضوعی متنی ترکیبی نتایج بهتری از لحاظ معیارهای ارزیابی داشته است.
|
|
کلیدواژه
|
مدل سازی موضوع، ریزنوشته، رسانه اجتماعی، تشخیص موضوع، تعبیه متن
|
|
آدرس
|
دانشگاه تبریز, دانشکده مهندسی برق و کامپیوتر، آزمایشگاه سیستم های پردازش هوشمند رایانه ای, گروه مهندسی کامپیوتر, ایران, دانشگاه تبریز, دانشکده مهندسی برق و کامپیوتر، آزمایشگاه سیستمهای پردازش هوشمند رایانهای, گروه مهندسی کامپیوتر, ایران
|
|
پست الکترونیکی
|
mfeizi@tabrizu.ac.ir
|
|
|
|
|
|
|
|
|
|
|
|
|
contextual topic modeling of persian social media short texts
|
|
|
|
|
Authors
|
mottaghinia zeynab ,feizi-derakhshi mohammad-reza
|
|
Abstract
|
the emergence of social media creates opportunities for users to share their thoughts. billions of short texts are produced on social media daily, and their analysis in text mining and content analysis is essential. detecting topics from short texts on a large scale is an important and challenging task. few studies have been conducted on topic detection in persian short texts, and the existing algorithms are not remarkable. therefore, we decided to study the topic detection in persian. topic modeling is a topic detection technique that extracts groups of words as topics from documents. recently, neural topic models have shown improvements in increasing the coherence of topic modeling. also, text embeddings have enhanced neural models. for this reason, in this study, two combined topic models and the zeroshot topic model are presented for topic detection in persian social media short texts. these two models incorporate pre-trained bert text representation into neural topic models. the experimental results show that these two methods outperform the comparison methods with the highest f1-measure, topic diversity, and coherence score. also, the zeroshot topic model has better results in terms of evaluation metrics than the combined topic model.
|
|
Keywords
|
topic modeling ,short text ,social media ,topic detection ,sentence embedding
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|