|
|
ارزیابی میزان تطابق راهکارهای مدلسازی موضوعی بر پایگاههای داده تحت وب گرافمحور متنکوتاه پویا
|
|
|
DOR
|
20.1001.2.0020193782.1400.1.1.17.5
|
نویسنده
|
طاهرپرور محدثه ,احمدی آبکناری فاطمه ,بیات پیمان
|
منبع
|
وب پژوهي - 1400 - دوره : 7 - هفتمین کنفرانس بین المللی وب پژوهی - کد همایش: 00201-93782
|
چکیده
|
مدلسازی موضوعی یک ابزار تحلیلی محبوب برای استخراج موضوع از دادههای متنی و خوشه بندی داده های پیکره های متنی است. روش های زیادی برای مدلسازی موضوعی وجود دارد که انواع روابط و محدودیت ها را در انواع مجموعه دادهها در نظر میگیرند. بسیاری از پژوهشگران به روش مدلسازی تحلیل پنهان دریکله به دلیل انعطافپذیری و سازگاری آن علاقهمند هستند. اما انتخاب این روش در خصوص مجموعه دادههای پیچیده و خاص با چالش های بسیار همراه است. نظر به گسترش شبکه های اجتماعی و وجود پایگاه های داده پویا و متن کوتاه، بررسی امکان پذیر بودن استفاده از بهترین روش مدل سازی موضوعی بر اساس معیارهای ارزیابی همچون انسجام موضوع، زمان اجرای مدل، انحصارطلبی و میزان حیرت مدل هدف پژوهش حاضر است. در این مقاله، رویکردیهای مختلفی از روش های مدلسازی موضوعی در خصوص مجموعه داده متنی کوتاه پویا مورد تجزیه و تحلیل قرار گرفته است. مجموعه داده متن کوتاه پویا میتواند کاربردهای متنوعی داشته باشد به عنوان مثال، مجموعه دادههای مربوط به موضوع مقالات، مجموعه دادههای گردآوری شده از رسانههای اجتماعی، مجموعه دادههای نظرات کاربران در خصوص محصول جدید ارائه شده توسط یک شرکت تجاری و موارد دیگر. با توجه به گراف محور بودن پایگاه داده مورد استفاده در این پژوهش، موضوع بدست آمده از خروجی اعمال روش های مدلسازی موضوعی، کمک شایانی در مساله چالش برانگیز تشخیص جوامع در حوزه تحلیل گراف می کند. تشخیص مناسب جوامع میتواند در یافتن گرههای تاثیرگذار مناسب در بازاریابی ویروسی موثر باشد. نتایج بدست آمده از بررسی انواع روش های مدل سازی موضوعی بر پایگاه داده dblp و نوع گره موضوع مقاله و ارزیابی نتایج با معیارهای ارزیابی موضوعی نشان از پایداری و تطابق روش بایترم بر روی این پایگاه داده دارد.
|
کلیدواژه
|
تحلیل محتوا ,تشخیص جامعه ,مدل سازی موضوعی ,متن کاوی ,یادگیری ماشینی
|
آدرس
|
دانشگاه آزاد اسلامی واحد رشت, ایران, دانشگاه پیام نور مرکز رشت, ایران, دانشگاه آزاد اسلامی واحد رشت, ایران
|
پست الکترونیکی
|
bayat@iaurasht.ac.ir
|
|
|
|
|
|
|
|
|
Conformance Evaluation of Topic Modeling Approaches on Web-Based Short Text Dynamic Graph Databases
|
|
|
Authors
|
|
Abstract
|
Topic modeling is a popular analytical approach for extracting topics from textual data and clustering them. There are many methods for topic modeling that consider the types of relationships and constraints for different types of datasets. Many researchers have been interested in Dirichlet's Latent Analysis (LDA) modeling method because of its flexibility and compatibility. But choosing this method on complex and dynamic datasets brings many challenges. Due to the rapid development of social networks and the existence of dynamic and short text databases, the aim of this research is to investigate the feasibility of using the best topic modeling appeoach based on evaluation criteria such as topic coherence, runtime, exclusivity and perplexity. In this paper, various approaches for topic modeling on dynamic short text datasets are analyzed. Such datasets can have a variety of applications. Article-related datasets, social media datasets and user feedback databases about a product offered by a business are among them. Due to the graph-based nature of the dataset used in this study (DBLP dataset), the results obtained from our experiments, helps a lot in the challenging problem of identifying communities in the field of graph analysis. Proper identification of communities can be effective in finding appropriate influential nodes in research areas based on customer based graph analysis such as viral marketing. The results of employing various topic modeling methods on the DBLP database and the node type of article title and the evaluation of the results with the mentioned topic evaluation criteria show the stability and compatibility of the Biterm method on this database.
|
Keywords
|
تحلیل محتوا ,تشخیص جامعه ,مدل سازی موضوعی ,متن کاوی ,یادگیری ماشینی
|
|
|
|
|
|
|
|
|
|
|