|
|
بررسی انواع روشهای تشخیص موضوع از دادههای متنی
|
|
|
DOR
|
20.1001.2.0020135610.1400.4.1.83.6
|
نویسنده
|
نظری محمد ,رحمانی حسین
|
منبع
|
همايش ملي فناوريهاي نوين در مهندسي برق، مكانيك و كامپيوتر ايران - 1400 - دوره : 4 - چهارمین همایش ملی فناوریهای نوین در مهندسی برق، مکانیک و کامپیوتر ایران - کد همایش: 00201-35610
|
چکیده
|
امروزه، با توسعه سریع فناوری اطلاعات و استفاده گسترده از آن، اینترنت به عنوان یک حامل اطلاعات، به تدریج جایگزین رسانههای سنتی مانند روزنامه و تلویزیون شدهاست. دادههای تولیدشده در اینترنت توسط افراد بهصورت نمایی در حال افزایش است. در مواجهه با این حجم از دادهها که بخش قابل توجهی از آن را دادههای متنی تشکیل میدهند، پردازش و چگونگی استخراج اطلاعات به یک نگرانی عمومی تبدیل شدهاست. تشخیص موضوع متون میتواند راهی برای درک و مدیریت کلاندادههای انباشتهشده در اختیار ما قرار دهد. تشخیص موضوع، فرایند گشتوگذار کاربر را نیز در این فضای پیچیده، راحتتر میکند. بنابراین یکی از چالشهای موجود در فضای کلانداده طبقهبندی موضوعی دادههای متنی است. فرایند تشخیص موضوع، بر کشف موضوعاتی که مجموعهای از اسناد به آنها پرداختهاند متمرکز شده است، بهطوریکه از موضوعات تعریفشده انتظار میرود که از نظر موضوعی مشابه، منسجم و خودمحور باشند. فرایند تشخیص موضوع بهصورت دستی، امری زمانبر و خسته کننده است و با توجه به افزایش حجم و تنوع اسناد بدون برچسب در اینترنت، به امری غیرممکن برای انسان تبدیل شدهاست. بنابراین، فرایند تشخیص موضوع از متن به صورت خودکار و کارآمد به امری مهم و حیاتی در دنیای اینترنت تبدیل شده است. برای تشخیص موضوع اسناد روشهای زیادی معرفی شدهاند و مطالعات زیادی در این زمینه وجود دارد، بنابراین ما در این مقاله میخواهیم بعد از معرفی یک چهارچوب مناسب برای تشخیص موضوع اسناد، به بررسی انواع روشهای تشخیص موضوع بپردازیم. ما مطالعات انجام شده را بر اساس روش کارکرد دستهبندی کردیم و سپس مزایا و معایب هر دسته را مورد بررسی قرار دادیم.
|
کلیدواژه
|
متنکاوی ,پردازش زبان طبیعی ,تشخیص موضوع ,کشف موضوع ,مدلسازی موضوعی
|
آدرس
|
دانشگاه علم و صنعت ایران, ایران, دانشگاه علم و صنعت ایران, ایران
|
پست الکترونیکی
|
h_rahmani@iust.ac.ir
|
|
|
|
|
|
|
|
|
survey of topic detection methods from textual data
|
|
|
Authors
|
|
Abstract
|
Today, with the rapid development and widespread use of information technology, the Internet as an information carrier has gradually replaced traditional media such as newspapers and television. The data generated by individuals on the Internet is increasing exponentially. In the face of this volume of data, a significant portion of which is textual data, processing and how information is extracted has become a public concern. the topic detection can provide us with a way to understand and manage the big data we have accumulated. topic detection also makes the user's browsing process easier in this complex space. Therefore, one of the challenges in the big data space is the topic classification of textual data. The topic detection process focuses on discovering the topics covered by a set of documents so that the defined topics are expected to be similarly coherent and self-centered. The process of manually identifying topics is time-consuming and tedious and has become impossible for humans due to the increasing volume and variety of unlabeled documents on the Internet. ?Therefore, the process of recognizing the subject from the text automatically and efficiently has become an important and vital thing in the world of the Internet. Many methods have been introduced to identify topics of documents and there are many studies in this field, so in this paper, after introducing a suitable framework for detecting topics of documents, we want to survey the various methods of topic detection. We categorized the studies and then examined the advantages and disadvantages of each category.
|
Keywords
|
متنکاوی ,پردازش زبان طبیعی ,تشخیص موضوع ,کشف موضوع ,مدلسازی موضوعی
|
|
|
|
|
|
|
|
|
|
|