>
Fa   |   Ar   |   En
   بررسی انواع روش‌های تشخیص موضوع از داده‌های متنی  
   
DOR 20.1001.2.0020135610.1400.4.1.83.6
نویسنده نظری محمد ,رحمانی حسین
منبع همايش ملي فناوريهاي نوين در مهندسي برق، مكانيك و كامپيوتر ايران - 1400 - دوره : 4 - چهارمین همایش ملی فناوریهای نوین در مهندسی برق، مکانیک و کامپیوتر ایران - کد همایش: 00201-35610
چکیده    امروزه، با توسعه سریع فناوری اطلاعات و استفاده گسترده از آن، اینترنت به عنوان یک حامل اطلاعات، به تدریج جایگزین رسانه‌های سنتی مانند روزنامه و تلویزیون شده‌است. داده‌های تولید‌شده در اینترنت توسط افراد به‌صورت نمایی در حال افزایش است. در مواجهه با این حجم از داده‌ها که بخش قابل توجهی از آن را داده‌های متنی تشکیل می‌دهند، پردازش و چگونگی استخراج اطلاعات به یک نگرانی عمومی تبدیل شده‌است. تشخیص موضوع متون می‌تواند راهی برای درک و مدیریت کلان‌داده‌های انباشته‌شده در اختیار ما قرار دهد. تشخیص موضوع، فرایند گشت‌وگذار کاربر را نیز در این فضای پیچیده، راحت‌تر می‌کند. بنابراین یکی از چالش‌های موجود در فضای کلان‌داده طبقه‌بندی موضوعی داده‌های متنی است. فرایند تشخیص موضوع، بر کشف موضوعاتی که مجموعه‌ای از اسناد به آن‌ها پرداخته‌اند متمرکز شده است، به‌طوری‌که از موضوعات تعریف‌شده انتظار می‌رود که از نظر موضوعی مشابه، منسجم و خودمحور باشند. فرایند تشخیص موضوع به‌صورت دستی، امری زمان‌بر و خسته کننده است و با توجه به افزایش حجم و تنوع اسناد بدون برچسب در اینترنت، به امری غیرممکن برای انسان تبدیل شده‌است. بنابراین، فرایند تشخیص موضوع از متن به صورت خودکار و کارآمد به امری مهم و حیاتی در دنیای اینترنت تبدیل شده است. برای تشخیص موضوع اسناد روش‌های زیادی معرفی شده‌اند و مطالعات زیادی در این زمینه وجود دارد، بنابراین ما در این مقاله می‌خواهیم بعد از معرفی یک چهارچوب مناسب برای تشخیص موضوع اسناد، به بررسی انواع روش‌های تشخیص موضوع بپردازیم. ما مطالعات انجام شده را بر اساس روش کارکرد دسته‌بندی کردیم و سپس مزایا و معایب هر دسته را مورد بررسی قرار دادیم.
کلیدواژه متن‌کاوی ,پردازش زبان طبیعی ,تشخیص موضوع ,کشف موضوع ,مدل‌سازی موضوعی
آدرس دانشگاه علم و صنعت ایران, ایران, دانشگاه علم و صنعت ایران, ایران
پست الکترونیکی h_rahmani@iust.ac.ir
 
   survey of topic detection methods from textual data  
   
Authors
Abstract    Today, with the rapid development and widespread use of information technology, the Internet as an information carrier has gradually replaced traditional media such as newspapers and television. The data generated by individuals on the Internet is increasing exponentially. In the face of this volume of data, a significant portion of which is textual data, processing and how information is extracted has become a public concern. the topic detection can provide us with a way to understand and manage the big data we have accumulated. topic detection also makes the user's browsing process easier in this complex space. Therefore, one of the challenges in the big data space is the topic classification of textual data. The topic detection process focuses on discovering the topics covered by a set of documents so that the defined topics are expected to be similarly coherent and self-centered. The process of manually identifying topics is time-consuming and tedious and has become impossible for humans due to the increasing volume and variety of unlabeled documents on the Internet. ?Therefore, the process of recognizing the subject from the text automatically and efficiently has become an important and vital thing in the world of the Internet. Many methods have been introduced to identify topics of documents and there are many studies in this field, so in this paper, after introducing a suitable framework for detecting topics of documents, we want to survey the various methods of topic detection. We categorized the studies and then examined the advantages and disadvantages of each category.
Keywords متن‌کاوی ,پردازش زبان طبیعی ,تشخیص موضوع ,کشف موضوع ,مدل‌سازی موضوعی
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved