|
|
بهکارگیری روش های داده افزایی برای تحلیل احساسات کاربران درباره بازگشایی مدارس در دوران همهگیری کووید-19
|
|
|
|
|
نویسنده
|
میر مرضیه ,نوفرستی سمیرا
|
منبع
|
پردازش علائم و داده ها - 1403 - شماره : 2 - صفحه:3 -14
|
چکیده
|
ازجمله روش های موفق برای تحلیل احساسات، روش های یادگیری باناظر است که با آموزش یک طبقهبند بر روی یک مجموعهداده آموزشی از نظرات دارای برچسب احساس، یک مدل پیش بینیکننده می سازند که قادر است، جملات جدید را طبقه بندی کند. در زبان فارسی، نبود دادههای آموزشیِ کافی و دقت کم ابزارهای پردازش زبان طبیعی، بهکارگیری الگوریتمهای باناظر و نیز استخراج ویژگیهای باکیفیت را با چالش جدی روبهرو ساختهاست. هدف مقاله حاضر به کارگیری روشهای یادگیری ماشین باناظر برای طبقه بندی نظرات مطرحشده توسط کاربران فارسی زبان در رسانههای اجتماعی درباره بازگشایی مدارس در دوران همهگیری کووید-19 است. برای غلبه بر مشکل کمبود داده های آموزشی یک روش ترکیبی برای دادهافزایی پیشنهاد شدهاست که اندازه مجموعه آموزش را حدود 97درصد افزایش می دهد. نتایج آزمایشهای انجامگرفته نشان میدهد که با اعمال روش پیشنهادی برای دادهافزایی و بهکارگیری ویژگیهای انتخابی در این مقاله، بهترتیب دقت 81 و 79درصد برای طبقهبندی نظرات با استفاده از الگوریتمهای ماشین بردار پشتیبان و شبکه عصبی پیچشی حاصل میشود.
|
کلیدواژه
|
تحلیل احساسات، نظرکاوی، یادگیری باناظر، یادگیری عمیق، دادهافزایی، کووید-19
|
آدرس
|
دانشگاه سیستان و بلوچستان, دانشکده مهندسی برق و کامپیوتر, گروه فناوری اطلاعات, ایران, دانشگاه سیستان و بلوچستان, دانشکده مهندسی برق و کامپیوتر, گروه فناوری اطلاعات, ایران
|
پست الکترونیکی
|
snoferesti@ece.usb.ac.ir
|
|
|
|
|
|
|
|
|
using data augmentation techniques for sentiment analysis of users’ opinions on reopening of schools during the covid-19 epidemic
|
|
|
Authors
|
mir marziye ,noferesti samira
|
Abstract
|
sentiment analysis, also called opinion mining, is one of the sub-areas of natural language processing that aims to classify texts according to the sentiments, beliefs and attitudes expressed in them. in the most current research, texts are divided into two positive and negative categories. however, there are also other categories such as good/bad and agree/disagree, every one of which has its applications. the purpose of this paper is to analyze the opinions expressed by users on social media about the reopening of schools during the covid-19 outbreak using supervised machine learning techniques, and to classify them into two agree and disagree categories. users’ opinions, in this paper, are in persian. the lack of sufficient datasets and also the low accuracy of natural language processing tools are the most important problems of text processing in persian. due to the mentioned limitations, the use of supervised machine learning algorithms and also the extraction of effective features for training machine learning classifiers in persian are facing a serious challenge. in this paper, first, a small dataset of the users’ opinions about the reopening of schools was collected and manually labeled. then, a combined method was used for data augmentation of the dataset. in the proposed method, first, persian sentences were translated into english. then nouns, verbs and adjectives of the english sentences were replaced with their synonyms. next, the english sentences were translated into persian again. the new sentence with the class label of the initial sentence was added to the training set. thus, the size of the training set increased by 97 percent. after that, the efficiency of employing the common pre-processing steps and using common feature sets in sentiment analysis of the english texts for persian were evaluated and the best of them were selected. considering the low accuracy of the persian natural language processing tools, it was tried to select those features that were less dependent on the tools. finally, machine learning classification was used to determine agree/disagree class of the user opinions of the test sets. the results of the experiments indicated that by applying the proposed method for data augmentation and using selected features in this paper, 81 and 79 percent precision was obtained for the polarity classification of opinions using svm and cnn algorithms, respectively.
|
Keywords
|
sentiment analysis ,opinion mining ,supervised learning ,deep learning ,data augmentation ,covid-19
|
|
|
|
|
|
|
|
|
|
|