استفاده از یادگیری بانظارت برای شناسایی هرزنظر در زبان فارسی

Fa | Ar | En

استفاده از یادگیری بانظارت برای شناسایی هرزنظر در زبان فارسی

DOR	20.1001.2.9919046224.1399.6.1.7.2
نویسنده	جمشیدی نژاد سپیده ,احمدی آبکناری فاطمه ,بیات پیمان
منبع	وب پژوهي - 1399 - دوره : 6 - ششمين کنفرانس بين المللي وب پژوهي - کد همایش: 99190-46224
چکیده	با توجه به استفاده روزافزون از نظرات درج‌شده کاربران در حوزه‌های مختلف در شبکه‌های اجتماعی و ارزشمند بودن این نظرات، صحت آنها بسیار مهم است اما افراد ناشناس بیان‌کننده نظر ممکن است با اهداف مخرب، نظرات جعلی و هرز را برای ترویج یا بی‌اعتبارکردن محصولات، خدمات، سازمان‌ها یا افراد، بیان نمایند. از آنجا که شناسایی هرزنظر تنها با خواندن، دشوار و حتی غیرممکن است یافتن داده‌هایی برای طراحی و ارزیابی الگوریتم‌های شناسایی هرزنظر نیز دشوار خواهد بود. با توجه به چالش مطرح‌شده، مقاله حاضر با نوآوری در ترکیب محتوای نظر، فراداده و اطلاعات موجودیت، مجموعه‌ای از ویژگی‌های داده‌ای را تولید می‌کند و برای اولین بار در سطح سند و جمله، هرزنظر را در زبان فارسی تشخیص می‌دهد. سپس شناسایی هرزنظر به عنوان یک مساله دسته‌بندی، با دو دسته جعلی و غیرجعلی معرفی و با شش روش یادگیری بانظارت، مدلسازی می‌شود. برای ارزیابی نتایج، ضمن محاسبه پارامترهای دقت، فراخوانی و صحت، ماتریس آشفتگی شش روش مدلسازی نیز ساخته شد و با مقایسه پارامترها، دسته‌بند جنگل تصادفی با 98.65%، 97.27% و 99.09% به ترتیب برای دقت، فراخوانی و صحت، به عنوان بهترین و دقیق‌‌ترین دسته‌بند در شناسایی هرزنظر معرفی شد.
کلیدواژه	شناسایی هرزنظر ,یادگیری بانظارت ,مدلسازی هرزنظر ,نظرات فارسی.
آدرس	دانشگاه آزاد اسلامی واحد رشت, ایران, دانشگاه آزاد اسلامی واحد رشت, ایران, دانشگاه آزاد اسلامی واحد رشت, ایران
پست الکترونیکی	bayat@iaurasht.ac.ir

Using Supervised Learning to Identify Opinion Spam in Persian Language

Authors
Abstract	Due to the increasing use of users' opinions in various domains on social networks and the importance of these opinions, their accuracy is very important, but unknown persons may use fake comments to promote or discredit products, services, Organizations or peoples. Since it is difficult and even impossible to identify only on through read, find data will be difficult to design and evaluate the algorithms for the identification of opinion spam too. Due to the challenge explained, the present paper, by innovating in the combination of opinion content, metadata and entity information, generates a set of data features and for the first time at the document and sentence level, recognizes opinion spam in Persian. In the following, the identification of opinion spam as a classification problem is introduced with two fake and non-fake categories and is modeled with six supervised learning methods. To evaluate the results, the Confusion matrix of each method is constructed and after calculating the precision, recall and accuracy and comparing the values, the best and most accurate classification will be introduced in identifying opinion spam.
Keywords	Identify Opinion Spam ,Supervised Learning ,Modeling Opinion Spam ,Opinion Persian.