|
|
استفاده از یادگیری بانظارت برای شناسایی هرزنظر در زبان فارسی
|
|
|
DOR
|
20.1001.2.9919046224.1399.6.1.7.2
|
نویسنده
|
جمشیدی نژاد سپیده ,احمدی آبکناری فاطمه ,بیات پیمان
|
منبع
|
وب پژوهي - 1399 - دوره : 6 - ششمين کنفرانس بين المللي وب پژوهي - کد همایش: 99190-46224
|
|
|
چکیده
|
با توجه به استفاده روزافزون از نظرات درجشده کاربران در حوزههای مختلف در شبکههای اجتماعی و ارزشمند بودن این نظرات، صحت آنها بسیار مهم است اما افراد ناشناس بیانکننده نظر ممکن است با اهداف مخرب، نظرات جعلی و هرز را برای ترویج یا بیاعتبارکردن محصولات، خدمات، سازمانها یا افراد، بیان نمایند. از آنجا که شناسایی هرزنظر تنها با خواندن، دشوار و حتی غیرممکن است یافتن دادههایی برای طراحی و ارزیابی الگوریتمهای شناسایی هرزنظر نیز دشوار خواهد بود. با توجه به چالش مطرحشده، مقاله حاضر با نوآوری در ترکیب محتوای نظر، فراداده و اطلاعات موجودیت، مجموعهای از ویژگیهای دادهای را تولید میکند و برای اولین بار در سطح سند و جمله، هرزنظر را در زبان فارسی تشخیص میدهد. سپس شناسایی هرزنظر به عنوان یک مساله دستهبندی، با دو دسته جعلی و غیرجعلی معرفی و با شش روش یادگیری بانظارت، مدلسازی میشود. برای ارزیابی نتایج، ضمن محاسبه پارامترهای دقت، فراخوانی و صحت، ماتریس آشفتگی شش روش مدلسازی نیز ساخته شد و با مقایسه پارامترها، دستهبند جنگل تصادفی با 98.65%، 97.27% و 99.09% به ترتیب برای دقت، فراخوانی و صحت، به عنوان بهترین و دقیقترین دستهبند در شناسایی هرزنظر معرفی شد.
|
کلیدواژه
|
شناسایی هرزنظر ,یادگیری بانظارت ,مدلسازی هرزنظر ,نظرات فارسی.
|
آدرس
|
دانشگاه آزاد اسلامی واحد رشت, ایران, دانشگاه آزاد اسلامی واحد رشت, ایران, دانشگاه آزاد اسلامی واحد رشت, ایران
|
پست الکترونیکی
|
bayat@iaurasht.ac.ir
|
|
|
|
|
|
|
|
|
Using Supervised Learning to Identify Opinion Spam in Persian Language
|
|
|
Authors
|
|
Abstract
|
Due to the increasing use of users' opinions in various domains on social networks and the importance of these opinions, their accuracy is very important, but unknown persons may use fake comments to promote or discredit products, services, Organizations or peoples. Since it is difficult and even impossible to identify only on through read, find data will be difficult to design and evaluate the algorithms for the identification of opinion spam too. Due to the challenge explained, the present paper, by innovating in the combination of opinion content, metadata and entity information, generates a set of data features and for the first time at the document and sentence level, recognizes opinion spam in Persian. In the following, the identification of opinion spam as a classification problem is introduced with two fake and non-fake categories and is modeled with six supervised learning methods. To evaluate the results, the Confusion matrix of each method is constructed and after calculating the precision, recall and accuracy and comparing the values, the best and most accurate classification will be introduced in identifying opinion spam.
|
Keywords
|
Identify Opinion Spam ,Supervised Learning ,Modeling Opinion Spam ,Opinion Persian.
|
|
|
|
|
|
|
|
|
|
|