|
|
تحلیل آماری اخبار جعلی فارسی مربوط به کوید-19
|
|
|
|
|
نویسنده
|
قیومی مسعود
|
منبع
|
زبان شناسي اجتماعي - 1401 - دوره : 5 - شماره : 4 - صفحه:35 -52
|
چکیده
|
در این پژوهش تلاش میشود با استفاده از تحلیل آماری، ویژگیهای اخبار جعلی فارسی مربوط به کوید-19 بررسی گردد. برای این هدف، ابتدا یک پیکرۀ زبانی که حاوی اخبار موثّق و جعلی در حوزۀ کرونا است تهیه میشود. سپس الگوهای زبانی این دو دستۀ داده و همچنین دو تحلیل آماری مقدار اطلاعات و خوانایی اخبار موثّق و جعلی مورد بررسی قرار گرفته و با یکدیگر مقایسه میشود. براساس اطلاعات استخراجشده و نتایج عملی بهدستآمده از پیکرۀ خبرهای جعلی، الگوهای زبانی مشترک بین این دو دستۀ داده وجود دارد. همچنین، مقدار اطلاعات در اخبار موثّق براساس دو معیار آنتروپی و شگفتی بیشتر از اخبار جعلی است. سطح خوانایی خبرهای جعلی با استفاده از تساویهای اندازهگیری خوانایی متن مورد ارزیابی قرار گرفتهاست و این نتیجه بهدست آمده است که اخبار جعلی در مقایسه با اخبار موثّق عمدتاً ساده بوده و دشوار نیست. در فرایند برچسبگذاری خودکار خبرهای موثّق و جعلی براساس سطح دشواری حجم زیادی از اخبار جعلی ساده تشخیص داده شدهاست و تعداد کمی از اخبار موثّق با سطح زبانی دشوار بود. علاوهبر این دستاورد و بررسی آماری ویژگیهای زبانی براساس میزان اطلاعات و خوانایی اخبار جعلی، جنبۀ کاربردی این اطلاعات آماری جهت تشخیص خبر جعلی با استفاده از روشهای یادگیری ماشینی مورد مطالعه قرار گرفت.
|
کلیدواژه
|
زبان رسانه، اخبار جعلی فارسی، کوید-19، نظریه اطّلاعات، آنتروپی، شگفتی، خوانایی
|
آدرس
|
پژوهشگاه علوم انسانی و مطالعات فرهنگی, ایران
|
پست الکترونیکی
|
m.ghayoomi@ihcs.ac.ir
|
|
|
|
|
|
|
|
|
a statistical analysis of persian fake news on covid-19
|
|
|
Authors
|
ghayoomi masood
|
Abstract
|
in this research, an attempt is made to investigate the characteristics of persian fake news related to covid-19 by using statistical analysis. to this end, first, a language corpus containing reliable and fake news in persian in the field of corona is prepared. then, the language patterns of these two data sets, as well as two statistical analyzes of the amount of information and the readability of reliable and fake news, are examined and compared with each other. according to the exteracted information and the experimental results achieved from the developed corpus on covid-19 fake news, there are common language patterns in these two datasets. moreover, the amount of information in reliable news is more than fake news based on two measures of entropy and surprise. based on the results, the readability level of the fake news is measured based on the readability formulas. according to the results, the text of fake news is simpler than real news. in the process of automatic labeling of reliable and fake news based on the level of difficulty, most news is recognized as simple texts. the results show that fake news is mostly simple and not difficult compared to reliable news. in addition to this achievement, to study linguistic properties of fake news statistically based on the information amount and readability, the applicablity of this statistical information was studied to detect fake news using machine learning methods.
|
Keywords
|
media language ,persian fake news ,covid-19 ,information theory ,entropy ,surprisal ,readability.
|
|
|
|
|
|
|
|
|
|
|