|
|
تشخیص جنسیت نویسندگان از روی متون با استفاده از جنگل تصادفی بیز
|
|
|
|
|
نویسنده
|
ساجدی هدیه ,تسلیمی مهناز
|
منبع
|
پردازش علائم و داده ها - 1398 - شماره : 1 - صفحه:143 -157
|
چکیده
|
امروزه استفاده زیاد کاربران از محیط های مجازی و ارتباط آنها از طریق شبکه های اجتماعی مانند فیسبوک و توییتر لزوم بررسی مطالب موجود را در فضای مجازی بیشتر از گذشته کرده است. از آنجا که بالاترین میزان تبادل اطلاعات در فضای مجازی از طریق متن صورت می گیرد؛ لذا تشخیص هویت کاربران از نظر سن، جنس، عقاید مذهبی و سیاسی از روی متن های اینترنت، پراهمیت خواهد بود. مساله تشخیص جنسیت در حوزه های امنیت و بازاریابی، می تواند موثر واقع شود. در مقاله حاضر به تشخیص جنسیت نویسندگان مطالب بلاگ ها پرداخته می شود و جهت تشخیص جنسیت نویسنده، ویژگی های نحوی، مبتنی بر واژه، مبتنی بر حروف و واژگان گرامری مورد استفاده قرار می گیرند. به علاوه نتایج نشان می دهد که استفاده از ویژگی های nگرمی حروف در بهبود عملکرد، بسیار موثر است. جهت انجام عمل دسته بندی روش جدیدی با عنوان جنگل تصادفی بیز ارائه می شود. نتایج آزمایش ها نشان می دهد که این روش در مقایسه با الگوریتم هایی مانند الگوریتم بیز ساده، درخت بیز ساده و جنگل تصادفی، نتایج بهتری ارائه داده و دقت دسته بندی را تا 89.5 % افزایش داده است.
|
کلیدواژه
|
تشخیص جنسیت نویسنده، جنگل تصادفی، درخت بیز ساده، متنکاوی، دستهبندی
|
آدرس
|
دانشگاه تهران، پردیس علوم, دانشکده ریاضی، آمار و علوم کامپیوتر, ایران, دانشگاه آزاد اسلامی واحد قزوین, دانشکده مهندسی برق و کامپیوتر, ایران
|
پست الکترونیکی
|
mahnaz_taslimi@yahoo.com
|
|
|
|
|
|
|
|
|
Author gender identification from text using Bayesian Random Forest
|
|
|
Authors
|
Sajedi Hedieh ,Taslimi Mahnaz
|
Abstract
|
Nowadays high usage of users from virtual environments and their connection via social networks like Facebook, Instagram, and Twitter shows the necessity of finding out shared subjects in this environment more than before. There are several applications that benefit from reliable methods for inferring age and gender of users in social media. Such applications exist across a wide area of fields, from personalized advertising to law enforcement of reputation management. Text posts represent a large portion of user generated content, and contain information which can be relevant to discovering undisclosed user attributes, or investigating the honesty of selfreported age and gender. Because the highest rate of information exchanges is in text format, author identification from the aspects like age, gender, political and religious opinions from these contents will seem more considerable. Gender identification that could be useful in security and marketing, also answers the following question: given a short text document, can we identify if the author is a male or a female? This question is motivated by recent events where people faked their gender on the Internet. In this paper, author gender identification in blog rsquo;s data is investigated. In this regard, four groups of features include syntactic features, wordbased features, characterbased features, and function words are employed. In addition, character ngram features is used for improving the accuracy of classification. For evaluation of the proposed method, 3212 texts were collected from Technorati.com and blogger.com. Experimental results demonstrate that these types of features are practical. furthermore, a new classification method called Bayesian Random Forest is introduced. Each tree in Bayesian Random Forest is a Bayes tree. The results of experiment show that this method attains noticeable results in comparison with other classification algorithms such as Na iuml;ve Bayes, Na iuml;ve Bayes Tree, and Random Forest and it increases accuracy of gender identification to 89.5%.
|
Keywords
|
Author gender identification ,Random Forest ,NBTree ,Text mining ,Classification
|
|
|
|
|
|
|
|
|
|
|