|
|
تشخیص خودکار جنسیت نویسنده در متون فارسی
|
|
|
|
|
نویسنده
|
مرادی مهدی ,بحرانی محمد
|
منبع
|
پردازش علائم و داده ها - 1394 - دوره : 12 - شماره : 4 - صفحه:83 -94
|
چکیده
|
با گسترش روز افزون استفاده از اینترنت، شاهد تبادل هزاران گیگابایت اطلاعات متنی در فضای مجازی هستیم. فضای سایبر این امکان را به اشخاص می دهد که هویت حقیقی خود را مخفی کنند و با هویت ساختگی جدیدی وارد آن شوند. از این رو اهمیت حفظ امنیت این فضا، کنترل بر محتوای تولید شده توسط کاربران و شناسایی مشخصات تولیدکنندگان محتوا هر روز پررنگتر می شود. موضوع مورد بررسی در این تحقیق که مربوط به حوزه شناسایی نویسنده می باشد، شناسایی خودکار جنسیت نویسنده متن فارسی است. به منظور شناسایی جنسیت، با توجه به مطالعات زبانروانشناختی صورت گرفته، 48 ویژگی روان شناختی و سبک شناسی تعریف شد. دو پیکره متنی جهت آموزش طبقه بندها تهیه شد و سپس برای شناسایی جنسیت، سه الگوریتم یادگیری ماشینی مختلف (ماشین بردار پشتیبان، بیز ساده و درخت تصمیم) طراحی شد. نتایج اعتبارسنجی متقابل10تایی نشان داد که بیشترین دقت مربوط به طبقهبند درخت تصمیم با دقت %73.8 است.
|
کلیدواژه
|
تشخیص جنسیت، شناسایی نویسنده، متن کاوی
|
آدرس
|
دانشگاه صنعتی شریف, ایران, دانشگاه صنعتی شریف, ایران
|
|
|
|
|
|
|
|
|
|
|
automatic gender identification in persian text
|
|
|
Authors
|
|
Abstract
|
Gigantic amount of textual data being transfers in web everyday. like other communities,cyberspace is vulnerable to attacks, false information and deception.it becomes increasingly important to design an efficient method to trace identity in this community.to investigate the problem of gender identification,we propose 48 feature,and design three machine learning algorithms.the results of study showed that ADtree classifier had accuracy up to 73.8%.
|
Keywords
|
gender identification ,author identification ,text mining
|
|
|
|
|
|
|
|
|
|
|