ارائه مدل دسته بندی متون فارسی با استفاده از ترکیب مدل گوسین وبیزین
|
|
|
|
|
نویسنده
|
قاسمی مهسا ,جعفری نژاد فاطمه
|
منبع
|
پنجمين كنفرانس ملي پردازش سيگنال و سيستم هاي هوشمند ايران - 1398 - دوره : 5 - پنجمین کنفرانس ملی پردازش سیگنال و سیستم های هوشمند ایران - کد همایش: 98190-61047 - صفحه:0 -0
|
چکیده
|
هدف از دستهبندی اسناد، نگاشت اسناد متنی به چند دسته از قبل تعیین شده است. به دلیل رشد روز افزون متون، توجه زیادی به دستهبندی اسناد شده است. اما تجمیع نظر کارشناسان، امری چالشپذیر بوده و باعث اتلاف زمان میشود. بنابراین در سالهای اخیر الگوریتمهای گوناگونی برای دستهبندی خودکار اسناد، پیشنهاد شده است که البته اکثر آنها در زمینه متون لاتین ارائه گردیده است و اخیرا به بررسی متون چینی و عربی و فارسی توجه شده است. هدف این مقاله، بررسی دستهبندی دادههای فارسی میباشد که از ترکیب دو الگوریتم بیزین وگوسین، برای بهره بردن از مزیتهای این دو الگوریتم، استفاده کردهایم. در روش ارائه شده، دستهبندی متون فارسی به وسیلهی پیکرهی همشهری 2 مورد آزمایش قرار داده شده است و با روش نرمال شدهی تکرار کلمه درمعکوس تکرارسند (tf-idf) به ویژگیها وزن داده میشود و سپس مدل پیشنهادی پیادهسازی میشود. روش پیشنهادی برای دستهبندی این پیکره به 6 دسته، به دقت 93.04 درصد رسیده است که در مقایسه با سایر روشهای ارائه شده برای متون فارسی دقت بیشتری داشته است.
|
کلیدواژه
|
دستهبندی متون فارسی، تئوری بیزین، تئوری گوسین، فرکانس کلمه و معکوس سند
|
آدرس
|
, iran, , iran
|
پست الکترونیکی
|
jafarinejad@shahroodut.ac.ir
|
|
|
|
|