>
Fa   |   Ar   |   En
   ارائه مدل دسته­ بندی متون فارسی با استفاده از ترکیب مدل گوسین وبیزین  
   
نویسنده قاسمی مهسا ,جعفری نژاد فاطمه
منبع پنجمين كنفرانس ملي پردازش سيگنال و سيستم هاي هوشمند ايران - 1398 - دوره : 5 - پنجمین کنفرانس ملی پردازش سیگنال و سیستم های هوشمند ایران - کد همایش: 98190-61047 - صفحه:0 -0
چکیده    هدف از دسته­بندی اسناد، نگاشت اسناد متنی به چند دسته از قبل تعیین شده است. به دلیل رشد روز افزون متون، توجه زیادی به دسته­بندی اسناد شده است. اما تجمیع نظر کارشناسان، امری چالش­پذیر بوده و باعث اتلاف زمان می­شود. بنابراین در سال­های اخیر الگوریتم­های گوناگونی برای دسته­بندی خودکار اسناد، پیشنهاد شده است که البته اکثر آن­ها در زمینه متون لاتین ارائه گردیده است و اخیرا به بررسی متون چینی و عربی و فارسی توجه شده است. هدف این مقاله، بررسی دسته­بندی داده­های فارسی می­باشد که از ترکیب دو الگوریتم­ بیزین وگوسین، برای بهره بردن از مزیت­های این دو الگوریتم، استفاده کرده­ایم. در روش ارائه شده، دسته­بندی متون فارسی به وسیله­ی پیکره­ی همشهری 2 مورد آزمایش قرار داده شده است و با روش نرمال شده­ی تکرار کلمه درمعکوس تکرارسند (tf-idf) به ویژگی­ها وزن داده می­شود و سپس مدل پیشنهادی پیاده­سازی می­شود. روش پیشنهادی برای دسته­بندی این پیکره به 6 دسته، به دقت 93.04 درصد رسیده است که در مقایسه با سایر روش­های ارائه شده برای متون فارسی دقت بیشتری داشته است.
کلیدواژه دسته­بندی متون فارسی، تئوری بیزین، تئوری گوسین، فرکانس کلمه و معکوس سند
آدرس , iran, , iran
پست الکترونیکی jafarinejad@shahroodut.ac.ir
 
     
   
Authors
  
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved