ارائه یک الگوریتم خوشه‌بندی تجمعی پایدار جهت بهبود دقت و صحت دسته‌‌بندی اسناد متنی

Fa | Ar | En

ارائه یک الگوریتم خوشه‌بندی تجمعی پایدار جهت بهبود دقت و صحت دسته‌‌بندی اسناد متنی

DOR	20.1001.2.9819099991.1399.17.1.38.1
نویسنده	جعفری زهرا ,قائمی رضا
منبع	كنفرانس سيستم هاي هوشمند - 1399 - دوره : 17 - هفدهمین کنفرانس سیستم های هوشمند - کد همایش: 98190-99991
چکیده	امروزه میزان اطلاعات و مستندات متنی، روز به روز در حال گسترش است. فراهم کردن ابزاری که بتواند به طور موثرو کارا، این اطلاعات گسترده و دانش پنهان درون آن را شناسایی، استخراج و مدیریت کند، امری مهم و ضروری است. یکی از روش‌های مهم در راستای برآورده کردن این نیاز کاربران، استفاده از تکنیک‌های متن‌کاوی همانندروش‌های دسته‌بندی خودکار متون است. از جمله مشکلات دسته‌بندی متون می‌توان به ابعاد بالای فضای ویژگی، عدم پایداری و کارایی قابل قبول دردسته‌بندی اشاره نمود. در این مقاله، یک روش سه مرحله‌ای برای دسته‌بندی متون پیشنهاد شده است که در آن ابتدا کلمات کلیدی پس از پیش‌پردازش اسناد ، با استفاده از روش( فراوانی - عکس فراوانی سند ) استخراج می‌شوند. درگام بعدی، جهت حل مشکل بالابودن ابعاد فضای ویژگی، از الگوریتم کاهش ویژگی تحلیل مولفه اصلی(pca) استفاده می‌شود ودر گام آخر، اسناد با استفاده از تکنیک خوشه‌بندی تجمعی و براساس چهارخوشه‌بند k-means ) ، complete-linkage، pso + fuzzy c-means و(fuzzy c-means+ woa دسته‌بندی می‌شوند. نتایج به‌دست آمده از ارزیابی این سیستم بر روی سه پایگاه داده متنی استاندارد reuters-21578 ، rcvو classic نشان‌دهنده این است که روش پیشنهادی، از دقت، پایداری و قابلیت اعتماد نسبتاً بالایی برخوردار است.
کلیدواژه	متن کاوی ,دسته‌بندی اسناد ,خوشه بندی تجمعی ,استخراج ,تحلیل مولفه اصلی
آدرس	دانشگاه علوم پزشکی مشهد, ایران, دانشگاه آزاد اسلامی, ایران



Authors