بررسی تاثیرات ریشه‌یابی در بازیابی اطّلاعات در زبان فارسی

Fa | Ar | En

بررسی تاثیرات ریشه‌یابی در بازیابی اطّلاعات در زبان فارسی


نویسنده	احسان نوا ,فیلی هشام
منبع	پردازش علائم و داده ها - 1390 - دوره : 8 - شماره : 15 - صفحه:17 -24
چکیده	یکی از مهم ترین موضوعات در پردازش زبان طبیعی و بازیابی اطّلاعات، یافتن ریشه کلمات است. ریشه کلمه، جزیی از کلمه است که پس از حذف وندهای کلمه (پیشوند، پسوند و میانوند) باقی می‌ماند. یکی از روش های افزایش کارایی سیستم‌های بازیابی اطّلاعات، استفاده از ریشه‌یابی کلمات است. زیرا اشتقاقات مختلف یک کلمه به ریشه آن کلمه تبدیل می شوند. درنتیجه جستجو بر اساس ریشه کلمه انجام خواهد شد و اندازه ساختار ایندکس کاهش می‌یابد. در این مقاله الگوریتمی برای به دست آوردن ریشه کلمات در زبان فارسی ارایه شده است و سپس نتیجه آن در بازیابی اطّلاعات با الگوریتم‌های متفاوت رتبه‌بندی، مورد ارزیابی قرار گرفته است. الگوریتم ارایه شده با استفاده از قواعد ساخت واژی زبان فارسی و استفاده از مجموعه لغات برای جلوگیری از ایجاد ریشه‌های نادرست، به ریشه‌یابی کلمات می‌پردازد. تعداد قواعد استفاده شده 43 قانون است. با استفاده از الگوریتم ارایه شده، اندازه ساختار ایندکس پنج درصد کاهش یافته است و همچنین میزان میانگین متوسّط دقّت (mean average precision) در سیستم بازیابی اطّلاعات حدود پنج درصد افزایش یافته است.
کلیدواژه	ریشه‌یابی ,پردازش زبان طبیعی و بازیابی اطّلاعات ,Stemmer ,Natural language processing ,Information retrieval
آدرس	دانشگاه تهران, ایران, دانشگاه تهران, ایران
پست الکترونیکی	hfaili@ut.ac.ir



Authors