|
|
بررسی تاثیرات ریشهیابی در بازیابی اطّلاعات در زبان فارسی
|
|
|
|
|
نویسنده
|
احسان نوا ,فیلی هشام
|
منبع
|
پردازش علائم و داده ها - 1390 - دوره : 8 - شماره : 15 - صفحه:17 -24
|
چکیده
|
یکی از مهم ترین موضوعات در پردازش زبان طبیعی و بازیابی اطّلاعات، یافتن ریشه کلمات است. ریشه کلمه، جزیی از کلمه است که پس از حذف وندهای کلمه (پیشوند، پسوند و میانوند) باقی میماند. یکی از روش های افزایش کارایی سیستمهای بازیابی اطّلاعات، استفاده از ریشهیابی کلمات است. زیرا اشتقاقات مختلف یک کلمه به ریشه آن کلمه تبدیل می شوند. درنتیجه جستجو بر اساس ریشه کلمه انجام خواهد شد و اندازه ساختار ایندکس کاهش مییابد. در این مقاله الگوریتمی برای به دست آوردن ریشه کلمات در زبان فارسی ارایه شده است و سپس نتیجه آن در بازیابی اطّلاعات با الگوریتمهای متفاوت رتبهبندی، مورد ارزیابی قرار گرفته است. الگوریتم ارایه شده با استفاده از قواعد ساخت واژی زبان فارسی و استفاده از مجموعه لغات برای جلوگیری از ایجاد ریشههای نادرست، به ریشهیابی کلمات میپردازد. تعداد قواعد استفاده شده 43 قانون است. با استفاده از الگوریتم ارایه شده، اندازه ساختار ایندکس پنج درصد کاهش یافته است و همچنین میزان میانگین متوسّط دقّت (mean average precision) در سیستم بازیابی اطّلاعات حدود پنج درصد افزایش یافته است.
|
کلیدواژه
|
ریشهیابی ,پردازش زبان طبیعی و بازیابی اطّلاعات ,Stemmer ,Natural language processing ,Information retrieval
|
آدرس
|
دانشگاه تهران, ایران, دانشگاه تهران, ایران
|
پست الکترونیکی
|
hfaili@ut.ac.ir
|
|
|
|
|
|
|
|
|
|
|
|
Authors
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|