ارائه روشی جدید برای شاخص‌گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه‌بندی متون

Fa | Ar | En

ارائه روشی جدید برای شاخص‌گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه‌بندی متون


نویسنده	پروین حمید ,راد فرهاد ,دهباشی آتوسا ,مینایی بهروز
منبع	پردازش علائم و داده ها - 1395 - دوره : 13 - شماره : 1 - صفحه:87 -100
چکیده	در زبان فارسی کلمات دارای صورت‌های نگارشی متنوعی هستند و پوشش کلیه حالات دستوری کلمات با به کارگیری یک سری قواعد معین ناممکن است به همین دلیل استخراج کلمات کلیدی به طور خودکار از متون فارسی دشوار و پیچیده است. در این مقاله سعی شده است با استفاده از اطلاعات زبان شناختی و اصطلاح‌نامه ، کلمات کلیدی بامعناتری ارائه شود. با استفاده از اصطلاح‌نامه که از نظامی ساختارمند برخوردار است می‌توان شبکه کلمات کلیدی، شامل کلمات هم ارز، کلمات سلسله مراتبی و وا‌بسته را تکمیل کرده و افزایش داد. بنابراین می‌توان توافق بین جستجوی کاربران و کلمات کلیدی متنی را بیشتر نمود و جامعیت جستجو را افزایش داد. در مرحله اول کلمات غیر مهم و عمومی حذف می‌شوند. سپس کلمات متن ریشه‌یابی می‌شوند و در ادامه برای مشخص شدن اهمیت نسبی کلمات با استفاده از روش‌های وزن‌دهی یک وزن عددی به هر کلمه منسوب می‌گردد که بیانگر میزان تاثیر کلمه در ارتباط با موضوع متن و درمقایسه با سایر کلمات بکار رفته در متن است‌. مجموعه عملیات فوق خصوصاً استفاده از اصطلاح‌نامه باعث می‌شود که دسته‌بندی متون دقیق‌تر انجام گیرد و به نوعی رده علمی سلسله مراتبی متون در حوزه بازیابی اطلاعات نیز مشخص می‌شود. نتایج آزمایش‌ها روی چندین متن در موضوعات مختلف نشان دهنده دقت و توانایی روش پیشنهادی در استخراج کلمات کلیدی منطبق با خواست کاربر است و در نتیجه خوشه‌بندی دقیق‌تر متون می‌باشد.
کلیدواژه	استخراج کلمات کلیدی، اصطلاح‌نامه، زبان‌شناختی، بازیابی اطلاعات
آدرس	دانشگاه آزاد اسلامی واحد نورآباد ممسنی, دانشکده مهندسی کامپیوتر, ایران, دانشگاه آزاد اسلامی واحد یاسوج, دانشکده مهندسی کامپیوتر, ایران, دانشگاه آزاد اسلامی واحد نورآباد ممسنی, دانشکده مهندسی کامپیوتر, ایران, دانشگاه علم و صنعت ایران, دانشکده مهندسی کامپیوتر, ایران

Improved Clustering Persian Text Based on Keyword Using Linguistic and Thesaurus Knowledge

Authors