|
|
بهبود الگوریتم rake برای استخراج کلیدواژه از متون علمی فارسی؛ مطالعه موردی: پایاننامهها و رسالههای فارسی
|
|
|
|
|
نویسنده
|
محرابی الهه ,محبی آزاده ,احمدی عباس
|
منبع
|
پژوهشنامه پردازش و مديريت اطلاعات - 1400 - دوره : 37 - شماره : 1 - صفحه:197 -228
|
چکیده
|
کلمات کلیدی زیرمجموعهای از کلمات یا عبارات یک سند هستند که میتوانند معنای سند را توصیفکنند و در فرایند بازیابی اطلاعات نقش مهمی ایفا کنند. از آنجا که عملیات استخراج کلیدواژه یا عبارات کلیدی از متون تخصصی و علمی کاری تخصصی و زمانبر بوده و حجم اسناد علمی که نیاز به کلیدواژه دارند روزافزون است، الگوریتمهای مختلفی برای استخراج تخصصی و خودکار کلیدواژه و عبارات کلیدی به اسناد طراحی و پیادهسازی شدهاند. rake یک الگوریتم پرکاربرد برای استخراج کلمات کلیدی از متون است. اساس کار الگوریتم rake، کلمات کلیدی و عموماً حاوی چندین کلمه (یعنی عبارت کلیدی) هستند، ولی علائم نگارشی یا کلمات بیمعنا یا ایستواژهها را شامل نمیشوند. در این الگوریتم از برچسبگذاری دستوری کلمات بهعنوان ابزاری برای تعیین ضریب اهمیت آنها در جملات استفاده میشود. کلیدواژهها مجموعهای از توالیهای چندکلمهای یا تککلمهای هستند که طبق معیارهای خاصی امتیازدهی میشوند. در این پژوهش، یک نسخه بهبودیافته از الگوریتم استخراج خودکار کلیدواژه (rake) ارائه شده است. در نسخه بهبودیافته سعی شده با ایجاد تغییراتی در معیارهای امتیازدهی عبارات کاندید، دقت و بازخوانی عبارات کلیدی استخراجشده افزایش یابد. راهکار ارائهشده برای بهبود الگوریتم rake با در نظر گرفتن ضعفهای موجود در رویکردهای وزندهی دراین الگوریتم بهویژه برای زبان فارسی و مستندات علمی پیشنهاد شده است. برای بررسی نقاط ضعف الگوریتم rake و ارائه راهکار پیشنهادی از مجموعهای از فرادادههای پایاننامه و رسالههای فارسی استفاده شده است. راهکار پیشنهادی روی این دادهها آزمایش و ارزیابی شده و باعث افزایش دقت، بازخوانی و معیار f شده است.
|
کلیدواژه
|
استخراج کلیدواژه، الگوریتم rake، برچسبگذاری دستوری، پردازش زبان طبیعی، مستندات علمی فارسی.
|
آدرس
|
دانشگاه صنعتی امیرکبیر, ایران, پژوهشگاه علوم و فناوری اطلاعات ایران, ایران, دانشگاه صنعتی امیرکبیر, ایران
|
پست الکترونیکی
|
abbas.ahmadi@aut.ac.ir
|
|
|
|
|
|
|
|
|
Improved Keyword Extraction for Persian Academic Texts Using RAKE Algorithm; Case Study: Persian Theses and Dissertations
|
|
|
Authors
|
Mehrabi Elaheh ,Mohebi Azadeh ,Ahmadi Abbas
|
Abstract
|
Keywords and key phrases are subsets of most relevant words or phrases that summarize contents of a document while they play a critical role in information and document retrieval. Keyword extraction from scientific text is challenging and timeconsuming due to the technical and multisubject nature of the text, while the number of documents requiring keywords is increasing. There are various algorithms and methods developed for automatic keyword extraction. Rapid Automatic Keyword Extraction (RAKE) is a popular algorithm in this domain. RAKE rsquo;s decisions are based on the observation that keywords generally contain multiple words and they rarely include stopwords and words with minimum lexical meanings. Candidate keywords are a set of singleword or multiword sequences selected based on the scores assigned to them by some scoring criteria in RAKE.In this research, a new modified version of RAKE algorithm is proposed in which candidate keyword scoring scheme is improved to increase precision and recall in the keyword extraction process. The proposed algorithm is to cover some of the main weaknesses of RAKE algorithm, especially in Persian scientific documents. To study the weaknesses of RAKE algorithm and evaluating the proposed modified version of RAKE, a set of metadata of Persian theses and dissertations are used. The result of test and evaluation of the proposed algorithm confirm improvement in precision, recall and Fmeasure.We study effectiveness of RAKE in extracting keywords from Persian texts. We find that RAKE algorithm often extracts long phrases with redundant words on Persian texts, leading to low accuracy. In this paper, we study sources of scoring inefficiency of RAKE algorithm and propose an improved version of RAKE algorithm with a novel scoring mechanism. Our scoring mechanism overcomes some of the weaknesses in RAKE rsquo;s original scoring for Persian texts and yields better results. Our evaluations on Persian corpus demonstrate that our improved RAKE algorithm outperforms original RAKE algorithm by extracting more accurate keyword. Our results show that improved RAKE achieves more than 20% higher precision and recall on average compared to original RAKE.
|
Keywords
|
Keyword Extraction ,RAKE Algorithm ,Part of Speech Tagging ,Natural Language Processing ,Persian Scientific Document
|
|
|
|
|
|
|
|
|
|
|