|
|
استخراج کلمات و عبارات کلیدی از متون فارسی (مروری بر پژوهشهای صورت گرفته )
|
|
|
|
|
نویسنده
|
کلانتری عاطفه ,جوکار عبدالرسول ,فخراحمد مصطفی ,عباس پور جواد ,ستوده هاجر ,مرتضوی نصرآباد مسعود ,جوادی امیر ,پوربهمن زهرا
|
منبع
|
پژوهشنامه پردازش و مديريت اطلاعات - 1399 - دوره : 36 - شماره : 2 - صفحه:563 -592
|
چکیده
|
استخراج کلمات/ عبارات کلیدی متن، پیش نیاز بسیاری دیگر از وظایف حوزه پردازش زبان طبیعی است. اما بررسی متون فارسی و انگلیسی این حوزه نشان میدهد که تلاش های انگشت شماری برای استخراج کلمات/ عبارات کلیدی از متون فارسی صورت گرفته است. ازاینرو، این مقاله با هدف تعیین موقعیت کنونی پردازش زبان طبیعی فارسی، و به طور خاص، استخراج کلمات/ عبارات کلیدی از متون فارسی به مرور خلاصه ای از مقالات فارسی و انگلیسی منتشر شده در این حوزه که از متون فارسی برای آزمودن ایده ها استفاده کرده اند، می پردازد. سپس، هر مقاله را از نظر روش شناسی، نحوه اجرا و پیاده سازی، روش ارزیابی، و معیارهای آن مورد تعمق قرار داده و به چالش می کشد.در مجموع، 14 مقاله فارسی و 6 مقاله انگلیسی به استخراج کلمات و عبارات کلیدی از متون فارسی پرداخته اند . روش بیشتر این مقالات استفاده از اطلاعات آماری و زبان شناختی بوده است. اکثر این مقالات یا در روش شناسی انتخاب شده ایراد دارند و یا نویسندگان نتوانسته اند ایده پیشنهادی خود را به وضوح برای خواننده تبیین نمایند. در بسیاری از مقالات از مجموعه داده استانداردی برای ارزیابی سیستم استفاده نشده و نحوه محاسبه معیارهای ارزیابی مبهم یا دارای اشکال است.در مجموع، بهجز 3 مقاله که روش اجرا شده را بهنحو نسبتاً قابل قبولی گزارش کرده اند ، سایر مقالات قابلیت تکرار پذیری و تعمیم ندارند. این است که نمی توان از آنها به عنوان معیار پایه ای برای ارزیابی سیستم های آینده استفاده کرد یا از ایده مطرح شده در آنها با اطمینان در ساخت و توسعه نرم افزارهای کاربردی و عملی در حوزه استخراج کلمات کلیدی استفاده نمود.
|
کلیدواژه
|
استخراج ، استخراج عبارات کلیدی، پردازش زبان طبیعی، زبان فارسی، بررسی مروری
|
آدرس
|
دانشگاه شیراز, ایران. دانشگاه علوم پزشکی قزوین, دانشکده پرستاری و مامایی, ایران, دانشگاه شیراز, دانشکده روانشناسی و علوم تربیتی, بخش علم اطلاعات و دانششناسی, ایران, دانشگاه شیراز, بخش مهندسی و علوم کامپیوتر و فناوری اطلاعات, ایران, دانشگاه شیراز, دانشکده روانشناسی و علوم تربیتی, بخش علم اطلاعات و دانششناسی, ایران, دانشگاه شیراز, دانشکده روانشناسی و علوم تربیتی, بخش علم اطلاعات و دانششناسی, ایران, دانشگاه فردوسی مشهد, ایران. شرکت پارسآذرخش, بخش تست و توسعه, ایران, دانشگاه علوم پزشکی قزوین, دانشکده پزشکی, گروه پزشکی اجتماعی, ایران, دانشگاه صنعتی امیرکبیر, دانشکده پزشکی, ایران
|
پست الکترونیکی
|
pourbahman@atu.ac.ir
|
|
|
|
|
|
|
|
|
Keyword and Phrase Extraction from Persian Texts: A Review of the literature
|
|
|
Authors
|
kalantari Atefeh ,Jowkar Abdolrasool ,Fakhrahmad Seyed Mostafa ,Abbaspour Javad ,Sotudeh Hajar ,Mortazavi Massoud ,Javadi Amir ,Pourbahman Zahra
|
Abstract
|
Keyword and phrase extraction is a prerequisite of many natural language processing tasks. However, a review on the related Persian and English literature showed that a few studies have already been done on how to extract keywords and phrases from Persian texts. Thus, aiming to shed light on the research status of Keyword and phrase extraction from Persian texts, the present study reviews the Persian and English publications which have assessed their research ideas over Persian texts. We also focus on each of the studies to challenge their methodologies, implementations and evaluation methods and measures.To our knowledge, a total number of 14 Persian and 6 English papers exist which have worked on the extraction of Persian keywords and phrases. Investigating on the papers revealed that they were mostly based on statistical and linguistic information. A majority of the papers suffered from the lack of either appropriate methodologies or lucid explanation of their research ideas. They generally used nonstandard datasets and vague or problematic metrics to evaluate the experimental systems. Generally speaking, except 3 papers that appropriately reported their proposed methods, the other papers lacked reproducibility and generalizability. Hence, their results cannot be confidently used as a benchmark in evaluating future works, and their proposed ideas cannot be employed in developing applications for extraction of key words and phrases from Persian texts.
|
Keywords
|
extraction ,key words ,key phrases ,natural language processing ,Persian language ,review
|
|
|
|
|
|
|
|
|
|
|