|
|
استخراج خودکار کلمات کلیدی متون کوتاه فارسی با استفاده از word2vec
|
|
|
|
|
نویسنده
|
حاجی پور امید ,سدیدپور سعیده سادات
|
منبع
|
پدافند الكترونيكي و سايبري - 1399 - دوره : 8 - شماره : 2 - صفحه:105 -114
|
چکیده
|
با رشد روز افزون اسناد و متون الکترونیکی به زبان فارسی، به کارگیری روش هایی سریع و ارزان برای دسترسی به متون مورد نظر از میان مجموعه وسیع این مستندات، اهمیت بیشتری می یابد. برای رسیدن به این هدف، استخراج کلمات کلیدی که بیانگر مضمون اصلی متن باشند، روشی بسیار موثر است. تعداد تکرار یک کلمه در متن نمی تواند نشان دهنده اهمیت یک کلمه و کلیدی بودن آن باشد. همچنین در اکثر روش های استخراج کلمات کلیدی مفهوم و معنای متن نادیده گرفته می شوند. از طرفی دیگر بدون ساختار بودن متون جدید در اخبار و اسناد الکترونیکی، استخراج این کلمات را مشکل می سازد. در این مقاله روشی بدون نظارت و خودکار برای استخراج این کلمات در زبان فارسی که دارای ساختار مناسبی نمی باشد، پیشنهاد شده است که نه تنها احتمال رخ دادن کلمه در متن و تعداد تکرار آن را در نظر می گیرد، بلکه با آموزش مدل word2vec روی متن، مفهوم و معنای متن را نیز درک می کند. در روش پیشنهادی که روشی ترکیبی از دو مدل آماری و یادگیری ماشین می باشد، پس از آموزش word2vec روی متن، کلماتی که با سایر کلمات دارای فاصله کمی بوده استخراج شده و سپس با استفاده از هم رخدادی و فرکانس رابطه ای آماری برای محاسبه امتیاز پیشنهاد شده است. درنهایت با استفاده از حدآستانه کلمات با امتیاز بالاتر بهعنوان کلمه کلیدی در نظر گرفته می شوند. ارزیابی ها بیانگر کارایی روش با معیار f برابر 53.92% و با 11% افزایش نسبت به دیگر روشهای استخراج کلمات کلیدی می باشد.
|
کلیدواژه
|
استخراج ، زبان فارسی، متنکاوی، شباهت کلمات،
|
آدرس
|
دانشگاه صنعتی امیرکبیر, ایران, دانشگاه صنعتی امیرکبیر, ایران
|
پست الکترونیکی
|
sadidpour@mut.ac.ir
|
|
|
|
|
|
|
|
|
Automatic Keyword Extraction from Persian short Text Using word2vec
|
|
|
Authors
|
حاجی پور امید ,سدیدپور سعیده سادات
|
Abstract
|
With the growing number of Persian electronic documents and texts, the use of quick and inexpensive methods to access desired texts from the extensive collection of these documents becomes more important. One of the effective techniques to achieve this goal is the extraction of the keywords which represent the main concept of the text. For this purpose, the frequency of a word in the text can not be a proper indication of its significance and its crucial role. Also, most of the keyword extraction methods ignore the concept and semantic of the text. On the other hand, the unstructured nature of new texts in news and electronic documents makes it difficult to extract these words. In this paper, an automated, unsupervised method for keywords extraction in the Persian language that does not have a proper structure is proposed. This method not only takes into account the probability of occurrence of a word and its frequency in the text, but it also understands the concept and semantic of the text by learning word2vec model on the text. In the proposed method, which is a combination of statistical and machine learning methods, after learning word2vec on the text, the words that have the smallest distance with other words are extracted. Then, a statistical equation is proposed to calculate the score of each extracted word using cooccurence and frequency. Finally, words which have the highest scores are selected as the keywords. The evaluations indicate that the efficiency of the method by the Fmeasure is 53.92% which is 11% superior to other methods.
|
Keywords
|
word2vec
|
|
|
|
|
|
|
|
|
|
|