|
|
بررسی تکنیکهای بهبود عملکرد روشهای بسامدشماری پیکره بنیاد در استخراج خودکار واژگان (مورد مطالعه: واژگان پایه علوم پزشکی)
|
|
|
|
|
نویسنده
|
ذوالفقار زهره ,موسوی میانگاه طیبه ,روشن بلقیس ,وکیلی فرد امیررضا
|
منبع
|
پژوهشنامه پردازش و مديريت اطلاعات - 1399 - دوره : 35 - شماره : 4 - صفحه:1037 -1063
|
چکیده
|
امروزه، شاهد گسترش استفاده از روشهای پیکرهبنیاد در زبانشناسی هستیم. پژوهش حاضر به بررسی تکنیکهای بهبود عملکرد روشهای بسامدشماری در زبان فارسی و با منظور دستیابی به رویه علمی جهت استخراج خودکار واژگان پایه علوم پزشکی انجام پذیرفته است. استفاده از روشهای آماری در کنار ابزار زبانشناسی پیکرهای (روشهای استخراج خودکار ترکیبی) جهت استخراج خودکار واژگان در تعدادی از زبانهای دنیا همچون انگلیسی، فرانسه، ژاپنی، و کرهای طی چند دهه اخیر بسیار رایج بوده است، حال آنکه این روشها در زبان فارسی تاکنون بهصورت جدی مورد استفاده قرار نگرفته و اغلب استخراجها در زبان فارسی به روش سنتی انجام گرفته است؛ ضمن آنکه بهکارگیری این روشها در هر زبانی متفاوت است و برونداد روشهای آماری در هر زمان با توجه به ویژگیهای زبانشناختی آن زبان متفاوت است. از این رو، باید مطابق با ویژگیهای هر زبان در این روشها تغییراتی اعمال کرد تا در نهایت، بتوان به روشی جهت استخراج خودکار واژگان دست یافت. جهت نیل به این هدف در زبان فارسی، از خانواده مدلهای بسامدشماری با رویکردهای بسامدشماری پیکره عمومی، بسامدشماری پیکره اختصاصی و روشهای بهبودیافته آنها استفاده شده است. بسامدشماری بهکاررفته در پژوهش، برپایه پردازش اطلاعات واژگان در دو پیکره اصلی و اختصاصی، که محقق آن را ایجاد کرده است و از این پس آن را پیکره محققساخته مینامیم، صورت گرفته است. پیکره محققساخته شامل متون درس زیستشناسی دوره اول تا چهارم دبیرستان، متون درس علوم دوم و سوم راهنمایی، متون تدریسشده در »مرکز آموزش زبان فارسی امام خمینی قزوین «، مجلات و مقالات حوزه پزشکی عمومی و پیکره عمومی مورد استفاده، پیکره روزنامه همشهری (نسخه دوم) است. نتایج بهدستآمده نشان میدهد که قابلیت استفاده از روشهای بسامدشماری پیکرهبنیاد در زبان فارسی برای دست یافتن به شیوهای واحد در استخراج خودکار واژگان وجود دارد. شیوه بهکارگیری روشهای آماری کلاسیک و مدرن و روشهای بهبودیافته آنها بهیقین میتواند گامی موثر در تهیه و تدوین متون آموزشی زبان فارسی و گسترش آموزش این زبان به شمار آید. از عمدهترین مشکلات استفاده از روشهای ساده، میتوان جداسازی واژگان پرتکرار، همچون حروف ربط را نام برد. بنابراین، جهت بالابردن توان این مدل با اعمال روشهایی میتوان روشهای اولیه را بهبود بخشید. مشاهده میشود که روش بسامدشماری بهبودیافته در پیکره اختصاصی از سایر روشها عملکرد بهتری داشته و تا 60 درصد واژگان تخصصی را در 50 واژه پربسامد شناسایی میکند. از سوی دیگر، مشاهده میشود که با افزایش دامنه واژگان مورد بررسی در پژوهش از 50 به 100، 150 و 200، دقت مدلها افزایش یافته و درصد واژگان تخصصی انتخابشده به ثبات میرسد.
|
کلیدواژه
|
استخراج خودکار، واژگان علوم پزشکی، پیکره، روشهای ترکیبی استخراج، آموزش زبان فارسی، بازیابی اطلاعات
|
آدرس
|
دانشگاه پیام نور مرکز تهران, گروه زبان شناسی, ایران, دانشگاه پیام نور مرکز تهران, گروه زبان شناسی, ایران, دانشگاه پیام نور مرکز تهران, گروه زبان شناسی, ایران, دانشگاه بین المللی امام خمینی قزوین, گروه آموزش زبان فارسی به غیرفارسی زبانان؛, ایران
|
پست الکترونیکی
|
vakilifard@hum.ikiu.ac.ir
|
|
|
|
|
|
|
|
|
A Study on the Improved Techniques of Corpus-based Frequency Approaches in Automatic Term Extraction (ATE) (The Case Study: Basic Medicine Vocabulary)
|
|
|
Authors
|
Zolfaghar Zohreh ,Mosavi Miangah Tayebeh ,Rovshan Belghis ,Vakilifard Amir Reza
|
Abstract
|
Nowadays we are witnessing the dramatic growth of utilizing corpusbased studies in linguistics known as corpus linguistics. The current research aims to study the improvement of frequency techniques in Farsi Language and has been conducted in order to achieve a scientific approach in automatic term extraction focused on extracting basic medicine terms. Using statistical approaches along with corpus linguistic tools (hybrid extraction methods) for automatic term extraction purposes, have become quite common in a number of languages such as English, French, Japanese and Korean. So far, these approaches have not been utilized in Farsi language widely and most of the efforts for term extraction have been conducted in traditional ways. On the other hand, these approaches are language specific and it is not possible to use them for a different language. They should be modified based on the properties of the target language in order to achieve an extraction method which is appropriate for that language. To do so, a group of frequency models with approaches to count frequency in a main corpus and a special corpus and their improved methods have been utilized. The frequency method used in this study has counted the terms in a general and a main corpus which is created by the researcher. These corpuses are formed from the texts in science textbooks of Iran High schools (grades 912), science text books of Iran middle schools (grade 78), the science texts taught in the Qazvin Imam Khomeini Farsi Language Center and some journals and articles on general science. Achieved results show that there is a potential possibility to extract terms automatically in Farsi. Among the major challenges of utilizing the simple methods we can refer to the process of separating high frequency words such as coordinators or prepositions. Therefore, to increase the power of this model, we improved the basic models by applying some techniques on the them. It is observed that the improved frequency method has shown a better performance in the special corpus as opposed to other methods and has been able to predict up to 60% of the special vocabulary in the first 50 high frequency extracted vocabulary. On the other hand, other results of the study show that the presence of low frequency vocabulary in the general corpus with a frequency similar to the frequency of special vocabulary, has led to achieving weaker results than the simple method.
|
Keywords
|
Automatic term extraction ,medicine vocabulary ,corpus ,hybrid extraction methods ,Farsi language teaching ,information retrieval
|
|
|
|
|
|
|
|
|
|
|