|
|
استخراج فرادادههای متنی از مقالههای علمی به زبان فارسی با مدل آماری crf
|
|
|
|
|
نویسنده
|
تن سازان امیر ,مهدوی محمد امین
|
منبع
|
پژوهشنامه كتابداري و اطلاع رساني - 1396 - دوره : 7 - شماره : 1 - صفحه:304 -321
|
چکیده
|
مقدمه: استخراج فرادادههای متنی از مقالههای علمی به شکل دستی کار زمانبر و پرهزینهای است. وجود تنوع در قالبهای ساختاری مقالات علمی نیز به پیچیدگی مسئله میافزاید. بنابراین، استخراج خودکار فرادادههای متنی از مقالههای علمی به عنوان یک مسئله مطرح است و از الگوریتمهای مختلفی میتوان برای استخراج فرادادهها استفاده کرد. هدف این مقاله ارائهی یک چارچوب برای استخراج فرادادههای متنی از مقالههای علمی به زبان فارسی است. در این پژوهش از مدل آماری سی آر اف برای استخراج فرادادهها استفاده شده است. روششناسی: این مقاله یک پژوهش کاربردی است. در این مقاله با مطالعات کتابخانهای و آزمایش سعی شده است یک چارچوب برای استخراج فرادادهها ارائه شود. چارچوب ارائه شده شامل شناسایی سرآیند و مراجع انگلیسی و فارسی مقاله است. از مدل آماری سی آر اِف برای استخراج فرادادهها از سرآیند و مراجع فارسی و انگلیسی استفاده شده است. با تعریف ویژگیهای مختلف این مدل آماری قابل تغییر است. آزمایش این روش بروی صد مقاله از مجلات علمی پژوهشی ایران درصد موفقیت آن را نشان میدهد. مدل آماری سی آر اِف در برچسبزنی متن نسبت به مدلهای آماری دیگر مانند مدل مخفی مارکوف دقت بالاتری را ارائه میدهد. از سوی دیگر این مدل بر مبنای آمار و ریاضی برچسبزنی را انجام میدهد. استخراج فرادادهها از مقالات با قالبهای مختلف به کمک آمار نسبت به روشهای مبتنی بر قانون نتایج بهتری را به دنبال دارد. بنابراین استفاده از مدل آماری سی آر اِف برای حل این مسئله مناسب است. یافته ها: برای ارزیابی روش پیشنهاد شده از معیار اِف استفاده شده است. مقدار معیار اِف در این پژوهش برای هر توکن متنی محاسبه شده است. مقدار معیار اِف به شکل میانگین برای فرادادههای سرآیند، فرادادههای مراجع فارسی و فرادادههای مراجع انگلیسی به ترتیب 89/96 درصد، 87/93 درصد و 75/94 درصد است. نتایج این پژوهش با سه پژوهش مشابه در زبان انگلیسی مقایسه شده است. مقایسه میانگین نتایج بهدست آمده نشان میدهد در فرادادههای سرآیند نتایج پژوهش این مقاله بهتر از دو پژوهش انجام شده در زبان انگلیسی است. نتایج استخراج فراداده نویسنده در سرآیند در پژوهشهای زبان انگلیسی بهتر است. برای فراداده چکیده در پژوهش زبان فارسی، نتایج بهتری بهدست آمده است. مقایسه میانگین نتایج استخراج فرادادههای مراجع، نشان میدهد پژوهشهای زبان انگلیسی دقت بالاتری ارائه دادهاند. نتایج استخراج فراداده موسسه در مراجع فارسی نسبت به فرادادههای دیگر ضعیفتر است. بحث و نتیجهگیری: بررسی نتایج بدست آمده نشان میدهد که عملکرد مدل آماری سی آر اِف برای استخراج فرادادهها خوب است. بیشترین دقت برای فراداده چکیده با معیار اِف برابر 6/99 درصد است. این فراداده تعداد توکن بسیار بیشتری نسبت به بقیه فرادادهها دارد. دقت فراداده موسسه با معیار اِف برابر 95/80 درصد کمتر از بقیه است. دو دلیل در کاهش دقت موثر است. تعداد این فراداده در پیکره متون نسبت به فرادادههای دیگر کمتر است. علاوه بر این کلمات نحوی که در این فراداده به کار می رود، تنوع بیشتری دارد. در مراجع فارسی اسامی شهرها در فرادادههای مکان و موسسه بهکار میرود. این مسئله باعث میشود در برخی از موارد فرادادههای مکان و موسسه به اشتباه تشخیص داده شوند. در زبان فارسی کلماتی که به شکل مشترک در فرادادههای مختلف بهکار میروند نسبت به زبان انگلیسی بیشتر است. برای مثال بسیاری از اسامی ایرانی که برای نام افراد بهکار میرود با معانی دیگر در فرادادههای دیگر استفاده میشود. این مسئله ممکن است باعث بروز خطا شود. اکثر خطاهای بهوجود آمده در استخراج فرادادهها مربوط به توکنهایی است که در مرز دو فراداده قرار دارند. تبدیل مقالات علمی فارسی با فرمت پی دی اِف به فرمت متن در موارد زیادی با مشکل رو به رو است و از محدودیتهای این پژوهش به شمار میآید. در این پژوهش مجموعهای از صد مقاله علمی استفاده شد. افزایش تعداد مقالههای علمی و تنوع بیشتر مقالات برای آزمایش میتواند در نتیجهی بدست آمده تاثیر مثبتی داشته باشد. مجموعهای از ویژگیهای متنی در الگوریتمهای برچسبزنی سی آر اِف استفاده میشود. تغییر در این ویژگیها میتواند موجب بهینهسازی روش شود.
|
کلیدواژه
|
استخراج فرادادههای متنی، مقالههای علمی، پردازش زبان فارسی، الگوریتم crf
|
آدرس
|
دانشگاه بین المللی امام خمینی (ره), ایران, دانشگاه بین المللی امام خمینی (ره), دانشکده فنی و مهندسی, ایران
|
پست الکترونیکی
|
mahdavi@eng.ikiu.ac.ir
|
|
|
|
|
|
|
|
|
Metadata Extraction from Persian Scientific Papers Using CRF Model
|
|
|
Authors
|
Tansazan Amir ,Mahdavi Mohammad amin
|
Abstract
|
INTRODUCTION: Metadata extraction from scientific papers is costly and time consuming. Different layouts and styles of papers increase the complexity of problem. Therefore, metadata extraction from scientific papers is a research question and different algorithms can be used to extract them. The purpose of this paper is to present a framework for metadata extraction from Persian scientific papers. CRF model has been used in this paper. METHODOLOGY: This paper is an applied research. It aims at presenting a framework for the metadata extraction. This framework includes identifying the header along with English and Persian references. CRF model has been used to extract metadata from header and references. This model can be modified by defining different features. The proposed method is tested over a set of 100 scientific papers taken from different Iranian journals. Compared to Markov in text tagging, this model has a higher accuracy than other models. On the other hand, this model is based on statistics. Extracting metadata while using statistics from papers with different layouts and styles provides better results than the rule based methods. Therefore, using this model is a good solution to this problem. FINDING: F measure has been used to evaluate the proposed method. F measure is calculated for each token. Average Fmeasure is 96.89, 93.87, and 94.75 percent for header metadata, Persian references metadata, and English references metadata, respectively. The results of this paper have been compared with three similar papers in English. The results of the header author are better in English. Abstracts have better results in Persian language research. The analysis of the average references metadata extraction results shows that English researches have a higher accuracy compared to the Persian references metadata extraction results. CONCLUSIONS: Reviewing the results shows that CRF model performance is good for extracting metadata. The most accurate metadata is Abstract with F measure of 99.6%. This metadata has a much larger number of tokens than the other metadata. The accuracy of the institute with the F measure is 80.95% lower than the other metadata. There are two reasons why F measure is reduced. First the number of this metadata is smaller than the other metadata in the text corpus. Second, the words used in this metadata are more diverse. In Persian references, the names of cities are used in location and institution metadata. This makes location and institution to be mistakenly identified in some cases. In Persian, the words commonly used in different metadata are more than English. For example, many Iranian names of the individuals are used with other meanings in other metadata. This issue may cause errors. Most of the errors in the metadata extraction are related to tokens that are located on the border of two metadata. Converting scientific papers in PDF format to text format is difficult in many cases and this is one of the limitations of this research. In this paper, a sample of 100 scientific articles was used. Increasing the number and variety of scientific papers for testing can have a positive effect on the results. A set of textual features are used in the CRF tagging algorithms. Changing these features can make the method better.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|