>
Fa   |   Ar   |   En
   استخراج فراداده‌های متنی از مقاله‌های علمی به زبان فارسی با مدل آماری crf  
   
نویسنده تن سازان امیر ,مهدوی محمد امین
منبع پژوهشنامه كتابداري و اطلاع رساني - 1396 - دوره : 7 - شماره : 1 - صفحه:304 -321
چکیده    مقدمه: استخراج فراداده‌های متنی از مقاله‌های علمی به شکل دستی کار زمان‌بر و پرهزینه‌ای است. وجود تنوع در قالب‌های ساختاری مقالات علمی نیز به پیچیدگی مسئله می‌افزاید. بنابراین، استخراج خودکار فراداده‌های متنی از مقاله‌های علمی به عنوان یک مسئله مطرح است و از الگوریتم‌های مختلفی می‌توان برای استخراج فراداده‌ها استفاده کرد. هدف این مقاله ارائه‌ی یک چارچوب برای استخراج فراداده‌های متنی از مقاله‌های علمی به زبان فارسی است. در این پژوهش از مدل آماری سی آر اف برای استخراج فراداده‌ها استفاده شده است. روش‌شناسی: این مقاله یک پژوهش کاربردی است. در این مقاله با مطالعات کتابخانه‌ای و آزمایش سعی شده است یک چارچوب برای استخراج فراداده‌ها ارائه شود. چارچوب ارائه شده شامل شناسایی سرآیند و مراجع انگلیسی و فارسی مقاله است. از مدل آماری سی آر اِف برای استخراج فراداده‌ها از سرآیند و مراجع فارسی و انگلیسی استفاده شده است. با تعریف ویژگی‌های مختلف این مدل آماری قابل تغییر است. آزمایش این روش بروی صد مقاله از مجلات علمی پژوهشی ایران درصد موفقیت آن را نشان می‌دهد. مدل آماری سی آر اِف در برچسب‌زنی متن نسبت به مدل‌های آماری دیگر مانند مدل مخفی مارکوف دقت بالاتری را ارائه می‌دهد. از سوی دیگر این مدل بر مبنای آمار و ریاضی برچسب‌زنی را انجام می‌دهد. استخراج فراداده‌ها از مقالات با قالب‌های مختلف به کمک آمار نسبت به روش‌‌های مبتنی بر قانون نتایج بهتری را به دنبال دارد. بنابراین استفاده از مدل آماری سی آر اِف برای حل این مسئله مناسب است. یافته ها: برای ارزیابی روش پیشنهاد شده از معیار اِف استفاده شده است. مقدار معیار اِف در این پژوهش برای هر توکن متنی محاسبه شده است. مقدار معیار اِف به شکل میانگین برای فراداده‌های سرآیند، فراداده‌های مراجع فارسی و فراداده‌های مراجع انگلیسی به ترتیب 89/96 درصد، 87/93 درصد و 75/94 درصد است. نتایج این پژوهش با سه پژوهش مشابه در زبان انگلیسی مقایسه شده است. مقایسه میانگین نتایج به‌دست آمده نشان می‌دهد در فراداده‌های سرآیند نتایج پژوهش این مقاله بهتر از دو پژوهش انجام شده در زبان انگلیسی است. نتایج استخراج فراداده نویسنده در سرآیند در پژوهش‌های زبان انگلیسی بهتر است. برای فراداده چکیده در پژوهش‌ زبان فارسی، نتایج بهتری به‌دست آمده است. مقایسه میانگین نتایج استخراج فراداده‌های مراجع، نشان می‌دهد پژوهش‌های زبان انگلیسی دقت بالاتری ارائه داده‌اند. نتایج استخراج فراداده موسسه در مراجع فارسی نسبت به فراداده‌های دیگر ضعیف‌تر است. بحث و نتیجه‌گیری: بررسی نتایج بدست آمده نشان می‌دهد که عملکرد مدل آماری سی آر اِف برای استخراج فراداده‌ها خوب است. بیشترین دقت برای فراداده چکیده با معیار اِف برابر 6/99 درصد است. این فراداده تعداد توکن بسیار بیشتری نسبت به بقیه فراداده‌ها دارد. دقت فراداده موسسه با معیار اِف برابر 95/80 درصد کمتر از بقیه است. دو دلیل در کاهش دقت موثر است. تعداد این فراداده در پیکره متون نسبت به فراداده‌های دیگر کمتر است. علاوه بر این کلمات نحوی که در این فراداده به کار می رود، تنوع بیشتری دارد. در مراجع فارسی اسامی شهرها در فراداده‌های مکان و موسسه به‌کار می‌رود. این مسئله باعث می‌شود در برخی از موارد فراداده‌های مکان و موسسه به اشتباه تشخیص داده شوند. در زبان فارسی کلماتی که به شکل مشترک در فراداده‌های مختلف به‌کار می‌روند نسبت به زبان انگلیسی بیشتر است. برای مثال بسیاری از اسامی ایرانی که برای نام افراد به‌کار می‌رود با معانی دیگر در فراداده‌های دیگر استفاده می‌شود. این مسئله ممکن است باعث بروز خطا شود. اکثر خطاهای به‌وجود آمده در استخراج فراداده‌ها مربوط به توکن‌هایی است که در مرز دو فراداده قرار دارند. تبدیل مقالات علمی فارسی با فرمت پی دی اِف به فرمت متن در موارد زیادی با مشکل رو به رو است و از محدودیت‌های این پژوهش به شمار می‌آید. در این پژوهش مجموعه‌ای از صد مقاله علمی استفاده شد. افزایش تعداد مقاله‌های علمی و تنوع بیشتر مقالات برای آزمایش می‌تواند در نتیجه‌ی بدست آمده تاثیر مثبتی داشته باشد. مجموعه‌ای از ویژگی‌های متنی در الگوریتم‌های برچسب‌زنی سی آر اِف استفاده می‌شود. تغییر در این ویژگی‌ها می‌تواند موجب بهینه‌سازی روش شود.
کلیدواژه استخراج فراداده‌های متنی، مقاله‌های علمی، پردازش زبان فارسی، الگوریتم crf
آدرس دانشگاه بین المللی امام خمینی (ره), ایران, دانشگاه بین المللی امام خمینی (ره), دانشکده فنی و مهندسی, ایران
پست الکترونیکی mahdavi@eng.ikiu.ac.ir
 
   Metadata Extraction from Persian Scientific Papers Using CRF Model  
   
Authors Tansazan Amir ,Mahdavi Mohammad amin
Abstract    INTRODUCTION: Metadata extraction from scientific papers is costly and time consuming. Different layouts and styles of papers increase the complexity of problem. Therefore, metadata extraction from scientific papers is a research question and different algorithms can be used to extract them. The purpose of this paper is to present a framework for metadata extraction from Persian scientific papers. CRF model has been used in this paper. METHODOLOGY: This paper is an applied research. It aims at presenting a framework for the metadata extraction. This framework includes identifying the header along with English and Persian references. CRF model has been used to extract metadata from header and references. This model can be modified by defining different features. The proposed method is tested over a set of 100 scientific papers taken from different Iranian journals. Compared to Markov in text tagging, this model has a higher accuracy than other models. On the other hand, this model is based on statistics. Extracting metadata while using statistics from papers with different layouts and styles provides better results than the rule based methods. Therefore, using this model is a good solution to this problem. FINDING: F measure has been used to evaluate the proposed method. F measure is calculated for each token. Average Fmeasure is 96.89, 93.87, and 94.75 percent for header metadata, Persian references metadata, and English references metadata, respectively. The results of this paper have been compared with three similar papers in English. The results of the header author are better in English. Abstracts have better results in Persian language research. The analysis of the average references metadata extraction results shows that English researches have a higher accuracy compared to the Persian references metadata extraction results. CONCLUSIONS: Reviewing the results shows that CRF model performance is good for extracting metadata. The most accurate metadata is Abstract with F measure of 99.6%. This metadata has a much larger number of tokens than the other metadata. The accuracy of the institute with the F measure is 80.95% lower than the other metadata. There are two reasons why F measure is reduced. First the number of this metadata is smaller than the other metadata in the text corpus. Second, the words used in this metadata are more diverse. In Persian references, the names of cities are used in location and institution metadata. This makes location and institution to be mistakenly identified in some cases. In Persian, the words commonly used in different metadata are more than English. For example, many Iranian names of the individuals are used with other meanings in other metadata. This issue may cause errors. Most of the errors in the metadata extraction are related to tokens that are located on the border of two metadata. Converting scientific papers in PDF format to text format is difficult in many cases and this is one of the limitations of this research. In this paper, a sample of 100 scientific articles was used. Increasing the number and variety of scientific papers for testing can have a positive effect on the results. A set of textual features are used in the CRF tagging algorithms. Changing these features can make the method better.
Keywords
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved