>
Fa   |   Ar   |   En
   تجزیه متون استنادی در زبان فارسی با استفاده از ماشین بردار پشتیبان  
   
نویسنده پاک‌نیت نصراله ,نصیری جلال‌الدین
منبع پژوهشنامه پردازش و مديريت اطلاعات - 1401 - دوره : 37 - شماره : 4 - صفحه:1245 -1268
چکیده    یک متن استنادی را می‌توان به‌عنوان مجموعه‌ای از مولفه‌ها مانند نام نویسندگان، عنوان، محل نشر، سال نشر، شماره صفحات و ... در نظر گرفت. در حالی که تجزیه متون استنادی موجود در انتهای یک مدرک علمی توسط کاربر انسانی به‌راحتی انجام‌پذیر است، تنوع موجود در شیوه‌های استناددهی در کنار اشتباهات رخ‌داده توسط نویسندگان در نگارش این متون، خودکارسازی انجام این عملیات را دشوار نموده است. روش‌های زیادی برای خودکارسازی تجزیه متون استنادی ارائه شده، اما این روش‌ها وابسته به زبان بوده و امکان به‌کارگیری یک روش ارائه‌ شده برای یک زبان در زبانی دیگر منجر به نتایجی اشتباه می‌شود. تحقیقات صورت‌گرفته بیانگر آن است که تاکنون هیچ روشی برای خودکارسازی تجزیه متون استنادی در زبان فارسی ارائه نشده است. با توجه به این مهم و نقش گسترده این مسئله در ساخت خودکار شبکه‌های استنادی مدارک علمی و فرایندهای بازیابی اطلاعات، در این مقاله به این مسئله پرداخته شده و با استفاده از روش یادگیری ماشین بُردار پشتیبان به‌عنوان یک دسته‌بند چنددسته‌ای، یک روش هوشمند برای مسئله تجزیه متون استنادی در زبان فارسی ارائه شده است. با توجه به اهمیت انتخاب ویژگی‌های مناسب برای استفاده در دسته‌بند ماشین بُردار پشتیبان، در این پژوهش این مهم با توجه به ویژگی‌های استفاده‌شده در زبان انگلیسی و ویژگی‌های زبان فارسی و ارجاع‌دهی در این زبان انجام شده است. نتایج پیاده‌سازی و آزمایش روش پیشنهادی با استفاده از مجموعه داده‌ای ایجادشده در این پژوهش نشانگر مقدار 0.95 برای پارامترهای دقت، فراخوانی و اف-1 است.
کلیدواژه تجزیه متون استنادی، دسته‌بندی، دسته‌بندی چند دسته‌ای، ماشین بردار پشتیبان، ساخت خودکار شبکه‌های استنادی.
آدرس پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), ایران, دانشگاه فردوسی مشهد, دانشکده علوم ریاضی, ایران
پست الکترونیکی jnasiri@um.ac.ir
 
   A Persian Citation Parsing Method Using Support Vector Machine  
   
Authors Pakniat Nasrollah ,Nasiri Jalal A.
Abstract    Human users can easily divide a bibliographic reference to its constructing fields such as authors, title, journal, year, etc. However, due to the variations in formats and errors made by the authors in citing documents, it is difficult to automate this task. There exist many solutions for this problem, known as citation parsing problem in the literature, however, none of them is compatible with Persian language. This is mainly due to high languagesensitivity of these solutions. Considering the important role of citation parsing in tasks such as autonomous citation indexing and information retrieval, in this paper, we propose an intelligent method for citation parsing in Persian language. The proposed method uses the support vector machine (SVM) classification method as its core. The results of testing the proposed method using a dataset designed for this task show 95% in average for precision, recall and F1 measures for extracting different fields from a bibliographic reference which is quite plausible.
Keywords Citation parsing ,classification ,multi-class classification ,supports vector machine ,autonomous citation indexing.
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved