|
|
استخراج هوشمند مرز فراداده و متن در پایان نامه های فارسی با رویکرد ba_svm
|
|
|
|
|
نویسنده
|
رهنما محدثه ,هاشمی نژاد محمدحسین ,نصیری جلال الدین
|
منبع
|
پژوهشنامه پردازش و مديريت اطلاعات - 1400 - دوره : 36 - شماره : 4 - صفحه:1159 -1179
|
چکیده
|
استخراج فراداده باعث تسهیل در فرایند نمایهسازی و بهبود در بازیابی اطلاعات است. از سوی دیگر، خودکارسازی این فرایند سبب افزایش کارایی نسبت به استخراج دستی فرادادههاست. نام دانشجو، نام اساتید، عنوان، رشته و مقطع تحصیلی، چکیده، و کلمات کلیدی نمونهای از فرادادههای پایاننامه است. هدف در این مقاله شناسایی خودکار مرز فراداده و بدنه اصلی در پایاننامههای فارسی است. بدین منظور، 250 پایاننامه ثبتشده در سامانه «ایرانداک» جمعآوری شده است. ویژگیهای مد نظر از هر پاراگراف استخراج شده و سپس، پاراگرافهای پایاننامه با روش ماشین بردار پشتیبان به دو کلاس فراداده و بدنه طبقهبندی شد. در این پژوهش برای تنظیم پارامترهای الگوریتم ماشین بردار پشتیبان، الگوریتم فرامکاشفهای خفاش بهکار گرفته شده است. نتایج نشان میدهد که روش پیشنهادی با دقت 96.6 درصد نوع پاراگراف را تشخیص میدهد.
|
کلیدواژه
|
استخراج فراداده، استخراج اطلاعات، ماشین بردار پشتیبان، الگوریتم فرامکاشفهای، الگوریتم خفاش
|
آدرس
|
دانشگاه الزهرا (س), ایران, دانشگاه الزهرا (س), ایران, پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), ایران
|
پست الکترونیکی
|
j.nasiri@irandoc.ac.ir
|
|
|
|
|
|
|
|
|
Automatic Detection of the Boundary between Metadata and Body in Persian Theses using BA_SVM
|
|
|
Authors
|
Rahnama Mohadese ,Hasheminejad Seyed Mohammad Hossein ,Nasiri Jalal A
|
Abstract
|
Metadata extraction facilitates the process of indexing and improves information retrieval. Also automation of this process increases efficiency more than manual extraction. The example of the thesis metadata are names of students, professors, title, field, degree, abstract, keywords, etc. In this paper the aim is automatic boundary detection of metadata from the main body in Persian theses. Therefore, 250 theses collected from IRANDOC system. Features were extracted from paragraphs of each thesis then paragraphs were classified using support vector machine into 2 classes: metadata and body. In this study, Bat algorithm is used to set the parameter of SVM. The result reveals that the proposed method predicts type of paragraphs with 96.6 percent accuracy.
|
Keywords
|
Metadata Extraction ,Information Extraction ,Support Vector Machine (SVM) ,Metaheuristic Algorithm ,Bat Algorithm (BA)
|
|
|
|
|
|
|
|
|
|
|