|
|
دستهبندی تصاویر در مدارک علمی بر اساس یک روش یادگیری عمیق
|
|
|
|
|
نویسنده
|
فخرزاده آزاده ,صدیقی امیرحسین
|
منبع
|
مديريت اطلاعات - 1402 - دوره : 9 - شماره : 1 - صفحه:58 -76
|
چکیده
|
بازیابی اطلاعات از تصاویر، به دو روشِ بافتمحور و محتوا محور امکانپذیر است. در روش محتوا محور، محتوای بصری تصویر، برای بازیابی اطلاعات در نظر گرفته میشود. برای استخراج اطلاعات از محتوای تصویرها و استفاده از روشهای محتوا محور، ابتدا باید آنها را دستهبندی کرد. در این پژوهش یک روش دستهبندی برای تصاویر علمی معرفی میشود. دادههای آزمایشی این پژوهش، از رسالهها و پایاننامههای موجود در گنج، یکی از منابع غنی اسناد علمی فارسی، انتخاب شده است. دادههای آموزشی شامل 5892 تصویر است که بهصورت تصادفی از رسالهها و پایاننامههای گنج، در هفت حوزه مختلف انتخاب شده است و خبرگان آنها را برچسب زدهاند. تصاویر به شش دسته شامل عکسهای طبیعی، نقشهها، نمودارهای x-y))، جدولها، نمودارهای ساختارمند یا فلوچارتها و نمودارهای آماری دستهبندی شدند. از آنجایی که داده آموزشی بهشدت نامتقارن بودند، با استفاده از روشهای افزونه، اعضای کلاسهای کمجمعیت افزایش داده شد. بهدلیل شباهت بصری بین تصاویر بعضی از دستهها، در تصاویر علمی، استخراج ویژگیهای متمایزکننده چالشی بود؛ بنابراین از روشهای یادگیری عمیق که ویژگیها را از خود تصاویر میآموزد، استفاده شد. با توجه به حجم کم داده آموزشی، شبکه عصبی با لایهها و پارامترهای کمتر استفاده شد. بررسیها نشان داد که شبکههاییکه روی یک پایگاه داده تصاویر بزرگ، از پیش آموزش داده شدهاند، دقت بهتری دارند. بر اساس نتایج این پژوهش، شبکه از پیش آموزش داده شده vgg16، با 16 لایه، با دقت 97درصد روی داده آزمون، در دستهبندی تصاویر علمی عملکرد خوبی دارد.
|
کلیدواژه
|
بازیابی تصاویر، دستهبندی تصاویر علمی، یادگیری عمیق، مدیریت اطلاعات
|
آدرس
|
پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), پژوهشکده فناوری اطلاعات, گروه سیستمهای اطلاعاتی, ایران, پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), پژوهشکده فناوری اطلاعات, گروه سیستمهای اطلاعاتی, ایران
|
پست الکترونیکی
|
seddighi@irandoc.ac.ir
|
|
|
|
|
|
|
|
|
classification of figures in scientific documents based on a deep learning method
|
|
|
Authors
|
fakhrzadeh azadeh ,seddighi amir hossein
|
Abstract
|
there are two ways to retrieve information from figures: context-oriented and content-oriented. the content-oriented methods use the visual content of the figures for retrieval. however, scientific figures are complex, so they need to be classified first before using content-oriented methods to extract information from them. this paper presents a classification method for scientific figures. the training data for the classification task was chosen from ganj, a rich source of persian scientific documents. the training data consisted of 5892 figures randomly selected from dissertations and theses of ganj in seven different fields. experts labeled the figures into six classes: natural photos, maps, x-y diagrams, tables, structured diagrams or flowcharts, and statistical diagrams. the training data was unbalanced, so augmentation methods were used to increase the number of figures in underrepresented classes. scientific images from different classes, in some cases, look very similar, so finding features that can distinguish them is difficult. we applied deep learning methods that learn the features directly from the images. due to the scarcity of data, we used neural network with fewer layers and parameters. we found that networks that were pre-trained on a large image database performed better. our research shows that the pre-trained vgg16 network with sixteen layers can classify scientific images with 97% accuracy.
|
Keywords
|
image retrieval ,scientific image classification ,deep learning ,information management.
|
|
|
|
|
|
|
|
|
|
|