>
Fa   |   Ar   |   En
   دسته‌بندی تصاویر در مدارک علمی بر اساس یک روش یادگیری عمیق  
   
نویسنده فخرزاده آزاده ,صدیقی امیرحسین
منبع مديريت اطلاعات - 1402 - دوره : 9 - شماره : 1 - صفحه:58 -76
چکیده    بازیابی اطلاعات از تصاویر، به دو روشِ بافت‌محور و محتوا محور امکان‌پذیر است. در روش محتوا محور، محتوای بصری تصویر، برای بازیابی اطلاعات در نظر گرفته ‌می‌شود. برای استخراج اطلاعات از محتوای تصویرها و استفاده از روش‏های محتوا محور، ابتدا باید آن‌ها را دسته‌بندی کرد. در این پژوهش یک روش دسته‌بندی برای تصاویر علمی معرفی می‌شود. داده‌های آزمایشی این پژوهش، از رساله‌ها و پایان‌نامه‌های موجود در گنج، یکی از منابع غنی اسناد علمی فارسی، انتخاب شده است. داده‌های آموزشی شامل 5892 تصویر است که به‌صورت تصادفی از رساله‌ها و پایان‌نامه‌های گنج، در هفت حوزه مختلف انتخاب شده است و خبرگان آن‌ها را برچسب زده‌اند. تصاویر به شش دسته شامل عکس‏های طبیعی، نقشه‌ها، نمودارهای x-y))، جدول‏ها، نمودارهای ساختارمند یا فلوچارت‌ها و نمودارهای آماری دسته‌بندی شدند. از آنجایی که داده آموزشی به‌شدت نامتقارن بودند، با استفاده از روش‏های افزونه، اعضای کلاس‌های کم‌جمعیت افزایش داده شد. به‌دلیل شباهت بصری بین تصاویر بعضی از دسته‌ها، در تصاویر علمی، استخراج ویژگی‌های متمایزکننده چالشی بود؛ بنابراین از روش‏های یادگیری عمیق که ویژگی‌ها را از خود تصاویر می‌آموزد، استفاده شد. با توجه به حجم کم داده آموزشی، شبکه عصبی با لایه‌ها و پارامترهای کمتر استفاده شد. بررسی‌ها نشان داد که شبکه‌هایی‌که روی یک پایگاه داده تصاویر بزرگ، از پیش آموزش داده شده‌اند، دقت بهتری دارند. بر اساس نتایج این پژوهش، شبکه از پیش آموزش داده شده  vgg16، با 16 لایه، با دقت 97درصد روی داده آزمون، در دسته‌بندی تصاویر علمی عملکرد خوبی دارد.
کلیدواژه بازیابی تصاویر، دسته‌بندی تصاویر علمی، یادگیری عمیق، مدیریت اطلاعات
آدرس پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), پژوهشکده فناوری اطلاعات, گروه سیستم‌های اطلاعاتی, ایران, پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), پژوهشکده فناوری اطلاعات, گروه سیستم‌های اطلاعاتی, ایران
پست الکترونیکی seddighi@irandoc.ac.ir
 
   classification of figures in scientific documents based on a deep learning method  
   
Authors fakhrzadeh azadeh ,seddighi amir hossein
Abstract    there are two ways to retrieve information from figures: context-oriented and content-oriented. the content-oriented methods use the visual content of the figures for retrieval. however, scientific figures are complex, so they need to be classified first before using content-oriented methods to extract information from them. this paper presents a classification method for scientific figures. the training data for the classification task was chosen from ganj, a rich source of persian scientific documents. the training data consisted of 5892 figures randomly selected from dissertations and theses of ganj in seven different fields. experts labeled the figures into six classes: natural photos, maps, x-y diagrams, tables, structured diagrams or flowcharts, and statistical diagrams. the training data was unbalanced, so augmentation methods were used to increase the number of figures in underrepresented classes.  scientific images from different classes, in some cases, look very similar, so finding features that can distinguish them is difficult. we applied deep learning methods that learn the features directly from the images. due to the scarcity of data, we used  neural network with fewer layers and parameters. we found that networks that were pre-trained on a large image database performed better. our research shows that the pre-trained vgg16 network with sixteen layers can classify scientific images with 97% accuracy.
Keywords image retrieval ,scientific image classification ,deep learning ,information management.
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved