>
Fa   |   Ar   |   En
   توصیف محتوای تصاویر به صورت خودکار با بکارگیری شبکه عصبی کپسولی و روش تعبیه سازی elmo  
   
نویسنده جوانمردی شیما ,لطیف علی محمد ,صادقی محمدتقی
منبع ماشين بينايي و پردازش تصوير - 1402 - دوره : 10 - شماره : 1 - صفحه:75 -91
چکیده    توصیف محتوای تصویر به صورت خودکار توسط ماشین یک مشکل چالش برانگیز در بینایی کامپیوتر است و هدف آن تولید توضیحات قابل درک توسط کامپیوتر برای تصاویر می باشد. استفاده از شبکه های عصبی پیچشی (cnn) نقش مهمی در زمینه  توصیف تصاویر ایفا کرده است. با این حال، در طول فرآیند تولید توصیف‌های مرتبط با تصویر دو چالش عمده برای cnn وجود دارد که عبارتند از: عدم توجه آنها به روابط و ساختارهای سلسله مراتبی مکانی بین اشیای درون تصویر، و عدم ثبات در مقابل تغییرات چرخشی تصاویر. به منظور رفع این چالش ها این مقاله با بهره گیری از یک شبکه کپسولی بهبود یافته، به توصیف محتوای تصویر با استفاده از پردازش زبان طبیعی می پردازد. شبکه کپسولی با درنظر گرفتن موقعیت مکانی اشیای درون تصویر نسبت به یکدیگر،  اطلاعات مربوط به محتوای تصویر را ارائه می دهد. یک کپسول شامل مجموعه‌ای از نورون‌ها است که پارامترهای وضعیت اشیا درون تصویر مانند سایز، جهت، مقیاس و روابط اشیا نسبت به هم را در نظر می‌ گیرند. این کپسول ها تمرکز ویژه ای بر استخراج ویژگی های معنادار برای استفاده در فرآیند تولید توضیحات مرتبط برای مجموعه ای معین از تصاویر دارند. آزمایش‌های کیفی روی مجموعه داده‌های ms-coco با بهره گیری از شبکه کپسولی و روش تعبیه سازی elmo، منجر به بهبود 2 تا 5 درصدی معیارهای ارزیابی شده، در مقایسه با مدل‌های زیرنویس تصویر موجود شده است.
کلیدواژه توصیف تصاویر، یادگیری عمیق، شبکه کپسولی، شبکه عصبی پیچشی، پردازش زبان طبیعی
آدرس دانشگاه یزد, ایران, دانشگاه یزد, دانشکده مهندسی کامپیوتر, ایران, دانشگاه یزد, دانشکده مهندسی برق, ایران
پست الکترونیکی m.sadeghi@yazd.ac.ir
 
   automatic image captioning using capsule neural network and elmo embedding technique  
   
Authors javanmardi shima ,latif ,ali mohammad ,sadeghi mohammad taghi
Abstract    automatic image captioning is a challenging task in computer vision and aims to generate computer-understandable descriptions for images. employing convolutional neural networks (cnn) has a key role in image caption generation. however, during the process of generating descriptions for an image, there are two major challenges for cnn, such as: they do not consider the relationships and spatial hierarchical structures between the objects in the image, and the lack of resistance against rotational changes of the images. in order to solve these challenges, this paper presents an improved capsule network to describe image content using natural language processing by considering the relations between the objects . a capsule contains a set of neurons that consider the parameters of the state of objects in the image, such as size, direction, scale, and relationships of objects to each other. these capsules have a special focus on extracting meaningful features for use in the process of generating relevant descriptions for a given set of images. qualitative tests on the ms-coco dataset using the capsule network and elmo embedding technique have resulted in 2-5% improvement in the evaluated metrics compared to existing image captioning models.
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved