>
Fa   |   Ar   |   En
   توصیف تصاویر مبتنی بر شبکه عمیق رمزگذار-رمزگشا و سازوکار توجه بر توجه  
   
نویسنده فامیل ستاری زهرا ,فامیل ستاری زهرا ,ختن لو حسن ,ختن لو حسن ,علیقارداش الهام ,علیقارداش الهام
منبع ماشين بينايي و پردازش تصوير - 1402 - دوره : 10 - شماره : 2 - صفحه:77 -88
چکیده    توصیف تصویر یک زمینه تحقیقاتی بین رشته ای در بینایی ماشین و پردازش زبان طبیعی است. بسیاری از روش‌های پیشنهاد شده برای تولید توصیف تصویر از چارچوب رمزگذار - رمزگشا پیروی کرده‌اند. به این ترتیب هر کلمه بر اساس ویژگی‌های تصویر و کلمات تولید شده قبلی تولید می‌شود. اخیراً سازوکار توجه، که میتواند با ایجاد نقشه فضایی، مناطق مرتبط تصویر با هر کلمه را برجسته ‌کند، به طور گسترده در تحقیقات استفاده شده است. در این مقاله، ما یک روش جدید را پیشنهاد کرده‌ایم که چارچوب رمزگذار-رمزگشا را با سازوکار توجه و سازوکار توجه بر توجه ادغام کرده‌ است. بخش رمزگذار مدل شامل چند بخش resnet، attention-lstm، multi head attention و attention on attention  است. از resnet برای استخراج ویژگی های کلی تصویر استفاده شده است. ایه‌ی language-lstmمسئولیت رمزگشایی را بر عهده دارد. سازوکار توجه از شواهد محلی برای افزایش نمایش ویژگی‌ها و استدلال در تولید توصیفات تصویری بهره برده و سازوکار توجه بر توجه می‌‌تواند روابط اشیای داخل تصاویر را به‌خوبی درک کند. این روش پیشنهادی توانسته است بر روی تصاویر مجموعه‌های داده flickr8k و mscocoتوصیف‌های بهتری را نسبت به روشهای موفق موجود ارائه دهد. همچنین بر اساس معیارهای ارزیابی meteor، rougeعملکرد توصیف تصویر را بهبود داده است.
کلیدواژه توصیف تصویر، رمزگذار-رمزگشا سازوکار توجه، سازوکار توجه بر توجه، پردازش زبان‌ها طبیعی
آدرس دانشگاه بوعلی سینا, گروه مهندسی کامپیوتر، آزمایشگاه هوش و بینایی ربات, ایران, دانشگاه بوعلی سینا, گروه مهندسی کامپیوتر، آزمایشگاه هوش و بینایی ربات, ایران, دانشگاه بوعلی سینا, گروه مهندسی کامپیوتر، آزمایشگاه هوش و بینایی ربات, ایران, دانشگاه بوعلی سینا, گروه مهندسی کامپیوتر، آزمایشگاه هوش و بینایی ربات, ایران, دانشگاه بوعلی سینا, گروه مهندسی کامپیوتر، آزمایشگاه هوش و بینایی ربات, ایران, دانشگاه بوعلی سینا, گروه مهندسی کامپیوتر، آزمایشگاه هوش و بینایی ربات, ایران
پست الکترونیکی alighardash.elham@gmail.com
 
   image captioning based on encoder-decoder deep network and attention on attention  
   
Authors familsattari zahra ,familsattari zahra ,khotanlou hassan ,khotanlou hassan ,alighardash elham ,alighardash elham
Abstract    image captioning is an interdisciplinary research field in machine vision and natural language processing. most of the proposed methods for generating image captions follow an encoder-decoder framework. in this way, each word is generated based on the image features and previously generated words. recently the attention mechanism, which usually creates a spatial map that highlights the image regions associated with each word, has been widely used in research. in this paper, we propose a new method that integrates the encoder-decoder framework with the attention on attention mechanism. the encoder part of the model uses resnet to extract global features of the image, and the decoder consists of three important parts: attention-lstm, language-lstm, and attention on attention-layer. the attention mechanism uses local evidence to enhance the demonstration of the features and reasoning in the generation of image descriptions. the method was able to improve the generation of captions and improve meteor, rough evaluation metric well. and also it generates better captions compared to modern methods on the flickr8k, dataset.
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved