>
Fa   |   Ar   |   En
   بررسی روش‌ها، مجموعه‌های داده و معیارهای ارزیابی در حوزه‌ی پرسش از متون درون تصویر  
   
نویسنده فرشیدی کبری ,ختن‌لو حسن ,منصوری‌زاده محرم ,علی‌قارداش الهام
منبع سيزدهمين كنفرانس بين المللي فناوري اطلاعات و دانش - 1401 - دوره : 13 - سیزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش - کد همایش: 01220-64879 - صفحه:0 -0
چکیده    امروزه مسائل مربوط به روابط چند‌وجهی بین وجه‌های مختلف داده، بطور مثال بین وجه‌های تصویر، متن، صوت یکی از حوزه‌های تحقیقاتی پرکاربرد و پرطرفدار در بین پژوهش‌گران شده است. یکی از انواع این مسائل، مسئله‌ی پاسخ‌گویی به سوالات دیداری است که در آن از دو وجه بصری و متنی در ورودی استفاده می‌شود. در نوع خاصی از این مسئله که با عنوان پاسخگویی به سوالات دیداری متنی شناخته میشود، هدف، کشف ارتباط بین تصویر بخصوص متون و علائم درون تصویر و سوال متنی پرسیده شده، درباره‌ی آن تصویر می باشد. پرسش از متون درون تصویر بخصوص اگر شامل عبارات مهم باشد اهمیت پیدا می‌کند . پژوهش‌گران توسط مدل‌های یادگیری عمیق، معماری مبدل‌ها، مکانیزم توجه توانسته‌اند به نتایج خوبی دست پیدا کنند. با توجه به انواع تلاش‌های پژوهش‌گران در 4 سال اخیر هم‌اکنون در دوره‌ای هستیم که می‌توان مروری برتلاش‌های آن‌ها داشته باشیم و آنها را مقایسه کنیم و مسیر رو به پیشرفت را ببینیم و اقدامات انجام شده را بازبینی کنیم. بر اساس اطلاعات بدست آمده این مقاله، اولین مقاله به زبان فارسی است که به جمع‌آوری و مقایسه مطالعات موجود درباره‌ی مسئله‌ی پاسخ‌گویی به سوالات دیداری متن و چالش‌های آن می‌پردازد.
کلیدواژه پاسخگویی به سوالات دیداری متن،سازکار توجه،تشخیص کاراکتر نوری،ویژگیهای پیش‌آموزش،مبدل‌ها
آدرس , iran, , iran, , iran, , iran
پست الکترونیکی e.alighardash@eng.basu.ac.ir
 
     
   
Authors
  
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved