بررسی روشها، مجموعههای داده و معیارهای ارزیابی در حوزهی پرسش از متون درون تصویر
|
|
|
|
|
نویسنده
|
فرشیدی کبری ,ختنلو حسن ,منصوریزاده محرم ,علیقارداش الهام
|
منبع
|
سيزدهمين كنفرانس بين المللي فناوري اطلاعات و دانش - 1401 - دوره : 13 - سیزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش - کد همایش: 01220-64879 - صفحه:0 -0
|
چکیده
|
امروزه مسائل مربوط به روابط چندوجهی بین وجههای مختلف داده، بطور مثال بین وجههای تصویر، متن، صوت یکی از حوزههای تحقیقاتی پرکاربرد و پرطرفدار در بین پژوهشگران شده است. یکی از انواع این مسائل، مسئلهی پاسخگویی به سوالات دیداری است که در آن از دو وجه بصری و متنی در ورودی استفاده میشود. در نوع خاصی از این مسئله که با عنوان پاسخگویی به سوالات دیداری متنی شناخته میشود، هدف، کشف ارتباط بین تصویر بخصوص متون و علائم درون تصویر و سوال متنی پرسیده شده، دربارهی آن تصویر می باشد. پرسش از متون درون تصویر بخصوص اگر شامل عبارات مهم باشد اهمیت پیدا میکند . پژوهشگران توسط مدلهای یادگیری عمیق، معماری مبدلها، مکانیزم توجه توانستهاند به نتایج خوبی دست پیدا کنند. با توجه به انواع تلاشهای پژوهشگران در 4 سال اخیر هماکنون در دورهای هستیم که میتوان مروری برتلاشهای آنها داشته باشیم و آنها را مقایسه کنیم و مسیر رو به پیشرفت را ببینیم و اقدامات انجام شده را بازبینی کنیم. بر اساس اطلاعات بدست آمده این مقاله، اولین مقاله به زبان فارسی است که به جمعآوری و مقایسه مطالعات موجود دربارهی مسئلهی پاسخگویی به سوالات دیداری متن و چالشهای آن میپردازد.
|
کلیدواژه
|
پاسخگویی به سوالات دیداری متن،سازکار توجه،تشخیص کاراکتر نوری،ویژگیهای پیشآموزش،مبدلها
|
آدرس
|
, iran, , iran, , iran, , iran
|
پست الکترونیکی
|
e.alighardash@eng.basu.ac.ir
|
|
|
|
|