|
|
پاسخ به پرسش دیداری در تصاویر هنری با استفاده از یادگیری عمیق
|
|
|
|
|
نویسنده
|
ذوالقدریها عرفان ,فولادیقلعه کاظم ,اردهخانی پویا
|
منبع
|
ششمين كنفرانس بينالمللي بازشناسي الگو و تحليل تصوير - 1401 - دوره : 6 - ششمین کنفرانس بینالمللی بازشناسی الگو و تحلیل تصویر - کد همایش: 01220-99203 - صفحه:0 -0
|
چکیده
|
پاسخ به پرسش دیداری در حوزههای خاص علاوه بر تازگی، از این رو که به کاربردیتر شدن این سیستمها در مسائل روزمره و مسائل تخصصی کمک میکند، اهمیت دارد. در این پژوهش با استفاده از یک مجموعهداده هنری که دارای پرسشهای دیداری و برمبنای دانش میباشد، اقدام به پیادهسازی و بهبود عملکرد یک سیستم پاسخ به پرسش دیداری در تصاویر هنری میکنیم. برای این کار در ابتدا ماهیت پرسشهای مجموعهداده را با استفاده از یک bert پیش آموزش دیده مشخص کرده و سپس در شاخهی دیداری با استفاده از مدل iqan با مکانیسم توجه mlb و مکانیسم همجوشی mutan به پرسشهای دیداری و در شاخهی مبتنی بر دانش با استفاده از یک مدل مبتنی بر xlnet به پرسشهایی که از روی تصاویر قادر به پاسخدهی به آنها نیستیم، پاسخ میدهیم. در شاخهی دیداری به دقت 78.92% در پرسشهای دیداری رسیدیم. در شاخهی مبتنی بر دانش نیز به دقت 47.71% دست پیدا کردیم. در مجموع دو شاخه با توجه به تقسیم آزمایشی مجموعهداده به دقت 55.88% رسیدیم. همچنین در این پژوهش تاثیر پارامترهای تعداد نگاه اجمالی و توابع فعالسازی را در عملکرد مدل بررسی شده است.
|
کلیدواژه
|
بینایی کامپیوتری، پاسخ به پرسش دیداری، پردازش زبان طبیعی، تصاویر هنری
|
آدرس
|
, iran, , iran, , iran
|
پست الکترونیکی
|
pouya.ardehkhani@ut.ac.ir
|
|
|
|
|
|
|
|
|
|
|
|
Authors
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|