|
|
استفاده از سیگنالهای بالابهپایین مبتنی بر محتوا برای بهبود بازشناسی شییء
|
|
|
|
|
نویسنده
|
سلطاندوست ناری الهه سادات ,ابراهیم پور رضا ,رجایی کریم
|
منبع
|
ماشين بينايي و پردازش تصوير - 1399 - دوره : 7 - شماره : 1 - صفحه:29 -45
|
چکیده
|
بازشناسی شییء در صحنههای پیچیدهی ازجمله تواناییهای شگرف سامانه بینایی انسان است که تاکنون مدلهای محاسباتی بینایی در پیادهسازی آن چندان موفق نبودهاند. در این راستا محققان سعی دارند با شناسایی سازوکار مغز و الهام از آن این مدل را بهبود بخشند. یکی از موفقترین مدلهای ارائهشده در بازشناسی شییء شبکههای عصبی کانولوشنی (cnn’s) هستند. این مدلها تنها قادر به شبیهسازی مسیر پیشروی بینایی انسان میباشند. با این حال شواهد مطالعات علوم اعصاب نشان میدهند سامانه بینایی انسان سیگنالهای بالابهپایین انتظار را در راستای افزایش دقت و سرعت بازشناسی شییء در زمینههای پیچیده به کار میبندد. در این مقاله با بهرهمندی از سیگنالهای بالابهپایین انتظار، سعی بر شبیهسازی مسیر بازخوردی سیستم بینایی انسان شده است. به این منظور مدل کانولوشنی alexnet بهعنوان مسیر پیشرو سیستم بینایی استفاده شد. برای بازشناسی شییء از مدل آموزش یافته با مجموعه دادهی imagenet و برای بازشناسی صحنه از مدل آموزش یافته با مجموعه تصاویر صحنه places استفاده شد. شبکه آموزش دیده بر روی تصاویر صحنه (place_cnn) برای تولید بردار بازخورد مبتنی بر اطلاعات حاصل از صحنه در نظر گرفته شد. سیگنالهای بازخوردی شامل اطلاعاتی از فراوانی تکرار شییء موردنظر در صحنهی جاری هستند. این سیگنالها با قاعدهی پسانتشار در قالب سیگنالهای بالابهپایین با اطلاعات مسیر پیشرو تلفیق و در شبکهی تشخیص شییء بازخورد میشوند. بهمنظور سنجش مدل پیشنهادی آزمایشهایی با استفاده از چند مجموعه داده صورت گرفت. نتایج نشان داد که ترکیب اطلاعات بازخوردی با مسیر پیشرو باعث بهبود معنی دار عملکرد مدل پیشنهادی نسبت به مدل پایهی alexnet می شود. استفاده از اطلاعات محتوایی تصاویر باعث بهبود عملکرد بازشناسی شییء میشود بهخصوص هنگامی که شییء هدف در شرایط چالشی قرار گرفته است.
|
کلیدواژه
|
شبکه عصبی کانولوشنی، بازشناسی شییء، محتوا، شبکهی place_cnn، شبکهی alexnet
|
آدرس
|
دانشگاه تربیت دبیر شهید رجایی, دانشکده مهندسی کامپیوتر, ایران, دانشگاه تربیت دبیر شهید رجایی, دانشکده مهندسی کامپیوتر, گروه هوش مصنوعی, ایران, پژوهشگاه دانشهای بنیادی, پژوهشکده علومشناختی, ایران
|
پست الکترونیکی
|
rajaei.k@ipm.ir
|
|
|
|
|
|
|
|
|
Improving object recognition using context based topdown signals
|
|
|
Authors
|
Soltandoost-Nari Elahe ,Ebrahimpour Reza ,Rajaee Karim
|
Abstract
|
Human visual system can recognize object accurately, swiftly, and effortlessly even when objects are under challenging conditions. Many research groups try to model this ability; however, these computational models could not achieve human performance. Convolutional neural networks (CNN’s) are the stateoftheart successful computational vision models that try to implement feedforward path of human visual system. However, evidence shows that human visual system uses topdown expectation signals to increase accuracy and speed of object recognition under dificult conditons. In this study, we extend a wellknown model using topdown expectation signals. In this regard, Alexnet network is considered as feedforward path. We used a pretrained network on ImageNet dataset for object recognition and a pretrained network on Places dataset for scene recognition. The pretrained network on places was used to provide topdown feedback signals based on scene information. The feedback signals contain occurrence frequency information of the objects in the scene. These signals are integrated with information from feedforward path. To evaluate the proposed model several experiments were done on different image sets. The results showed that integrating the feedback information with the feedforward information significantly improve object recognition accuracy in comparison to the base model. This support the idea that content information facilitates object recognition ability, specifically when objects are under challenging conditions.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|