|
|
بازشناسی کنش انسان از روی تصویر ایستا با استفاده از ژست انسان در شبکه چندشاخه
|
|
|
|
|
نویسنده
|
یوسفی رقیه ,فائز کریم
|
منبع
|
مهندسي برق و مهندسي كامپيوتر ايران - 1399 - دوره : 18 - شماره : 3 - صفحه:241 -248
|
چکیده
|
امروزه بازشناسی کنش انسان از روی تصویر ایستا به یکی از موضوعات فعال در زمینه بینایی ماشین و شناسایی الگو تبدیل شده است. تمرکز این کار بر روی شناسایی کنش یا رفتار انسان از روی یک تصویر است. برخلاف روشهای سنتی که از ویدئوها یا دنبالهای از تصاویر برای بازشناسی کنش انسان استفاده میکنند، یک تصویر ایستا فاقد اطلاعات زمانی است. بنابراین بازشناسی کنش مبتنی بر تصویر ایستا دارای چالش بیشتری نسبت به بازشناسی کنش مبتنی بر ویدئو است. با توجه به اهمیت اطلاعات حرکتی در بازشناسی کنش از روش flow2im برای تخمین اطلاعات حرکتی از روی تصویر ایستا استفاده شده است. ساختار پیشنهادی در این مقاله، حاصل ترکیب سه شبکه عصبی عمیق است که تحت عنوان شبکه سهشاخه یاد شده است. شبکه اول بر روی تصویر خام رنگی و شبکه دوم بر روی شار نوری پیشبینی شده از روی تصویر و شبکه سوم بر روی ژست به دست آمده از انسان موجود در تصویر آموزش میبیند. در نهایت تلفیق این سه شبکه عصبی عمیق سبب افزایش دقت بازشناسی کنش انسان شده است. به عبارت دیگر در این مقاله علاوه بر اطلاعات مکانی و زمانی پیشبینی شده از اطلاعات ژست انسان نیز برای بازشناسی کنش استفاده شده است زیرا ویژگی ژست برای بازشناسی کنش بسیار حائز اهمیت است. روش پیشنهادی در این مقاله توانسته است به دقت 80/91 درصد بر روی مجموعه داده action 7willow، به دقت 02/91 درصد بر روی مجموعه داده 2012pascal voc و به دقت 87/96 درصد بر روی مجموعه داده 10stanford دست یابد. با توجه به مقایسه نتایج با روشهای قبلی متوجه خواهیم شد که روش پیشنهادی بالاترین دقت را بر روی هر سه مجموعه داده نسبت به کارهای اخیر به دست آورده است.
|
کلیدواژه
|
بازشناسی کنش انسان، پیشبینی ژست، شبکه سهشاخه، شبکه عصبی عمیق
|
آدرس
|
دانشگاه آزاد اسلامی واحد قزوین, دانشکده مهندسی کامپیوتر و فناوری اطلاعات, ایران, دانشگاه صنعتی امیرکبیر, دانشکده مهندسی برق, ایران
|
پست الکترونیکی
|
kfaez@aut.ac.ir
|
|
|
|
|
|
|
|
|
Human Action Recognition in Still Image of Human Pose using MultiStream neural Network
|
|
|
Authors
|
Yousefi Roghayeh ,Faez K.
|
Abstract
|
Today, human action recognition in still images has become one of the active topics in computer vision and pattern recognition. The focus is on identifying human action or behavior in a single static image. Unlike the traditional methods that use videos or a sequence of images for human action recognition, still images do not involve temporal information. Therefore, still imagebased action recognition is more challenging compared to videobased recognition. Given the importance of motion information in action recognition, the Im2flow method has been used to estimate motion information from a static image. To do this, three deep neural networks are combined together, called a threestream neural network. The proposed structure of this paper, namely the threestream network, stemmed from the combination of three deep neural networks. The first, second and third networks are trained based on the raw color image, the optical flow predicted by the image, and the human pose obtained in the image, respectively. In other words, in this study, in addition to the predicted spatial and temporal information, the information on human pose is also used for human action recognition due to its importance in recognition performance. Results revealed that the introduced threestream neural network can improve the accuracy of human action recognition. The accuracy of the proposed method on Willow7 action, Pascal voc2012, and Stanford10 data sets were 91.8%, 91.02%, and 96.97%, respectively, which indicates the promising performance of the introduced method compared to stateoftheart performance.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|