>
Fa   |   Ar   |   En
   ارائه یک روش دو جریانه مبتنی بر ویژگی های مکمل سنتی و عمیق برای تشخیص فعالیت انسان در ویدئو  
   
نویسنده مرادیانی عاطفه ,رمضانی محسن ,اخلاقیان طاب فردین ,میرزایی رحمت الله
منبع ماشين بينايي و پردازش تصوير - 1402 - دوره : 10 - شماره : 1 - صفحه:17 -31
چکیده    تشخیص فعالیت انسان، امروزه به عنوان یک حوزه مهم در کاربردهای مختلفی مورد استفاده قرار گرفته است و مورد توجه بسیاری از محققان حوزه بینایی ماشین است تا بتوانند فعالیت اجرا شده در یک ویدئو را با دقت بالا طبقه بندی نمایند. در این مقاله یک روش دو جریانه با ساختاری جدید معرفی می گردد که از دو ویژگی مکانی در هر دو جریان استفاده می کند به گونه ای که این ویژگی ها بتوانند به پوشش نقاط ضعف همدیگر بپردازند. استفاده از این ساختار در نهایت می تواند به صورت دقیق تری منجر به پیش بینی برچسب فعالیت شود. در جریان اول ضرایب موجک با چندریزگی مناسب و در جریان دیگر ویژگی های عمیق از قاب ها استخراج می شوند. ویژگی های حاصل در دو نقشه ویژگی های مکانی قرار می گیرند و با استفاده از یک شبکه عمیق جدید تغییرات زمانی در نقشه ها یاد گرفته می شوند و با ترکیب اطلاعات طبقه بندی دو جریان برچسب نهایی تعیین می گردد. دقت روش پیشنهادی روی 3 مجموعه داده واقعی ucfyt، ucf-sport، و jhmdb برابر با 98.7، 99.83 و 92.86 بوده که عملکرد روش به طور میانگین نسبت به بهترین روش معرفی شده قبلی 4.6 درصد بهتر است.
کلیدواژه تشخیص فعالیت انسان، روش دو جریانه، نقشه ویژگی های مکانی، شبکه عمیق، ترکیب طبقه بندها
آدرس دانشگاه کردستان, ایران, دانشگاه کردستان, گروه علوم کامپیوتر, ایران, دانشگاه کردستان, گروه علوم کامپیوتر, ایران, دانشگاه کردستان, گروه مهندسی برق, ایران
پست الکترونیکی r.mirzaei@uok.ac.ir
 
   a two-stream action recognition method based on complementary traditional and deep features  
   
Authors moradyani atefe ,ramezani mohsen ,akhlaghian tab fardin ,mirzaei rahmatollah
Abstract    today, human action recognition as an important research field is used in different applications and many computer-vision researches have focused on this area to improve recognition accuracy. in this paper, a two-stream method is introduced incorporating a new structure including two spatial features to cover their defects. utilizing this structure leads to better performance finally. in the first stream, wavelet coefficients of key-frames with proper multi-resolution are extracted, and deep features of these key-frames are also extracted to be used in the other stream. the features in each stream are gathered in a spatial feature map. the temporal changes in both streams are learnt using a new deep network and the classification information of these streams are combined to achieve an accurate action label. the proposed method is examined on three challenging datasets as ucfyt, ucf-sport, and jhmdb with real videos which its accuracy on these datasets is 98.7, 99.83, and 92.86, respectively. the proposed method has about 4.6 percent better performance rather than the best previously introduced method on average.
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved