|
|
|
|
ترکیب ماشینهای بولتزمن محدود دوبعدی و شبکههای lstm برای شناسایی فعالیتهای انسانی در ویدئو: یک رویکرد نوین
|
|
|
|
|
|
|
|
نویسنده
|
جودکی مجید ,ابراهیم پور کومله حسین
|
|
منبع
|
محاسبات و سامانه هاي توزيع شده - 1403 - دوره : 7 - شماره : 1 - صفحه:86 -97
|
|
چکیده
|
در حوزه تحلیل ویدئو و بهویژه شناسایی فعالیتهای انسانی، روشهای پیشین علیرغم موفقیتهای به دست آمده، در حفظ مستقیم ویژگیهای فضایی بدون نیاز به پیشپردازش پیچیده و مدلسازی وابستگیهای زمانی طولانی دچار محدودیتهایی بودهاند. در این پژوهش، یک معماری نوین مبتنی بر ترکیب ماشینهای بولتزمن محدود دوبعدی و شبکههای lstm ارائه میشود که با استخراج دقیق الگوهای فضایی از فریمهای ویدئویی و مدلسازی موثر روابط زمانی، خلا موجود در ادبیات پژوهشی را برطرف میکند. در روش پیشنهادی،ماشینهای بولتزمن بدون نیاز به پیشپردازشهای گسترده، ویژگیهای مهم فضایی را از تصاویر استخراج نموده و شبکههای lstm وابستگیهای زمانی پیچیده را مدلسازی میکنند. نتایج تجربی حاصل از آزمایش بر روی مجموعهدادههای kth، ucf sports و hmdb51 نشان از بهبود عملکرد با دقتهای به ترتیب 95.3٪، 93.4٪ و 70.8٪ دارد که نسبت به روشهای رقابتی موجود، کارایی قابل توجهی به اثبات رسانده است.
|
|
کلیدواژه
|
یادگیری عمیق، ماشین بولتزمن محدود دو بعدی، شبکه های lstm، شناسایی فعالیت انسانی، شبکه های عصبی بازگشتی
|
|
آدرس
|
دانشگاه آیت اله بروجردی, دانشکده مهندسی, گروه کامپیوتر, ایران, دانشگاه کاشان, دانشکده برق و کامپیوتر, ایران
|
|
پست الکترونیکی
|
ebrahimpour.kashanu@gmail.com
|
|
|
|
|
|
|
|
|
|
|
|
|
combining 2d restricted boltzmann machines and lstm networks for human action recognition in videos: a novel approach
|
|
|
|
|
Authors
|
joudaki m. ,ebrahimpour komleh h.
|
|
Abstract
|
in the field of video analysis, particularly in human action recognition, previous methods—despite their successes—have encountered limitations in directly preserving spatial features without resorting to complex preprocessing and in modeling long-term temporal dependencies. in this study, we propose a novel architecture based on the integration of 2d restricted boltzmann machines (rbms) and lstm networks. this approach addresses the existing gap in the literature by accurately extracting spatial patterns from video frames and effectively modeling temporal relationships. in the proposed method, restricted boltzmann machines extract important spatial features from images without the need for extensive preprocessing, while lstm networks model the complex temporal dependencies. experimental results on the kth, ucf sports, and hmdb51 datasets demonstrate improved performance with accuracies of 95.3%, 93.4%, and 70.8%, respectively, thereby establishing the significant effectiveness of the proposed approach compared to the current competitive methods.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|