ترکیب ماشین‌های بولتزمن محدود دوبعدی و شبکه‌های lstm برای شناسایی فعالیت‌های انسانی در ویدئو: یک رویکرد نوین

Fa | Ar | En

ترکیب ماشین‌های بولتزمن محدود دوبعدی و شبکه‌های lstm برای شناسایی فعالیت‌های انسانی در ویدئو: یک رویکرد نوین


نویسنده	جودکی مجید ,ابراهیم پور کومله حسین
منبع	محاسبات و سامانه هاي توزيع شده - 1403 - دوره : 7 - شماره : 1 - صفحه:86 -97
چکیده	در حوزه تحلیل ویدئو و به‌ویژه شناسایی فعالیت‌های انسانی، روش‌های پیشین علی‌رغم موفقیت‌های به دست آمده، در حفظ مستقیم ویژگی‌های فضایی بدون نیاز به پیش‌پردازش پیچیده و مدل‌سازی وابستگی‌های زمانی طولانی دچار محدودیت‌هایی بوده‌اند. در این پژوهش، یک معماری نوین مبتنی بر ترکیب ماشین‌های بولتزمن محدود دوبعدی و شبکه‌های lstm ارائه می‌شود که با استخراج دقیق الگوهای فضایی از فریم‌های ویدئویی و مدل‌سازی موثر روابط زمانی، خلا موجود در ادبیات پژوهشی را برطرف می‌کند. در روش پیشنهادی،ماشینهای بولتزمن بدون نیاز به پیش‌پردازش‌های گسترده، ویژگی‌های مهم فضایی را از تصاویر استخراج نموده و شبکههای lstm وابستگی‌های زمانی پیچیده را مدل‌سازی می‌کنند. نتایج تجربی حاصل از آزمایش بر روی مجموعه‌داده‌های kth، ucf sports و hmdb51 نشان از بهبود عملکرد با دقت‌های به ترتیب 95.3٪، 93.4٪ و 70.8٪ دارد که نسبت به روش‌های رقابتی موجود، کارایی قابل توجهی به اثبات رسانده است.
کلیدواژه	یادگیری عمیق، ماشین بولتزمن محدود دو بعدی، شبکه های lstm، شناسایی فعالیت انسانی، شبکه های عصبی بازگشتی
آدرس	دانشگاه آیت اله بروجردی, دانشکده مهندسی, گروه کامپیوتر, ایران, دانشگاه کاشان, دانشکده برق و کامپیوتر, ایران
پست الکترونیکی	ebrahimpour.kashanu@gmail.com

combining 2d restricted boltzmann machines and lstm networks for human action recognition in videos: a novel approach

Authors	joudaki m. ,ebrahimpour komleh h.
Abstract	in the field of video analysis, particularly in human action recognition, previous methods—despite their successes—have encountered limitations in directly preserving spatial features without resorting to complex preprocessing and in modeling long-term temporal dependencies. in this study, we propose a novel architecture based on the integration of 2d restricted boltzmann machines (rbms) and lstm networks. this approach addresses the existing gap in the literature by accurately extracting spatial patterns from video frames and effectively modeling temporal relationships. in the proposed method, restricted boltzmann machines extract important spatial features from images without the need for extensive preprocessing, while lstm networks model the complex temporal dependencies. experimental results on the kth, ucf sports, and hmdb51 datasets demonstrate improved performance with accuracies of 95.3%, 93.4%, and 70.8%, respectively, thereby establishing the significant effectiveness of the proposed approach compared to the current competitive methods.