|
|
بکارگیری مدل مبتنی بر ترنسفورمر برای تشخیص فعالیتهای غیرطبیعی در ویدئو
|
|
|
|
|
نویسنده
|
احمدی امیر محمد ,کیانی کورش ,راستگو راضیه
|
منبع
|
مدل سازي در مهندسي - 1403 - دوره : 22 - شماره : 76 - صفحه:213 -221
|
چکیده
|
با توجه به افزایش روز افزون حجم ویدئوهای تولید شده توسط دوربینهای امنیتی و نظارتی در مکانهای شخصی و عمومی، نظارت بر فعالیت های موجود در ویدئو امری حیاتی می باشد. بسیاری از نظارتهای ویدئویی برای بررسی صحت عملکرد و هشدار هنگام وقوع یا انجام اعمال غیرطبیعی میباشد. در این راستا، مدل های هوشمند مختلفی جهت تشخیص فعالیت های موجود در ویدئو ارائه گردیده است. با توجه به پیشرفت های اخیر در حوزه هوش مصنوعی و به خصوص یادگیری عمیق، در این مقاله، مدلی مبتنی بر شبکه ترنسفورمر ارائه می گردد. در این راستا، به منظور کاهش میزان محاسبات، نقاط کلیدی بدن مورد استفاده قرار می گیرند. تعداد 15 نقطه کلیدی بدن به مدل ترنسفورمر وارد می گردند تا با تکیه بر پردازش موازی این شبکه در حالت آموزش و نیز مکانیسم خودتوجهی، سرعت و دقت مدل افزایش داده شود. نتایج تجربی بر روی پایگاه داده عمومی jhmdb حاکی از بهبود دقت تشخیص فعالیت های غیرطبیعی نسبت به مدلهای پایه می باشد.
|
کلیدواژه
|
پردازش ویدئویی، نظارت ویدئویی، اعمال غیرطبیعی، یادگیری عمیق، شبکه ترنسفورمر
|
آدرس
|
دانشگاه سمنان, دانشکده برق و کامپیوتر, ایران, دانشگاه سمنان, دانشکده برق و کامپیوتر, ایران, دانشگاه سمنان, دانشکده برق و کامپیوتر, ایران
|
پست الکترونیکی
|
rrastgoo@semnan.ac.ir
|
|
|
|
|
|
|
|
|
a transformer-based model for abnormal activity recognition
|
|
|
Authors
|
ahmadi amir mohammad ,kiani kourosh ,rastgoo razieh
|
Abstract
|
given the increasing daily volume of videos generated by security cameras in personal and public spaces, monitoring the activities present in videos has become crucial. many video surveillance systems are designed to verify performance accuracy and provide alerts during the occurrence of abnormal activities. in this regard, various intelligent models have been proposed for detecting activities in videos. considering recent advances in artificial intelligence, particularly deep learning, this paper introduces a model based on the transformer network. to reduce computational complexity, keypoints of the human body are utilized in this approach. fifteen key body points are input into the transformer model, leveraging parallel processing during training and a self-attention mechanism. this enhances the speed and accuracy of the model. experimental results on the jhmdb public database indicate an improvement in the accuracy of detecting abnormal activities compared to baseline models.
|
Keywords
|
video processing ,video surveillance ,abnormal activities ,deep learning ,transformer network
|
|
|
|
|
|
|
|
|
|
|