|
|
شبکه عصبی عمیق برای پیشبینی تعامل انسان در ویدئو با استفاده از روابط فازی و شار نوری
|
|
|
|
|
نویسنده
|
افراسیابی مه لقا ,ختن لو حسن ,منصوری زاده محرم
|
منبع
|
مهندسي برق دانشگاه تبريز - 1399 - دوره : 50 - شماره : 3 - صفحه:1035 -1046
|
چکیده
|
پیشبینی تعامل در ویدئو یکی از موضوعات فعال در بینایی کامپیوتر است، که هدف آن پیشبینی تعامل قبل از انجام کامل آن است. این موضوع به دلیل چالشهای موجود در این زمینه هنوز مورد توجه است. در این مقاله یک شبکه عصبی عمیق برای پیشبینی تعامل با استفاده از روابط فازی و شار نوری ارائهشده است. نوآوری این روش ایجاد دو تصویر فازی از یک ویدئو است. این تصاویر فازی بر مبنای گرادیان و شار نوری ایجاد میشود. توابع عضویت فازی مناسب برای روابط مکانی بین افراد در حال تعامل در تصاویر گرادیان و شار نوری ایجاد شده است. از طرفی یک تابع عضویت فاصله برای ارزشدهی به فریمها و یک تابع عضویت فاصله برای ارزشدهی به ناحیهی بین افراد در حال تعامل تعریف شده است. سپس ویژگیهای مناسب مکانیزمانی از این تصاویر با استفاده از معماری شبکه عصبی کانولوشن استخراجشده است. نتایج این روش بر روی دو مجموعه داده استاندارد تشخیص تعامل، bit و ut ارزیابی شده است. نتایج نشان میدهد ایجاد تصاویر فازی و استخراج ویژگیهای عمیق از آن تصاویر باعث افزایش دقت پیشبینی تعامل نسبت به روشهای پیشین شده است.
|
کلیدواژه
|
رابطه مکانی فازی، گرادیان، شار نوری، شبکه کانولوشن
|
آدرس
|
دانشگاه بوعلی سینا, دانشکده فنی و مهندسی, ایران, دانشگاه بوعلی سینا, دانشکده فنی و مهندسی, ایران, دانشگاه بوعلی سینا, دانشکده فنی و مهندسی, ایران
|
پست الکترونیکی
|
mansoorm@basu.ac.ir
|
|
|
|
|
|
|
|
|
Deep neural network for interaction prediction in video using fuzzy relationship and optical flow
|
|
|
Authors
|
Afrasiabi M. ,Khotanlou H. ,Mansoorizadeh M.
|
Abstract
|
The aim of interaction prediction in videos is to predict the interaction before it actually happens. Recently, this task has been important in computer vision domain and is gaining a lot of attention due to its challenges. In this paper, a deep neural network using fuzzy relationship and optical flow is proposed to deal with the problem. In this approach for each frame of a given video, first, two fuzzy images are obtained based on the gradient and the optical flow of the frame. Then, two set of features are extracted by a convolutional neural network trained on these images. Final prediction is made by aggregating the two outputs of the network. The proposed method shows promising results on two interaction datasets, namely BITInteraction and UTInteraction.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|