>
Fa   |   Ar   |   En
   شبکه عصبی عمیق برای پیش‌بینی تعامل انسان در ویدئو با استفاده از روابط فازی و شار نوری  
   
نویسنده افراسیابی مه لقا ,ختن لو حسن ,منصوری زاده محرم
منبع مهندسي برق دانشگاه تبريز - 1399 - دوره : 50 - شماره : 3 - صفحه:1035 -1046
چکیده    پیش‌بینی تعامل در ویدئو یکی از موضوعات فعال در بینایی کامپیوتر است، که هدف آن پیش‌بینی تعامل قبل از انجام کامل آن است. این موضوع به دلیل چالش‌های موجود در این زمینه هنوز مورد توجه است. در این مقاله یک شبکه عصبی عمیق برای پیش‌بینی تعامل با استفاده از روابط فازی و شار نوری ارائه‌شده است. نوآوری این روش ایجاد دو تصویر فازی از یک ویدئو است. این تصاویر فازی بر مبنای گرادیان و شار نوری ایجاد می‌شود. توابع عضویت فازی مناسب برای روابط مکانی بین افراد در حال تعامل در تصاویر گرادیان و شار نوری ایجاد شده است. از طرفی یک تابع عضویت فاصله برای ارزش‌دهی به فریم‌ها و یک تابع عضویت فاصله برای ارزش‌دهی به ناحیه‌ی بین افراد در حال تعامل تعریف شده است. سپس ویژگی‌های مناسب مکانیزمانی از این تصاویر با استفاده از معماری شبکه عصبی کانولوشن استخراج‌شده است. نتایج این روش بر روی دو مجموعه داده استاندارد تشخیص تعامل، bit و ut ارزیابی شده است. نتایج نشان می‌دهد ایجاد تصاویر فازی و استخراج ویژگی‌های عمیق از آن تصاویر باعث افزایش دقت پیش‌بینی تعامل نسبت به روش‌های پیشین شده است.
کلیدواژه رابطه مکانی فازی، گرادیان، شار نوری، شبکه کانولوشن
آدرس دانشگاه بوعلی سینا, دانشکده فنی و مهندسی, ایران, دانشگاه بوعلی سینا, دانشکده فنی و مهندسی, ایران, دانشگاه بوعلی سینا, دانشکده فنی و مهندسی, ایران
پست الکترونیکی mansoorm@basu.ac.ir
 
   Deep neural network for interaction prediction in video using fuzzy relationship and optical flow  
   
Authors Afrasiabi M. ,Khotanlou H. ,Mansoorizadeh M.
Abstract    The aim of interaction prediction in videos is to predict the interaction before it actually happens. Recently, this task has been important in computer vision domain and is gaining a lot of attention due to its challenges. In this paper, a deep neural network using fuzzy relationship and optical flow is proposed to deal with the problem. In this approach for each frame of a given video, first, two fuzzy images are obtained based on the gradient and the optical flow of the frame. Then, two set of features are extracted by a convolutional neural network trained on these images. Final prediction is made by aggregating the two outputs of the network. The proposed method shows promising results on two interaction datasets, namely BITInteraction and UTInteraction.
Keywords
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved