تشخیص بصری گفتار با استفاده از تحلیل مکان-زمانی گرادیان

Fa | Ar | En

تشخیص بصری گفتار با استفاده از تحلیل مکان-زمانی گرادیان


نویسنده	جعفری شش پلی علی ,نادیان قمشه علی
منبع	مهندسي برق دانشگاه تبريز - 1399 - دوره : 50 - شماره : 3 - صفحه:1137 -1150
چکیده	استفاده از اطلاعات بینایی برای تشخیص گفتار، راه کاری مهم در عدم حضور اطلاعات صوتی است. در این مقاله، روشی برای تشخیص گفتار به کمک اطلاعات بینایی با توصیف تغییرات مکانی-زمانی ناحیه لب ارائه‌شده است. برای توصیف تغییرات از گرادیان تصویر استفاده شد. در روش پیشنهادی، پس از تشخیص ناحیه لب و استخراج نقاط کلیدی، گرادیان در نواحی مربوط به نقاط کلیدی به‌عنوان اطلاعات مکانی مورداستفاده قرار گرفت. برای توصیف نواحی کلیدی لب در طول بیان یک عبارت، نمودار فراوانی 3 بعدی گرادیانها و تخمین مسیر تغییرات نواحی کلیدی در طول ویدیو استفاده شدند. تمرکز اصلی این تحقیق، ارائه توصیفی مناسب از گفتار است. به همین منظور، از دسته‌بندهای متفاوتی برای تشخیص گفتار به کمک ویژگیهای استخراج‌شده استفاده شد تا دستهبند مناسبتر مورد استفاده قرار گیرد. برای ارزیابی روش پیشنهادی از بانک داده miracl-vc1 استفاده شد و نتایج به دست آمده با روش‌های پیشین برای تشخیص گفتار مقایسه شدند. نتایج نشان داد روش پیشنهادی در حدود 11 تا 17 درصد بهبودی داشته است.
کلیدواژه	تشخیص بصری گفتار، گرادیان زمانی و مکانی، تطبیق منحنی، ویژگی‌های ظاهری، ویژگی‌های حرکتی
آدرس	دانشگاه شهید بهشتی, پژوهشکده فضای مجازی, ایران, دانشگاه شهید بهشتی, پژوهشکده فضای مجازی, ایران
پست الکترونیکی	a_nadian@pmail.sbu.ac.ir

Visual Speech Recognition using Spatial-Temporal Gradient Analysis

Authors	Jafari-Sheshpoli Ali ,Nadian-Ghomsheh A.
Abstract	The use of visual information for voice recognition is an important solution in the absence of audio information. This paper presents a method for speech recognition using visual information by describing spatialtemporal changes in the lobe of the lips. The gradient of the image was used for feature extraction. In the proposed method, after lobe area detection and extraction of key points, the gradient was extracted to describe the spatial information of the key points. To describe the key areas of the lip during speaking, the 3D histogram of gradients path curve fitting was used. The main focus of this research was to provide an adequate description of speech. For this purpose, different classifiers were tested and the best one was recognized. To evaluate the proposed method, the MIRACLVC1 database was used and the results were compared with previous methods for speech recognition which had an improvement about 11 to 17 percent.
Keywords