|
|
تشخیص بصری گفتار با استفاده از تحلیل مکان-زمانی گرادیان
|
|
|
|
|
نویسنده
|
جعفری شش پلی علی ,نادیان قمشه علی
|
منبع
|
مهندسي برق دانشگاه تبريز - 1399 - دوره : 50 - شماره : 3 - صفحه:1137 -1150
|
چکیده
|
استفاده از اطلاعات بینایی برای تشخیص گفتار، راه کاری مهم در عدم حضور اطلاعات صوتی است. در این مقاله، روشی برای تشخیص گفتار به کمک اطلاعات بینایی با توصیف تغییرات مکانی-زمانی ناحیه لب ارائهشده است. برای توصیف تغییرات از گرادیان تصویر استفاده شد. در روش پیشنهادی، پس از تشخیص ناحیه لب و استخراج نقاط کلیدی، گرادیان در نواحی مربوط به نقاط کلیدی بهعنوان اطلاعات مکانی مورداستفاده قرار گرفت. برای توصیف نواحی کلیدی لب در طول بیان یک عبارت، نمودار فراوانی 3 بعدی گرادیانها و تخمین مسیر تغییرات نواحی کلیدی در طول ویدیو استفاده شدند. تمرکز اصلی این تحقیق، ارائه توصیفی مناسب از گفتار است. به همین منظور، از دستهبندهای متفاوتی برای تشخیص گفتار به کمک ویژگیهای استخراجشده استفاده شد تا دستهبند مناسبتر مورد استفاده قرار گیرد. برای ارزیابی روش پیشنهادی از بانک داده miracl-vc1 استفاده شد و نتایج به دست آمده با روشهای پیشین برای تشخیص گفتار مقایسه شدند. نتایج نشان داد روش پیشنهادی در حدود 11 تا 17 درصد بهبودی داشته است.
|
کلیدواژه
|
تشخیص بصری گفتار، گرادیان زمانی و مکانی، تطبیق منحنی، ویژگیهای ظاهری، ویژگیهای حرکتی
|
آدرس
|
دانشگاه شهید بهشتی, پژوهشکده فضای مجازی, ایران, دانشگاه شهید بهشتی, پژوهشکده فضای مجازی, ایران
|
پست الکترونیکی
|
a_nadian@pmail.sbu.ac.ir
|
|
|
|
|
|
|
|
|
Visual Speech Recognition using Spatial-Temporal Gradient Analysis
|
|
|
Authors
|
Jafari-Sheshpoli Ali ,Nadian-Ghomsheh A.
|
Abstract
|
The use of visual information for voice recognition is an important solution in the absence of audio information. This paper presents a method for speech recognition using visual information by describing spatialtemporal changes in the lobe of the lips. The gradient of the image was used for feature extraction. In the proposed method, after lobe area detection and extraction of key points, the gradient was extracted to describe the spatial information of the key points. To describe the key areas of the lip during speaking, the 3D histogram of gradients path curve fitting was used. The main focus of this research was to provide an adequate description of speech. For this purpose, different classifiers were tested and the best one was recognized. To evaluate the proposed method, the MIRACLVC1 database was used and the results were compared with previous methods for speech recognition which had an improvement about 11 to 17 percent.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|