بازشناسی آوای فارسی با استفاده از شاخص‌های صوتی و روش‌های جبران‌سازی تنوعاتِ مبتنی بر شبکه‌های عصبی

Fa | Ar | En

بازشناسی آوای فارسی با استفاده از شاخص‌های صوتی و روش‌های جبران‌سازی تنوعاتِ مبتنی بر شبکه‌های عصبی


نویسنده	رضا شقایق ,سید صالحی علی ,سید صالحی زهره
منبع	پردازش علائم و داده ها - 1401 - شماره : 4 - صفحه:173 -196
چکیده	شواهد و آزمایشات گفتاری نشان می‌دهد که اطلاعات در سیگنال گفتار به صورت غیر یکنواخت توزیع شده و انسان با تمرکز به نواحی پُر اطلاعات آن قادر است به صورت مقاوم گفتار را بازشناسی کند. در این راستا در این تحقیق، یک سامانه‌‌ی بازشناسی آوای فارسی مبتنی بر تمرکز روی بازشناسی مقاوم نواحی پُراطلاعات و مجزای صوتی ارائه شده است. این نواحی شاخص‌های صوتی نامیده می‌شوند. بدین منظور ابتدا برای سیگنال گفتارِ زبان فارسی یک مجموعه از شاخص‌های مناسب صوتی انتخاب شده و به یک شبکه‌ی عصبی عمیق آموزش داده شده‌اند. سپس، به منظور حذف تنوعات شاخص‌های صوتی، تغییراتی در ساختار مدل و شیوه‌ی آموزش آن در چهار طرح مختلف انجام شده است. در طرح اول، از یک شبکه‌ی عصبی جداگانه و در طرح دوم از یک ساختار یادگیری چند تکلیفی برای جبران سازی غیرخطی تنوعات شاخص های صوتی استفاده شده است. در طرح سوم نیز از یک اتصال بازگشتی در لایه ی پنهان شبکه برای بازسازی ورودی و در طرح چهارم از یک ساختار مبتنی بر شبکه های جاذب دار عمیق برای کاهش تنوعات ناخواسته استفاده شده است. در این مقاله آزمایش‌ها روی مجموعه دادگانِ گفتاری فارسی فارس‌دات انجام شده است و نتایج بازشناسی به صورت خطای بازشناسی آوا گزارش شده است. بهترین مدل آموزش یافته، یک شبکه‌‌ی عصبی جلوسو با پنج لایه‌‌ی پنهان است. خطای بازشناسی آوای این ساختار روی دادگان آزمون برابر 21.74 درصد به دست آمد. همچنین استفاده از چهارطرحِ پالایش تنوعات به ترتیب خطای بازشناسی آوا را به طور مطلق 0.39، 0.58، 0.43 و 1.3 درصد کاهش داده است.
کلیدواژه	بازشناسی آوا، شاخص‌های صوتی، یادگیری عمیق، بازشناسی مقاوم، پالایش غیر‌خطی
آدرس	دانشگاه صنعتی امیرکبیر, دانشکده مهندسی پزشکی, ایران, دانشگاه صنعتی امیرکبیر, دانشکده مهندسی پزشکی, ایران, دانشگاه آزاد اسلامی تهران, دانشکده بهداشت علوم پزشکی تهران, گروه مهندسی پزشکی, ایران
پست الکترونیکی	z.seyyedsalehi@aut.ac.ir

persian phone recognition using acoustic landmarks and neural network-based variability compensation methods

Authors	reza shaghayegh ,seyyedsalehi ali ,seyyedsalehi zohreh
Abstract	speech recognition is a subfield of artificial intelligence that develops technologies to convert speech utterance into transcription. so far, various methods such as hidden markov models and artificial neural networks have been used to develop speech recognition systems. in most of these systems, the speech signal frames are processed uniformly, while the information is not evenly distributed in all of them. auditory experiments have also shown that the human brain pays more attention to information-rich areas. by focusing on these areas instead of uniform processing, the brain can more robustly recognize speech in intrinsic and environmental speech variations such as speaker and noise. in contrast, the performance of most speech recognition systems degrades dramatically in these conditions. therefore, to boost speech recognition systems’ robustness, some researchers have focused on developing speech recognition systems by modeling these informative parts of the speech signal named landmarks. similarly, in this article, we implemented a landmark-based system to obtain a robust persian speech recognition system inspired by human brain perception. we also conducted neural networks-based variation compensation methods to boost its performance.in this article, acoustic landmarks are classified into two categories of events and states with the following definitions.
Keywords	phone recognition ,acoustic landmarks ,deep learning ,robust recognition ,nonlinear filtering