|
|
بازشناسی آوای فارسی با استفاده از شاخصهای صوتی و روشهای جبرانسازی تنوعاتِ مبتنی بر شبکههای عصبی
|
|
|
|
|
نویسنده
|
رضا شقایق ,سید صالحی علی ,سید صالحی زهره
|
منبع
|
پردازش علائم و داده ها - 1401 - شماره : 4 - صفحه:173 -196
|
چکیده
|
شواهد و آزمایشات گفتاری نشان میدهد که اطلاعات در سیگنال گفتار به صورت غیر یکنواخت توزیع شده و انسان با تمرکز به نواحی پُر اطلاعات آن قادر است به صورت مقاوم گفتار را بازشناسی کند. در این راستا در این تحقیق، یک سامانهی بازشناسی آوای فارسی مبتنی بر تمرکز روی بازشناسی مقاوم نواحی پُراطلاعات و مجزای صوتی ارائه شده است. این نواحی شاخصهای صوتی نامیده میشوند. بدین منظور ابتدا برای سیگنال گفتارِ زبان فارسی یک مجموعه از شاخصهای مناسب صوتی انتخاب شده و به یک شبکهی عصبی عمیق آموزش داده شدهاند. سپس، به منظور حذف تنوعات شاخصهای صوتی، تغییراتی در ساختار مدل و شیوهی آموزش آن در چهار طرح مختلف انجام شده است. در طرح اول، از یک شبکهی عصبی جداگانه و در طرح دوم از یک ساختار یادگیری چند تکلیفی برای جبران سازی غیرخطی تنوعات شاخص های صوتی استفاده شده است. در طرح سوم نیز از یک اتصال بازگشتی در لایه ی پنهان شبکه برای بازسازی ورودی و در طرح چهارم از یک ساختار مبتنی بر شبکه های جاذب دار عمیق برای کاهش تنوعات ناخواسته استفاده شده است. در این مقاله آزمایشها روی مجموعه دادگانِ گفتاری فارسی فارسدات انجام شده است و نتایج بازشناسی به صورت خطای بازشناسی آوا گزارش شده است. بهترین مدل آموزش یافته، یک شبکهی عصبی جلوسو با پنج لایهی پنهان است. خطای بازشناسی آوای این ساختار روی دادگان آزمون برابر 21.74 درصد به دست آمد. همچنین استفاده از چهارطرحِ پالایش تنوعات به ترتیب خطای بازشناسی آوا را به طور مطلق 0.39، 0.58، 0.43 و 1.3 درصد کاهش داده است.
|
کلیدواژه
|
بازشناسی آوا، شاخصهای صوتی، یادگیری عمیق، بازشناسی مقاوم، پالایش غیرخطی
|
آدرس
|
دانشگاه صنعتی امیرکبیر, دانشکده مهندسی پزشکی, ایران, دانشگاه صنعتی امیرکبیر, دانشکده مهندسی پزشکی, ایران, دانشگاه آزاد اسلامی تهران, دانشکده بهداشت علوم پزشکی تهران, گروه مهندسی پزشکی, ایران
|
پست الکترونیکی
|
z.seyyedsalehi@aut.ac.ir
|
|
|
|
|
|
|
|
|
persian phone recognition using acoustic landmarks and neural network-based variability compensation methods
|
|
|
Authors
|
reza shaghayegh ,seyyedsalehi ali ,seyyedsalehi zohreh
|
Abstract
|
speech recognition is a subfield of artificial intelligence that develops technologies to convert speech utterance into transcription. so far, various methods such as hidden markov models and artificial neural networks have been used to develop speech recognition systems. in most of these systems, the speech signal frames are processed uniformly, while the information is not evenly distributed in all of them. auditory experiments have also shown that the human brain pays more attention to information-rich areas. by focusing on these areas instead of uniform processing, the brain can more robustly recognize speech in intrinsic and environmental speech variations such as speaker and noise. in contrast, the performance of most speech recognition systems degrades dramatically in these conditions. therefore, to boost speech recognition systems’ robustness, some researchers have focused on developing speech recognition systems by modeling these informative parts of the speech signal named landmarks. similarly, in this article, we implemented a landmark-based system to obtain a robust persian speech recognition system inspired by human brain perception. we also conducted neural networks-based variation compensation methods to boost its performance.in this article, acoustic landmarks are classified into two categories of events and states with the following definitions.
|
Keywords
|
phone recognition ,acoustic landmarks ,deep learning ,robust recognition ,nonlinear filtering
|
|
|
|
|
|
|
|
|
|
|