|
|
معرفی شبکه های عصبی پیمانه ای عمیق با ساختار فضایی-زمانی دوگانه جهت بهبود بازشناسی گفتار پیوسته فارسی
|
|
|
|
|
نویسنده
|
انصاری زهره ,سید صالحی علی
|
منبع
|
پردازش علائم و داده ها - 1395 - دوره : 13 - شماره : 1 - صفحه:39 -56
|
چکیده
|
در این مقاله به معرفی شبکههای عصبی پیمانه ای عمیق و قابل رشد به منظور بهبود بازشناسی گفتار پیوسته پرداخته می شود. ساختار این شبکه ها و روشهای پیشتعلیم معرفی شده برای آنها بگونه ای است که درعین هماهنگی با ساختار گفتار، در حافظه و محاسبات لازم صرفه جویی میشود. بدلیل قابلیت رشد این ساختارها، میتوان در تعلیم آنها اطلاعات فضاییزمانی بردارهای بازنمایی در ورودی و اطلاعات فضایی زمانی برچسب آوایی آنها را در خروجی شبکه عصبی انجمن کرد. شبکه تعلیم یافته با این ساختار انجمنگر فضاییزمانی دوگانه، میتواند زیرفضای زنجیره های معتبر آوایی دادگان را یادبگیرد. بنابراین، در ساختار خود زنجیره های خروجی نامعتبر را پالایش کرده و زنجیره های درست را میدهد. جهت بررسی عملکرد این ساختارها، از دودسته دادگان گفتاری فارس دات و فارس دات بزرگ استفاده شد. نتایج آزمایشها نشان میدهند که میتوان دقت بازشناسی آوا را برروی دادگان فارس دات تا 2.7% با استفاده از شبکههای عصبی پیمانه ای عمیق نسبت به مدلهای مخفی مارکوف بالابرد. که با توسعه آنها به ساختار فضاییزمانی دوگانه این نتیجه تا 5.1% بهبودمی یابد. بدلیل عدم وجود برچسب های آوایی برای دادگان بزرگ، یک روش تعلیم نیمه سرپرستی شده برای تعلیم شبکه های عصبی برروی این دادگان پیشنهاد شده است که میتواند به درصد بازشناسی قابل مقایسه ای با مدلهای مخفی مارکوف دست یابد.
|
کلیدواژه
|
شبکه های عصبی عمیق، شبکه های عصبی پیمانه ای، پیش تعلیم، تعلیم نیمه سرپرستی شده، بازشناسی گفتار پیوسته
|
آدرس
|
دانشگاه صنعتی امیرکبیر, دانشکده مهندسی پزشکی, آزمایشگاه پردازش گفتار, ایران, دانشگاه صنعتی امیرکبیر, دانشکده مهندسی پزشکی, آزمایشگاه پردازش گفتار, ایران
|
پست الکترونیکی
|
ssalehi@aut.ac.ir
|
|
|
|
|
|
|
|
|
Deep Modular Neural Networks with Double Spatio-temporal َAssociation Structure for Persian Continuous Speech Recognition
|
|
|
Authors
|
Ansari Zohreh ,Seyyedsalehi Ali
|
Abstract
|
In this article, growable deep modular neural networks for continuous speech recognition are introduced. These networks can be grown to implement the spatiotemporal information of the frame sequences at their input layer as well as their labels at the output layer at the same time. The trained neural network with such double spatiotemporal association structure can learn the phonetic sequence subspace. Therefore, it can filter out invalid phonetic sequences in its own structure and output valid sequences. To evaluate the performance of these growable neural networks, we used FARSDAT and BIG FARSDAT datasets. Experimental results on FARSDAT show that deep modular neural networks outperform the phone accuracy rate of GMMHMM models with an absolute improvement of 2.7%. Moreover, developing deep modular neural networks to a double spatiotemporal association structure improves their result by 5.1%. As there is no phonetic labeling for BIG FARSDAT, a semisupervised learning algorithm is proposed to finetune the neural network with double spatiotemporal structure on this dataset, which achieves a comparable result with HMMs.
|
Keywords
|
Deep neural networks ,Modular neural networks ,Pre-training ,Semi-supervised learning ,Continuous speech recognition
|
|
|
|
|
|
|
|
|
|
|