|
|
بازشناسی مقاوم گفتار با استفاده از شبکههای عصبی حافظه کوتاهمدت ماندگار و ویژگیهای گلوگاه
|
|
|
|
|
نویسنده
|
معاون جولا امین ,اکبری احمد ,ناصر شریف بابک
|
منبع
|
مهندسي برق دانشگاه تبريز - 1398 - دوره : 49 - شماره : 3 - صفحه:1333 -1343
|
چکیده
|
شبکههای عصبی عمیق در سالهای اخیر به طرز گستردهای در سیستمهای بازشناسی گفتار مورداستفاده قرارگرفتهاند. بااینوجود، مقاومسازی این مدلها در حضور نویز محیط کمتر موردبررسی قرارگرفته است. در این مقاله دو راهکار برای مقاومسازی مدلهای شبکه حافظه کوتاهمدت ماندگار نسبت به نویز جمعپذیر محیطی موردبررسی قرارگرفته است. راهکار اول افزایش مقاومت مدلهای شبکه حافظه کوتاهمدت ماندگار نسبت به حضور نویز است که با توجه بهخصوصیت این شبکهها در یادگیری رفتار بلندمدت نویز ارائه میشود. بدین منظور پیشنهاد میشود از گفتار نویزی برای آموزش مدلها استفاده شود تا بهصورت آگاه به نویز آموزش ببینند. نتایج روی مجموعه داده نویزی شده timit نشان میدهد که اگر مدلها بهجای گفتار تمیز با گفتار نویزی آموزش ببینند، دقت بازشناسی تا 18 درصد بهبود خواهد یافت. راهکار دوم کاهش تاثیر نویز بر ویژگیهای استخراجشده با استفاده از شبکه خود رمزگذار کاهنده نویز و استفاده از ویژگیهای گلوگاه بهمنظور فشردهسازی بردار ویژگی و بازنمایی سطح بالاتر ویژگیهای ورودی است. این راهکار باعث میشود مقاومت ویژگیها نسبت به نویز بیشتر شده و درنتیجه دقت سیستم بازشناسی پیشنهادشده در راهکار اول، در حضور نویز 4 درصد افزایش یابد.
|
کلیدواژه
|
بازشناسی گفتار، مقاومت نسبت به نویز، دادههای چند شرطی، شبکه خود رمزگذار، شبکه حافظه کوتاهمدت ماندگار
|
آدرس
|
دانشگاه علم و صنعت, دانشکده مهندسی کامپیوتر, ایران, دانشگاه علم و صنعت, دانشکده مهندسی کامپیوتر, ایران, دانشگاه صنعتی خواجه نصیرالدین طوسی, دانشکده مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
bnasersharif@kntu.ac.ir
|
|
|
|
|
|
|
|
|
Robust Speech Recognition using Long Short Term Memory Networks and Bottleneck Features
|
|
|
Authors
|
Moaven Joula A. ,Akbari A. ,Naser Sharif B.
|
Abstract
|
Deep neural networks have been widely used in speech recognition systems in recent years. However, the robustness of these models in the presence of environmental noise has been less discussed. In this paper, we propose two approaches for the robustness of deep neural networks models against environmental additive noise. In the first approach, we propose to increase the robustness of long shortterm memory (LSTM) networks in the presence of noise based on their abilities in learning longterm noise behavior. For this purpose, we propose to use noisy speech for training models. In this way, LSTMs are trained in a noiseaware manner. The results on the noisy TIMIT dataset show that if the models are trained with noisy speech rather than clean speech, recognition accuracy will be improved up to 18%. In the second approach, we propose to reduce noise effects on the extracted features using a denoised autoencoder network and to use the bottleneck features to compress the feature vector and represent the higher level of input features. This method increases the accuracy of the proposed recognition system in the first approach by 4% in the presence of noise.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|