>
Fa   |   Ar   |   En
   بازشناسی مقاوم گفتار با استفاده از شبکه‌های عصبی حافظه کوتاه‌مدت ماندگار و ویژگی‌های گلوگاه  
   
نویسنده معاون جولا امین ,اکبری احمد ,ناصر شریف بابک
منبع مهندسي برق دانشگاه تبريز - 1398 - دوره : 49 - شماره : 3 - صفحه:1333 -1343
چکیده    شبکه‌های عصبی عمیق در سال‌های اخیر به طرز گسترده‌ای در سیستم‌های بازشناسی گفتار مورداستفاده قرارگرفته‌اند. بااین‌وجود، مقاوم‌سازی این مدل‌ها در حضور نویز محیط کمتر موردبررسی قرارگرفته است. در این مقاله دو راهکار برای مقاوم‌سازی مدل‌های شبکه حافظه کوتاه‌مدت ماندگار نسبت به نویز جمع‌پذیر محیطی موردبررسی قرارگرفته است. راهکار اول افزایش مقاومت مدل‌های شبکه حافظه کوتاه‌مدت ماندگار نسبت به حضور نویز است که با توجه به‌خصوصیت این شبکه‌ها در یادگیری رفتار بلندمدت نویز ارائه می‌شود. بدین منظور پیشنهاد می‌شود از گفتار نویزی برای آموزش مدل‌ها استفاده شود تا به‌صورت آگاه به نویز آموزش ببینند. نتایج روی مجموعه داده نویزی شده timit نشان می‌دهد که اگر مدل‌ها به‌جای گفتار تمیز با گفتار نویزی آموزش ببینند، دقت بازشناسی تا 18 درصد بهبود خواهد یافت. راهکار دوم کاهش تاثیر نویز بر ویژگی‌های استخراج‌شده با استفاده از شبکه خود رمزگذار کاهنده نویز و استفاده از ویژگی‌های گلوگاه به‌منظور فشرده‌سازی بردار ویژگی و بازنمایی سطح بالاتر ویژگی‌های ورودی است. این راهکار باعث می‌شود مقاومت ویژگی‌ها نسبت به نویز بیشتر شده و درنتیجه دقت سیستم بازشناسی پیشنهادشده در راهکار اول، در حضور نویز 4 درصد افزایش یابد.
کلیدواژه بازشناسی گفتار، مقاومت نسبت به نویز، داده‌های چند شرطی، شبکه خود رمزگذار، شبکه حافظه کوتاه‌مدت ماندگار
آدرس دانشگاه علم و صنعت, دانشکده مهندسی کامپیوتر, ایران, دانشگاه علم و صنعت, دانشکده مهندسی کامپیوتر, ایران, دانشگاه صنعتی خواجه نصیرالدین طوسی, دانشکده مهندسی کامپیوتر, ایران
پست الکترونیکی bnasersharif@kntu.ac.ir
 
   Robust Speech Recognition using Long Short Term Memory Networks and Bottleneck Features  
   
Authors Moaven Joula A. ,Akbari A. ,Naser Sharif B.
Abstract    Deep neural networks have been widely used in speech recognition systems in recent years. However, the robustness of these models in the presence of environmental noise has been less discussed. In this paper, we propose two approaches for the robustness of deep neural networks models against environmental additive noise. In the first approach, we propose to increase the robustness of long shortterm memory (LSTM) networks in the presence of noise based on their abilities in learning longterm noise behavior. For this purpose, we propose to use noisy speech for training models. In this way, LSTMs are trained in a noiseaware manner. The results on the noisy TIMIT dataset show that if the models are trained with noisy speech rather than clean speech, recognition accuracy will be improved up to 18%. In the second approach, we propose to reduce noise effects on the extracted features using a denoised autoencoder network and to use the bottleneck features to compress the feature vector and represent the higher level of input features. This method increases the accuracy of the proposed recognition system in the first approach by 4% in the presence of noise.
Keywords
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved