بهسازی گفتار دو مرحله‏ای توسط خودرمزگذار عمیق کاهنده نویز

Fa | Ar | En

بهسازی گفتار دو مرحله‏ای توسط خودرمزگذار عمیق کاهنده نویز


نویسنده	حاج احمدی امیرحسین ,همایونپور محمد مهدی
منبع	مهندسي برق دانشگاه تبريز - 1399 - دوره : 50 - شماره : 4 - صفحه:1533 -1540
چکیده	برای حذف نویز از سیگنال گفتار، هم اطلاعات زمان‏کوتاه و هم اطلاعات زمان‏بلند سیگنال می‏توانند مفید باشند. خصوصا اگر نویز دارای ویژگی‏های غیرایستان باشد. لذا در این مقاله سعی شده است تا با استفاده از کاهش تعداد زیرباندهای فرکانسی در فواصل زمانی بلند امکان اعمال ورودی‏های زمان‏بلند را برای شبکه عصبی خودرمزگذار عمیق کاهنده نویز فراهم سازد. همچنین یک روش دو مرحله‏ای بهسازی گفتار ارائه می‏شود که در مرحله نخست بهسازی زمان‏کوتاه و در مرحله دوم بهسازی زمان‏بلند را انجام دهد. آزمایش‏های این مقاله بر روی مجموعه دادگان aurora2 انجام شده است. نتایج نشان داده است که روش پیشنهادی می‌تواند از نظر بهسازی گفتار و معیار pesq نسبت به فیلتر وینر در شرایط آغشتگی به نویز بالا به‏ میزان 0.3 بهبود ایجاد کند. همچنین روش پیشنهادی می‌تواند از نظر دقت بازشناسی خودکار گفتار نسبت به ویژگی‏های مبنا یعنی mfcc حدود 4% بهبود ایجاد کند
کلیدواژه	بهسازی گفتار، خودرمزگذار عمیق کاهنده نویز، رمزگذار عمیق، کاهش نویز
آدرس	دانشگاه صنعتی امیرکبیر, دانشکده مهندسی کامپیوتر و فناوری اطلاعات, ایران, دانشگاه صنعتی امیرکبیر, دانشکده مهندسی کامپیوتر و فناوری اطلاعات, ایران
پست الکترونیکی	homayoun@aut.ac.ir

A Two Phase Speech Enhancement Based on Deep Denoising Autoencoder

Authors	Hadjahmadi A. ,Homayounpour M. M.
Abstract	The shortand the longterm information in speech signal are useful for speech enhancement, especially if the speech signal is corrupted by both stationary and nonstationary noises. This paper proposes a new approach to provide longterm speech input for a deep denoising autoencoder by reducing the number of frequency subbands of the input data. This paper also proposes a two phase speech enhancement approach. The first phase performs shortterm speech enhancement by using a deep denoising autoencoder. In the second phase, longterm speech enhancement denoising autoencoder is applied on the output of shortterm enhanced speech data. The proposed models were evaluated on the Aurora2 Speech recognition corpus and our results show significant improvements of 0.3 in PESQ score at lower SNR values. The proposed models were evaluated on the recognition task where the proposed method results in 4% reduction in word error rate for the multicondition training when compared to the baseline MFCC frontend.
Keywords