|
|
بهسازی گفتار دو مرحلهای توسط خودرمزگذار عمیق کاهنده نویز
|
|
|
|
|
نویسنده
|
حاج احمدی امیرحسین ,همایونپور محمد مهدی
|
منبع
|
مهندسي برق دانشگاه تبريز - 1399 - دوره : 50 - شماره : 4 - صفحه:1533 -1540
|
چکیده
|
برای حذف نویز از سیگنال گفتار، هم اطلاعات زمانکوتاه و هم اطلاعات زمانبلند سیگنال میتوانند مفید باشند. خصوصا اگر نویز دارای ویژگیهای غیرایستان باشد. لذا در این مقاله سعی شده است تا با استفاده از کاهش تعداد زیرباندهای فرکانسی در فواصل زمانی بلند امکان اعمال ورودیهای زمانبلند را برای شبکه عصبی خودرمزگذار عمیق کاهنده نویز فراهم سازد. همچنین یک روش دو مرحلهای بهسازی گفتار ارائه میشود که در مرحله نخست بهسازی زمانکوتاه و در مرحله دوم بهسازی زمانبلند را انجام دهد. آزمایشهای این مقاله بر روی مجموعه دادگان aurora2 انجام شده است. نتایج نشان داده است که روش پیشنهادی میتواند از نظر بهسازی گفتار و معیار pesq نسبت به فیلتر وینر در شرایط آغشتگی به نویز بالا به میزان 0.3 بهبود ایجاد کند. همچنین روش پیشنهادی میتواند از نظر دقت بازشناسی خودکار گفتار نسبت به ویژگیهای مبنا یعنی mfcc حدود 4% بهبود ایجاد کند
|
کلیدواژه
|
بهسازی گفتار، خودرمزگذار عمیق کاهنده نویز، رمزگذار عمیق، کاهش نویز
|
آدرس
|
دانشگاه صنعتی امیرکبیر, دانشکده مهندسی کامپیوتر و فناوری اطلاعات, ایران, دانشگاه صنعتی امیرکبیر, دانشکده مهندسی کامپیوتر و فناوری اطلاعات, ایران
|
پست الکترونیکی
|
homayoun@aut.ac.ir
|
|
|
|
|
|
|
|
|
A Two Phase Speech Enhancement Based on Deep Denoising Autoencoder
|
|
|
Authors
|
Hadjahmadi A. ,Homayounpour M. M.
|
Abstract
|
The shortand the longterm information in speech signal are useful for speech enhancement, especially if the speech signal is corrupted by both stationary and nonstationary noises. This paper proposes a new approach to provide longterm speech input for a deep denoising autoencoder by reducing the number of frequency subbands of the input data. This paper also proposes a two phase speech enhancement approach. The first phase performs shortterm speech enhancement by using a deep denoising autoencoder. In the second phase, longterm speech enhancement denoising autoencoder is applied on the output of shortterm enhanced speech data. The proposed models were evaluated on the Aurora2 Speech recognition corpus and our results show significant improvements of 0.3 in PESQ score at lower SNR values. The proposed models were evaluated on the recognition task where the proposed method results in 4% reduction in word error rate for the multicondition training when compared to the baseline MFCC frontend.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|