|
|
استخراج ویژگیهای مقاوم گفتاری زیر باندی با استفاده از شبکههای درهمپیچش چند دقتی
|
|
|
|
|
نویسنده
|
نادری نوید ,ناصر شریف بابک
|
منبع
|
مهندسي برق دانشگاه تبريز - 1398 - دوره : 49 - شماره : 3 - صفحه:1393 -1404
|
چکیده
|
شبکههای عصبی درهمپیچش (cnn) بهعنوان گروهی از شبکههای عصبی عمیق، در سالهای اخیر کاربرد فراوانی در مدلسازی آکوستیک و همچنین استخراج ویژگی و مدلسازی توام در بازشناسی گفتار یافتهاند. در مقاله حاضر، پیشنهاد میشود تا از cnn برای استخراج ویژگی مقاوم به نویز استفاده شود، درحالیکه ورودی cnn طیف سیگنال گفتار نویزی و خروجی هدف آن خروجیهای متناظر تمیز از بانک فیلتر مل است. بهاینترتیب cnn ویژگیهای مقاوم به نویز را از طیف سیگنال گفتار استخراج مینماید. نقطهضعف cnn در این روش آن است که تنها یک وضوح فرکانسی ثابت را به کار میگیرد. ازاینجهت، در این مقاله استفاده از چند شبکه عصبی درهمپیچش با اندازههای فیلتر درهمپیچش متفاوت، جهت مدلسازی تفاوت وضوح فرکانسی برای استخراج ویژگی از طیف سیگنال گفتار پیشنهاد میشود. روش پیشنهادی را شبکه عصبی درهمپیچش چند دقتی (mrcnn) نامگذاری کردهایم. آزمایشها روی دادگان aurora2 نشان میدهند که cnn نسبت به شبکه باور عمیق در استخراج ویژگی مقاوم به نویز میانگین دقت بازشناسی را 20 درصد بهبود میدهد. همچنین نتایج نشان میدهند که mrcnn میانگین دقت بازشناسی را نسبت به شبکه عصبی درهمپیچش استاندارد (تک دقتی) 1 درصد بهبود میدهد.
|
کلیدواژه
|
شبکه عصبی درهم پیچش، بازشناسی مقاوم گفتار، تک دقتی، چند دقتی، بانک فیلتر مل
|
آدرس
|
دانشگاه صنعتی خواجهنصیرالدین طوسی, دانشکده مهندسی کامپیوتر, ایران, دانشگاه صنعتی خواجهنصیرالدین طوسی, دانشکده مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
bnasersharif@kntu.ac.ir
|
|
|
|
|
|
|
|
|
Robust sub-band speech feature extraction using multiresolution convolutional neural networks
|
|
|
Authors
|
Naderi N. ,Nasersharif B.
|
Abstract
|
Convolutional neural networks (CNNs), as a kind of deep neural networks, have been recently used for acoustic modeling and feature extraction along with acoustic modeling in speech recognition systems. In this paper, we propose to use CNN for robust feature extraction from the noisy speech spectrum. In the proposed manner, CNN inputs are noisy speech spectrum and its targets are denoised logarithm of Mel filter bank energies (LMFBs). Consequently, CNN extracts robust features from speech spectrum. The drawback of CNN in the proposed method is its fixed frequency resolution. Thus, we propose to use multiple CNNs with different convolution filter sizes to provide different frequency resolutions for feature extraction from the speech spectrum. We named this method as Multiresolution CNN (MRCNN). Recognition accuracy on Aurora 2 database, shows that CNNs outperform deep belief networks such that, CNN recognition accuracy has 20% relative improvement on average over DBN. However, results show that MRCNN recognition accuracy has 1% relative improvement on average over CNN.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|