>
Fa   |   Ar   |   En
   شبکه عصبی پیچشی با پنجره‌های قابل تطبیق برای بازشناسی گفتار  
   
نویسنده ذوقی تکتم ,همایون پور محمد مهدی
منبع پردازش علائم و داده ها - 1397 - شماره : 3 - صفحه:13 -30
چکیده    در حالی که سامانه های بازشناسی گفتار به طور پیوسته در حال ارتقا می باشند و شاهد استفاده گسترده از آن ها می باشیم، اما دقت این سامانه ها فاصله زیادی نسبت به توان بازشناسی انسان دارد و در شرایط ناسازگار این فاصله افزایش می یابد. یکی از علل اصلی این مسئله تغییرات زیاد سیگنال گفتار است. در سال های اخیر، استفاده از شبکه های عصبی عمیق در ترکیب با مدل مخفی مارکف، موفقیت های قابل توجهی در حوزه پردازش گفتار داشته است. این مقاله به دنبال مدل کردن بهتر گفتار با استفاده از تغییر ساختار در شبکه عصبی پیچشی عمیق است؛ به نحوی که با تنوعاتِ بیان گویندگان در سیگنال گفتار منطبق تر شود. در این راه، مدل های موجود و انجام استنتاج بر روی آن ها را بهبود و گسترش خواهیم داد. در این مقاله با ارائه شبکه پیچشی عمیق با پنجره های قابل تطبیق سامانه بازشناسی گفتار را نسبت به تفاوت بیان در بین گویندگان و تفاوت در بیان های یک گوینده مقاوم خواهیم کرد. تحلیل ها و نتایج آزمایش های صورت گرفته بر روی دادگان گفتار فارس دات و timit نشان داد که روش پیشنهادی خطای مطلق بازشناسی واج را نسبت به شبکه پیچشی عمیق به ترتیب به میزان 1.2 و 1.1 درصد کاهش می دهد که این مقدار در مسئله بازشناسی گفتار مقدار قابل توجهی است.
کلیدواژه بازشناسی گفتار، شبکه عصبی عمیق، شبکه عصبی پیچشی، پنجره‌های قابل تطبیق
آدرس دانشگاه صنعتی امیرکبیر, آزمایشگاه پردازش هوشمند داده های چندرسانه ای, ایران, دانشگاه صنعتی امیرکبیر, آزمایشگاه پردازش هوشمند داده های چندرسانه ای, ایران
پست الکترونیکی homayoun@aut.ac.ir
 
   Adaptive Windows Convolutional Neural Network for Speech Recognition  
   
Authors Homayounpour Mohammad Mehdi ,Zoughi Toktam
  
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved