>
Fa   |   Ar   |   En
   بازشناسی مقاوم گفتار فارسی با پس‌زمینۀ موسیقی با استفاده از شبکه‌های عصبی عمیق  
   
نویسنده محرابی کیا محمد صادق ,عسگری محمد ,صامتی حسین
منبع اجلاس فناوري رسانه - 1398 - دوره : 16 - اجلاس فناوری رسانه - کد همایش: 98190-87963 - صفحه:0 -0
چکیده    استفاده از شبکه‌های عصبی عمیق به عنوان مدل آکوستیکی منجر به پیشرفت‌های چشمگیری در حوزۀ بازشناسی گفتار در سالهای‌ اخیر شده است. عملکرد سیستم‌های بازشناسی گفتار در شرایطی که عدم تطابق بین داده‌های آموزش و آزمون وجود داشته باشد، کاهش می‌یابد و به‌عنوان یکی از مهمترین چالش‌های این حوزه به‌شمار می‌رود. گفتار با پس‌زمینۀ موسیقی نیز یکی از چالش‌های حوزۀ رسانه است که دقت سیستم‌های بازشناسی گفتار را به شدت کاهش می‌دهد. در این مقاله سعی شده است تا با استفاده از رویکردهای تطبیق مدل و آموزش چند ‌وضعیتی ، عملکرد شبکه‌های عصبی عمیق در مواجهه با این مشکل مورد بررسی قرار گیرد و با استفاده از چند لایه شبکه‌های عصبی کانولوشنی برای استخراج ویژگی‌های متمایز از گفتار، عملکرد سیستم‌های بازشناسی گفتار با پس‌زمینۀ موسیقی بهبود یابد. میزان خطای کلمه (wer) در مدل پیشنهادی، نسبت به حالت‌ پایه (شبکه عصبی تاخیر زمانی با دادگان آموزش تمیز) به‌طور میانگین حداقل 4.86 درصد و حداکثر 8.04 درصد کاهش یافته است.
کلیدواژه بازشناسی گفتار ، مدل آکوستیکی ، موسیقی ، شبکه‌های عصبی عمیق
آدرس , iran, , iran, , iran
 
     
   
Authors
  
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved