|
|
بازشناسی مقاوم گفتار فارسی با پسزمینۀ موسیقی با استفاده از شبکههای عصبی عمیق
|
|
|
|
|
نویسنده
|
محرابی کیا محمد صادق ,عسگری محمد ,صامتی حسین
|
منبع
|
اجلاس فناوري رسانه - 1398 - دوره : 16 - اجلاس فناوری رسانه - کد همایش: 98190-87963 - صفحه:0 -0
|
چکیده
|
استفاده از شبکههای عصبی عمیق به عنوان مدل آکوستیکی منجر به پیشرفتهای چشمگیری در حوزۀ بازشناسی گفتار در سالهای اخیر شده است. عملکرد سیستمهای بازشناسی گفتار در شرایطی که عدم تطابق بین دادههای آموزش و آزمون وجود داشته باشد، کاهش مییابد و بهعنوان یکی از مهمترین چالشهای این حوزه بهشمار میرود. گفتار با پسزمینۀ موسیقی نیز یکی از چالشهای حوزۀ رسانه است که دقت سیستمهای بازشناسی گفتار را به شدت کاهش میدهد. در این مقاله سعی شده است تا با استفاده از رویکردهای تطبیق مدل و آموزش چند وضعیتی ، عملکرد شبکههای عصبی عمیق در مواجهه با این مشکل مورد بررسی قرار گیرد و با استفاده از چند لایه شبکههای عصبی کانولوشنی برای استخراج ویژگیهای متمایز از گفتار، عملکرد سیستمهای بازشناسی گفتار با پسزمینۀ موسیقی بهبود یابد. میزان خطای کلمه (wer) در مدل پیشنهادی، نسبت به حالت پایه (شبکه عصبی تاخیر زمانی با دادگان آموزش تمیز) بهطور میانگین حداقل 4.86 درصد و حداکثر 8.04 درصد کاهش یافته است.
|
کلیدواژه
|
بازشناسی گفتار ، مدل آکوستیکی ، موسیقی ، شبکههای عصبی عمیق
|
آدرس
|
, iran, , iran, , iran
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Authors
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|