>
Fa
  |  
Ar
  |  
En
بهبود عملکرد سیستم تشخیص گفتار فارسی با استفاده از شبکه عصبی عمیق
نویسنده
غیاثوند حمیدرضا
منبع
اجلاس فناوري رسانه - 1398 - دوره : 16 - اجلاس فناوری رسانه - کد همایش: 98190-87963 - صفحه:0 -0
چکیده
یادگیری عمیق از زیر شاخه های یادگیری ماشینی است که در سال های اخیر مورد توجه قرار گرفته است و نتایج بسیار خوبی در زمینه های مختلف توسط آن بدست آمده است.یکی از این زمینه ها پردازش زبان های طبیعی است. اما در زبان فارسی هنوز کاری به وسیله ی این روش انجام نشده است.امروزه از روش های مختلفی جهت بازشناسی گفتار استفاده می شود که مهمترین آنها روش آماری مدل مخفی مارکوف وشبکه عصبی می باشد. یکی از مشکلاتی که هنوز در این حوزه مطرح است، بحث افزایش دقت وکارایی این سیستم ها می باشد و با توجه به اینکه یکی از راه های افزایش دقت سیستم های بازشناسی گفتار، بهبود مدل آوایی می باشد. پس از ارائه ی شبکه ی عصبی بازگشتی (rnn) و حل مشکل حافظه در این شبکه ها، از شبکه lstm به طور گسترده در تشخیص گفتار انگلیسی استفاده شده است. از آنجایی که سیگنال صوتی نم.نه ای از داده های متوالی می باشدکه در آن مقدار داده فعلی به داده های قبلی وابسته است، شبکه های عصبی بازگشتی به دلیل دارا بودن حافظه برای این نوع داده ها مناسب می باشد. شبکه عصبی حافظه کوتاه مدت ماندگار (lstm)، یک شبکه عصبی بازگشتی است که در آن با جایگزین کردن نرون های لایه پنهان با بلوک حافظه، مشکل فراموشی داده ها در دنباله های طولانی مدت رفع شده است و کارایی بالای خود را در مدل سازی داده های ترتیبی در کاربردهای مختلف نشان داده است. در این مقاله به منظور افزایش دقت تشخیص گفتار زبان فارسی، از شبکه ی عصبی lstm جهت مدل سازی آکوستیکی استفاده شده است که دقت تشخیص واج 86 درصد ببا استفاده از آن به دست آمد. همچنین در این مقاله با توجه به استفاده از شبکه lstm، حذف بلوک dct از الگوریتم استخراج ویژگی mfcc، تاثیری بر دقت تشخیص گفتار فارسی نداشته اما منجر به بهبود سرعت تشخیص گفتار شده است.
کلیدواژه
تشخیص گفتار، شبکه عصبی عمیق
آدرس
, iran
Authors
Copyright 2023
Islamic World Science Citation Center
All Rights Reserved