>
Fa   |   Ar   |   En
   مروری بر روشهای نوین بازشناس گفتار  
   
نویسنده هادیان حسین ,گوران سروش ,صبوری صدرا ,صادقی سارا ,امینی یاسین ,صامتی حسین
منبع صوت و ارتعاش - 1401 - دوره : 11 - شماره : 22 - صفحه:125 -154
چکیده    این مقاله مروری‌است بر روش‌ها‌ی سنتی و نیز روش‌های نوین بازشناسی گفتار. بازشناسی گفتار سابقه‌ای در حدود چندین دهه دارد و با روش‌های مبتنی بر پردازش سیگنال و پیچش زمانی پویا آغاز شده است. روش‌های آماری در دهه 1980 به بعد مورد توجه و استقبال قرار گرفت و روش‌های مبتنی بر مدل مخفی مارکوف به‌عنوان سرآمد این روش‌ها شناخته می‌شد. ولی از دهه 2000 میلادی به بعد روش‌های آماری کم‌کم جای خود را به مدل‌های مبتنی بر شبکه‌های عصبی دادند و با روی‌ کار آمدن شبکه‌های عصبی ژرف، نتایج بهتری از این مدل‌ها نسبت به مدل مخفی مارکوف به‌دست آمد. مدل‌های مبتنی بر شبکه‌های عصبی ژرف نیز دچار تحول شدند و انواع مختلفی از آنها ابداع گردید. سپس مدل‌های مبتنی بر مبدل‌ها و مدل‌های از پیش‌ آموزش دیده جای آنها را گرفتند و به دقت‌های بالاتری دست یافتند. در این مقاله بعد از مروری بر روش‌های مبتنی بر مدل مخفی مارکوف به روش‌های مبتنی بر شبکه‌های عصبی ژرف و ساختارهای متنوع آنها پرداخته می‌شود و در نهایت روش‌های مبتنی بر مدل‌های از پیش آموزش دیده تشریح می‌شود و آخرین روش‌های از این دست مورد بررسی قرار می‌گیرد. در انتها نیز نتایج به‌دست آمده از روش‌های تشریح شده براساس نرخ خطای کلمه ارائه می‌شود و مقایسه بین آنها صورت می‌گیرد.
کلیدواژه بازشناسی گفتار، مدل مخفی مارکوف، شبکه‌های عصبی ژرف، مبدل‌ها، مدل‌های از پیش آموزش دیده
آدرس دانشگاه صنعتی شریف, دانشکده مهندسی کامپیوتر, آزمایشگاه پردازش گفتار و زبان طبیعی, ایران, دانشگاه صنعتی شریف, دانشکده مهندسی کامپیوتر, آزمایشگاه پردازش گفتار و زبان طبیعی, ایران, دانشگاه صنعتی شریف, دانشکده مهندسی کامپیوتر, آزمایشگاه پردازش گفتار و زبان طبیعی, ایران, دانشگاه صنعتی شریف, دانشکده مهندسی کامپیوتر, آزمایشگاه پردازش گفتار و زبان طبیعی, ایران, دانشگاه صنعتی شریف, دانشکده مهندسی کامپیوتر, آزمایشگاه پردازش گفتار و زبان طبیعی, ایران, دانشگاه صنعتی شریفدانشگاه صنعتی شریف, دانشکده مهندسی کامپیوتر, آزمایشگاه پردازش گفتار و زبان طبیعی, ایران
پست الکترونیکی sameti@sharif.edu
 
   a review of the recent speech recognition methods  
   
Authors hadian hossein ,gooran soroush ,sabouri sadra ,sadeghi sara ,amini yasin ,sameti hossein
Abstract    this article is a review of traditional and modern methods of speech recognition. speech recognition has a history of several decades and started with methods based on signal processing and dynamic time warping. statistical methods were noticed and welcomed in the 1980s and the methods based on the hidden markov models were known as the leading methods. since the 2000s, statistical methods gradually gave way to models based on neural networks, and with the use of deep neural networks, resulted in higher performances compared to the hidden markov models. models based on deep neural networks also were transformed and improved immensely. in the next step, models based on transformers and pre-trained models were proposed and achieved higher accuracies. in this article, after an overview of the methods based on the hidden markov models, the methods based on deep neural networks and their various structures are discussed, and finally, the methods based on pre-trained models are explained and the latest methods of this kind are surveyed. finally, the results obtained from the reviewed methods are presented and compared based on the word error rate measure.
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved