|
|
مروری بر روشهای نوین بازشناس گفتار
|
|
|
|
|
نویسنده
|
هادیان حسین ,گوران سروش ,صبوری صدرا ,صادقی سارا ,امینی یاسین ,صامتی حسین
|
منبع
|
صوت و ارتعاش - 1401 - دوره : 11 - شماره : 22 - صفحه:125 -154
|
چکیده
|
این مقاله مروریاست بر روشهای سنتی و نیز روشهای نوین بازشناسی گفتار. بازشناسی گفتار سابقهای در حدود چندین دهه دارد و با روشهای مبتنی بر پردازش سیگنال و پیچش زمانی پویا آغاز شده است. روشهای آماری در دهه 1980 به بعد مورد توجه و استقبال قرار گرفت و روشهای مبتنی بر مدل مخفی مارکوف بهعنوان سرآمد این روشها شناخته میشد. ولی از دهه 2000 میلادی به بعد روشهای آماری کمکم جای خود را به مدلهای مبتنی بر شبکههای عصبی دادند و با روی کار آمدن شبکههای عصبی ژرف، نتایج بهتری از این مدلها نسبت به مدل مخفی مارکوف بهدست آمد. مدلهای مبتنی بر شبکههای عصبی ژرف نیز دچار تحول شدند و انواع مختلفی از آنها ابداع گردید. سپس مدلهای مبتنی بر مبدلها و مدلهای از پیش آموزش دیده جای آنها را گرفتند و به دقتهای بالاتری دست یافتند. در این مقاله بعد از مروری بر روشهای مبتنی بر مدل مخفی مارکوف به روشهای مبتنی بر شبکههای عصبی ژرف و ساختارهای متنوع آنها پرداخته میشود و در نهایت روشهای مبتنی بر مدلهای از پیش آموزش دیده تشریح میشود و آخرین روشهای از این دست مورد بررسی قرار میگیرد. در انتها نیز نتایج بهدست آمده از روشهای تشریح شده براساس نرخ خطای کلمه ارائه میشود و مقایسه بین آنها صورت میگیرد.
|
کلیدواژه
|
بازشناسی گفتار، مدل مخفی مارکوف، شبکههای عصبی ژرف، مبدلها، مدلهای از پیش آموزش دیده
|
آدرس
|
دانشگاه صنعتی شریف, دانشکده مهندسی کامپیوتر, آزمایشگاه پردازش گفتار و زبان طبیعی, ایران, دانشگاه صنعتی شریف, دانشکده مهندسی کامپیوتر, آزمایشگاه پردازش گفتار و زبان طبیعی, ایران, دانشگاه صنعتی شریف, دانشکده مهندسی کامپیوتر, آزمایشگاه پردازش گفتار و زبان طبیعی, ایران, دانشگاه صنعتی شریف, دانشکده مهندسی کامپیوتر, آزمایشگاه پردازش گفتار و زبان طبیعی, ایران, دانشگاه صنعتی شریف, دانشکده مهندسی کامپیوتر, آزمایشگاه پردازش گفتار و زبان طبیعی, ایران, دانشگاه صنعتی شریفدانشگاه صنعتی شریف, دانشکده مهندسی کامپیوتر, آزمایشگاه پردازش گفتار و زبان طبیعی, ایران
|
پست الکترونیکی
|
sameti@sharif.edu
|
|
|
|
|
|
|
|
|
a review of the recent speech recognition methods
|
|
|
Authors
|
hadian hossein ,gooran soroush ,sabouri sadra ,sadeghi sara ,amini yasin ,sameti hossein
|
Abstract
|
this article is a review of traditional and modern methods of speech recognition. speech recognition has a history of several decades and started with methods based on signal processing and dynamic time warping. statistical methods were noticed and welcomed in the 1980s and the methods based on the hidden markov models were known as the leading methods. since the 2000s, statistical methods gradually gave way to models based on neural networks, and with the use of deep neural networks, resulted in higher performances compared to the hidden markov models. models based on deep neural networks also were transformed and improved immensely. in the next step, models based on transformers and pre-trained models were proposed and achieved higher accuracies. in this article, after an overview of the methods based on the hidden markov models, the methods based on deep neural networks and their various structures are discussed, and finally, the methods based on pre-trained models are explained and the latest methods of this kind are surveyed. finally, the results obtained from the reviewed methods are presented and compared based on the word error rate measure.
|
|
|
|
|
|
|
|
|
|
|
|
|