بهبود عمل‌کرد سامانه بازشناسی گفتار پیوسته با ویژگی‌های استخراج شده از مانیفولدهای گفتاری در فضای بازسازی شده فاز

Fa | Ar | En

بهبود عمل‌کرد سامانه بازشناسی گفتار پیوسته با ویژگی‌های استخراج شده از مانیفولدهای گفتاری در فضای بازسازی شده فاز


نویسنده	شکفته یاسر ,الماس‌گنج فرشاد
منبع	پردازش علائم و داده ها - 1392 - دوره : 10 - شماره : 19 - صفحه:27 -42
چکیده	یکی از رویکردهای موثّر در بهبود کارایی سامانه‌های بازشناسی گفتار، طراحی روش‌های متنوع استخراج ویژگی از سیگنال گفتار و ترکیب اطّلاعات به‌دست آمده از آنهاست. تحقیقات اخیر نشان می‌دهد که سیگنال گفتار رفتار غیرخطی و آشوبی دارد؛ ولی از این مشخّصه سیگنال گفتار در سامانه‌های بازشناسی پیوسته گفتار استفاده نمی‌شود. یکی از حوزه‌های مناسب برای نمایش مشخصه‌های پویا و غیرخطّی سیگنال آشوبی، فضای بازسازی شده فاز (rps) است، از این‌رو در این مقاله یک روش جدید استخراج ویژگی مبتنی‌بر rps (llrps) پیشنهاد شده است. این ویژگی‌ها از امتیاز شباهت تراژکتوری سیگنال گفتار جاسازی‌شده در rps با مجموعه‌ای از مانیفولدهای واجی از پیش تعیین شده محاسبه می‌شوند. سپس مقادیر احتمال پسین واجی به‌وسیله ساختار شبکه عصبی tmlp از روی ویژگی‌های llrps تخمین‌زده می‌شود. ساختار شبکه عصبی استفاده شده، به‌صورتی است که علاوه‌بر توانایی استخراج اطّلاعات پویا، قابلیت پیاده‌سازی روش‌های متنوع ترکیب خروجی دارد. نتایج آزمایش‌ها برروی مجموعه‌دادگان گفتاری فارس‌دات نشان می‌دهد که ترکیب غیرخطّی خروجی سامانه‌های بازشناسی، شامل ویژگی‌های متداول کپستروم mfcc و ویژگی‌های پیشنهادی llrps، به‌ترتیب منجر به بهبود 94/3 درصد در دقّت بازشناسی قاب و 02/4 درصد در دقّت بازشناسی واج نسبت به عمل‌کرد سامانه بازشناسی پایه شده است.
کلیدواژه	بازشناسی گفتار پیوسته ,استخراج ویژگی ,فضای بازسازی شده فاز ,مانیفولدهای واجی ,امتیاز درست‌نمایی ,شبکه عصبی
آدرس	دانشگاه صنعتی امیرکبیر, آزمایشگاه پردازش گفتار، دانشکده مهندسی‌ پزشکی، دانشگاه صنعتی امیرکبیر، تهران، ایران, ایران, دانشگاه صنعتی امیرکبیر, آزمایشگاه پردازش گفتار، دانشکده مهندسی‌ پزشکی، دانشگاه صنعتی امیرکبیر، تهران، ایران, ایران
پست الکترونیکی	almas@aut.ac.ir



Authors