|
|
تخمین سریع ضرایب پیچش در هنجارسازی طول مجرای صوتی با استفاده از امتیاز به دست آمده از مدلسازی تشخیص جنسیت
|
|
|
|
|
نویسنده
|
شکفته یاسر ,قلی پور حسن ,گودرزی محمدمحسن ,کبودیان جهانشاه ,الماسگنج فرشاد ,رضا شقایق ,صراف رضایی ایمان
|
منبع
|
پردازش علائم و داده ها - 1395 - دوره : 13 - شماره : 1 - صفحه:57 -70
|
چکیده
|
یکی از مشکلات عمده ی سامانه های خودکار بازشناسی گفتار (asr)، تنوعات موجود در بین گوینده ها، کانال انتقال داده و محیط است که به علت وجود این تنوعات، کارایی این سامانهها در شرایط کاربردی مختلف به شدت تغییر میکند. مقاوم سازی سیستم های بازشناسی جهت مقابله با این تغییرات از جمله مسائل حال حاضر در حوزه بازشناسی گفتار است. از جمله عواملی که باعث کاهش کارایی سیستم ها می شود، تمایز مشخصات صوتی آواهای یکسانِ تولید شده از گوینده های مختلف است. یکی از عوامل اصلی این مشکل ناشی از تفاوت موجود در طول مجرای صوتی (vtl) بین گوینده های مختلف میباشد. روش هنجارسازی طول مجرای صوتی (vtln) از روش های رایج برای رفع این مشکل است که در آن برای هر گوینده یک ضریب پیچش فرکانسی تعیین می گردد. در این مقاله روش متداول تعیین ضریب پیچش با رویکرد مبتنی بر جستجو در یک سیستم بازشناسی گفتار پیوسته فارسی مبتنی بر مدل مخفی مارکوف معرفی و مشکلات محاسباتی استفاده از این روش شرح داده شده است. در نهایت روشی مبتنی بر رگرسیون خطی از روی امتیازِ محاسبه شده از مدلسازی تشخیص جنسیت جهت تخمین ضرایب پیچش پیشنهاد شده است که منجر به کاهش قابل ملاحظه هزینه محاسباتیِ روش مبتنی بر جستجو می شود. علاوه بر این، نتایج آزمایشات بر روی دادگان آزمون گفتار تلفنی محاوره ای، بیانگر بهبود 0/54 درصدی دقت تشخیص کلمه روش پیشنهادی نسبت به روش متداول مبتنی بر جستجو می باشد.
|
کلیدواژه
|
بازشناسی گفتار، هنجارسازی طول مجرای صوتی، تشخیص جنسیت، رگرسیون خطی، ضریب پیچش فرکانسی.
|
آدرس
|
دانشگاه صنعتی خواجه نصیرالدین طوسی, پژوهشکده پردازش داده, گروه پردازش صوت و زبان طبیعی, ایران, دانشگاه صنعتی خواجه نصیرالدین طوسی, پژوهشکده پردازش داده, گروه پردازش صوت و زبان طبیعی, ایران, دانشگاه صنعتی خواجه نصیرالدین طوسی, پژوهشکده پردازش داده, گروه پردازش صوت و زبان طبیعی, ایران, دانشگاه رازی, دانشکده فنی و مهندسی, گروه مهندسی کامپیوتر و فناوری اطلاعات, ایران, دانشگاه صنعتی امیرکبیر, دانشکده مهندسی پزشکی, ایران, دانشگاه صنعتی خواجه نصیرالدین طوسی, پژوهشکده پردازش داده, گروه پردازش صوت و زبان طبیعی, ایران, دانشگاه صنعتی خواجه نصیرالدین طوسی, پژوهشکده پردازش داده, گروه پردازش صوت و زبان طبیعی, ایران
|
|
|
|
|
|
|
|
|
|
|
Fast estimation of warping factor in the vocal tract length normalization using obtained scores of gender detection modeling
|
|
|
Authors
|
Shekofteh Yasser ,Gholipor Hasan ,Goodarzi M.Mohsen ,kabudian Jahanshah ,Almasganj Farshad ,Reza Shaghayegh ,Sarraf Iman
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|