>
Fa   |   Ar   |   En
   یادگیری چند وظیفه ای با هدف بهبود تشخیص احساس از گفتار با نرخ نمونه برداری پایین  
   
نویسنده هاشمی صابر ,عسگری محمد
منبع نهمين كنگره انجمن علوم صوتي ايران - 1402 - دوره : 9 - نهمین کنگره انجمن علوم صوتی ایران - کد همایش: 02230-83753 - صفحه:0 -0
چکیده    در این پژوهش به استخراج احساس از سیگنال های گفتار با نرخ نمونه برداری پایین پرداخته می شود. کاهش کیفیت سیگنال های صوتی بدلیل کاهش فرکانس نمونه برداری و یا افزایش نویز نمونه برداری در انواع فشرده سازها و یا مبدل های صوتی اتفاق می افتد. مدل پیشنهادی برای بازشناسی احساس از دو بخش موازی شامل ترنسفورمر مبتنی بر فریم و شبکه ی عصبی کانولوشن تشکیل می شود. تشخیص جنسیت به عنوان یک وظیفه ی جانبی با هدف بهبود سوگیری استقرایی به مدل افزوده می شود. هر یک از این بخش ها وظیفه ی دریافت ویژگی های معینی را دارند. از ترنسفورمر مبتنی بر فریم با هدف بهره مندی از توانایی آن در یادگیری ویژگی های سراسری استفاده می شود. شبکه ی کانولوشنی وظیفه ی دریافت ویژگی های محلی و تمرکز بر ساختار دو بعدی ضرایب کپسترال فرکانس مل را دارد. ضرایب کپسترال فرکانس مل به عنوان ورودی شبکه ی عصبی پیشنهادی استفاده می شود. مدل پیشنهادی در دیتاست ravdess به دقت 78٫9 برای دادگان تمیز با نرخ نمونه بردای پایین و دقت 75٫4 برای دادگان نویزی دست می یابد. این پژوهش نشان می دهد که بدون افزودن پیش پردازش های اضافی می توان دقت مدل تشخیص احساس را در شرایط نرخ نمونه برداری پایین و نویزی بهبود بخشید.
کلیدواژه یادگیری چند وظیفه ای، تشخیص احساس از گفتار، ترنسفورمر ، شبکه ی عصبی کانولوشن، مکانیسم توجه
آدرس , iran, , iran
پست الکترونیکی m.asgari@iribu.ac.ir
 
     
   
Authors
  
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved