|
|
بازشناسی احساسات از روی گفتار بر پایه بهرهگیری از شبکههای عصبی پیچشی و تکنیک افزایش دادگان
|
|
|
|
|
نویسنده
|
شفیعیان معصومه ,احمدیان وحید ,بهداد مجید
|
منبع
|
صوت و ارتعاش - 1401 - دوره : 11 - شماره : 21 - صفحه:85 -98
|
چکیده
|
هدف از سیستم های بازشناسی احساس از روی گفتار ایجاد ارتباط عاطفی بین انسان و ماشین است. چراکه بازشناسی احساس و اهداف انسان از روی گفتار، به بهبود تعاملات بین انسان و ماشین کمک می کند. بازشناسی احساس از روی گفتار برای محققان در دهه گذشته یک مساله چالشبرانگیز بوده است. اما با پیشرفت در حوزه هوش مصنوعی این چالش ها کمرنگ تر شدند. هدف از این پژوهش، استفاده از روش های یادگیری عمیق در جهت بهتر کردن کارایی این سیستم ها است. کار انجام شده از چندین مرحله تشکیل شده است. در مرحله اول از شبکه های عصبی پیچشی سه بعدی برای یادگیری ویژگی های طیفی زمانی گفتار استفاده شده است. در مرحله دوم برای قدرتمند کردن مدل پیشنهادی از ساختار هرمی جدید شبکه های عصبی پیچشی سه بعدی اتصال داده شده؛ که یک معماری چند مقیاسه از شبکه های عصبی پیچشی سه بعدی روی ابعاد ورودی است، بهره گرفته شد. در نهایت برای یادگیری ویژگی های طیفی زمانی استخراج شده از ساختار جدید (ساختار جدید هرمی شبکه های عصبی پیچشی سه بعدی) با درنظر گرفتن رابطه مکانی و زمانی اطلاعات بهصورت کامل، از شبکه کپسول زمانی استفاده شد. در نهایت بر ساختار پیشنهادی که یک ساختار قدرتمند برای ویژگی های طیفی زمانی است نام msid 3dcnn + temporal capsule نهاده شد. پژوهش انجام شده و مدل نهایی بر روی ترکیب دو پایگاه داده گفتار معمولی و گفتار آوازی از پایگاه داده راودیس که یک پایگاه داده چند حالته است انجام شد. نتایجی که با استفاده از مدل پیشنهادی بهدست آمد؛ نسبت به مدل های مرسوم، قابل توجه است. در این پژوهش برای شش کلاس احساسی به تفکیک جنسیت، دقت 81.77 درصد بهدست آمد.
|
کلیدواژه
|
بازشناسی احساس از روی گفتار، شبکههای عصبی پیچشی سه بعدی چندمقیاسه، شبکه کپسول زمانی، پایگاه داده راودیس
|
آدرس
|
دانشگاه صدا و سیما, دانشکده فنی و مهندسی رسانه, ایران, دانشگاه صدا و سیما, دانشکده فنی و مهندسی رسانه, ایران, دانشگاه صدا و سیما, دانشکده فنی و مهندسی رسانه, ایران
|
|
|
|
|
|
|
|
|
|
|
speech emotion recognition using convolutional neural network and data augmentation technique
|
|
|
Authors
|
shafieian masoume
|
Abstract
|
the purpose of speech emotion recognition systems is to create an emotional connection between humans and machine, since recognizing human emotions and goals helps improve interactions between humans and machines. recognizing emotions through speech has been a challenge for researchers over the past decade. but with advances in artificial intelligence, these challenges have faded. in this study, we took steps to improve the efficiency of these systems by using deep learning methods. in the first step, three-dimensional convolutional neural networks are used to learn the spectral-temporal features of speech. in the second step, to strengthen the proposed model, we use the new pyramidal concatenated three-dimensional convolutional neural networks, which is a multi-scale architecture of three-dimensional convolutional neural networks on input dimensions. finally, to obtain the ability of learning the spectral-temporal features extracted from the new pyramidal concatenated 3d cnn approach, we used the temporal capsule network, so could be called consider the spatial and temporal relationship of the data. finally, we named the proposed structure, which is a powerful structure for spectral-temporal feaures, the msid 3dcnn + temporal capsule.the final model has been applied on a combination of two speech and song databases from the ravdess database. comparing the results of the proposed model with the conventional models, shows the better performance of our approach. the proposed ser model has achieved an accuracy of 81.77% for six emotional classes by gender.
|
|
|
|
|
|
|
|
|
|
|
|
|