>
Fa   |   Ar   |   En
   بازشناسی احساسات از روی گفتار با استفاده از ترکیب شبکه‌های عصبی ترنسفورمر و کانولوشنی  
   
نویسنده پورابراهیم یوسف ,رزازی فربد ,صامتی حسین
منبع روش هاي هوشمند در صنعت برق - 1401 - دوره : 13 - شماره : 52 - صفحه:79 -98
چکیده    بازشناسی احساسات از روی گفتار با توجه به کاربردهای متنوع آن امروزه مورد توجه بسیاری از محققان قرار گرفته است. با پیشرفت روش‌های آموزش شبکه‌های عصبی عمیق وگسترش استفاده از آن در کاربردهای مختلف، در این مقاله کاربرد شبکه‌های کانولوشنی و ترنسفورمر در یک ترکیب جدید در بازشناسی احساسات گفتاری مورد بررسی قرار گرفته که از لحاظ پیاده‌سازی نسبت به روش‌های موجود ساده‌تر بوده و عملکرد مطلوبی نیز دارد. برای این منظور شبکه‌های عصبی کانولوشنی و ترنسفورمر پایه معرفی شده و سپس مبتنی بر آنها یک مدل جدید حاصل از ترکیب شبکه‌های کانولوشنی و ترنسفورمر ارایه شده که در آن خروجی مدل کانولوشنی پایه ورودی مدل ترنسفورمر پایه است. نتایج حاصل نشان می‌دهد که استفاده از شبکه‌های عصبی ترنسفورمر در بازشناسی بعضی از حالت‌های احساسی عملکرد بهتری نسبت به روش کانولوشنی دارد. همچنین در این مقاله نشان داده شده ‌که استفاده از شبکه‌های عصبی ساده به صورت ترکیبی عملکرد بهتری در بازشناسی احساسات از روی گفتار می‌تواند داشته باشد. در این رابطه بازشناسی احساسات گفتاری با استفاده از ترکیب شبکه‌های عصبی کانولوشنی و ترنسفورمر با نام کانولوشنال ترنسفورمر (ctf) برای دادگان راودس دقتی برابر 80.94 درصد به دست آورد؛ در حالی که یک شبکه عصبی کانولوشنی ساده دقتی در حدود 72.7درصد به دست آورد. همچنین ترکیب شبکه‌های عصبی ساده علاوه بر اینکه می‌تواند دقت بازشناسی را افزایش دهد، می‌تواند زمان آموزش و نیاز به نمونه‌های آموزشی برچسب دار را نیز کاهش دهد.
کلیدواژه بازشناسی احساسات، پردازش سیگنال گفتار، شبکه‌های عصبی عمیق، طبقه‌بندی
آدرس دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران, دانشکده مهندسی برق و کامپیوتر, ایران, دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران, دانشکده مهندسی برق و کامپیوتر, ایران, دانشگاه صنعتی شریف, دانشکده مهندسی کامپیوتر, ایران
پست الکترونیکی sameti@sharif.edu
 
   speech emotion recognition using a combination of transformer and convolutional neural networks  
   
Authors pourebrahim yousef ,razzazi farbod ,sameti hossein
Abstract    speech emotions recognition due to its various applications has been considered by many researchers in recent years. with the extension of deep neural network training methods and their widespread usage in various applications. in this paper, the application of convolutional and transformer networks in a new combination in the recognition of speech emotions has been investigated, which is easier to implement than existing methods and has a good performance. for this purpose, basic convolutional neural networks and transformers are introduced and then based on them a new model resulting from the combination of convolutional networks and transformers is presented in which the output of the basic convolutional network is the input of the basic transformer network. the results show that the use of transformer neural networks in recognizing some emotional categories performs better than the convolutional neural networkbased method. this paper also shows that the use of simple neural networks in combination can have a better performance in recognizing emotions through speech. in this regard, recognition of speech emotions using a combination of convolutional neural networks and a transformer called convolutionaltransformer (ctf) for ravdess dataset achieved an accuracy of %80.94; while a simple convolutional neural network achieved an accuracy of about %72.7. the combination of simple neural networks can not only increase recognition accuracy but also reduce training time and the need for labeled training samples.
Keywords classification ,deep neural networks ,emotion recognition ,speech signal processing
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved