|
|
بازشناسی احساسات از روی گفتار با استفاده از ترکیب شبکههای عصبی ترنسفورمر و کانولوشنی
|
|
|
|
|
نویسنده
|
پورابراهیم یوسف ,رزازی فربد ,صامتی حسین
|
منبع
|
روش هاي هوشمند در صنعت برق - 1401 - دوره : 13 - شماره : 52 - صفحه:79 -98
|
چکیده
|
بازشناسی احساسات از روی گفتار با توجه به کاربردهای متنوع آن امروزه مورد توجه بسیاری از محققان قرار گرفته است. با پیشرفت روشهای آموزش شبکههای عصبی عمیق وگسترش استفاده از آن در کاربردهای مختلف، در این مقاله کاربرد شبکههای کانولوشنی و ترنسفورمر در یک ترکیب جدید در بازشناسی احساسات گفتاری مورد بررسی قرار گرفته که از لحاظ پیادهسازی نسبت به روشهای موجود سادهتر بوده و عملکرد مطلوبی نیز دارد. برای این منظور شبکههای عصبی کانولوشنی و ترنسفورمر پایه معرفی شده و سپس مبتنی بر آنها یک مدل جدید حاصل از ترکیب شبکههای کانولوشنی و ترنسفورمر ارایه شده که در آن خروجی مدل کانولوشنی پایه ورودی مدل ترنسفورمر پایه است. نتایج حاصل نشان میدهد که استفاده از شبکههای عصبی ترنسفورمر در بازشناسی بعضی از حالتهای احساسی عملکرد بهتری نسبت به روش کانولوشنی دارد. همچنین در این مقاله نشان داده شده که استفاده از شبکههای عصبی ساده به صورت ترکیبی عملکرد بهتری در بازشناسی احساسات از روی گفتار میتواند داشته باشد. در این رابطه بازشناسی احساسات گفتاری با استفاده از ترکیب شبکههای عصبی کانولوشنی و ترنسفورمر با نام کانولوشنال ترنسفورمر (ctf) برای دادگان راودس دقتی برابر 80.94 درصد به دست آورد؛ در حالی که یک شبکه عصبی کانولوشنی ساده دقتی در حدود 72.7درصد به دست آورد. همچنین ترکیب شبکههای عصبی ساده علاوه بر اینکه میتواند دقت بازشناسی را افزایش دهد، میتواند زمان آموزش و نیاز به نمونههای آموزشی برچسب دار را نیز کاهش دهد.
|
کلیدواژه
|
بازشناسی احساسات، پردازش سیگنال گفتار، شبکههای عصبی عمیق، طبقهبندی
|
آدرس
|
دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران, دانشکده مهندسی برق و کامپیوتر, ایران, دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران, دانشکده مهندسی برق و کامپیوتر, ایران, دانشگاه صنعتی شریف, دانشکده مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
sameti@sharif.edu
|
|
|
|
|
|
|
|
|
speech emotion recognition using a combination of transformer and convolutional neural networks
|
|
|
Authors
|
pourebrahim yousef ,razzazi farbod ,sameti hossein
|
Abstract
|
speech emotions recognition due to its various applications has been considered by many researchers in recent years. with the extension of deep neural network training methods and their widespread usage in various applications. in this paper, the application of convolutional and transformer networks in a new combination in the recognition of speech emotions has been investigated, which is easier to implement than existing methods and has a good performance. for this purpose, basic convolutional neural networks and transformers are introduced and then based on them a new model resulting from the combination of convolutional networks and transformers is presented in which the output of the basic convolutional network is the input of the basic transformer network. the results show that the use of transformer neural networks in recognizing some emotional categories performs better than the convolutional neural networkbased method. this paper also shows that the use of simple neural networks in combination can have a better performance in recognizing emotions through speech. in this regard, recognition of speech emotions using a combination of convolutional neural networks and a transformer called convolutionaltransformer (ctf) for ravdess dataset achieved an accuracy of %80.94; while a simple convolutional neural network achieved an accuracy of about %72.7. the combination of simple neural networks can not only increase recognition accuracy but also reduce training time and the need for labeled training samples.
|
Keywords
|
classification ,deep neural networks ,emotion recognition ,speech signal processing
|
|
|
|
|
|
|
|
|
|
|