>
Fa   |   Ar   |   En
   افزایش داده و انتخاب موثر ویژگی‌ در شبکه های مولد متخاصمی جهت تشخیص احساس از گفتار  
   
نویسنده شیلاندری آرش ,مروی حسین ,خسروی حسین
منبع مدل سازي در مهندسي - 1402 - دوره : 21 - شماره : 72 - صفحه:1 -17
چکیده    تاکنون، یقینی مبتنی بر موفقیت و یا عدم موفقیت به‌کارگیری روش‌های کاهش ویژگی جهت افزایش کارایی سیستم‌های تشخیص احساس از گفتار حاصل نشده است. این مقاله باهدف افزایش داده‌‌ها در یک سیستم تشخیص احساس از گفتار، انتخاب ویژگی را موردبحث و بررسی قرار می دهد. آزمایش‌ها بر روی چهار پایگاه‌داده متداول emo‌db، enterface05، savee و iemocap در نرم‌افزار پایتون انجام گردیده و علاوه بر این، تجزیه‌وتحلیل داده‌ها بر روی هر چهار پایگاه‌داده برای چهار احساس غم، عصبانیت، خوشحالی و خنثی ارائه خواهد شد. یک شبکه افزایش داده متخاصمی جهت افزایش نمونه‌ها و دو شبکه انتخاب ویژگی ترکیبی معیار فیشر و الگوریتم جداساز خطی طی دو مرحله و با فیدبکی که از شبکه طبقه‌بند گرفته می شود سیستم تشخیص احساس از گفتار را به نقطه بهینه‌ای از تعداد و ابعاد داده‌ها رسانیده و نشان می دهد آنالیز مولفه‌های اصلی روی داده‌های همبسته موثرتر و الگوریتم جداساز خطی روی داده‌های با بعد کم بهتر عمل می‌کنند. همچنان که روش فیشر در کاهش سایز بهتر از آنالیز مولفه‌های اصلی عمل می‌کند. همچنین ماشین بردار پشتیبان جهت طبقه‌بندی احساسات مورداستفاده قرار گرفته است. نتایج نشان می دهد که استفاده از هر دو روش جداساز خطی و معیار فیشر به طور هم‌زمان در سیستم افزایش داده متخاصمی می‌تواند ویژگی‌ها را در ابعاد کمتر فیلتر نموده درحالی‌که اطلاعات احساسی را جهت طبقه‌بندی حفظ نماید. نتایج به‌دست‌آمده با تحقیقات اخیر مقایسه گردیده است که حاکی از دستیابی روش پیشنهادی به صحت 86.32% در پایگاه‌داده برلین می باشد.
کلیدواژه پردازش گفتار، انتخاب ویژگی، افزایش داده، تشخیص احساس از گفتار، شبکه‌های مولد متخاصمی
آدرس دانشگاه شاهرود, دانشکده مهندسی برق, ایران, دانشگاه شاهرود, دانشکده مهندسی برق, ایران, دانشگاه شاهرود, دانشکده مهندسی برق, ایران
پست الکترونیکی hosseinkhosravi@shahroodut.ac.ir
 
   data augmentation and effective feature selection in generative adversarial networks for speech emotion recognition  
   
Authors shilandari arash ,marvi hossein ,khosravi hossein
Abstract    until now, there has been no certainty based on the success or failure of using feature selection methods to increase the efficiency of ser systems. this article discusses feature selection for data augmentation in a speech emotion recognition system. the experiments were performed on four databases: emo‌db, enterface05, savee, and iemocap. simulations are performed in python software and in addition, data analysis was performed on all four databases for four emotions of sadness, anger, happiness, and neutral. this paper discusses feature selection intending to create a gan to augment data in a speech emotion recognition system. it will demonstrate that artificial data generated by gans can not only augment data but also can be used to feature selection to improve classification performance. we used a gan to augment data and selected two feature‌selective networks including fisher and lda algorithm in two steps. svm was also used to classify emotions. with the feedback taken from the classification network, we could bring the ser system to the optimal point of sample number and feature vector dimensions. the pca is more effective on correlated data. the lda algorithm works better on low‌dimensional data. fisher’s method is better at reducing size than pca. the results showed that the use of both lda and fisher methods in the gans can filter the features in smaller dimensions while preserving the emotional information for classification. the results were compared with recent research and the proposed method was able to achieve 86.32% accuracy in the emo‌db database.
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved