|
|
افزایش داده و انتخاب موثر ویژگی در شبکه های مولد متخاصمی جهت تشخیص احساس از گفتار
|
|
|
|
|
نویسنده
|
شیلاندری آرش ,مروی حسین ,خسروی حسین
|
منبع
|
مدل سازي در مهندسي - 1402 - دوره : 21 - شماره : 72 - صفحه:1 -17
|
چکیده
|
تاکنون، یقینی مبتنی بر موفقیت و یا عدم موفقیت بهکارگیری روشهای کاهش ویژگی جهت افزایش کارایی سیستمهای تشخیص احساس از گفتار حاصل نشده است. این مقاله باهدف افزایش دادهها در یک سیستم تشخیص احساس از گفتار، انتخاب ویژگی را موردبحث و بررسی قرار می دهد. آزمایشها بر روی چهار پایگاهداده متداول emodb، enterface05، savee و iemocap در نرمافزار پایتون انجام گردیده و علاوه بر این، تجزیهوتحلیل دادهها بر روی هر چهار پایگاهداده برای چهار احساس غم، عصبانیت، خوشحالی و خنثی ارائه خواهد شد. یک شبکه افزایش داده متخاصمی جهت افزایش نمونهها و دو شبکه انتخاب ویژگی ترکیبی معیار فیشر و الگوریتم جداساز خطی طی دو مرحله و با فیدبکی که از شبکه طبقهبند گرفته می شود سیستم تشخیص احساس از گفتار را به نقطه بهینهای از تعداد و ابعاد دادهها رسانیده و نشان می دهد آنالیز مولفههای اصلی روی دادههای همبسته موثرتر و الگوریتم جداساز خطی روی دادههای با بعد کم بهتر عمل میکنند. همچنان که روش فیشر در کاهش سایز بهتر از آنالیز مولفههای اصلی عمل میکند. همچنین ماشین بردار پشتیبان جهت طبقهبندی احساسات مورداستفاده قرار گرفته است. نتایج نشان می دهد که استفاده از هر دو روش جداساز خطی و معیار فیشر به طور همزمان در سیستم افزایش داده متخاصمی میتواند ویژگیها را در ابعاد کمتر فیلتر نموده درحالیکه اطلاعات احساسی را جهت طبقهبندی حفظ نماید. نتایج بهدستآمده با تحقیقات اخیر مقایسه گردیده است که حاکی از دستیابی روش پیشنهادی به صحت 86.32% در پایگاهداده برلین می باشد.
|
کلیدواژه
|
پردازش گفتار، انتخاب ویژگی، افزایش داده، تشخیص احساس از گفتار، شبکههای مولد متخاصمی
|
آدرس
|
دانشگاه شاهرود, دانشکده مهندسی برق, ایران, دانشگاه شاهرود, دانشکده مهندسی برق, ایران, دانشگاه شاهرود, دانشکده مهندسی برق, ایران
|
پست الکترونیکی
|
hosseinkhosravi@shahroodut.ac.ir
|
|
|
|
|
|
|
|
|
data augmentation and effective feature selection in generative adversarial networks for speech emotion recognition
|
|
|
Authors
|
shilandari arash ,marvi hossein ,khosravi hossein
|
Abstract
|
until now, there has been no certainty based on the success or failure of using feature selection methods to increase the efficiency of ser systems. this article discusses feature selection for data augmentation in a speech emotion recognition system. the experiments were performed on four databases: emodb, enterface05, savee, and iemocap. simulations are performed in python software and in addition, data analysis was performed on all four databases for four emotions of sadness, anger, happiness, and neutral. this paper discusses feature selection intending to create a gan to augment data in a speech emotion recognition system. it will demonstrate that artificial data generated by gans can not only augment data but also can be used to feature selection to improve classification performance. we used a gan to augment data and selected two featureselective networks including fisher and lda algorithm in two steps. svm was also used to classify emotions. with the feedback taken from the classification network, we could bring the ser system to the optimal point of sample number and feature vector dimensions. the pca is more effective on correlated data. the lda algorithm works better on lowdimensional data. fisher’s method is better at reducing size than pca. the results showed that the use of both lda and fisher methods in the gans can filter the features in smaller dimensions while preserving the emotional information for classification. the results were compared with recent research and the proposed method was able to achieve 86.32% accuracy in the emodb database.
|
|
|
|
|
|
|
|
|
|
|
|
|