|
|
ارزیابی هیجان ضمن پیام از طریق پردازش گفتار هیجانی مبتنی بر استفاده از ویژگیهای mfcc و stft
|
|
|
|
|
نویسنده
|
روانبخش مهسا ,ستایشی سعید ,پدرام میرمحسن ,میرزایی آزاده
|
منبع
|
تازه هاي علوم شناختي - 1399 - دوره : 22 - شماره : 2 - صفحه:71 -81
|
چکیده
|
مقدمه: گفتار موثرترین ابزاری است که انسانها برای انتقال اطلاعات از آن استفاده میکنند. گوینده در خلال گفتار خویش علاوه بر واژگان و دستور زبان اطلاعاتی همچون سن، جنسیت و حالت هیجانی خود را منتقل میکند. پژوهشهای فراوانی با رویکردهای گوناگون پیرامون هیجان در گفتار هیجانی انجام شده است. این پژوهشها نشان میدهند که هیجان ضمن پیام در گفتار هیجانی از طبیعتی پویا برخودار میباشد. این پویایی، مطالعه کمّی هیجان در گفتار هیجانی را با دشواری همراه میسازد. این پژوهش به ارزیابی هیجان ضمن پیام از طریق پردازش گفتار هیجانی با استفاده از ویژگیهای ضرایب کپسترال فرکانس مِل (mfcc) و تبدیل فوریه زمان کوتاه (stft) پرداخت. روش کار: دادههای ورودی، پایگاهداده استاندارد گفتار هیجانی berlin شامل هفت حالت هیجانی خشم، کسلی، انزجار، ترس، شادی، غم و حالت خنثی میباشد. با استفاده از نرم افزار matlab ابتدا فایلهای صوتی خوانده شدند. در مرحله بعد نخست ویژگیهای mfcc و سپس ویژگیهای stft استخراج شدند. بردارهای ویژگی برای هر کدام از ویژگیها بر اساس هفت مقدار آماری کمینه، بیشینه، میانگین، انحراف معیار، میانه، چولگی و کشیدگی محاسبه شدند و به عنوان ورودی شبکه عصبی مصنوعی مورد استفاده قرار گرفتند. در انتها، بازشناسی حالتهای هیجانی با استفاده از توابع آموزشی مبتنی بر الگوریتمهای مختلف انجام شد. یافتهها: نتایج بدست آمده نشان داد میانگین و صحت بازشناسی حالتهای هیجانی با استفاده از ویژگیهای stft نسبت به ویژگیهای mfcc بهتر است. همچنین، حالتهای هیجانی خشم و غم از نرخ بازشناسی بهتری برخوردار بودند. نتیجهگیری: ویژگیهای stft نسبت به ویژگیهای mfcc هیجان ضمن پیام در گفتار هیجانی را بهتر بازنمایی میکنند.
|
کلیدواژه
|
گفتار هیجانی، بازشناسی هیجان، تبدیل فوریه کوتاه مدت، ضرایب کپسترال فرکانس مل، پردازش گفتار هیجانی
|
آدرس
|
موسسه آموزش عالی علوم شناختی, ایران, دانشگاه صنعتی امیرکبیر, دانشکده فیزیک و انرژی, گروه مهندسی هستهای, ایران, دانشگاه خوارزمی, دانشکده فنی و مهندسی, گروه مهندسی الکترونیک و کامپیوتر, ایران, دانشگاه علامه طباطبائی, دانشکده ادبیات و زبانهای خارجی, گروه زبانشناسی, ایران
|
|
|
|
|
|
|
|
|
|
|
Evaluation of implicit emotion in the message through emotional speech processing based on Mel-Frequency Cepstral Coefficient and Short-Time Fourier Transform features
|
|
|
Authors
|
Ravanbakhsh Mahsa ,Setayeshi Saeed ,Pedram Mir Mohsen ,Mirzaei Azadeh
|
Abstract
|
Introduction: Speech is the most effective way to exchange information. In a speech, a speaker rsquo;s voice carries additional information other than the words and grammar content of the speech, i.e., age, gender, and emotional state. Many studies have been conducted with various approaches to the emotional content of speech. These studies show that emotion content in speech has a dynamic nature. The dynamics of speech make it difficult to extract the emotion hidden in a speech. This study aimed to evaluate the implicit emotion in a message through emotional speech processing by applying the MelFrequency Cepstral Coefficient (MFCC) and ShortTime Fourier Transform (STFT) features.Methods: The input data is the Berlin Emotional Speech Database consisting of seven emotional states, anger, boredom, disgust, anxiety/fear, happiness, sadness, and neutral version. MATLAB software is used to input audio files of the database. Next, the MFCC and STFT features are extracted. Feature vectors for each method are calculated based on seven statistical values, i.e. minimum, maximum, mean, standard deviation, median, skewness, and kurtosis. Then, they are used as an input to an Artificial Neural Network. Finally, the recognition of emotional states is done by training functions based on different algorithms.Results: The results revealed that the average and accuracy of emotional states recognized using STFT features are better and more robust than MFCC features. Also, emotional states of anger and sadness have a higher rate of recognition, among other emotions.Conclusion: STFT features showed to be better than MFCC features to extract implicit emotion in speech.
|
Keywords
|
Emotional speech ,Emotion recognition ,Short time Fourier transform ,Mel-frequency Cepstral coefficients ,Emotional speech processing
|
|
|
|
|
|
|
|
|
|
|