|
|
تشخیص خودکار گوینده مبتنی بر ویژگی های استخراج شده از بانک فیلتر گابور و شبکه های عصبی کانولوشنال
|
|
|
|
|
نویسنده
|
رشنو عبدالرضا ,فدایی صادق ,حمیدی عبدالصمد
|
منبع
|
مدل سازي در مهندسي - 1402 - دوره : 21 - شماره : 72 - صفحه:49 -67
|
چکیده
|
صدای یک انسان حاوی خصوصیاتی از قبیل: قومیت، جنسیت، احساس، سن و اطلاعات دیگری از فرد است و موضوع تشخیص گوینده به شناسایی هویت افراد بر اساس صدای آنها میپردازد. اگرچه محققان در طول سالهای گذشته در این زمینه فعالیت داشتهاند و روشهایی برای بهبود دقت تشخیص گوینده پیشنهاد دادهاند اما هنوز چالشهایی در این زمینه وجود دارد. در این مقاله یک روش جدید تشخیص گوینده مبتنی بر فیلترهای گابور و شبکههای عصبی کانولوشنال ارایه شده است. در روش پیشنهادی، ابتدا اسپکتروگرام سیگنال صحبت فرد تشکیل میشود. سپس با طراحی موثر فیلترهای گابور، بانک فیلتر گابور ایجاد میگردد. در مرحلهی بعد اسپکتروگرام سیگنال از بانک فیلتر گابور عبور داده شده و ویژگیهای سیگنال صحبت استخراج میشود. در مرحلهی آخر با استفاده از یک شبکهی عصبی کانولوشنال، گوینده شناسایی میشود. برای ارزیابی روش پیشنهادی از دو پایگاه دادهی aurora2 و timit استفاده شده است. نتایج نشان میدهد که روش پیشنهادی دقت بهتری نسبت به روشهای پیشین دارد.
|
کلیدواژه
|
بانک فیلتر گابور، اسپکتروگرام، تشخیص گوینده، شبکه ی عصبی کانولوشنال
|
آدرس
|
دانشگاه لرستان, دانشکده مهندسی, ایران, دانشگاه یاسوج, دانشکده مهندسی, ایران, دانشگاه لرستان, دانشکده مهندسی, ایران
|
پست الکترونیکی
|
hamidi.a@lu.ac.ir
|
|
|
|
|
|
|
|
|
automatic speaker recognition based on gabor features and convolutional neural networks
|
|
|
Authors
|
rashno abdolreza ,fadaei sadegh ,hamidi abdolsamad
|
Abstract
|
human voice contains characteristics such as: ethnicity, gender, feelings, age and other information, and speaker recognition identifies people based on their voice. although researchers have worked in this area over the years and provide methods to improve the speaker recognition accuracy, there are still challenges. in this paper, a new speaker recognition method is proposed based on gabor filter bank and convolutional neural networks. at first, spectrogram of the speech signal is formed and then, effective gabor filter bank is designed so that these filters are suitable for extracting effective features of the speech signal. in the next step, spectrogram of the signal is passed through the gabor filter bank to extract the speech signal features. finally, speaker recognition is done using a convolutional neural network. two datasets aurora2 and timit are used to evaluate the proposed method. results show that the accuracy of the proposed method is competitive with the stateoftheart methods.
|
|
|
|
|
|
|
|
|
|
|
|
|