تشخیص خودکار گوینده مبتنی بر ویژگی های استخراج شده از بانک فیلتر گابور و شبکه های عصبی کانولوشنال

Fa | Ar | En

تشخیص خودکار گوینده مبتنی بر ویژگی های استخراج شده از بانک فیلتر گابور و شبکه های عصبی کانولوشنال


نویسنده	رشنو عبدالرضا ,فدایی صادق ,حمیدی عبدالصمد
منبع	مدل سازي در مهندسي - 1402 - دوره : 21 - شماره : 72 - صفحه:49 -67
چکیده	صدای یک انسان حاوی خصوصیاتی از قبیل: قومیت، جنسیت، احساس، سن و اطلاعات دیگری از فرد است و موضوع تشخیص گوینده به شناسایی هویت افراد بر اساس صدای آنها می‌پردازد. اگرچه محققان در طول سال‌های گذشته در این زمینه فعالیت داشته‌اند و روش‌هایی برای بهبود دقت تشخیص گوینده پیشنهاد داده‌اند اما هنوز چالش‌هایی در این زمینه وجود دارد. در این مقاله یک روش جدید تشخیص گوینده مبتنی بر فیلترهای گابور و شبکه‌های عصبی کانولوشنال ارایه شده است. در روش پیشنهادی، ابتدا اسپکتروگرام سیگنال صحبت فرد تشکیل می‌شود. سپس با طراحی موثر فیلترهای گابور، بانک فیلتر گابور ایجاد می‌گردد. در مرحله‌ی بعد اسپکتروگرام سیگنال از بانک فیلتر گابور عبور داده شده و ویژگی‌های سیگنال صحبت استخراج می‌شود. در مرحله‌ی آخر با استفاده از یک شبکه‌ی عصبی کانولوشنال، گوینده شناسایی می‌شود. برای ارزیابی روش پیشنهادی از دو پایگاه داده‌ی aurora2 و timit استفاده شده است. نتایج نشان می‌دهد که روش پیشنهادی دقت بهتری نسبت به روش‌های پیشین دارد.
کلیدواژه	بانک فیلتر گابور، اسپکتروگرام، تشخیص گوینده، شبکه ی عصبی کانولوشنال
آدرس	دانشگاه لرستان, دانشکده مهندسی, ایران, دانشگاه یاسوج, دانشکده مهندسی, ایران, دانشگاه لرستان, دانشکده مهندسی, ایران
پست الکترونیکی	hamidi.a@lu.ac.ir

automatic speaker recognition based on gabor features and convolutional neural networks

Authors	rashno abdolreza ,fadaei sadegh ,hamidi abdolsamad
Abstract	human voice contains characteristics such as: ethnicity, gender, feelings, age and other information, and speaker recognition identifies people based on their voice. although researchers have worked in this area over the years and provide methods to improve the speaker recognition accuracy, there are still challenges. in this paper, a new speaker recognition method is proposed based on gabor filter bank and convolutional neural networks. at first, spectrogram of the speech signal is formed and then, effective gabor filter bank is designed so that these filters are suitable for extracting effective features of the speech signal. in the next step, spectrogram of the signal is passed through the gabor filter bank to extract the speech signal features. finally, speaker recognition is done using a convolutional neural network. two datasets aurora2 and timit are used to evaluate the proposed method. results show that the accuracy of the proposed method is competitive with the state‌of‌the‌art methods.