تشخیص گوینده با شبکه های عصبی کانولوشنال و تئوری نتروسافیک

Fa | Ar | En

تشخیص گوینده با شبکه های عصبی کانولوشنال و تئوری نتروسافیک


نویسنده	فدایی صادق ,رشنو عبدالرضا ,حمیدی عبدالصمد
منبع	مدل سازي در مهندسي - 1402 - دوره : 21 - شماره : 75 - صفحه:1 -18
چکیده	تشخیص گوینده، فرآیند تشخیص افراد بر اساس صوت آنها است که در کاربردهای زیادی مورد استفاده قرار می‌گیرد. اگرچه تاکنون تحقیقات زیادی در زمینه‌ی تشخیص گوینده صورت گرفته است، اما چالش‌هایی وجود دارد که هنوز حل نشده‌اند. در این مقاله به منظور بهبود دقت سیستم‌های تشخیص گوینده از نتروسافیک و شبکه‌های عصبی کانولوشنال بهره گرفته شده است. در روش پیشنهادی، ابتدا اسپکتروگرام سیگنال صوتی تشکیل می‌گردد سپس اسپکتروگرام به فضای نتروسافیک منتقل می‌شود. در مرحله‌ی بعد عملگرهای بهبود بتا به مجموعه‌های نتروسافیک اعمال می‌شود و این عملیات تا ثابت شدن آنتروپی مجموعه‌های نتروسافیک تکرار می‌گردد. در نهایت یک مدل شبکه‌ی عصبی کانولوشنال برای طبقه‌بندی هیستوگرام پیشنهاد می‌شود. برای ارزیابی و تحلیل روش پیشنهادی از دو پایگاه داده‌ی aurora2 و timit استفاده شده است. روش پیشنهادی روی پایگاه داده‌ی aurora2 به دقت 79/93 درصد و روی پایگاه داده‌ی timit به دقت 24/95 درصد دست یافته است که در مقایسه با روش‌های رقیب عملکرد بهتری داشته است.
کلیدواژه	اسپکتروگرام، تشخیص گوینده، نتروسافیک، شبکه ی عصبی کانولوشنال
آدرس	دانشگاه یاسوج, دانشکده مهندسی, ایران, دانشگاه لرستان, دانشکده مهندسی, ایران, دانشگاه لرستان, دانشکده مهندسی, ایران
پست الکترونیکی	hamidi.a@lu.ac.ir

speaker recognition using convolutional neural network and neutrosophic

Authors	fadaei sadegh ,rashno abdolreza ,hamidi abdolsamad
Abstract	speaker recognition is a process of recognizing persons based on their voice which is widely used in many applications. although many researches have been performed in this domain, there are some challenges that have not been addressed yet. in this research, neutrosophic (ns) theory and convolutional neural networks (cnn) are used to improve the accuracy of speaker recognition systems. to do this, at first, the spectrogram of the signal is created from the speech signal and then transferred to the ns domain. in the next step, the alpha correction operator is applied repeatedly until reaching constant entropy in subsequent iterations. finally, a convolutional neural networks architecture is proposed to classify spectrograms in the ns domain. two datasets timit and aurora2 are used to evaluate the effectiveness of the proposed method. the precision of the proposed method on two datasets timit and aurora2 are 93.79% and 95.24%, respectively, demonstrating that the proposed model outperforms competitive models.
Keywords	spectrogram ,speaker recognition ,neutrosophic ,convolutional neural networks