>
Fa   |   Ar   |   En
   بازشناسی گوینده انتها به انتها با استفاده از شبکه‌های عصبی کانوولوشنی مبتنی بر توابع سینک  
   
نویسنده انصاری زهره ,محمودی رسول ,پورحسینی فرزین
منبع كتفرانس مهندسي زيست پزشكي ايران - 1400 - دوره : 28 - کتفرانس مهندسی زیست پزشکی ایران - کد همایش: 00220-67879 - صفحه:0 -0
چکیده    تشخیص خودکار هویت انسان به یک چالش مهم برای جامعه‌ی مدرن امروزی تبدیل شده است. فناوری زیست‌سنجی بر پایه پارامترهایی از جمله ویژگی‌های صوتی افراد در پاسخ به این رشد، توسعه یافته‌است. در این مقاله، یک الگوریتم تشخیص هویت با استفاده از شبکه‌های عصبی کانوولوشنی مبتنی بر روش سینکنت، بررسی شده‌است. در این الگوریتم، از یک ساختار شبکه عصبی کانوولوشنی عمیق یکپارچه برای استخراج ویژگی و طبقه‌بندی گویندگان از روی سیگنال خام صوتی استفاده شده‌است. یکی از مهم‌ترین بخش‌های شبکه‌های عصبی کانوولوشنی، اولین لایه کانوولوشن است. در معماری پیشنهادی سینکنت، شبکه‌های عصبی کانوولوشنی در کشف فیلترهای معنی دارتر در لایه اول هدایت می‌شوند. در این روش، سیگنال خام ورودی با مجموعه‌ای از توابع سینک مرتبط می‌شود که در حوزه فرکانس سبب پیاده‌سازی فیلترهای میان گذر می‌شود؛ به‌گونه‌ای که فرکانس‌های قطع پایین و بالا تنها پارامترهای هستند که فیلترها از داده‌های خام می‌آموزند. برای ارزیابی این الگوریتم، از مجموعه داده‌های فارس دات و تیمیت که به ترتیب از معتبرترین مجموعه داده‌های صوتی به زبان فارسی و انگلیسی هستند، استفاده شده است. پس از تعلیم شبکه، به ترتیب، نرخ خطای بازشناسی گوینده 6% برای داده‌های تیمیت و 1% برای دادگان فارس‌دات به‌دست آمد.
کلیدواژه شبکه­های عصبی کانوولوشنی، بازشناسی گوینده، زیست­سنجی، تشخیص هویت، شبکه­های عصبی کانوولوشنی مبتنی بر توابع سینک، سینکنت
آدرس , iran, , iran, , iran
پست الکترونیکی pourhoseinifarzin@gma
 
   End-To-End Speaker Recognition by Convolutional Neural Networks Based on Sinc Functions  
   
Authors
Abstract    Automatic person identification is an important challenge for the modern society. In response to this demand, Biometric technology is developed based on the parameters such as the acoustic features of the person. In this article, A deep integrated Convolutional Neural Network (CNN) based on the Sincnet method, for speaker recognition is investigated. This structure is implemented for both feature extraction as well as speaker classification from the raw speech signal. One of the important parts of the CNNs is the first convolutional layer. In the Sincnet method, the CNN structure is led to explore more sensible filters at the first layer. Therefore, the raw signal is applied to a set of filters parameterized by Sinc functions that end in the application of band pass filters in the frequency space. Experimental results on FARSDAT (a Persian speech data set) and TIMIT (an English speech dataset) verify that the Sincnet method achieves speaker recognition error rate of 1% and 6%, respectively.
Keywords Convolutional neural networks; Speaker Recognition; Biometrics; Sincnet; Sinc function
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved