|
|
بازشناسی گوینده انتها به انتها با استفاده از شبکههای عصبی کانوولوشنی مبتنی بر توابع سینک
|
|
|
|
|
نویسنده
|
انصاری زهره ,محمودی رسول ,پورحسینی فرزین
|
منبع
|
كتفرانس مهندسي زيست پزشكي ايران - 1400 - دوره : 28 - کتفرانس مهندسی زیست پزشکی ایران - کد همایش: 00220-67879 - صفحه:0 -0
|
چکیده
|
تشخیص خودکار هویت انسان به یک چالش مهم برای جامعهی مدرن امروزی تبدیل شده است. فناوری زیستسنجی بر پایه پارامترهایی از جمله ویژگیهای صوتی افراد در پاسخ به این رشد، توسعه یافتهاست. در این مقاله، یک الگوریتم تشخیص هویت با استفاده از شبکههای عصبی کانوولوشنی مبتنی بر روش سینکنت، بررسی شدهاست. در این الگوریتم، از یک ساختار شبکه عصبی کانوولوشنی عمیق یکپارچه برای استخراج ویژگی و طبقهبندی گویندگان از روی سیگنال خام صوتی استفاده شدهاست. یکی از مهمترین بخشهای شبکههای عصبی کانوولوشنی، اولین لایه کانوولوشن است. در معماری پیشنهادی سینکنت، شبکههای عصبی کانوولوشنی در کشف فیلترهای معنی دارتر در لایه اول هدایت میشوند. در این روش، سیگنال خام ورودی با مجموعهای از توابع سینک مرتبط میشود که در حوزه فرکانس سبب پیادهسازی فیلترهای میان گذر میشود؛ بهگونهای که فرکانسهای قطع پایین و بالا تنها پارامترهای هستند که فیلترها از دادههای خام میآموزند. برای ارزیابی این الگوریتم، از مجموعه دادههای فارس دات و تیمیت که به ترتیب از معتبرترین مجموعه دادههای صوتی به زبان فارسی و انگلیسی هستند، استفاده شده است. پس از تعلیم شبکه، به ترتیب، نرخ خطای بازشناسی گوینده 6% برای دادههای تیمیت و 1% برای دادگان فارسدات بهدست آمد.
|
کلیدواژه
|
شبکههای عصبی کانوولوشنی، بازشناسی گوینده، زیستسنجی، تشخیص هویت، شبکههای عصبی کانوولوشنی مبتنی بر توابع سینک، سینکنت
|
آدرس
|
, iran, , iran, , iran
|
پست الکترونیکی
|
pourhoseinifarzin@gma
|
|
|
|
|
|
|
|
|
End-To-End Speaker Recognition by Convolutional Neural Networks Based on Sinc Functions
|
|
|
Authors
|
|
Abstract
|
Automatic person identification is an important challenge for the modern society. In response to this demand, Biometric technology is developed based on the parameters such as the acoustic features of the person. In this article, A deep integrated Convolutional Neural Network (CNN) based on the Sincnet method, for speaker recognition is investigated. This structure is implemented for both feature extraction as well as speaker classification from the raw speech signal. One of the important parts of the CNNs is the first convolutional layer. In the Sincnet method, the CNN structure is led to explore more sensible filters at the first layer. Therefore, the raw signal is applied to a set of filters parameterized by Sinc functions that end in the application of band pass filters in the frequency space. Experimental results on FARSDAT (a Persian speech data set) and TIMIT (an English speech dataset) verify that the Sincnet method achieves speaker recognition error rate of 1% and 6%, respectively.
|
Keywords
|
Convolutional neural networks; Speaker Recognition; Biometrics; Sincnet; Sinc function
|
|
|
|
|
|
|
|
|
|
|