|
|
مروری بر استفاده از فیلترهای پارامتری در معماریهای ژرف برای کاربردهای پردازش گفتار
|
|
|
|
|
نویسنده
|
فیاضی حسین ,شکفته یاسر
|
منبع
|
صوت و ارتعاش - 1403 - دوره : 13 - شماره : 25 - صفحه:93 -125
|
چکیده
|
در روشهای پردازش گفتار سنتی، عملیات استخراج ویژگی و دستهبندی در دو مرحله جداگانه انجام میشد. با گسترش استفاده از شبکههای عصبی ژرف، روشهایی ارائه شدند که در آن مدلسازی ارتباط بین مشخصههای آکوستیک و آوایی گفتار و دستهبندی آن بهصورت همزمان از روی سیگنال زمانی گفتار انجام میشد. لایه اول پیچشی این شبکهها را می توان بهعنوان یک بانک فیلتر در نظر گرفت که هر کدام از فیلترها نسبت به باندهای فرکانسی متفاوتی حساس هستند. پسازآن، با هدف افزودن قابلیت تفسیرپذیری و کاهش تعداد پارامترهای شبکه، استفاده از فیلترهای پارامتری مورد توجه قرار گرفت. معماری سینک نت[i] که در سال 2018 برای کاربرد شناسایی گوینده و شناسایی گفتار ارائه شد، مهمترین تلاش در این زمینه بود. در لایه اول پیچشی این معماری، بهجای فیلترهایی که تمام وزنهای آن قابل یادگیری هستند، فیلترهای میانگذر مستطیلی یاد گرفته میشد. ازآنجاکه این فیلترها با تعداد کمی پارامتر قابل مدلسازی بودند، افزودن این محدودیت به شبکه باعث شد تعداد پارامترهای شبکه کمتر شده و سرعت همگرایی و دقت آن افزایش یابد. بعلاوه، با تجزیهوتحلیل بانک فیلتری که توسط مدل شبکه عصبی یاد گرفته میشد، اطلاعات ارزشمندی از نحوه عملکرد مدل به دست میآمد. کاهش تعداد پارامترهای شبکه و افزایش دقت و قدرت تفسیرپذیری مدل باعث شده است که امروزه استفاده از انواع دیگر فیلترهای پارامتری در کاربردهای مختلف پردازش گفتار مورد توجه قرار گیرد. در این مقاله انواع فیلترهای پارامتری معرفی شده و نحوه استفاده از آنها در معماریهای عمیق مختلف شرح داده میشوند. در انتها نیز کاربردهایی از پردازش گفتار که در آنها از این فیلترها استفاده شده است، معرفی شدهاند.
|
کلیدواژه
|
پردازش گفتار، یادگیری ژرف، تفسیرپذیری، فیلترهای پارامتری، سینک نت
|
آدرس
|
دانشگاه شهیدبهشتی, دانشکده مهندسی و علوم کامپیوتر, ایران, دانشگاه شهیدبهشتی, دانشکده مهندسی و علوم کامپیوتر, گروه هوش مصنوعی, ایران
|
پست الکترونیکی
|
y_shekofteh@sbu.ac.ir
|
|
|
|
|
|
|
|
|
exploring parametric filters in deep learning architectures for speech processing applications: a review
|
|
|
Authors
|
fayyazi hossein ,shekofteh yasser
|
Abstract
|
in traditional speech processing, feature extraction and classification were conducted as separate steps. the advent of deep neural networks has enabled methods that simultaneously model the relationship between acoustic and phonetic characteristics of speech while classifying it directly from the raw waveform. the first convolutional layer in these networks acts as a filter bank. to enhance interpretability and reduce the number of parameters, researchers have explored the use of parametric filters, with the sincnet architecture being a notable advancement. in sincnet’s initial convolutional layer, rectangular bandpass filters are learned instead of fully trainable filters. this approach allows for modeling with fewer parameters, thereby improving the network’s convergence speed and accuracy. analyzing the learned filter bank also provides valuable insights into the model’s performance. the reduction in parameters, along with increased accuracy and interpretability, has led to the adoption of various parametric filters and deep architectures across diverse speech processing applications. this paper introduces different types of parametric filters and discusses their integration into various deep architectures. additionally, it examines the specific applications in speech processing where these filters have proven effective.
|
|
|
|
|
|
|
|
|
|
|
|
|