>
Fa   |   Ar   |   En
   مروری بر استفاده از فیلترهای پارامتری در معماری‌های ژرف برای کاربردهای پردازش گفتار  
   
نویسنده فیاضی حسین ,شکفته یاسر
منبع صوت و ارتعاش - 1403 - دوره : 13 - شماره : 25 - صفحه:93 -125
چکیده    در روش‌های پردازش گفتار سنتی، عملیات استخراج ویژگی و دسته‌بندی در دو مرحله جداگانه انجام می‌شد. با گسترش استفاده از شبکه‌های عصبی ژرف، روش‌هایی ارائه شدند که در آن مدل‌سازی ارتباط بین مشخصه‌های آکوستیک و آوایی گفتار و دسته‌بندی آن به‌صورت همزمان از روی سیگنال زمانی گفتار انجام می‌شد. لایه اول پیچشی این شبکه‌ها را می توان به‌عنوان یک بانک فیلتر در نظر گرفت که هر کدام از فیلترها نسبت به باندهای فرکانسی متفاوتی حساس هستند. پس‌ازآن، با هدف افزودن قابلیت تفسیرپذیری و کاهش تعداد پارامترهای شبکه، استفاده از فیلترهای پارامتری مورد توجه قرار گرفت. معماری سینک نت[i] که در سال 2018 برای کاربرد شناسایی گوینده و شناسایی گفتار ارائه شد، مهم‌ترین تلاش در این زمینه بود. در لایه اول پیچشی این معماری، به‌جای فیلترهایی که تمام وزن‌های آن قابل یادگیری هستند، فیلترهای میان‌گذر مستطیلی یاد گرفته می‌شد. ازآنجاکه این فیلترها با تعداد کمی پارامتر قابل مدل‌سازی بودند، افزودن این محدودیت به شبکه باعث شد تعداد پارامترهای شبکه کمتر شده و سرعت همگرایی و دقت آن افزایش یابد. بعلاوه، با تجزیه‌وتحلیل بانک فیلتری که توسط مدل شبکه عصبی یاد گرفته می‌شد، اطلاعات ارزشمندی از نحوه عملکرد مدل به دست می‌آمد. کاهش تعداد پارامترهای شبکه و افزایش دقت و قدرت تفسیرپذیری مدل باعث شده است که امروزه استفاده از انواع دیگر فیلترهای پارامتری در کاربردهای مختلف پردازش گفتار مورد توجه قرار گیرد. در این مقاله انواع فیلترهای پارامتری معرفی شده و نحوه استفاده از آن‌ها در معماری‌های عمیق مختلف شرح داده می‌شوند. در انتها نیز کاربردهایی از پردازش گفتار که در آن‌ها از این فیلترها استفاده شده است، معرفی شده‌اند.
کلیدواژه پردازش گفتار، یادگیری ژرف، تفسیرپذیری، فیلترهای پارامتری، سینک نت
آدرس دانشگاه شهیدبهشتی, دانشکده مهندسی و علوم کامپیوتر, ایران, دانشگاه شهیدبهشتی, دانشکده مهندسی و علوم کامپیوتر, گروه هوش مصنوعی, ایران
پست الکترونیکی y_shekofteh@sbu.ac.ir
 
   exploring parametric filters in deep learning architectures for speech processing applications: a review  
   
Authors fayyazi hossein ,shekofteh yasser
Abstract    in traditional speech processing, feature extraction and classification were conducted as separate steps. the advent of deep neural networks has enabled methods that simultaneously model the relationship between acoustic and phonetic characteristics of speech while classifying it directly from the raw waveform. the first convolutional layer in these networks acts as a filter bank. to enhance interpretability and reduce the number of parameters, researchers have explored the use of parametric filters, with the sincnet architecture being a notable advancement. in sincnet’s initial convolutional layer, rectangular bandpass filters are learned instead of fully trainable filters. this approach allows for modeling with fewer parameters, thereby improving the network’s convergence speed and accuracy. analyzing the learned filter bank also provides valuable insights into the model’s performance. the reduction in parameters, along with increased accuracy and interpretability, has led to the adoption of various parametric filters and deep architectures across diverse speech processing applications. this paper introduces different types of parametric filters and discusses their integration into various deep architectures. additionally, it examines the specific applications in speech processing where these filters have proven effective.
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved