>
Fa   |   Ar   |   En
   بازشناسی مقاوم به نویز ارقام مشابه فارسی مبتنی بر شبکه lstm و ویژگی های طیفی گفتار  
   
نویسنده طبیبیان شیما
منبع مهندسي برق و مهندسي كامپيوتر ايران - 1400 - دوره : 19 - شماره : 1 - صفحه:1 -17
چکیده    یکی از چالش‌های بازشناسی ارقام مجزای فارسی، مشابهت تلفظ برخی از ارقام مانند صفر و سه، نه و دو و پنج، هفت و هشت می‌باشد. این چالش منجر به بازشناسی یک رقم به جای رقم مشابه شده و دقت بازشناسی را کاهش می‌دهد. در این مقاله، یک راهکار ترکیبی مبتنی بر حافظه کوتاه‌مدت ماندگار (lstm) و مدل مخفی مارکف (hmm) برای رفع چالش مذکور ارائه شده که نرخ بازشناسی ارقام فارسی مبتنی بر hmm را به طور متوسط 2% و در بهترین حالت 8% بهبود داده است. با توجه به تشدید چالش بازشناسی ارقام مشابه فارسی در شرایط نویزی، در ادامه کار مقاوم‌سازی بازشناسی ارقام مشابه فارسی مورد توجه قرار گرفت. به منظور افزایش مقاومت بازشناس مبتنی بر lstm، از ویژگی‌های مقاوم به نویز مستخرج از طیف گفتار مانند آنتروپی طیفی، درجه از هم پاشی، فرکانس نیمساز، همواری طیفی، فرمانت اول و نرخ گذار از صفر مبتنی بر تابع همبستگی استفاده گردید. استفاده از این ویژگی‌ها، ضمن کاهش تعداد ویژگی‌ها برای بازشناسی ارقام مشابه فارسی از 39 ضریب به حداکثر 4 و حداقل 1 ضریب، به طور متوسط به ترتیب بهبود 10، 13، 15 و 13 درصدی مقاومت بازشناس ارقام مشابه را در شرایط متنوع نویزی (30 حالت مختلف حاصل از پنج نوع نویز سفید، صورتی، همهمه، کارخانه و ماشین و شش نسبت سیگنال به نویز 5، 0، 5، 10، 15 و 20 دسی‌بل) در مقایسه با بازشناس‌های مبتنی بر hmm، lstm، شبکه باور عمیق با ویژگی‌های مل کپستروم و شبکه عصبی کانولوشنی با ویژگی‌های مل اسپکتوگرام به همراه دارد.
کلیدواژه بازشناسی ارقام مجزا، زبان فارسی، مشابهت تلفظ ارقام، مدل مخفی مارکف، حافظه کوتاه‌مدت ماندگار، مقاوم‌سازی
آدرس دانشگاه شهید بهشتی, پژوهشکده فضای مجازی, ایران
پست الکترونیکی sh_tabibian@sbu.ac.ir
 
   Robust Persian Isolated Digit Recognition Based on LSTM and Speech Spectral Features  
   
Authors
Abstract    One of the challenges of isolated Persian digit recognition is similar pronunciation of some digits such as zero and three, nine and two and five, seven and eight. This challenge leads to the high substitution errors and reduces the recognition accuracy. In this paper, a combined solution based on shortterm memory (LSTM) and hidden Markov model (HMM) is proposed to solve the mentioned challenge. The proposed approach increases the recognition rate of Persian digits on average 2 percent and in the best case 8 percent in comparison to the HMMbased approach. In the following of this work, due to the intensification of the mentioned challenge in noisy conditions, the robust recognition of Persian digits with similar pronunciation was considered. In order to increase the robustness of the LSTMbased recognizer, robust features extracted from the speech spectrum such as spectral entropy, burst degree, bisector frequency, spectral flatness, first formant and autocorrelationbased zero crossing rate were used. Using these features, while reducing the number of features for recognizing similar Persian digits from 39 coefficients to a maximum of 4 and a minimum of 1 coefficient, on average improved the robustness of the isolated digit recognizer in different noisy conditions (30 different situations resulting from five noise types of white, pink, babble, factory and car noises and six signaltonoise ratios of 5, 0, 5, 10, 15 and 20 decibels) by 10%, 13%, 15% and 13% compared to the HMMbased, LSTMbased, deep belief networkbased recognizers with MelCepstrum coefficients and a convolutional neural networkrecognizer with Mel Spectrogram features.
Keywords
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved