>
Fa   |   Ar   |   En
   تشخیص ارقام گفتاری فارسی با استفاده از شبکه های یادگیری عمیق  
   
نویسنده زربافی سحر ,کیانی کوروش ,راستگو راضیه
منبع مدل سازي در مهندسي - 1402 - دوره : 21 - شماره : 74 - صفحه:163 -172
چکیده    طبقه‌ بندی ارقام جدا شده چالش اساسی برای بسیاری از سیستم‌های طبقه‌بندی گفتار است. در حالی ‌که کارهای زیادی بر روی زبان‌های گفتاری انجام شده است، تحقیقات محدودی در مورد داده‌های رقمی گفتاری فارسی در ادبیات گزارش شده است و تمامی تحقیقات مربوط به اعداد صفر تا 9 بوده است. برای این منظور، پایگاه داده ی جامعی شامل بازه ی وسیعتری از اعداد با مشارکت 145 نفر که شامل هفتاد نفر مرد و 75 نفر زن هستند، جمع‌آوری گردیده است. پایگاه داده مذکور، بازه عددی صفر تا 599 را پوشش می‌دهد. پس از پیش‌پردازش داده ها، داده‌های صوتی تبدیل به طیف‌نگار مل شده و برای استخراج ویژگی و طبقه‌بندی داده‌ها از شبکه عصبی کانولوشنی و نیز یک مدل ترکیبی شامل مدل ترنسفورمر و حافظه کوتاه و بلند مدت استفاده گردیده است. نتایج تجربی بر روی پایگاه داده جمع آوری شده حاکی از دقت اعتبارسنجی 98.03 درصد می باشد.
کلیدواژه ارقام گفتاری، طبقه بندی، ارقام گفتاری فارسی، طیف‌نگار مل، پایگاه داده، ترنسفورمر
آدرس دانشگاه سمنان, دانشکده مهندسی برق و کامپبوتر, ایران, دانشگاه سمنان, دانشکده مهندسی برق و کامپیوتر, ایران, دانشگاه سمنان, دانشکده مهندسی برق و کامپیوتر, ایران
پست الکترونیکی rrastgoo@semnan.ac.ir
 
   spoken persian digits recognition using deep learning  
   
Authors zarbafi sahar ,kiani kourosh ,rastgoo razieh
Abstract    classification of isolated digits is a fundamental challenge for many speech classification systems. previous works on spoken digits have been limited to the numbers 0 to 9. in this paper, we propose two deep learning-based models for spoken digit recognition in the range of 0 to 599. the first model is a convolutional neural network (cnn) model that uses the mel spectrogram obtained from the audio data. the second model uses the recent advances in deep sequential models, especially the transformer model followed by a long short-term memory (lstm) network and a classifier. moreover, we also collected a dataset, including audio data by a contribution of 145 people, covering the numerical range from 0 to 599. the experimental results on the collected dataset indicate a validation accuracy of 98.03%.
Keywords spoken digits ,classification ,persian digits ,mel spectrogram ,dataset ,transformer
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved