|
|
تشخیص ارقام گفتاری فارسی با استفاده از شبکه های یادگیری عمیق
|
|
|
|
|
نویسنده
|
زربافی سحر ,کیانی کوروش ,راستگو راضیه
|
منبع
|
مدل سازي در مهندسي - 1402 - دوره : 21 - شماره : 74 - صفحه:163 -172
|
چکیده
|
طبقه بندی ارقام جدا شده چالش اساسی برای بسیاری از سیستمهای طبقهبندی گفتار است. در حالی که کارهای زیادی بر روی زبانهای گفتاری انجام شده است، تحقیقات محدودی در مورد دادههای رقمی گفتاری فارسی در ادبیات گزارش شده است و تمامی تحقیقات مربوط به اعداد صفر تا 9 بوده است. برای این منظور، پایگاه داده ی جامعی شامل بازه ی وسیعتری از اعداد با مشارکت 145 نفر که شامل هفتاد نفر مرد و 75 نفر زن هستند، جمعآوری گردیده است. پایگاه داده مذکور، بازه عددی صفر تا 599 را پوشش میدهد. پس از پیشپردازش داده ها، دادههای صوتی تبدیل به طیفنگار مل شده و برای استخراج ویژگی و طبقهبندی دادهها از شبکه عصبی کانولوشنی و نیز یک مدل ترکیبی شامل مدل ترنسفورمر و حافظه کوتاه و بلند مدت استفاده گردیده است. نتایج تجربی بر روی پایگاه داده جمع آوری شده حاکی از دقت اعتبارسنجی 98.03 درصد می باشد.
|
کلیدواژه
|
ارقام گفتاری، طبقه بندی، ارقام گفتاری فارسی، طیفنگار مل، پایگاه داده، ترنسفورمر
|
آدرس
|
دانشگاه سمنان, دانشکده مهندسی برق و کامپبوتر, ایران, دانشگاه سمنان, دانشکده مهندسی برق و کامپیوتر, ایران, دانشگاه سمنان, دانشکده مهندسی برق و کامپیوتر, ایران
|
پست الکترونیکی
|
rrastgoo@semnan.ac.ir
|
|
|
|
|
|
|
|
|
spoken persian digits recognition using deep learning
|
|
|
Authors
|
zarbafi sahar ,kiani kourosh ,rastgoo razieh
|
Abstract
|
classification of isolated digits is a fundamental challenge for many speech classification systems. previous works on spoken digits have been limited to the numbers 0 to 9. in this paper, we propose two deep learning-based models for spoken digit recognition in the range of 0 to 599. the first model is a convolutional neural network (cnn) model that uses the mel spectrogram obtained from the audio data. the second model uses the recent advances in deep sequential models, especially the transformer model followed by a long short-term memory (lstm) network and a classifier. moreover, we also collected a dataset, including audio data by a contribution of 145 people, covering the numerical range from 0 to 599. the experimental results on the collected dataset indicate a validation accuracy of 98.03%.
|
Keywords
|
spoken digits ,classification ,persian digits ,mel spectrogram ,dataset ,transformer
|
|
|
|
|
|
|
|
|
|
|