تشخیص ارقام گفتاری فارسی با استفاده از شبکه های یادگیری عمیق

Fa | Ar | En

تشخیص ارقام گفتاری فارسی با استفاده از شبکه های یادگیری عمیق


نویسنده	زربافی سحر ,کیانی کوروش ,راستگو راضیه
منبع	مدل سازي در مهندسي - 1402 - دوره : 21 - شماره : 74 - صفحه:163 -172
چکیده	طبقه‌ بندی ارقام جدا شده چالش اساسی برای بسیاری از سیستم‌های طبقه‌بندی گفتار است. در حالی ‌که کارهای زیادی بر روی زبان‌های گفتاری انجام شده است، تحقیقات محدودی در مورد داده‌های رقمی گفتاری فارسی در ادبیات گزارش شده است و تمامی تحقیقات مربوط به اعداد صفر تا 9 بوده است. برای این منظور، پایگاه داده ی جامعی شامل بازه ی وسیعتری از اعداد با مشارکت 145 نفر که شامل هفتاد نفر مرد و 75 نفر زن هستند، جمع‌آوری گردیده است. پایگاه داده مذکور، بازه عددی صفر تا 599 را پوشش می‌دهد. پس از پیش‌پردازش داده ها، داده‌های صوتی تبدیل به طیف‌نگار مل شده و برای استخراج ویژگی و طبقه‌بندی داده‌ها از شبکه عصبی کانولوشنی و نیز یک مدل ترکیبی شامل مدل ترنسفورمر و حافظه کوتاه و بلند مدت استفاده گردیده است. نتایج تجربی بر روی پایگاه داده جمع آوری شده حاکی از دقت اعتبارسنجی 98.03 درصد می باشد.
کلیدواژه	ارقام گفتاری، طبقه بندی، ارقام گفتاری فارسی، طیف‌نگار مل، پایگاه داده، ترنسفورمر
آدرس	دانشگاه سمنان, دانشکده مهندسی برق و کامپبوتر, ایران, دانشگاه سمنان, دانشکده مهندسی برق و کامپیوتر, ایران, دانشگاه سمنان, دانشکده مهندسی برق و کامپیوتر, ایران
پست الکترونیکی	rrastgoo@semnan.ac.ir

spoken persian digits recognition using deep learning

Authors	zarbafi sahar ,kiani kourosh ,rastgoo razieh
Abstract	classification of isolated digits is a fundamental challenge for many speech classification systems. previous works on spoken digits have been limited to the numbers 0 to 9. in this paper, we propose two deep learning-based models for spoken digit recognition in the range of 0 to 599. the first model is a convolutional neural network (cnn) model that uses the mel spectrogram obtained from the audio data. the second model uses the recent advances in deep sequential models, especially the transformer model followed by a long short-term memory (lstm) network and a classifier. moreover, we also collected a dataset, including audio data by a contribution of 145 people, covering the numerical range from 0 to 599. the experimental results on the collected dataset indicate a validation accuracy of 98.03%.
Keywords	spoken digits ,classification ,persian digits ,mel spectrogram ,dataset ,transformer