تشخیص لهجه های گفتار زبان فارسی با استفاده از شبکه عصبی عمیق پیش-آموزش دیده

Fa | Ar | En

تشخیص لهجه های گفتار زبان فارسی با استفاده از شبکه عصبی عمیق پیش-آموزش دیده


نویسنده	عبدی محمدفواد ,باباعلی باقر
منبع	نهمين كنگره انجمن علوم صوتي ايران - 1402 - دوره : 9 - نهمین کنگره انجمن علوم صوتی ایران - کد همایش: 02230-83753 - صفحه:0 -0
چکیده	گفتار علاوه بر اطلاعات زبان حاوی اطلاعات مهم شبه‌زبانیمربوط به گوینده نظیر سن، جنسیت، لهجه، گویش، وضعیت عاطفی یا روانی و غیره است که استخراج خودکار آنها می تواند در کاربردهای متعددی جهت شناسایی هویت افراد مفید باشند در این مقاله،به طور مشخص به تشخیص خودکار لهجه های مرسوم گفتار زبان فارسی می پردازیم. بنا به کاربرد، تشخیص خودکار لهجه یک مبحث پژوهشی در خور توجه در حوزه پردازش سیگنال گفتار محسوب می شود که برای زبان فارسی کمتر به آن پرداخته شده است. یکی از دلایل عمده این ضعف، نبود دادگان اختصاصی با جامعیت و حجم کافی بوده است. دادگان های موجود نسبتاً کوچک و نامتوازن هستند که استفاده از رویکردهای پیچیده یادگیری عمیق را به چالش می‌کشند. در این پژوهش، به روش یادگیری انتقالی و با استفاده از مدل‌wav2vec که به روش یادگیری خودنظارتی روی حجم عظمیی داده گفتاری بدون برچسب پیش آموزش‌ دیده اند، به این چالش می پردازیم. آزمایش ها بر روی دادگان فارس دات (شامل 10 لهجه مرسوم) انجام شده است که به نسبت سایر گزینه های موجود برای زبان فارسی، از جامعیت و مقبولیت کافی برخوردار است. برای ارزیابی، این دادگان به دو زیر بخش آموزش و آزمون بخش بندی شد و 80 درصد گویندگان هر لهجه در مجموعه آموزش و 20 درصد مابقی در مجموعه آزمون قرار گرفت. به این ترتیب بین این دو مجموعه، گویندۀ مشترکی وجود ندارد. با عنایت به کمبود داده آموزشی و همچنین و نامتوازن بودن تعداد گویندگان لهجه های، دقت حاصل شده قابل قبول است.
کلیدواژه	تشخیص خودکار لهجه گفتاری، لهجه های زبان فارسی، شبکه های عصبی عمیق پیش آموزش دیده، یادگیری انتقالی
آدرس	, iran, , iran
پست الکترونیکی	babaali@ut.ac.ir



Authors