|
|
تشخیص بازه سنی گوینده فارسی زبان با استفاده از مدل شبکه عصبی عمیق پیش آموزش دیده
|
|
|
|
|
نویسنده
|
مومنی صالح ,باباعلی باقر
|
منبع
|
نهمين كنگره انجمن علوم صوتي ايران - 1402 - دوره : 9 - نهمین کنگره انجمن علوم صوتی ایران - کد همایش: 02230-83753 - صفحه:0 -0
|
چکیده
|
گفتار علاوه بر محتوای زبانی، حاوی اطلاعات مهم دیگری نظیر نظیر سن، جنسیت، لهجه، گویش، وضعیت عاطفی یا روانی گوینده است که استخراج آنها می تواند در جهت شناسایی هویت افراد کاربرد داشته باشند در این پژوهش،به تشخیص خودکار بازه های سنی گویندگان گفتار زبان فارسی می پردازیم که برای زبان فارسی کمتر به آن پرداخته شده است. یکی از دلایل عمده این ضعف، نبود دادگان خاص این منظور، با جامعیت و حجم کافی بوده است. دادگان های موجود نسبتاً کوچک و نامتوازن هستند که امکان بکارگیری رویکردهای یادگیری عمیق را به چالش میکشند. در این کار، با بهره گیری از روش یادگیری انتقالی و با استفاده از مدل wavlm که به روش یادگیری خودنظارتی روی حجم عظیمی داده گفتاری بدون برچسب پیش آموزش دیده است، به این چالش می پردازیم. آزمایش ها بر روی دادگان فارس دات انجام شده است. بر روی این دادگان، 4 بازه سنی معنادار تعریف کرده ایم، بنابراین با یک مساله دسته بندی 4 دسته ای سر و کار داریم. برای ارزیابی، این دادگان به دو زیر بخش آموزش و آزمون بخش بندی شد و 80 درصد گویندگان هر بازه سنی در مجموعه آموزش و 20 درصد مابقی در مجموعه آزمون قرار گرفت. بهترین دقت کلی حاصل بر روی این چهار دسته بازه سنی، 66.7درصد است که با توجه به کمبود داده آموزشی و همچنین نامتوازن بودن تعداد گویندگان چهار بازه سنی تعریف شده، مناسب است.
|
کلیدواژه
|
تشخیص خودکار بازه سنی گوینده، گفتار زبان فارسی، شبکه های عصبی عمیق پیش آموزش دیده، مدل wavlm
|
آدرس
|
, iran, , iran
|
پست الکترونیکی
|
babaali@ut.ac.ir
|
|
|
|
|
|
|
|
|
|
|
|
Authors
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|