بدست آوردن همترازی زمانی بین متن و صوت با استفاده از ترکیب الگوریتم ctc و marbelnetvad
|
|
|
|
|
نویسنده
|
علویان شهری مصطفی ,صفری محمد صادق
|
منبع
|
بيستمين سمپوزيوم بينالمللي هوش مصنوعي و پردازش سيگنال - 1402 - دوره : 20 - بیستمین سمپوزیوم بینالمللی هوش مصنوعی و پردازش سیگنال - کد همایش: 02230-38445 - صفحه:0 -0
|
چکیده
|
در این مقاله روشی جدید با استفاده از ترکیب الگوریتمهای طبقه بندی زمانی ارتباطگرا (ctc (و marbelnetvad به منظور برچسبزنیدادههای صوتی در حالتی که عالوه بر کم بودن دادها، صوت متناظر با متن هم حالت استاندارد نداشته پیشنهاد شده است. از جمله این نوع دادها میتوانبه متن و صوت ادعیه مفاتیجالجنان اشاره کرد که تعداد محدودی دعا توسط چند مداح/گوینده با لحنی خاص خوانده شده است. در این روش با استفادهاز الگوریتم ctc تخمین اولیه ای همترازیهای زمانی، مبتنی بر توزیع احتمالی بدست آمده از یک مدل بازشناسی گفتار wav2vec2 بدست میآید. مشکلتخمین اولیه با توجه به نوع دادها این است که ممکن است صوت یک عبارت کوتاه از یک جمله در جمله دیگر تشخیص داده شود. از این رو، در ادامه باترکیب خروجی ctc و زمانهای بدست آمده از marbelnetvad تخمین دقیقی از همترازی زمانی هر عبارت و صوت متناظر با آن در دنباله صوتی بدستمیآید. نتایج حاصل از شبیهسازیها نشان میدهد میانگین و واریانس اختالف همترازیهای زمانی تخمین زده شده توسط روش پیشنهادی در حدود64s.0 و 37.0 است، در عین حال که روش ctc به عنوان روش پایه به میانگین و واریانسی در حدود 87s.0 و 47.0 رسیده است.
|
کلیدواژه
|
همترازی زمانی،الگوریتم ctc،marbelnetvad
|
آدرس
|
, iran, , iran
|
پست الکترونیکی
|
mohammadsadeq.safari@partdp.ai
|
|
|
|
|