|
|
مدلسازیِ نوای گفتارِ کانونی در فارسی: رویکردی تولیدی ـ نقشگرا
|
|
|
|
|
نویسنده
|
طاهری اردلی مرتضی ,عاصی مصطفی ,صامتی حسین ,بی جن خان محمود
|
منبع
|
پژوهش هاي زبان شناسي تطبيقي - 1394 - دوره : 5 - شماره : 10 - صفحه:37 -56
|
چکیده
|
مقاله حاضر تلاشی است در جهت مدلسازیِ نوای گفتارِ کانونیِ فارسی که با اتخاذ رویکردی تولیدی نقشگرا یعنی رمزگذاری موازی و تقریبِ هدف (penta) انجام شده است. دادههای مورد استفاده برای مدلسازی شامل 150 پارهگفتار است که در شرایط مختلف کانونی و غیرکانونی تولید شدهاند. در راستای رسیدن به این هدف، از بازسازیکننده pentatrainer2 تحتِ نرمافزار پِرَت (praat) استفاده شده است. این بازسازیکننده در قالبِ رویکرد penta، اهدافِ زیروبمیِ مقولهای را بهینه میکند که هر یک از این اهداف با نقشهای ارتباطی خاصی مرتبط هستند. ارزیابی عینی از مقایسه منحنی بسامدپایه بازسازیشده با منحنی بسامدپایه طبیعی حاکی از آن است که منحنی بازسازیشده با خطای جذرِ میانگینِ مربعات 94/1 و میزان ضریب همبستگی 84/0، به منحنی طبیعی شباهت بسیار دارد. همچنین ارزیابی ذهنی از جایگاه کانون و همچنین قضاوت آزمودنیها از میزان طبیعیبودن صداهای بازسازیشده، نشاندهنده شباهت بسیار زیاد هر دو منحنیِ طبیعی و بازسازیشده است.
|
کلیدواژه
|
رمزگذاری موازی، تقریب هدف، بازسازی، کانون، بسامدپایه
|
آدرس
|
پژوهشگاه علوم انسانی و مطالعات فرهنگی, ایران, پژوهشگاه علوم انسانی و مطالعات فرهنگی, ایران, دانشگاه صنعتی شریف, ایران, دانشگاه تهران, ایران
|
پست الکترونیکی
|
mbjkhan@ut.ac.ir
|
|
|
|
|
|
|
|
|
Prosodic Focus Modeling in Persian: An Articulatory–Functional Approach
|
|
|
Authors
|
Taheri-Ardali Mortaza ,Aasi Mostafa ,Sameti Hossein ,Bijankhan Mahmoud
|
Abstract
|
This paper is an attempt to model Persian prosodic focus using an articulatoryfunctional approach, i.e., parallel encoding and target approximation (PENTA). The modeling was done on 150 utterances produced in different focus conditions using PENTAtrainer2 in Praat software. PENTAtrainer2 is a trainable prosody synthesizer that optimizes categorical pitch targets each corresponding to multiple communicative functions. The appraisal was carried out through numerical and subjective evaluations by comparing the F0 trajectories generated by the extracted pitch targets to those of natural utterances. The numerical results showed that the synthesized F0 contours were close to the natural ones in terms of RMSE (= 1.94) and correlation coefficient (= 0.84). Subjective evaluation also showed that the rate of focus identification and naturalness judgment were highly similar between synthetic and natural F0 trajectories.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|