مدل‌سازیِ نوای گفتارِ کانونی در فارسی: رویکردی تولیدی ـ نقش‌گرا

Fa | Ar | En

مدل‌سازیِ نوای گفتارِ کانونی در فارسی: رویکردی تولیدی ـ نقش‌گرا


نویسنده	طاهری اردلی مرتضی ,عاصی مصطفی ,صامتی حسین ,بی جن خان محمود
منبع	پژوهش هاي زبان شناسي تطبيقي - 1394 - دوره : 5 - شماره : 10 - صفحه:37 -56
چکیده	مقاله حاضر تلاشی است در جهت مدل‌سازیِ نوای گفتارِ کانونیِ فارسی که با اتخاذ رویکردی تولیدی نقش‌گرا یعنی رمزگذاری موازی و تقریبِ هدف (penta) انجام شده است. داده‌های مورد استفاده برای مدل‌سازی شامل 150 پاره‌گفتار است که در شرایط مختلف کانونی و غیرکانونی تولید شده‌اند. در راستای رسیدن به این هدف، از بازسازی‌کننده pentatrainer2 تحتِ نرم‌افزار پِرَت (praat) استفاده شده است. این بازسازی‌کننده در قالبِ رویکرد penta، اهدافِ زیروبمیِ مقوله‌ای را بهینه می‌کند که هر یک از این اهداف با نقش‌های ارتباطی خاصی مرتبط هستند. ارزیابی عینی از مقایسه منحنی بسامدپایه بازسازی‌شده با منحنی بسامدپایه طبیعی حاکی از آن است که منحنی بازسازی‌شده با خطای جذرِ میانگینِ مربعات 94/1 و میزان ضریب همبستگی 84/0، به منحنی طبیعی شباهت بسیار دارد. همچنین ارزیابی ذهنی از جایگاه کانون و همچنین قضاوت آزمودنی‌ها از میزان طبیعی‌بودن صداهای بازسازی‌شده، نشان‌دهنده شباهت بسیار زیاد هر دو منحنیِ طبیعی و بازسازی‌شده است.
کلیدواژه	رمزگذاری موازی، تقریب هدف، بازسازی، کانون، بسامدپایه
آدرس	پژوهشگاه علوم انسانی و مطالعات فرهنگی, ایران, پژوهشگاه علوم انسانی و مطالعات فرهنگی, ایران, دانشگاه صنعتی شریف, ایران, دانشگاه تهران, ایران
پست الکترونیکی	mbjkhan@ut.ac.ir

Prosodic Focus Modeling in Persian: An Articulatory–Functional Approach

Authors	Taheri-Ardali Mortaza ,Aasi Mostafa ,Sameti Hossein ,Bijankhan Mahmoud
Abstract	This paper is an attempt to model Persian prosodic focus using an articulatoryfunctional approach, i.e., parallel encoding and target approximation (PENTA). The modeling was done on 150 utterances produced in different focus conditions using PENTAtrainer2 in Praat software. PENTAtrainer2 is a trainable prosody synthesizer that optimizes categorical pitch targets each corresponding to multiple communicative functions. The appraisal was carried out through numerical and subjective evaluations by comparing the F0 trajectories generated by the extracted pitch targets to those of natural utterances. The numerical results showed that the synthesized F0 contours were close to the natural ones in terms of RMSE (= 1.94) and correlation coefficient (= 0.84). Subjective evaluation also showed that the rate of focus identification and naturalness judgment were highly similar between synthetic and natural F0 trajectories.
Keywords