معرفی مدلی ساختاری-احتمالاتی برای تبدیل حرف به واج در متون فارسی

Fa | Ar | En

معرفی مدلی ساختاری-احتمالاتی برای تبدیل حرف به واج در متون فارسی


نویسنده	علایی ابوذر الهام ,بی جن خان محمود
منبع	پژوهشنامه پردازش و مديريت اطلاعات - 1395 - دوره : 31 - شماره : 4 - صفحه:1121 -1141
چکیده	در نظام های نوشتاری، رابطه یک به یک میان واج ها و نگاره ها همواره برقرار نیست. از آنجایی که در نظام نوشتاری فارسی واکه های کوتاه اغلب فاقد صورت نوشتاری هستند، تعداد حالت های ممکن خواندن کلمات خارج از واژگان افزایش می یابد و به این ترتیب عمق خط فارسی زیاد در نظر گرفته می شود. اما علیرغم وجود چنین ویژگی هایی در خط فارسی، فارسی زبانان هنگام خواندن کلمات فارسی موجود در واژگان ذهنی خود و کلماتی که برای اولین بار با آن ها در متون گوناگون مواجه می شوند، قادرند رشته حروف را تبدیل به واج کنند. این پژوهش نشان می دهد فارسی زبانان با استفاده از روشی ساختاریاحتمالاتی، هنگام خواندن، رشته حروف را به رشته واج ها تبدیل می کنند. منظور از بخش ساختاری روش، استفاده فارسی زبانان از اطلاعات زبانی از قبیل: ساختواژه فارسی، قواعد واژ واجی فارسی و آشنایی با صورت نوشتاری و تلفظ کلماتی است که با الگوهای ساختواژی عربی مطابقت دارند. منظور از بخش احتمالاتی، در نظر گرفتن احتمال وقوع واکه های کوتاه با توجه به بافت نوشتاری است که این واقعیت می تواند فارغ از اطلاعات زبانی فارسی زبانان صورت پذیرد. در تحقیق حاضر مدلی ساختاریاحتمالاتی معرفی و عملکرد آن با نرم افزارهای تبدیل حرف به واج فارسی مقایسه شده است. به طور کلی این نتیجه به دست آمد که عملکرد مدل ساختاریاحتمالاتی پژوهش برای ارائه برونداد واجی کلمات خارج از واژگان، در مقایسه با نرم افزارهای تبدیل حرف به واج فارسی بهتر و به تلفظ فارسی زبانان نزدیک تر است.
کلیدواژه	کلمات خارج از واژگان، قواعد واژواجی، الگوهای ساخت واژی عربی، مدل ساختاری-احتمالاتی
آدرس	پژوهشگاه علوم و فناوری اطلاعات ایران, ایران, دانشگاه تهران, ایران
پست الکترونیکی	mbjkhan@ut.ac.ir

Introducing a probabilistic–structural method for grapheme-to-phoneme conversion in Persian

Authors	Alayiaboozar Elham ,Bijankhan Mahmood
Abstract	Persian writing system deviates from the ideal one due to the lack of onetoone correspondence between graphemes and phonemes. The present study deals with this question that in spite of the absence of short vowels in Persian writing system and onetomany and manytoone relationships between the graphemes and phonemes, how can Persian speakers read out of vocabulary words? This study introduces a probabilistic structural method that Persian speakers use to read out of vocabulary words in which structural information (including Persian morphology and morphophonemic rules) as well as Arabic morphological templates are considered. In order to test how the introduced method works, Persian speakers were asked to read a list of out of vocabulary words. The mentioned list was used by ID3 and MLP (two methods which are used in machine learning) as input, then the outputs of the method and those of ID3 and MLP were compared with Persian speakers` pronunciations the results proved that the introduced method functions similar to Persian speakers in reading out of vocabulary words.
Keywords	out of vocabulary words ,probabilistic- structural method ,morphophonemic rules ,Arabic morphological templates