تحلیل پیکره بنیان متون فارسی میانه بر مبنای پایگاه داده پارسیگ

Fa | Ar | En

تحلیل پیکره بنیان متون فارسی میانه بر مبنای پایگاه داده پارسیگ


نویسنده	گشتاسب فرزانه ,قیومی مسعود ,حاجی پور نادیا
منبع	زبان شناخت - 1400 - دوره : 12 - شماره : 1 - صفحه:1 -24
چکیده	رویکرد نوین در مطالعات زبان‎شناختی یا یک پدیده زبانی بر اصل وجود مجموعه‌ای از داده‌های زبانی گردآوری‌شده نهادینه شده‎است؛ بنابراین به تهیه یک پیکره زبانی نیاز است که از تولیدات واقعی گویشوران و نه براساس شمّ زبانیِ فردی گردآوری شده‎است. این شیوۀ پژوهشی برای بررسی داده‎های زبانی تاریخی که جزء زبان‌های مرده است و اکنون هیچگونه گویشوری ندارد از اهمیت به‎سزایی برخوردار است. هدف از انجام این پژوهش،‌ تهیه پیکرۀ زبان پهلوی ساسانی (فارسی میانه) و ساماندهی آن در یک پایگاه است. برای هر واژه، شش لایۀ اطلاعاتی، اعم از حرف‏نویسی متن پهلوی، آوانویسی واژه‌ها به‌همراه ترجمۀ فارسی آنها، تعیین مقولۀ دستوری دانه‎ریز واژه‌ها، بن‌واژه‌سازی واژه‌ها و تعیین هزوارش‌بودن آنها، تعریف شده‎است. برای مقولۀ دستوری دانه‎ریز واژه‎ها، مجموعۀ برچسب مقولات دستوری فارسی معاصر تهیه‎شده توسط بی‎جن‎خان و همکاران (2011) و ساختارمندشده توسط قیومی (2014) باتوجه‏به نیازهای زبان پهلوی جرح و تعدیل شده‌است و از مجموعۀ جدید برای برچسب‎گذاری واژه‎های پهلوی استفاده شده‌است. پس ‎از نشانه‌گذاری واژه‎ها و ساماندهی اطلاعات، امکان استخراج اطلاعات آماری وجود دارد که می‎تواند بینش عمیق‎تری از محتوای متن منتقل نماید. ازاین‌رو، اطلاعات آماری از پیکرۀ به‌دست‌آمده استخراج شده و توضیح داده می‌شود تا دورنمای کلی نسبت‌به منابع تشکیل‌دهندۀ این پیکره به‌دست‌آید.
کلیدواژه	زبان پهلوی، زبان‌شناسی پیکره‎ای، پایگاه داده، نشانه‎گذاری داده
آدرس	پژوهشگاه علوم انسانی و مطالعات فرهنگی, پژوهشکده زبان‌شناسی, گروه فرهنگ و زبان‌های باستانی, ایران, پژوهشگاه علوم انسانی و مطالعات فرهنگی, پژوهشکده زبان‌شناسی, گروه زبانشناسی, ایران, پژوهشگاه علوم انسانی و مطالعات فرهنگی, پژوهشکده زبان‌شناسی, گروه فرهنگ و زبان‌های باستانی, ایران
پست الکترونیکی	nadiahajipour@yahoo.com

Corpus-based Analysis of Middle Persian Texts based on the Pārsīg Database

Authors	goshtasb farzaneh ,Ghayoomi Masood ,hajipour artarani nadia
Abstract	Recent attitude towards studying a language and a linguistic phenomenon is based upon the existence of a collection of data; therefore it is required to develop a linguistic corpus that is naturally occurred and it is not collected from the one’s intuition. This research methodology is highly important to study linguistic historical data, which is dead and has no speaker.The current research puts an effort to develop a linguistic corpus of middle Persian and to organize the data in a database. To this end, six information levels are determined in the annotation process, including transliteration of the Pahlavi texts, transcription of the words along with their Persian translation, defining finegrained syntactic category of the words, lemmatizing the words, and identifying whether the word is huzwāreš or not. To define finegrained syntactic categories, the tag set for contemporary Persian developed by Bijankhan et al (2011) and organized by Ghayoomi (2004) are modified and adapted to the Pahlavi language according to the requirements. The new tag set is used to label Pahlavi words. After annotating words and organizing the information, extracting the statistical information is possible to deepen the insight over the text’s content.
Keywords