|
|
شاخصها و مراحل ساخت پیکره زبانی: گونه نوشتاری و گفتاری
|
|
|
|
|
نویسنده
|
علایی ابوذر الهام
|
منبع
|
زبان شناسي و گويش هاي ايراني - 1398 - دوره : 4 - شماره : 2 - صفحه:267 -290
|
چکیده
|
این پژوهش تلاش دارد با جمع آوری اطلاعات مربوط به شاخص ها و مراحل ساخت پیکره زبانی، به پژوهشگران در زمینه ساخت انواع پیکرههای زبانی کمک کند. در این راستا، در این مقاله، پس از بررسی نظرات پژوهشگرانی که اقدام به ساخت پیکره هایی در زبان های مختلف کرده اند، به شاخص های کلی ساخت پیکره های زبانی پرداخته میشود. این شاخص ها مربوط به ساخت گونه های متنی و گفتاری پیکره است که نمونهگیری، نمایندگی، توازن، اندازه، نوع پیکره و یکدستی را شامل میشوند. سپس، فرآیند ساخت پیکره متنی ارائه میشود که انتخاب متون، پیشپردازش متون و حاشیه نویسی را در بر میگیرد و در این راستا به تفصیل درباره هر یک از مراحل توضیح داده میشود. در پایان، فرآیند ساخت پیکره گفتاری بیان میشود که جمع آوری داده ها، آوانویسی، نمایش و حاشیهنویسی و دسترسی را در بر میگیرد. درباره هر یک از مراحل مذکور نیز به تفصیل توضیح داده میشود.
|
کلیدواژه
|
پیکره، شاخصهای کلیدیِ، ساخت پیکره، فرآیند ساخت پیکره، گونه نوشتاری، گونه گفتاری
|
آدرس
|
پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), ایران
|
پست الکترونیکی
|
alayi@irandoc.ac.ir
|
|
|
|
|
|
|
|
|
Steps to be followed in corpus construction: written and spoken language corpora
|
|
|
Authors
|
Alayiaboozar Elham
|
Abstract
|
The aim of this paper is to take readers through the basic steps involved in building a corpus of language data for different purposes. This is done via gathering information about corpus construction from related sources. After a review of literature (regarding corpus construction and the use of corpus in different fields) , this article offers advice in a nontechnical style to help the researchers to make sure that their corpus is welldesigned and fit for the intended purpose. Key points to be considered in constructing any corpus (written or spoken language) include: Sampling, Size, Representativeness, Balance, General vs. Specialized corpus and Homogeneity. The steps involved in constructing a text corpus are: text selection, text normalization and different kinds of annotation. The steps to be followed in constructing a spoken language/speechbased corpus are: data gathering, transcription, representation, annotation and access. In this paper all the aforementioned steps have been explained with related details.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|