>
Fa   |   Ar   |   En
   شاخص‌ها و مراحل ساخت پیکره زبانی: گونه نوشتاری و گفتاری  
   
نویسنده علایی ابوذر الهام
منبع زبان شناسي و گويش هاي ايراني - 1398 - دوره : 4 - شماره : 2 - صفحه:267 -290
چکیده    این پژوهش تلاش دارد با جمع آوری اطلاعات مربوط به شاخص ها و مراحل ساخت پیکره زبانی، به پژوهشگران در زمینه ساخت انواع پیکره‌های زبانی کمک کند. در این راستا، در این مقاله، پس از بررسی نظرات پژوهشگرانی که اقدام به ساخت پیکره هایی در زبان های مختلف کرده اند، به شاخص های کلی ساخت پیکره های زبانی پرداخته می‌شود. این شاخص ها مربوط به ساخت گونه های متنی و گفتاری پیکره است که نمونه‌گیری، نمایندگی، توازن، اندازه، نوع پیکره و  یک‌دستی را شامل می‌شوند. سپس، فرآیند ساخت پیکره متنی ارائه می‌شود که انتخاب متون، پیش‌پردازش متون و حاشیه نویسی را در بر می‌گیرد و در این راستا به تفصیل درباره هر یک از مراحل توضیح داده می‌شود. در پایان، فرآیند ساخت پیکره گفتاری بیان می‌شود که جمع آوری داده ها، آوانویسی، نمایش و حاشیه‌نویسی و دسترسی را در بر می‌گیرد. درباره هر یک از مراحل مذکور نیز به تفصیل توضیح داده می‌شود.
کلیدواژه پیکره، شاخص‌های کلیدیِ، ساخت پیکره، فرآیند ساخت پیکره، گونه نوشتاری، گونه گفتاری
آدرس پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), ایران
پست الکترونیکی alayi@irandoc.ac.ir
 
   Steps to be followed in corpus construction: written and spoken language corpora  
   
Authors Alayiaboozar Elham
Abstract    The aim of this paper is to take readers through the basic steps involved in building a corpus of language data for different purposes. This is done via gathering information about corpus construction from related sources. After a review of literature (regarding corpus construction and the use of corpus in different fields) , this article offers advice in a nontechnical style to help the researchers to make sure that their corpus is welldesigned and fit for the intended purpose. Key points to be considered in constructing any corpus (written or spoken language) include: Sampling, Size, Representativeness, Balance, General vs. Specialized corpus and Homogeneity. The steps involved in constructing a text corpus are: text selection, text normalization and different kinds of annotation. The steps to be followed in constructing a spoken language/speechbased corpus are: data gathering, transcription, representation, annotation and access. In this paper all the aforementioned steps have been explained with related details.
Keywords
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved