|
|
|
|
ساخت پیکره مقایسهای تخصصی «پارسا»
|
|
|
|
|
|
|
|
نویسنده
|
علایی ابوذر الهام ,حجتپناه علی اصغر
|
|
منبع
|
زبان پژوهي - 1403 - دوره : 16 - شماره : 52 - صفحه:219 -244
|
|
چکیده
|
پیکره ها براساس زبان بهکاررفته در متنهای تشکیل دهنده آن ها به پیکره های تک زبانه، دوزبانه و چندزبانه گروهبندی می شوند. پیکره مقایسه ای، پیکره ای است دوزبانه یا چندزبانه که شامل متنهایی است مشابه در حوزه های موضوعی یکسان. با وجود کاربرد فراوان این نوع پیکرهها در پژوهشهای گوناگون همچون پژوهش های زبانی، ترجمه ماشینی و سامانههای خودکار بازیابی اطلاعات بینازبانی، پژوهشگران همواره با کمبود پیکرههای مقایسه ای مواجه بودهاند. در این مقاله، به معرفی مراحل ساخت یک پیکره مقایسهای تخصصی به نام «پارسا» پرداخته شدهاست. این پیکره از چکیده های فارسی و انگلیسی پایان نامه ها و رساله های ثبتشده در پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ساخته شدهاست و شامل بیش از 89 میلیون واژه فارسی و 79 میلیون واژه انگلیسی است. محتوای این پیکره عمومی نیست و مشتمل بر متنهای بسیار تخصصی در حوزه های موضوعی کلان مانند علوم اجتماعی، علوم انسانی و هنر، فنی ومهندسی و رشته های مربوط به این حوزه ها است و ازاینجنبه، برای پردازش های زبانی که نیازمند بهره گرفتن از متنهای تخصصی است، بسیار ارزشمند است. برای ساخت این پیکره، پس از نمونه گیری، داده های فارسی وارد فرایند پیش پردازش (هنجارسازی و واحدسازی) شدند. برای ارزیابی این مرحله دقت (p)، فراخوان (r) و f1 سنجیده شد. دقت، 5614035088. 0، فراخوان، 0531561462. 0 و در پایان، f1 09711684370257966. 0 محاسبه شدهاست. سپس، داده ها برچسبگذاری شدند (برچسب گذاری اجزای کلام) و برچسب های متون فارسی کنترل شدند. داده های انگلیسی نیز بهصورت ماشینی برچسبگذاری شدند. شمار واژههای محتوایی (فعل، اسم، صفت، قید) داده های فارسی این پیکره 57653813 و شمار واژه های دستوری بههمراه اعداد و علائم سجاوندی 31350125 است و بن واژه های فارسی استخراج شده نیز شامل 41064 بن واژه است. شمار واژه های محتوایی متون انگلیسی 45606686 و شمار واژه های دستوری بههمراه اعداد و علائم سجاوندی شامل 33662304 و بنواژه های انگلیسی استخراج شده نیز شامل 12937 بن واژه است. پیکرۀ ساخته شده قابلیت بسیار بالایی برای دادهکاوی، پژوهش های مربوط به ترجمه ماشینی و بهکارگیری در تمام پژوهشهایی که بر روی متون علمی انجام میشود را دارا است.
|
|
کلیدواژه
|
پیکره تخصصی، پیکره مقایسه ای، هنجارسازی، واحدسازی، برچسب گذاری
|
|
آدرس
|
پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), ایران, پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), ایران
|
|
پست الکترونیکی
|
hojjatpanah@irandoc.ac.ir
|
|
|
|
|
|
|
|
|
|
|
|
|
building a specialized comparable corpus: parsa
|
|
|
|
|
Authors
|
alayiaboozar elham ,hojjatpanah aliasghar
|
|
Abstract
|
based on the language used in their constituent texts, corpora are categorized as monolingual, bilingual, or multilingual. a comparable corpus is a bilingual or multilingual corpus that includes similar texts in the same subject areas. in other words, a comparable corpus is a collection of documents in two different languages that cover similar topics. comparable corpora can be composed of general texts, providing various possibilities for discourse analysis, pragmatics, analysis of text genres, and sociolinguistics. examples of such corpora could include collections of encyclopedia entries, or literary texts from a certain period of time. however, the most common types of comparable corpora, which attract many audiences are those related to specialized fields and containing a high density of vocabulary and technical terms. such a corpus is called a specialized comparable corpus. in this study, a specialized comparable corpus was built from the persian and english abstracts of theses and dissertations registered in irandoc. the corpus is named parsa.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|