>
Fa   |   Ar   |   En
   استخراج خودکار معادل‎ های واژگانی از پیکره‎های دو زبانه موازی  
   
نویسنده موسوی میانگاه طیبه ,شکیبا مهشید
منبع پژوهش هاي زبان شناسي - 1394 - دوره : 7 - شماره : 2 - صفحه:1 -14
چکیده    امروزه به مدد ظهور انواع فناوری‌های رایانه‌ای، پیکره‌های زبانی نقش بسیار مهمی در حل انواع مختلف مسائل زبانشناختی ایفا می‎کنند. پیکره‌های دو زبانه موازی در سطح جمله و در سطح واژه می‎توانند برای بازیابی واحدهای تک‌واژه‌ای و یا حتی چند واژه‎ای براحتی مورد‌ استفاده قرار‎گیرند که این امر کاربردهای مفیدی در حوزه‎های مختلف رایانه و زبان خواهد‎ داشت. هدف این مقاله به‌کارگیری یک پیکره موازی انگلیسی– فارسی از‎قبل طراحی‎شده در‎جهت ساخت یک مطابقه(کشف اللغات) دو زبانۀ کارآمد با‎ استفاده از آمارۀ اطلاعات متقابل است. در اینجا از آماره اطلاعات متقابل استفاده می‎شود تا همترازی در سطح واژه بین جملات انگلیسی و فارسی پیکرۀ مورد ‎نظر صورت‎گیرد. یک پیکرۀ زبانی همتراز‌شده در سطح واژه مسلماً کاربردهای زیادی از جمله در تهیه نرم‎افزار حافظۀ ترجمه، مدیریت مجموعه اصطلاحات، بازیابی اطلاعات دوزبانه، سیستم ترجمه ماشینی مبتنی ‎بر‎آمار و مانند آن دارد. با استفاده از یک الگوریتم ابتکاری آزمایشی ترتیب‎ داده ‎شده و مقایسه‎ای بین برونداد همترازسازی خودکار با جملات همتراز‎شده توسط مترجم انسانی صورت‎گرفت. نتایج این آزمایش نشان‎ داد که برنامه مطابقه گزارش‌شده در این تحقیق می‌تواند صحتی معادل 75‎ درصد را به دست‌آورد.
کلیدواژه مطابقه دو زبانه، ترجمه خودکار، بازیافت اطلاعات، استخراج معادل‌های واژگانی، پیکره موازی انگلیسی -فارسی
آدرس دانشگاه پیام نور, گروه زبان شناسی, ایران, دانشگاه پیام نور, گروه کامپیوتر, ایران
پست الکترونیکی mahshid.shakiba@gmail.com
 
   Automatic extraction of lexical equivalences from bilingual parallel corpora  
   
Authors Mosavi Miangah Tayebeh ,Shakiba Mahshid
Abstract    Today, linguistic corpora play a crucial role in solving different types of linguistic issues thanks to emerging computer technology. Bilingual parallel corpora aligned at sentence and word level can be retrieved for singleword as well as multiword units making easier further applications in different computer and language areas.In this paper we address the problem of exploiting EnglishPersian parallel corpus in making an efficient bilingual concordance using mutual information measure. Here, a mutual information statistics is used to add word level alignments between English and Persian sentence pairs in our parallel corpus. A parallel corpus with alignments on the word level has certainly many applications among which phrasebased translation memory software, terminology management, crosslanguage information retrieval, statistical machine translation system and the like. We conducted an experiment using our algorithm and compared alignment outputs with manually aligned sentences. Experimental results revealed that our concordancing program gained the accuracy rate of 75% which seems very encouraging.
Keywords parallel corpus ,parallel concordance ,phrasebased translation ,EnglishPersian translation ,mutual information ,wordlevel alignment
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved