استخراج خودکار معادل‎ های واژگانی از پیکره‎های دو زبانه موازی

Fa | Ar | En

استخراج خودکار معادل‎ های واژگانی از پیکره‎های دو زبانه موازی


نویسنده	موسوی میانگاه طیبه ,شکیبا مهشید
منبع	پژوهش هاي زبان شناسي - 1394 - دوره : 7 - شماره : 2 - صفحه:1 -14
چکیده	امروزه به مدد ظهور انواع فناوری‌های رایانه‌ای، پیکره‌های زبانی نقش بسیار مهمی در حل انواع مختلف مسائل زبانشناختی ایفا می‎کنند. پیکره‌های دو زبانه موازی در سطح جمله و در سطح واژه می‎توانند برای بازیابی واحدهای تک‌واژه‌ای و یا حتی چند واژه‎ای براحتی مورد‌ استفاده قرار‎گیرند که این امر کاربردهای مفیدی در حوزه‎های مختلف رایانه و زبان خواهد‎ داشت. هدف این مقاله به‌کارگیری یک پیکره موازی انگلیسی– فارسی از‎قبل طراحی‎شده در‎جهت ساخت یک مطابقه(کشف اللغات) دو زبانۀ کارآمد با‎ استفاده از آمارۀ اطلاعات متقابل است. در اینجا از آماره اطلاعات متقابل استفاده می‎شود تا همترازی در سطح واژه بین جملات انگلیسی و فارسی پیکرۀ مورد ‎نظر صورت‎گیرد. یک پیکرۀ زبانی همتراز‌شده در سطح واژه مسلماً کاربردهای زیادی از جمله در تهیه نرم‎افزار حافظۀ ترجمه، مدیریت مجموعه اصطلاحات، بازیابی اطلاعات دوزبانه، سیستم ترجمه ماشینی مبتنی ‎بر‎آمار و مانند آن دارد. با استفاده از یک الگوریتم ابتکاری آزمایشی ترتیب‎ داده ‎شده و مقایسه‎ای بین برونداد همترازسازی خودکار با جملات همتراز‎شده توسط مترجم انسانی صورت‎گرفت. نتایج این آزمایش نشان‎ داد که برنامه مطابقه گزارش‌شده در این تحقیق می‌تواند صحتی معادل 75‎ درصد را به دست‌آورد.
کلیدواژه	مطابقه دو زبانه، ترجمه خودکار، بازیافت اطلاعات، استخراج معادل‌های واژگانی، پیکره موازی انگلیسی -فارسی
آدرس	دانشگاه پیام نور, گروه زبان شناسی, ایران, دانشگاه پیام نور, گروه کامپیوتر, ایران
پست الکترونیکی	mahshid.shakiba@gmail.com

Automatic extraction of lexical equivalences from bilingual parallel corpora

Authors	Mosavi Miangah Tayebeh ,Shakiba Mahshid
Abstract	Today, linguistic corpora play a crucial role in solving different types of linguistic issues thanks to emerging computer technology. Bilingual parallel corpora aligned at sentence and word level can be retrieved for singleword as well as multiword units making easier further applications in different computer and language areas.In this paper we address the problem of exploiting EnglishPersian parallel corpus in making an efficient bilingual concordance using mutual information measure. Here, a mutual information statistics is used to add word level alignments between English and Persian sentence pairs in our parallel corpus. A parallel corpus with alignments on the word level has certainly many applications among which phrasebased translation memory software, terminology management, crosslanguage information retrieval, statistical machine translation system and the like. We conducted an experiment using our algorithm and compared alignment outputs with manually aligned sentences. Experimental results revealed that our concordancing program gained the accuracy rate of 75% which seems very encouraging.
Keywords	parallel corpus ,parallel concordance ,phrasebased translation ,EnglishPersian translation ,mutual information ,wordlevel alignment