|
|
استخراج خودکار معادل های واژگانی از پیکرههای دو زبانه موازی
|
|
|
|
|
نویسنده
|
موسوی میانگاه طیبه ,شکیبا مهشید
|
منبع
|
پژوهش هاي زبان شناسي - 1394 - دوره : 7 - شماره : 2 - صفحه:1 -14
|
چکیده
|
امروزه به مدد ظهور انواع فناوریهای رایانهای، پیکرههای زبانی نقش بسیار مهمی در حل انواع مختلف مسائل زبانشناختی ایفا میکنند. پیکرههای دو زبانه موازی در سطح جمله و در سطح واژه میتوانند برای بازیابی واحدهای تکواژهای و یا حتی چند واژهای براحتی مورد استفاده قرارگیرند که این امر کاربردهای مفیدی در حوزههای مختلف رایانه و زبان خواهد داشت. هدف این مقاله بهکارگیری یک پیکره موازی انگلیسی– فارسی ازقبل طراحیشده درجهت ساخت یک مطابقه(کشف اللغات) دو زبانۀ کارآمد با استفاده از آمارۀ اطلاعات متقابل است. در اینجا از آماره اطلاعات متقابل استفاده میشود تا همترازی در سطح واژه بین جملات انگلیسی و فارسی پیکرۀ مورد نظر صورتگیرد. یک پیکرۀ زبانی همترازشده در سطح واژه مسلماً کاربردهای زیادی از جمله در تهیه نرمافزار حافظۀ ترجمه، مدیریت مجموعه اصطلاحات، بازیابی اطلاعات دوزبانه، سیستم ترجمه ماشینی مبتنی برآمار و مانند آن دارد. با استفاده از یک الگوریتم ابتکاری آزمایشی ترتیب داده شده و مقایسهای بین برونداد همترازسازی خودکار با جملات همترازشده توسط مترجم انسانی صورتگرفت. نتایج این آزمایش نشان داد که برنامه مطابقه گزارششده در این تحقیق میتواند صحتی معادل 75 درصد را به دستآورد.
|
کلیدواژه
|
مطابقه دو زبانه، ترجمه خودکار، بازیافت اطلاعات، استخراج معادلهای واژگانی، پیکره موازی انگلیسی -فارسی
|
آدرس
|
دانشگاه پیام نور, گروه زبان شناسی, ایران, دانشگاه پیام نور, گروه کامپیوتر, ایران
|
پست الکترونیکی
|
mahshid.shakiba@gmail.com
|
|
|
|
|
|
|
|
|
Automatic extraction of lexical equivalences from bilingual parallel corpora
|
|
|
Authors
|
Mosavi Miangah Tayebeh ,Shakiba Mahshid
|
Abstract
|
Today, linguistic corpora play a crucial role in solving different types of linguistic issues thanks to emerging computer technology. Bilingual parallel corpora aligned at sentence and word level can be retrieved for singleword as well as multiword units making easier further applications in different computer and language areas.In this paper we address the problem of exploiting EnglishPersian parallel corpus in making an efficient bilingual concordance using mutual information measure. Here, a mutual information statistics is used to add word level alignments between English and Persian sentence pairs in our parallel corpus. A parallel corpus with alignments on the word level has certainly many applications among which phrasebased translation memory software, terminology management, crosslanguage information retrieval, statistical machine translation system and the like. We conducted an experiment using our algorithm and compared alignment outputs with manually aligned sentences. Experimental results revealed that our concordancing program gained the accuracy rate of 75% which seems very encouraging.
|
Keywords
|
parallel corpus ,parallel concordance ,phrasebased translation ,EnglishPersian translation ,mutual information ,wordlevel alignment
|
|
|
|
|
|
|
|
|
|
|