|
|
استخراج پیکره موازی از اسناد قابل مقایسه برای بهبود کیفیت ترجمه در سامانههای ترجمه ماشینی
|
|
|
|
|
نویسنده
|
رحیمی زینب ,ثمنی محمدحسین ,خدیوی شهرام
|
منبع
|
پردازش علائم و داده ها - 1394 - دوره : 12 - شماره : 2 - صفحه:55 -72
|
چکیده
|
امروزه با گسترش وسایل ارتباط عمومی و بهخصوص شبکه جهانی اینترنت، نیاز به عملیات ترجمه خودکار بهصورت چشمگیری افزایش یافته است. یکی از مطرحترین روشهای ترجمه ماشینی، روش آماری است. پارامترهای سامانه1 ترجمه ماشینی آماری با استفاده از مجموعه بزرگی از دادگان آموزشی (پیکره موازی دوزبانه) تخمین زده میشود؛ اما در برخی زبانها، هنوز مساله نیاز پایهای سامانه ترجمه ماشینی آماری یعنی پیکرههای متنی بزرگ موازی برطرف نشده است. برای رفع این مشکل روشی پیشنهادی جهت بهبود کیفیت پیکرههای مستخرج از اسناد قابلمقایسه و درنتیجه بهبود کیفیت سامانه ترجمه ماشینی ارایه شده است. از آنجایی که در اکثر متون قابلمقایسه دادههای موازی نه بهصورت جمله، بلکه بهصورت قطعات زیرجملهای ظاهر میشوند، روش پیشنهادی سعی در استخراج قطعات موازی بهصورت بلوک با استفاده از مجموعهای از ویژگیها دارد که این ویژگیها عبارتاند از طول عبارت، امتیاز شباهت لگاریتمی، شیب مسیر ترازبندی در بلوک، پراکندگی شیب قطعات تشکیلدهنده بلوک، مربعیبودن بلوک و درصد حضور کلمات همترجمه در بلوک. طبق ارزیابیهای انجامشده روش پیشنهادی کارایی مناسبی دارد؛ و علاوهبر اینکه از نظر دقت و بازخوانی از روشهای موجود استخراج قطعه پیشی گرفته است، دادگان مستخرج از اجرای این روش روی، بخشی از پیکره قابلمقایسه موجود، کارایی سامانه ترجمه ماشینی پایه را برای دادگان آزمون مختلف از 33/0 تا 4/1 واحد بلو افزایش داده است.
|
کلیدواژه
|
پیکره قابلمقایسه ,استخراج قطعات موازی ,پیکره موازی ,ترجمه ماشینی
|
آدرس
|
دانشگاه صنعتی امیرکبیر, دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی امیرکبیر، تهران، ایران, ایران, دانشگاه صنعتی امیرکبیر, دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی امیرکبیر، تهران، ایران, ایران, دانشگاه صنعتی امیرکبیر, دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی امیرکبیر، تهران، ایران, ایران
|
پست الکترونیکی
|
khadivi@aut.ac.ir
|
|
|
|
|
|
|
|
|
|
|
|
Authors
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|