استخراج پیکره موازی از اسناد قابل‌ مقایسه برای بهبود کیفیت ترجمه در سامانه‌های ترجمه ماشینی

Fa | Ar | En

استخراج پیکره موازی از اسناد قابل‌ مقایسه برای بهبود کیفیت ترجمه در سامانه‌های ترجمه ماشینی


نویسنده	رحیمی زینب ,ثمنی محمدحسین ,خدیوی شهرام
منبع	پردازش علائم و داده ها - 1394 - دوره : 12 - شماره : 2 - صفحه:55 -72
چکیده	امروزه با گسترش وسایل ارتباط عمومی و به‌خصوص شبکه جهانی اینترنت، نیاز به عملیات ترجمه خودکار به‌صورت چشم‌گیری افزایش یافته است. یکی از مطرح‌ترین روش‌های ترجمه ماشینی، روش آماری است. پارامترهای سامانه1 ترجمه ماشینی آماری با استفاده از مجموعه بزرگی از دادگان آموزشی (پیکره موازی دوزبانه) تخمین زده می‌شود؛ اما در برخی زبان‌ها، هنوز مساله نیاز پایه‌ای سامانه ترجمه ماشینی آماری یعنی پیکره‌های متنی بزرگ موازی برطرف نشده است. برای رفع این مشکل روشی پیشنهادی جهت بهبود کیفیت پیکره‌های مستخرج از اسناد قابل‌مقایسه و درنتیجه بهبود کیفیت سامانه ترجمه ماشینی ارایه شده است. از آنجایی که در اکثر متون قابل‌مقایسه داده‌های موازی نه به‌صورت جمله، بلکه به‌صورت قطعات زیرجمله‌ای ظاهر می‌شوند، روش پیشنهادی سعی در استخراج قطعات موازی به‌صورت بلوک با استفاده از مجموعه‌ای از ویژگی‌ها دارد که این ویژگی‌ها عبارت‌اند از طول عبارت، امتیاز شباهت لگاریتمی، شیب مسیر ترازبندی در بلوک، پراکندگی شیب قطعات تشکیل‌دهنده بلوک، مربعی‌بودن بلوک و درصد حضور کلمات هم‌ترجمه در بلوک. طبق ارزیابی‌های انجام‌شده روش پیشنهادی کارایی مناسبی دارد؛ و علاوه‌بر اینکه از نظر دقت و بازخوانی از روش‌های موجود استخراج قطعه پیشی گرفته است، دادگان مستخرج از اجرای این روش روی، بخشی از پیکره قابل‌مقایسه موجود، کارایی سامانه ترجمه ماشینی پایه را برای دادگان آزمون مختلف از 33/0 تا 4/1 واحد بلو افزایش داده است.
کلیدواژه	پیکره قابل‌مقایسه ,استخراج قطعات موازی ,پیکره موازی ,ترجمه ماشینی
آدرس	دانشگاه صنعتی امیرکبیر, دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی امیرکبیر، تهران، ایران, ایران, دانشگاه صنعتی امیرکبیر, دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی امیرکبیر، تهران، ایران, ایران, دانشگاه صنعتی امیرکبیر, دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی امیرکبیر، تهران، ایران, ایران
پست الکترونیکی	khadivi@aut.ac.ir



Authors