|
|
استخراج خودکار جملات همتراز انگلیسی-فارسی از متون مقایسهای با بهرهبرداری از اطلاعات نحوی
|
|
|
|
|
نویسنده
|
متولیان رضوان ,منجمی امیرحسن ,قدس اللهی ابراهیم
|
منبع
|
پژوهش هاي زبان شناسي - 1397 - دوره : 10 - شماره : 2 - صفحه:15 -36
|
چکیده
|
پیکرههای موازی همواره از غنیترین منابع در مباحث پردازش زبان طبیعی محسوب میشوند. این نوع پیکرهها شامل متون ترجمهشدۀ دو یا چند زبان هستند که در سطوح مختلف کلمه، عبارت و یا جمله همترازشدهاند. علیرغم کاربرد فراوان این نوع پیکرهها در مطالعات مختلف از جمله پژوهش های زبانی، ترجمه ماشینی آماری و سامانههای خودکار بازیابی اطلاعات میان زبانی، متاسفانه همواره پژوهشگران با کمبود پیکرههای موازی مواجه بودهاند. در این راستا، در پژوهش حاضر سعی شده است بهمنظور تولید پیکره موازی با بهرهگیری از اطلاعات نحوی، روشی خودکار برای استخراج جملات همترازانگلیسی/فارسی از متون مقایسهای ارائه شود. در این روش، با ساخت بردار ویژگی با بهرهگیری از اطلاعات نحوی جملات، یک مدل همترازی آموزش داده میشود. دقت مدل همترازی،در بهترین حالت، به شکل عملیاتی روی دادههای آزمون (208 عدد جفت جمله) 77% و روی دادههای آموزشی (830 عدد جفت جمله) 97.7 % محاسبه شد. از آنجایی که حجم دادههای طلایی بسیار کوچک بود روش nfold cross validation در مورد تمام الگوریتمهای آموزش مورد استفاده قرار گرفت. بهمنظور افزایش دقت، از یک الگوریتم جستوجوی شباهت لغوی جملات نیز استفاده شد که دقت را روی دادههای آزمون از 77% به 85.18% افزایش داد. پژوهش حاضر، با بهکارگیری مدل همترازی بهدستآمده، به تولید ابزار همترازی دانشگاه اصفهان منجر شد، که میتواند بهمنظور خودکفایی در تولید پیکرههای موازی مورداستفاده محققین حوزه پردازش زبان فارسی قرار گیرد.
|
کلیدواژه
|
استخراج خودکار، جملات همتراز، زبانشناسی پیکرهای، پیکره مقایسهای، پیکره موازی
|
آدرس
|
دانشگاه اصفهان, گروه زبانشناسی, ایران, دانشگاه اصفهان, گروه کامپیوتر, ایران, دانشگاه اصفهان, ایران
|
پست الکترونیکی
|
abrahamqudsollahi@yahoo.com
|
|
|
|
|
|
|
|
|
Extracting Parallel English/Persian Sentences from Comparable Corpora using Syntactic Information
|
|
|
Authors
|
Motavalian Rezvan ,Monajemi Amirhasan ,Qudsollahi Ibrahim
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|