استخراج خودکار جملات هم‌تراز انگلیسی-فارسی از متون مقایسه‌ای با بهره‌برداری از اطلاعات نحوی

Fa | Ar | En

استخراج خودکار جملات هم‌تراز انگلیسی-فارسی از متون مقایسه‌ای با بهره‌برداری از اطلاعات نحوی


نویسنده	متولیان رضوان ,منجمی امیرحسن ,قدس اللهی ابراهیم
منبع	پژوهش هاي زبان شناسي - 1397 - دوره : 10 - شماره : 2 - صفحه:15 -36
چکیده	پیکره‌های موازی همواره از غنی‌ترین منابع در مباحث پردازش زبان طبیعی محسوب می‌شوند. این نوع پیکره‌ها شامل متون ترجمه‌شدۀ دو یا چند زبان هستند که در سطوح مختلف کلمه، عبارت و یا جمله هم‌ترازشده‌اند. علیرغم کاربرد فراوان این نوع پیکره‌ها در مطالعات مختلف از جمله پژوهش های زبانی، ترجمه ماشینی آماری و سامانه‌های خودکار بازیابی اطلاعات میان زبانی، متاسفانه همواره پژوهشگران با کمبود پیکره‌های موازی مواجه بوده‌اند. در این راستا، در پژوهش حاضر سعی شده است به‌منظور تولید پیکره موازی با بهره‌گیری از اطلاعات نحوی، روشی خودکار برای استخراج جملات هم‌ترازانگلیسی/فارسی از متون مقایسه‌ای ارائه شود. در این روش، با ساخت بردار ویژگی با بهره‌گیری از اطلاعات نحوی جملات، یک مدل هم‌ترازی آموزش داده می‌شود. دقت مدل هم‌ترازی،در بهترین حالت، به شکل عملیاتی روی داده‌های آزمون (208 عدد جفت جمله) 77% و روی داده‌های آموزشی (830 عدد جفت جمله) 97.7 % محاسبه شد. از آنجایی که حجم داده‌های طلایی بسیار کوچک بود روش nfold cross validation در مورد تمام الگوریتم‌های آموزش مورد استفاده قرار گرفت. به‌منظور افزایش دقت، از یک الگوریتم جست‌وجوی شباهت لغوی جملات نیز استفاده شد که دقت را روی داده‌های آزمون از 77% به 85.18% افزایش داد. پژوهش حاضر، با به‌کارگیری مدل هم‌ترازی به‌دست‌آمده، به تولید ابزار هم‌ترازی دانشگاه اصفهان منجر شد، که می‌تواند به‌منظور خودکفایی در تولید پیکره‌های موازی مورداستفاده محققین حوزه پردازش زبان فارسی قرار گیرد.
کلیدواژه	استخراج خودکار، جملات همتراز، زبانشناسی پیکره‌ای، پیکره مقایسه‌ای، پیکره موازی
آدرس	دانشگاه اصفهان, گروه زبانشناسی, ایران, دانشگاه اصفهان, گروه کامپیوتر, ایران, دانشگاه اصفهان, ایران
پست الکترونیکی	abrahamqudsollahi@yahoo.com

Extracting Parallel English/Persian Sentences from Comparable Corpora using Syntactic Information

Authors	Motavalian Rezvan ,Monajemi Amirhasan ,Qudsollahi Ibrahim