>
Fa   |   Ar   |   En
   تولید درخت بانک سازه‌ای زبان فارسی به روش تبدیل خودکار  
   
نویسنده دهقان محمدحسین ,فیلی هشام
منبع پردازش علائم و داده ها - 1395 - دوره : 13 - شماره : 2 - صفحه:121 -137
چکیده    درخت بانک از مهمترین و پرکاربردترین منابع مورد استفاده در زمینه پردازش زبان طبیعی است. دو نوع از پرکاربردترین درخت بانکها، درخت بانک وابستگی و درخت بانک سازهای است. با توجه به نبود درخت بانک سازهای با حجم بزرگ در زبان فارسی در این مقاله به بررسی روشی ارائه شده در تبدیل درخت بانک وابستگی به سازهای میپردازیم. سپس مشکلات این روش را در زبان فارسی و انگلیسی بررسی و با ارائه راهکارهایی کیفیت تبدیل را بهبود میبخشیم. اولین راهکار، تصحیح مکان اتصال سازهها در درخت سازهای به ازای هر رابطهی وابستگی است. راهکار دوم، انجام مکاشفهای به صورت پسپردازش و بر روی خروجیِ ساختار سازهای این روش است که، کیفیت نهایی درخت های سازه ای را بهبود میبخشد. نتایج حاصل از آزمایشها نشان میدهد که، روش تبدیل با کمک راهکارهای ارائه شده حدود 85/25 درصد در زبان فارسی و 39/4 درصد در زبان انگلیسی دارای کیفیت بالاتری نسبت به حالتی است که از راهکارهای پیشنهادی استفاده نشود. در ادامه با کمک روش تبدیل و درخت بانک وابستگی موجود در زبان فارسی، یک درخت بانک سازهای تولید کرده و به کمک آن تجزیهگری سازهای را آموزش داده ایم. کیفیت تجزیه گر آموزش داده شده با استفاده از درخت بانک حاصل از روش تبدیل و راهکارهای پیشنهادی این پژوهش نسبت به حالتی که از راهکارهای پیشنهادی استفاده نشود، بهبودی 21 درصدی را نشان میدهد.
کلیدواژه پردازش زبان طبیعی، زبان فارسی، بانک درخت وابستگی، درخت بانک سازه ای، تجزیه‌گر سازه ای
آدرس دانشگاه تهران, پردیس دانشکده های فنی, ایران, دانشگاه تهران, پردیس دانشکده های فنی, ایران
پست الکترونیکی hfaili@ut.ac.ir
 
   Generating the Persian Constituency Treebank in an Automatic Converting Method  
   
Authors Dehghan Mohammad Hossein ,Faili Heshaam
  
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved