|
|
|
|
ارائه سیستم خلاصه ساز متون فارسی برمبنای ویژگی های زبان شناختی و رگرسیون
|
|
|
|
|
|
|
|
نویسنده
|
سلطانی محمود ,نصیری جلال الدین ,عسگریان احسان
|
|
منبع
|
پژوهشنامه پردازش و مديريت اطلاعات - 1397 - دوره : 33 - شماره : 4 - صفحه:1809 -1827
|
|
چکیده
|
گسترش روزافزون داده های متنی فارسی در فضای اینترنت و پیچیدگی جست وجو در میان انبوه این اسناد، خلاصه سازی خودکار متون فارسی را به یکی از زمینه های تحقیقاتی مورد توجه تبدیل کرده است. در این مقاله روشی کارا برای خلاصه سازی خودکار متون فارسی ارائه شده است. روش پیشنهادی که به صورت انتخابی و تک سندی است، خلاصه سازی را بر اساس رتبه بندی جملات و انتخاب مهم ترین آن ها انجام می دهد. اهمیت هر جمله از متن با ترکیب خطی مقادیر هفت ویژگی زبان شناختی مستخرج از سند برای هر جمله به دست می آید. وزن بهینه هر ویژگی در این ترکیب از روش رگرسیون خطی و با استفاده از پیکره آموزشی پاسخ محاسبه شده است. پس از محاسبه اهمیت جملات متن، در هر مرحله از الگوریتم، یک جمله با اهمیت بیشتر تا رسیدن به نرخ فشرده سازی مورد نظر انتخاب می شود. این جمله علاوه بر این که دارای بیشترین اهمیت است، کمترین میزان شباهت با جملات انتخاب شده در مراحل قبلی را نیز دارد. نتایج به دست آمده از مقایسه الگوریتم پیشنهادی با دو سیستم خلاصه ساز «ایجاز» و «فارسی سام» با استفاده از «پیکره پاسخ» نشان می دهد که در بیشتر معیارهای ارزیابی پیشرفت قابل توجهی حاصل شده است
|
|
کلیدواژه
|
خلاصه سازی تک سندی، ویژگی های زبان شناختی متن، رگراسیون خطی
|
|
آدرس
|
دانشگاه صنعتی قوچان, ایران, پژوهشگاه علوم و فناوری اطلاعات (ایرانداک), ایران, دانشگاه فردوسی مشهد, ایران
|
|
پست الکترونیکی
|
ehsan.asgarian@mail.um.ac.ir
|
|
|
|
|
|
|
|
|
|
|
|
|
An Automatic Persian Text Summarization System Based on Linguistic Features and Regression
|
|
|
|
|
Authors
|
Soltani Mahmood ,Nasiri Jalal ,Asgarian Ehsan
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|