|
|
ارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی
|
|
|
|
|
نویسنده
|
باسره مریم ,درهمی ولی ,ظریفزاده سجاد
|
منبع
|
مهندسي برق دانشگاه تبريز - 1396 - دوره : 47 - شماره : 3 - صفحه:857 -866
|
چکیده
|
دادگان متنی و از آن جمله متون خبری از حوزههای مهم بازیابی اطلاعات به شمار میرود و استخراج اطلاعات از آنها ضروری است. این امر با استخراج عبارات کلیدی اسناد که دربردارنده محتوای اصلی متن است، صورت میگیرد. در این پژوهش، راهکاری سه مرحلهای جهت استخراج عبارات کلیدی از صفحات خبری وب پارسی، با ترکیب شیوههای زبانشناختی، یادگیری با ناظر، ابتکاری و تعداد نسبتاً جامعی از شیوههای آماری ارائه میشود. همچنین، یک مجموعه داده خبری و لیستی از عبارات توقفی خبری ایجاد میگردد. در پژوهش حاضر، با توجه به ویژگیهای دادگان، از دستهبند جنگل تصادفی استفاده و عملکرد خوب آن به کمک نتایج آزمایشها ثابت میشود. به علاوه، استفاده از امتیاز تعلقگرفته به عبارات توسط دستهبند، جهت ایجاد لیستی مرتب از عبارات برای دستهبندی، به جای استفاده ازخروجی دستهبند، پیشنهاد میشود. نتایج، نشاندهنده دقت قابلقبول سیستم ارائهشده است.
|
کلیدواژه
|
عبارات کلیدی، استخراج عبارات کلیدی، اسناد خبری، شیوههای آماری، یادگیری با ناظر، متنکاوی، بازیابی اطلاعات
|
آدرس
|
دانشگاه یزد, دانشکده مهندسی کامپیوتر, ایران, دانشگاه یزد, دانشکده مهندسی کامپیوتر, ایران, دانشگاه یزد, دانشکده مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
szarifzadeh@yazd.ac.ir
|
|
|
|
|
|
|
|
|
A Method for Automatic Key phrase Extraction from Persian Web News
|
|
|
Authors
|
Basereh M. ,Derhami V. ,Zarifzadeh S.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|