بررسی روشهای استخراج داده وب مبتنی بر آنتالوژی

Fa | Ar | En

بررسی روشهای استخراج داده وب مبتنی بر آنتالوژی

DOR	20.1001.2.9920083628.1399.1.1.6.0
نویسنده	جوادی مقدم محمد ,شیرازی حوریه
منبع	كنفرانس سيستم هاي هوشمند و محاسبات سريع - 1399 - دوره : 1 - کنفرانس سیستم های هوشمند و محاسبات سریع - کد همایش: 9920083628
چکیده	استخراج داده های وب یکی از مهمترین مسائلی است که می تواند مورد مطالعه با استفاده از ابزارهای مختلف علمی قرارگیرد که در محدوده گسترده ای از برنامه های کاربردی است . بسیاری از روش هایی که برای استخراج داده از وب سایت طراحی شده است برای حل مشکلات خاص و درحوزه های موقت به کار می رود . سیستم های استخراج داده های وب دسته وسیعی از نرم افزارهای برنامه های کاربردی برای استخراج داده های وب از منابع وب هستند. یک سیستم استخراج داده های وب معمولا در تعامل با یک منبع وب و عصاره داده های ذخیره شده می باشد. به عنوان مثال اگر منبع یک صفحه وب html باشد محتوای خارج شده می تواند از علائم در صفحه و همچنین متن کاملی از خود صفحه باشد و درنهایت داده های استخراج شده ممکن است پس از پردازش به ساختار فرمت مناسب تبدیل و ذخیره شود. یک روش مهم برای استخراج text mining استفاده از استخراج اطلاعات به زبان طبیعی است.استخراج اطلاعات ie تقطیر داده های ساختار یافته و یا دانش از متن بدون ساختار یافته که به وسیله شناسایی منابع برای موجودیت نام و روابط بین این موجودیت ها بدست می آید. . همچنین ما دراین بحث وارد یکی از شاخه های متن کاوی که هستی شناسی نام دارد می شویم به طوری که عناصر تشکیل دهنده هستی شناسی جمعیت خواص و روابط غیر طبقه بندی را شامل می شود. در این تحقیق انواعِ تکنیک ها و روشهای استخراج داده وب و همچنین مزایا و معایب هر کدام بررسی می شوند.
کلیدواژه	استخراج داده ,وب کاوی ,الگوریتم تطبیق درخت ,پوشش وب ,هستی شناسی
آدرس	دانشگاه بزرگمهر قائنات, ایران, دانشگاه آزاد اسلامی واحد فردوس, ایران



Authors