>
Fa   |   Ar   |   En
   روشی جدید برای خوشه‌بندی اسناد html با استفاده از الگوریتم‌های تلفیقی  
   
نویسنده شعار مریم ,سالارنژاد علی‌اصغر
منبع مطالعات مديريت كسب و كار هوشمند - 1397 - دوره : 6 - شماره : 24 - صفحه:37 -62
چکیده    با عنایت به حجم بالای اطلاعات کنونی وب توجه به سیستم‌های خودکار استخراج اطلاعات بیشتر شده است. از مهم‌ترین روش‌های خودکار استخراج اطلاعات، خوشه‌بندی می‌باشد. روش‌های خوشه‌بندی زیادی تابه‌حال ارائه شده است که اکثراً مبتنی بر مدل برداری می‌باشند. در این مدل با هر سند مانند مجموعه‌ای از کلمات برخورد می‌گردد و توالی کلمات در جمله، نادیده گرفته می‌شود. ازآنجایی‌که معانی در زبان طبیعی به‌طور کامل وابسته به توالی کلمات می‌باشند نقیصه بزرگی در این روش‌ها احساس می‌گردد. برای رفع این نقیصه در این مقاله روشی جدید در خوشه‌بندی اسناد html ارائه گردیده است که در آن الگوریتم stc برای خوشه‌بندی snippet ها لحاظ شده‌است. این روش که با عنوان خوشه‌بندی بر اساس جملات کلیدی ks_stc مطرح شده برای هر سند بردار وزن‌داری تهیه می‌کند و با استفاده از این بردار، جملات کلیدی هر متن از سند استخراج می‌گردد و نهایتاً این جملات کلیدی برای خوشه‌بندی به الگوریتم stc داده می‌شود.
کلیدواژه افزونگی اطلاعات، خوشه‌بندی اسناد html، داده‌کاوی، سیستم‌های استخراج اطلاعات، کلاس‌بندی.
آدرس دانشگاه آزاد اسلامی واحد تهران شمال, دانشکده مدیریت, گروه مدیریت صنعتی, ایران, دانشگاه آزاد اسلامی واحد تهران شمال, دانشکده مدیریت, ایران
 
   A New Method to Cluster HTML Documents Using Mixed Algorithms  
   
Authors Shoar Maryam ,Salarnezhad Ali Asghar
  
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved