|
|
روشی جدید برای خوشهبندی اسناد html با استفاده از الگوریتمهای تلفیقی
|
|
|
|
|
نویسنده
|
شعار مریم ,سالارنژاد علیاصغر
|
منبع
|
مطالعات مديريت كسب و كار هوشمند - 1397 - دوره : 6 - شماره : 24 - صفحه:37 -62
|
چکیده
|
با عنایت به حجم بالای اطلاعات کنونی وب توجه به سیستمهای خودکار استخراج اطلاعات بیشتر شده است. از مهمترین روشهای خودکار استخراج اطلاعات، خوشهبندی میباشد. روشهای خوشهبندی زیادی تابهحال ارائه شده است که اکثراً مبتنی بر مدل برداری میباشند. در این مدل با هر سند مانند مجموعهای از کلمات برخورد میگردد و توالی کلمات در جمله، نادیده گرفته میشود. ازآنجاییکه معانی در زبان طبیعی بهطور کامل وابسته به توالی کلمات میباشند نقیصه بزرگی در این روشها احساس میگردد. برای رفع این نقیصه در این مقاله روشی جدید در خوشهبندی اسناد html ارائه گردیده است که در آن الگوریتم stc برای خوشهبندی snippet ها لحاظ شدهاست. این روش که با عنوان خوشهبندی بر اساس جملات کلیدی ks_stc مطرح شده برای هر سند بردار وزنداری تهیه میکند و با استفاده از این بردار، جملات کلیدی هر متن از سند استخراج میگردد و نهایتاً این جملات کلیدی برای خوشهبندی به الگوریتم stc داده میشود.
|
کلیدواژه
|
افزونگی اطلاعات، خوشهبندی اسناد html، دادهکاوی، سیستمهای استخراج اطلاعات، کلاسبندی.
|
آدرس
|
دانشگاه آزاد اسلامی واحد تهران شمال, دانشکده مدیریت, گروه مدیریت صنعتی, ایران, دانشگاه آزاد اسلامی واحد تهران شمال, دانشکده مدیریت, ایران
|
|
|
|
|
|
|
|
|
|
|
A New Method to Cluster HTML Documents Using Mixed Algorithms
|
|
|
Authors
|
Shoar Maryam ,Salarnezhad Ali Asghar
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|