|
|
ارائهی الگوریتمی بهمنظور خوشهبندی صفحات وب براساس محتوا و لینک
|
|
|
|
|
نویسنده
|
فتحیان محمد ,کریمیمجد امیرمحسن
|
منبع
|
مهندسي صنايع و مديريت شريف - 1396 - دوره : 33-1 - شماره : 1/1 - صفحه:21 -28
|
چکیده
|
وجود یک موتور جستوجوی کارا میتواند سبب افزایش رضایت کاربران از خدمات تحت وب باشد. چالش اصلی موتورهای جستوجو، انتخاب مناسبترین صفحات در مواجهه با پرسشهای چندوجهی کاربران است. «خوشهبندی صفحات براساس محتوا و لینک» رویکردی است که برای حل چنین مسائلی در ادبیات پیشنهاد شده است. در این نوشتار، بر یکی از الگوریتمهای موجود، بهنام cohsmix، تمرکز شده و این الگوریتم برای ارتقای کیفیت پاسخها و افزایش سرعت حل بهبود داده شده است. تعیین نقطهی شروع مناسب، استفاده از خواص شبکههای پیچیده بهمنظور سادهسازی محاسبات، و محاسبهی مقدار واقعی انحراف استاندارد از جمله تغییرات پیشنهادی برای بهبود الگوریتم است. نتایج تجربی نشان میدهد که الگوریتم بهبودیافته، کیفیت جوابها را ارتقا داده و باعث افزایش سرعت حل میشود. همچنین، بهعنوان مطالعهی موردی، دادههای مربوط به وبلاگهای فارسی استخراج و الگوریتم بهبودیافته روی این دادهها اجرا خواهد شد.
|
کلیدواژه
|
خوشهبندی، تجارت الکترونیکی، محتوا، لینک، موتور جستوجو، شبکههای پیچیده
|
آدرس
|
دانشگاه علم و صنعت ایران, دانشکدهی مهندسی صنایع, ایران, دانشگاه علم و صنعت ایران, دانشکدهی مهندسی صنایع, ایران
|
|
|
|
|
|
|
|
|
|
|
A NEW ALGORITHM FOR CLUSTERING WEBPAGES BASED ON LINKS AND CONTENT
|
|
|
Authors
|
|
Abstract
|
In the midst of webpages, two issues raise for users to access the desired resources. These issues are speed and accuracy that are two important factors for users satisfaction of web services, for which an appropriate information retrieval tool to provide suitable responses is required. Therefore, developing an efficient search engine could be useful in order to attract customers and increase their satisfaction. However, Web search engines often face with a crucial problem, that is, their results, include highly diverse pages in correspondence with vague queries. This kind of diversity makes choosing the most relevant pages more difficult for search engines. On the other hand, the obtained results may be undesirable from the users perspective. In such a situation, discovering natural grouping of pages and finding their representatives help the engines to cover all admissible meanings related to users query. Clustering is the wellknown approach for this reduction purpose, i.e., finding a few representatives among highly diverse Web pages. In this paper, we focus on a pioneering algorithm and aim to improve it in terms of the quality of responses and the execution speed. To do so, we propose to provide initial clusters by means of a wellknown algorithm, called Kmeans. This could be a proper initial point. We also reformulate a timeconsuming formula of the main algorithm by taking advantages of the properties of linking network. Furthermore, we formulate a set of significant variables of the main algorithm to increase the quality of the clustering. These variables have been considered constant in the main algorithm. The experimental results on groundtruth datasets indicate that the performance of our algorithm is about 30%superior to the performance of the main algorithm both in terms of quality of clustering and execution speed. Moreover, as an interesting case study, we execute our algorithm on the dataset of Persian blogs. We provided this dataset by collecting the information about links and texts included in some blogs. Implementing our algorithm on this interesting dataset provides marvelous results in the case of extracted clusters.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|