|
|
|
|
مروری نظاممند بر پژوهشهای بهبود الگوریتم کا-میانه برای خوشهبندی دادهها
|
|
|
|
|
|
|
|
نویسنده
|
یلوه الهام ,نوروزی یعقوب ,خطیر اشکان
|
|
منبع
|
پژوهشنامه پردازش و مديريت اطلاعات - 1400 - دوره : 37 - شماره : 2 - صفحه:527 -556
|
|
چکیده
|
خوشهبندی بهعنوان یک فرایند جهت شناخت ماهیت و ساختار دادهها در بسیاری از حوزههای علوم و فناوریهای مرتبط با آن نقش مهمی در سازماندهی دادهها دارد. یکی از الگوریتمهای پرکاربرد و ساده خوشهبندی، کامیانه است. پژوهش حاضر با هدف مرور نظاممند تحقیقات در زمینه بهبود الگوریتم کامیانه برای خوشهبندی دادهها صورت گرفته است. این پژوهش با یک راهبرد جدید بر مبنای کاستیهای الگوریتم کامیانه به بررسی تحقیقات انجامشده در این زمینه و نقش آن در سازماندهی دادهها در محدوده سالهای 2010 تا 2020 میپردازد. برای این منظور میزان توجه پژوهشگران به رفع هر یک از کاستیهای این الگوریتم برای بهبود طی سالهای مزبور در قالب پرسشهای پژوهش تدوین شده است. در این پژوهش با استفاده از استراتژی جستوجو، پالایش، و استخراج مقالهها در نهایت، 47 منبع مرتبط شناسایی و مورد بررسی قرار گرفت. یافتهها نشان داد که بیشترین تحقیقات صورتگرفته با غلبه بر کاستی حساس به مراکز خوشه اولیه در جهت بهبود الگوریتم کامیانه انجام شده است. همچنین، از 47 تحقیق مورد بررسی، الگوریتم بهبودیافته کامیانه در 35 تحقیق بر روی دادههای غیرمتنی و در 12 تحقیق بر روی دادههای متنی اعمال شده است. سرانجام، نتیجه حاصل از بررسی 6 تحقیق از تحقیقات صورتگرفته نشان داد که حجم دادهها رابطهای مستقیم با عملکرد الگوریتم بهبودیافته کامیانه دارد. بهعبارت دیگر، این الگوریتم باید بهنوعی اصلاح شود که با اعمال بر روی حجم متفاوت دادهها خوشهبندی کارآمد و دقیقی انجام دهد.
|
|
کلیدواژه
|
خوشهبندی داده، بهبود الگوریتم کا-میانه، خوشهبندی، مرور نظاممند
|
|
آدرس
|
دانشگاه قم, ایران, دانشگاه قم, گروه علم اطلاعات و دانششناسی, ایران, پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), ایران
|
|
پست الکترونیکی
|
khatir@students.irandoc.ac.ir
|
|
|
|
|
|
|
|
|
|
|
|
|
A Systematic review of K-means Algorithm Improvement Research for Data Clustering
|
|
|
|
|
Authors
|
Yalveh Elham ,Norouzi Yaghoub ,Khatir Ashkan
|
|
Abstract
|
Clustering as a process to understand the nature and structure of data plays an important role in organizing data in many areas of science and technology. One of the most widely used and simple algorithms for clustering is Kmeans. The present study was conducted to systematically reviewing research on improving Kmeans algorithm on data clustering. This research examines the researches conducted in this field and its role in organizing data in the range of 2010 to 2020 with a new strategy based on the shortcomings of the Kmeans algorithm. For this purpose, the amount of attention of researchers to eliminate any of the shortcomings of this algorithm in order to improve it in recent years has been compiled in the form of research questions. In this study, with the use of a search strategy for refining and extracting articles, 47 related sources were identified and examined. Findings showed that most researches have been done by overcoming the sensitive shortcomings to initial cluster centers to improve the Kmeans algorithm. Also, out of a total of 47 studies, the improved Kmeans algorithm has been applied in 35 studies on nontextual data and in 12 studies on textual data. Finally, the results of a review of six studies showed that the amount of data is directly related to the performance of improved Kmeans algorithm. In other words, this algorithm must be modified in such a way as to perform efficient and accurate clustering by applying it to different amounts of data.
|
|
Keywords
|
Data Clustering ,K-means Algorithm ,Clustering Improvement ,Systematic Review
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|