>
Fa   |   Ar   |   En
   ارائه روشی جهت پیش بینی بهترین زمان پردازش از بین چندین مجموعه داده متنی پیش از خوشه بندی با الگوریتم kmeans  
   
نویسنده سمیع زاده مجتبی
منبع دومين كنفرانس ملي كسب و كار نوين در مهندسي برق و كامپيوتر - 1402 - دوره : 2 - دومین کنفرانس ملی کسب و کار نوین در مهندسی برق و کامپیوتر - کد همایش: 02231-86821 - صفحه:0 -0
چکیده    خوشه بندی مجموعه داده ها، محل ورود به تحلیل داده های عظیم است و آن چیزی که داده های عظیم را جدا از تنوع، حجم و سرعت متمایز می کند پتانسیل تحلیلی آن است که می تواند جهت آشکارسازی بینش های جدید و بهینه سازی تصمیم گیری ها مورد استفاده قرار گیرد. مجموعه داده های عظیم نیازمند منابع فراوانی برای پردازش هستند و پیش پردازش در برخی از مسائل مانند خوشه بندی می تواند کارایی سیستم را بهبود دهد. در این مقاله نشان داده می شود که پیش پردازش بر روی چندین مجموعه داده متنی مختلف با هدف شناسایی تراکم کلمات مشابه، می تواند بصورت پیشگویانه این امکان را فراهم کند تا از میان مجموعه داده ها، مجموعه داده ای را انتخاب کنیم که زمان پردازش سریع تری را هنگام خوشه بندی با الگوریتم kmeans بخود اختصاص می دهد. برای آزمایش فرضیه مطرح شده یک برنامه جهت پیش پردازش مجموعه داده ها نوشته شد و سپس خوشه بندی چندین مجموعه داده با استفاده از الگوریتم kmeans بر روی هادوپ اجرا شد تا رابطه بین درصد تکرار کلمات مشابه و تاثیر آن در سرعت خوشه بندی نشان داده شود.
کلیدواژه داده های عظیم، خوشه بندی، پیش پردازش، kmeans
آدرس , iran
پست الکترونیکی at.samizadeh@gmail.com
 
   providing a method for predicting the best processing time among several text datasets before the clustering whit kmeans algorithm  
   
Authors
Abstract    clustering of data sets is the entry point to big data analysis, and what distinguishes big data apart from variety, volume and speed is its analytical potential, which can reveal new insights and optimize decisions. be used huge data sets require a lot of resources for processing, and pre-processing can improve system efficiency in some issues such as clustering. in this paper, it is shown that pre-processing on several different textual datasets with the aim of identifying the density of similar words can predictably enable us to select a dataset that has a fast processing time. it assigns three to itself when clustering with kmeans algorithm. to test the proposed hypothesis, a program was written to pre-process the datasets and then the clustering of several datasets was performed using the kmeans algorithm on hadoop to show the relationship between the percentage of repetition of similar words and its effect on clustering speed.
Keywords big data ,clustering ,preprocessing ,kmeans
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved