راهکاری مبتنی بر ساخت درخت دودویی تقریبی برای سرعت‌بخشیدن به جستجوی نزدیک‌ترین همسایگی در داده‌های حجیم

Fa | Ar | En

راهکاری مبتنی بر ساخت درخت دودویی تقریبی برای سرعت‌بخشیدن به جستجوی نزدیک‌ترین همسایگی در داده‌های حجیم


نویسنده	کلاته حسین ,دانشپور نگین
منبع	مهندسي برق و مهندسي كامپيوتر ايران - 1401 - دوره : 20 - شماره : 3 - صفحه:196 -206
چکیده	با توجه به سرعت روزافزون تولید اطلاعات و نیاز تبدیل اطلاعات به دانش، روش‌های یادگیری ماشین قدیمی دیگر پاسخگو نیستند. هنگام استفاده از طبقه‌بندی‌ها با روش‌های یادگیری ماشین قدیمی، به ویژه استفاده از طبقه‌بندی‌های ذاتاً تنبل مانند روش k نزدیک‌ترین همسایگی (knn)، عملیات طبقه‌بندی داده‌های حجیم بسیار کند است. نزدیک‌ترین همسایگی به دلیل سادگی و دقت عملی که ارائه می‌دهد یک روش محبوب در زمینه طبقه‌بندی داده‌ها می‌باشد. روش پیشنهادی مبتنی بر مرتب‌سازی بردارهای ویژگی داده‌های آموزشی در یک درخت جستجوی دودویی است تا طبقه‌بندی داده‌های بزرگ را با استفاده از روش نزدیک‌ترین همسایگی تسریع بخشد. این کار با استفاده از یافتن تقریبی دو دورترین داده محلی در هر گره درخت انجام می‌شود. این دو داده به عنوان معیار برای تقسیم داده‌های موجود در گره فعلی بین دو گروه، مورد استفاده قرار می‌گیرند. مجموعه داده‌های موجود در هر گره بر اساس شباهت آنها به این دو داده، به فرزند چپ یا راست گره فعلی تخصیص داده می‌شوند. نتایج آزمایش‌های متعدد انجام‌شده بر روی مجموعه داده‌های مختلف از مخزن uci، میزان دقت خوب با توجه به زمان اجرای کم روش پیشنهادی را نشان می‌دهد.
کلیدواژه	بافر همپوشانی، داده‌های حجیم، درخت تصمیم دودویی، طبقه‌بندی نزدیک‌ترین همسایگی
آدرس	دانشگاه تربیت دبیر شهید رجائی, دانشکده مهندسی کامپیوتر, ایران, دانشگاه تربیت دبیر شهید رجائی, دانشکده مهندسی کامپیوتر, ایران
پست الکترونیکی	ndaneshpour@sru.ac.ir

an approximate binary treebased solution to speed up the search for the nearest neighbor in big data

Authors	kalateh hosein ,d. m.
Abstract	due to the increasing speed of information production and the need to convert information into knowledge, old machine learning methods are no longer responsive. when using classifications with the old machine learning methods, especially the use of inherently lazy classifications such as the knearest neighbor (knn) method, the operation of classifying large data sets is very slow.nearest neighborhood is a popular method of data classification due to its simplicity and practical accuracy. the proposed method is based on sorting the training data feature vectors in a binary search tree to expedite the classification of big data using the nearest neighbor method. this is done by finding the approximate two farthest local data in each tree node. these two data are used as a criterion for dividing the data in the current node into two groups. the data set in each node is assigned to the left and right child of the current node based on their similarity to the two data. the results of several experiments performed on different data sets from the uci repository show a good degree of accuracy due to the low execution time of the proposed method.