|
|
راهکاری مبتنی بر ساخت درخت دودویی تقریبی برای سرعتبخشیدن به جستجوی نزدیکترین همسایگی در دادههای حجیم
|
|
|
|
|
نویسنده
|
کلاته حسین ,دانشپور نگین
|
منبع
|
مهندسي برق و مهندسي كامپيوتر ايران - 1401 - دوره : 20 - شماره : 3 - صفحه:196 -206
|
چکیده
|
با توجه به سرعت روزافزون تولید اطلاعات و نیاز تبدیل اطلاعات به دانش، روشهای یادگیری ماشین قدیمی دیگر پاسخگو نیستند. هنگام استفاده از طبقهبندیها با روشهای یادگیری ماشین قدیمی، به ویژه استفاده از طبقهبندیهای ذاتاً تنبل مانند روش k نزدیکترین همسایگی (knn)، عملیات طبقهبندی دادههای حجیم بسیار کند است. نزدیکترین همسایگی به دلیل سادگی و دقت عملی که ارائه میدهد یک روش محبوب در زمینه طبقهبندی دادهها میباشد. روش پیشنهادی مبتنی بر مرتبسازی بردارهای ویژگی دادههای آموزشی در یک درخت جستجوی دودویی است تا طبقهبندی دادههای بزرگ را با استفاده از روش نزدیکترین همسایگی تسریع بخشد. این کار با استفاده از یافتن تقریبی دو دورترین داده محلی در هر گره درخت انجام میشود. این دو داده به عنوان معیار برای تقسیم دادههای موجود در گره فعلی بین دو گروه، مورد استفاده قرار میگیرند. مجموعه دادههای موجود در هر گره بر اساس شباهت آنها به این دو داده، به فرزند چپ یا راست گره فعلی تخصیص داده میشوند. نتایج آزمایشهای متعدد انجامشده بر روی مجموعه دادههای مختلف از مخزن uci، میزان دقت خوب با توجه به زمان اجرای کم روش پیشنهادی را نشان میدهد.
|
کلیدواژه
|
بافر همپوشانی، دادههای حجیم، درخت تصمیم دودویی، طبقهبندی نزدیکترین همسایگی
|
آدرس
|
دانشگاه تربیت دبیر شهید رجائی, دانشکده مهندسی کامپیوتر, ایران, دانشگاه تربیت دبیر شهید رجائی, دانشکده مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
ndaneshpour@sru.ac.ir
|
|
|
|
|
|
|
|
|
an approximate binary treebased solution to speed up the search for the nearest neighbor in big data
|
|
|
Authors
|
kalateh hosein ,d. m.
|
Abstract
|
due to the increasing speed of information production and the need to convert information into knowledge, old machine learning methods are no longer responsive. when using classifications with the old machine learning methods, especially the use of inherently lazy classifications such as the knearest neighbor (knn) method, the operation of classifying large data sets is very slow.nearest neighborhood is a popular method of data classification due to its simplicity and practical accuracy. the proposed method is based on sorting the training data feature vectors in a binary search tree to expedite the classification of big data using the nearest neighbor method. this is done by finding the approximate two farthest local data in each tree node. these two data are used as a criterion for dividing the data in the current node into two groups. the data set in each node is assigned to the left and right child of the current node based on their similarity to the two data. the results of several experiments performed on different data sets from the uci repository show a good degree of accuracy due to the low execution time of the proposed method.
|
|
|
|
|
|
|
|
|
|
|
|
|