|
|
چندی سازی غیریکنواخت سه حالتی جهت بهبود تنکی و محاسبات شبکههای عصبی عمیق در کاربردهای نهفته
|
|
|
|
|
نویسنده
|
معنوی مفرد حسنا ,انصارمحمدی علی ,ارسالی صالحی نسب مصطفی
|
منبع
|
فناوري اطلاعات و ارتباطات ايران - 1403 - دوره : 16 - شماره : 59-60 - صفحه:125 -143
|
چکیده
|
شبکههای عصبی عمیق به دلیل موفقیت در کاربردهای مختلف، به جذابیت فوقالعادهای دستیافتهاند. اما پیچیدگی محاسبات و حجم حافظه از موانع اصلی برای پیادهسازی آنها در بسیاری از دستگاههای نهفته تلقی میشود. از مهمترین روشهای بهینهسازی که در سالهای اخیر برای برطرف نمودن این موانع ارائه شده، میتوان به کوانتیزاسیون و هرس کردن اشاره کرد. یکی از روشهای معروف کوانتیزاسیون، استفاده از نمایش اعداد چندرقمی باینری است که علاوه بر بهرهبردن از محاسبات بیتی، افت صحت شبکههای باینری را در مقایسه با شبکههای دقت کامل کاهش میدهد. اما به دلیل نداشتن قابلیت نمایش عدد صفر در آنها، مزایای تنکی دادهها را از دست می دهند. از طرفی، شبکههای عصبی عمیق به صورت ذاتی تنک هستند و با تنک کردن پارامترهای شبکه عصبی عمیق، حجم دادهها در حافظه کاهش می یابد و همچنین به کمک روشهایی میتوان انجام محاسبات را تسریع کرد.در این مقاله میخواهیم هم از مزایای کوانتیزاسیون چند رقمی و هم از تنکی دادهها بهره ببریم. برای این منظور کوانتیزاسیون چند رقمی ترنری برای نمایش اعداد ارائه میدهیم که علاوه بر افزایش صحت شبکه نسبت به شبکه چندرقمی باینری، قابلیت هرس کردن را به شبکه میدهد. سپس میزان تنکی در شبکه کوانتیزه شده را با استفاده از هرس کردن افزایش میدهیم. نتایج نشان میدهد که تسریع بالقوه شبکه ما در سطح بیت و کلمه میتواند به ترتیب 15 و 45 برابر نسبت به شبکه چند رقمی باینری پایه افزایش یابد.
|
کلیدواژه
|
شبکههای عصبی عمیق، چندی سازی غیریکنواخت سه حالتی، شبکه عصبی تنک، هرس کردن، دستگاه های نهفته
|
آدرس
|
دانشگاه تهران، دانشکدگان فنی, دانشکده مهندسی برق و کامپیوتر, ایران, دانشگاه تهران، دانشکدگان فنی, دانشکده مهندسی برق و کامپیوتر, ایران, دانشگاه تهران، دانشکدگان فنی, دانشکده مهندسی برق و کامپیوتر, ایران
|
پست الکترونیکی
|
mersali@ut.ac.ir
|
|
|
|
|
|
|
|
|
multi level ternary quantization for improving sparsity and computation in embedded deep neural networks
|
|
|
Authors
|
manavi mofrad hosna ,ansarmohammadi ali ,salehi mostafa
|
Abstract
|
deep neural networks (dnns) have achieved great interest due to their success in various applications. however, the computation complexity and memory size are considered to be the main obstacles for implementing such models on embedded devices with limited memory and computational resources. network compression techniques can overcome these challenges. quantization and pruning methods are the most important compression techniques among them. one of the famous quantization methods in dnns is the multi level binary quantization, which not only exploits simple bit wise logical operations, but also reduces the accuracy gap between binary neural networks and full precision dnns. since, multi level binary can’t represent the zero value, this quantization does’nt take advantage of sparsity. on the other hand, it has been shown that dnns are sparse, and by pruning the parameters of the dnns, the amount of data storage in memory is reduced while computation speedup is also achieved. in this paper, we propose a pruning and quantization aware training method for multi level ternary quantization that takes advantage of both multi level quantization and data sparsity. in addition to increasing the accuracy of the network compared to the binary multi level networks, it gives the network the ability to be sparse. to save memory size and computation complexity, we increase the sparsity in the quantized network by pruning until the accuracy loss is negligible. the results show that the potential speedup of computation for our model at the bit and word level sparsity can be increased by 15x and 45x compared to the basic multi level binary networks.
|
Keywords
|
deep neural networks ,multi-level ternary quantization ,sparse neural network ,pruning ,embedded devices
|
|
|
|
|
|
|
|
|
|
|