|
|
|
|
gcocr، روشی برای تشخیص حروف براساس شبکههای دروازهدار کانولوشنی و بازگشتی
|
|
|
|
|
|
|
|
نویسنده
|
موسوی محمدرضا ,باوفای طوسی امیر
|
|
منبع
|
رايانش نرم و فناوري اطلاعات - 1403 - دوره : 13 - شماره : 3 - صفحه:31 -45
|
|
چکیده
|
در دو دهه اخیر شناسایی دستنوشته یکی از چالشبرانگیزترین زمینهها در بینایی کامپیوتر بوده است، چراکه دستخط هر فرد با دیگری متفاوت بوده و تنها منبع اطلاعاتی چنین سیستمی، تصاویر دستخط میباشند. برای این چالش، معماریهای متفاوتی بر مبنای در دسترس بودن دادههای برچسب گزاری شده در مقیاس بزرگ ارائهشده است. در این پژوهش، یک معماری ترکیبی مبتنی بر روشهای یادگیری عمیق، شبکههای عصبی بازگشتی کانولوشنی و شبکههای دروازهای کانولوشنی بانام gcocr ارائه گردیده است. در این معماری، ابتدا پیشپردازش دادهها با استفاده ازروشهای لایه گزاری، رفع کجی حروف و افزایش تعداد نمونهها انجام شده است، سپس لایههای ترکیبی کانولوشنی دروازهدار، توابع فعالساز رلو، پولینگ و شبکه عصبی دوجهته معماری gcocr را پیادهسازی میکنند. نتایج عملکرد این معماری بر روی دیتاست iam حاکی از آن است که خطای حرف gcocr، 6/8% و خطای کلمه gcocr، 4/2% کمتر از قویترین پژوهشهای مشابه میباشد.
|
|
کلیدواژه
|
شبکههای عصبی بازگشتی کانولوشنی، شبکههای عصبی کانولوشنی دروازهدار، افزونگی داده، یادگیری عمیق، شناسایی دستخط
|
|
آدرس
|
دانشگاه صنعتی سجاد, دانشکده مهندسی برق و کامپیوتر, ایران, دانشگاه صنعتی سجاد, دانشکده مهندسی برق و کامپیوتر, ایران
|
|
پست الکترونیکی
|
abavafat@sadjad.ac.ir
|
|
|
|
|
|
|
|
|
|
|
|
|
gcocr: a method for recognition of characters using gated convolutional and recurrent networks
|
|
|
|
|
Authors
|
mousavi seyed mohammadreza ,bavafa toosi amir
|
|
Abstract
|
handwriting recognition has been a highly challenging area in computer vision for the past twenty years. the main source of data for such systems is handwriting images, leading to the proposal of various architectures based on the availability of extensive labeled data. this study introduces a hybrid architecture called gcocr, which utilizes deep learning methods and gated convolutional recurrent neural networks to intelligently recognize characters. the architecture incorporates pre-processing techniques such as padding, deslanting, and data augmentation. additionally, it implements gated convolutional layers, relu activation functions, pooling, and a bidirectional neural network. the performance results of this architecture on the iam dataset indicate that the character error rate (cer) of gcocr is 8.6% lower and the word error rate (wer) of gcocr is 2.4% lower than the strongest comparable research studies.
|
|
Keywords
|
convolutional recurrent neural networks ,gated convolution neural network ,data augmentation ,deep learning ,handwriting recognition ,gated convolutional intelligent character recognition
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|