>
Fa   |   Ar   |   En
   gcocr، روشی برای تشخیص حروف براساس شبکه‌های دروازه‌دار کانولوشنی و بازگشتی  
   
نویسنده موسوی محمدرضا ,باوفای طوسی امیر
منبع رايانش نرم و فناوري اطلاعات - 1403 - دوره : 13 - شماره : 3 - صفحه:31 -45
چکیده    در دو دهه اخیر شناسایی دست‌نوشته یکی از چالش‌برانگیزترین زمینه‌ها در بینایی کامپیوتر بوده است، چراکه دستخط هر فرد با دیگری متفاوت بوده و تنها منبع اطلاعاتی چنین سیستمی، تصاویر دستخط می‌باشند. برای این چالش، معماری‌های متفاوتی بر مبنای در دسترس بودن داده‌های برچسب‌ گزاری ‌شده در مقیاس بزرگ ارائه‌شده است. در این پژوهش، یک معماری ترکیبی مبتنی بر روش‌های یادگیری عمیق، شبکه‌های عصبی بازگشتی کانولوشنی و شبکه‌های دروازه‌ای کانولوشنی بانام gcocr‌ ارائه گردیده است. در این معماری، ابتدا پیش‌پردازش داده‌ها با استفاده ازروش‌های لایه گزاری، رفع کجی حروف و افزایش تعداد نمونه‌ها انجام شده است، سپس لایه‌های ترکیبی کانولوشنی دروازه‌دار، توابع فعال‌ساز رلو، پولینگ و شبکه عصبی دوجهته معماری gcocr را پیاده‌سازی می‌کنند. نتایج عملکرد این معماری بر روی دیتاست iam حاکی از آن است که خطای حرف gcocr، 6/8‌% و خطای کلمه gcocr، 4/2‌% کمتر از قوی‌ترین پژوهش‌های مشابه می‌باشد.
کلیدواژه شبکه‌های عصبی بازگشتی کانولوشنی، شبکه‌های عصبی کانولوشنی دروازه‌دار، افزونگی داده، یادگیری عمیق، شناسایی دستخط
آدرس دانشگاه صنعتی سجاد, دانشکده مهندسی برق و کامپیوتر, ایران, دانشگاه صنعتی سجاد, دانشکده مهندسی برق و کامپیوتر, ایران
پست الکترونیکی abavafat@sadjad.ac.ir
 
   gcocr: a method for recognition of characters using gated convolutional and recurrent networks  
   
Authors mousavi seyed mohammadreza ,bavafa toosi amir
Abstract    handwriting recognition has been a highly challenging area in computer vision for the past twenty years. the main source of data for such systems is handwriting images, leading to the proposal of various architectures based on the availability of extensive labeled data. this study introduces a hybrid architecture called gcocr, which utilizes deep learning methods and gated convolutional recurrent neural networks to intelligently recognize characters. the architecture incorporates pre-processing techniques such as padding, deslanting, and data augmentation. additionally, it implements gated convolutional layers, relu activation functions, pooling, and a bidirectional neural network. the performance results of this architecture on the iam dataset indicate that the character error rate (cer) of gcocr is 8.6% lower and the word error rate (wer) of gcocr is 2.4% lower than the strongest comparable research studies.
Keywords convolutional recurrent neural networks ,gated convolution neural network ,data augmentation ,deep learning ,handwriting recognition ,gated convolutional intelligent character recognition
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved