>
Fa   |   Ar   |   En
   ساخت مجموعه داده تصاویر متن منظره فارسی، مناسب برای تشخیص و بازشناسی متن در تصاویر  
   
نویسنده علی مرادی فاطمه ,رحمانی فرزانه ,ربیعی لیلا ,خوانساری محمد ,مازوچی مجتبی
منبع فناوري اطلاعات و ارتباطات ايران - 1401 - دوره : 14 - شماره : 53-54 - صفحه:78 -95
چکیده    تشخیص متن در تصاویر از مهم ترین منابع تحلیل محتوای تصاویر است. گرچه در زبان هایی همچون انگلیسی و چینی تحقیقاتی در زمینه تشخیص و بازشناسی متن مبتنی بر یادگیری عمیق انجام شده است اما برای زبان فارسی مانعی جدی برای توسعه چنین مدل هایی وجود دارد. این مانع، نبود مجموعه داده آموزشی با تعداد بالا است تامین داده با تصاویر واقعی مانند تصاویر تابلوهای هدایت مسیر و تابلوهای فروشگاهی به دلیل عدم تنوع متون و زمان بر بودن حاشیه نویسی دستی که تعداد داده ها را با محدودیت مواجه می کند مناسب و کافی نیست در این مقاله ما ابزارهای لازم برای ساخت مجموعه داده تصاویر ساختگی متن منظره فارسی با پارامترهایی همچون رنگ ،اندازه، فونت و چرخش متن طراحی و ایجاد می کنیم همچنین با این ابزارها یک مجموعه داده بزرگ و متنوع شامل 6100 تصویر متن منظره و 40220 تصویر کلمات بریده شده ساخته شده است. مزیت روش ما نسبت به تصاویر واقعی ساخت خودکار تصاویر به تعداد دلخواه و بدون نیاز به حاشیه نویسی دستی می باشد یک مدل انتها به انتهای تشخیص و بازشناسی با مجموعه داده ایجاد شده آموزش داده شد و مورد ارزیابی قرار گرفت صحت و بازیابی این مدل به ترتیب برابر 51,17% و 55,79% حاصل شد. طبق بررسی ما این اولین مجموعه داده تصاویر متن منظره فارسی به صورت آزاد و با تعداد بالا است.
کلیدواژه تشخیص متن، بازشناسی متن، تصاویر متن منظره، مجموعه داده متن منظره فارسی، یادگیری عمیق
آدرس پژوهشگاه ارتباطات و فناوری اطلاعات, ایران, پژوهشگاه ارتباطات و فناوری اطلاعات, ایران, پژوهشگاه ارتباطات و فناوری اطلاعات, ایران, دانشگاه تهران, دانشکده علوم و فنون نوین, ایران, پژوهشگاه ارتباطات و فناوری اطلاعات, ایران
پست الکترونیکی mazoochi@itrc.ac.ir
 
   synthesizing an image dataset for text detection and recognition in images  
   
Authors alimoradi fatemeh ,rahmani farzaneh ,rabiei leila ,khansari mohammad ,mazoochi mojtaba
Abstract    text detection in images is one of the most important sources for image recognition. although many researches have been conducted on text detection and recognition and end to end models (models that provide detection and recognition in a single model) based on deep learning for languages such as english and chinese, the main obstacle for developing such models for persian language is the lack of a large training data set. in this paper, we design and build required tools for synthesizing a data set of scene text images with parameters such as color, size, font, and text rotation for persian. these tools are used to generate a large still varied data set for training deep learning models. due to considerations in synthesizing tools and resulted variety of texts, models do not depend on synthesis parameters and can be generalized. 7603 scene text images and 39660 cropped word images are synthesized as sample data set. the advantage of our method over real images is to synthesize any arbitrary number of images, without the need for manual annotations. as far as we know, this is the first open source and large data set of scene text images for persian language.
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved