|
|
معرفی یک مجموعه اسناد متنی فارسی برای کاربردهای درک و ناحیه بندی اسناد فارسی
|
|
|
|
|
نویسنده
|
فرجی امین ,فرجی امین ,سعید مسعود ,سعید مسعود ,نظام آبادی پور حسین ,نظام آبادی پور حسین
|
منبع
|
ماشين بينايي و پردازش تصوير - 1402 - دوره : 10 - شماره : 2 - صفحه:31 -46
|
چکیده
|
وجود مجموعه دادههای تصویری نقش اساسی در زمینه تشخیص نویسه خوان نوری (ocr) و بازیابی اسناد دارد. علیرغم اینکه تا به امروز مجموعه دادههای تصویری زیادی با اشیا متفاوت در حوزه درک و ناحیهبندی اسناد غیرفارسی منتشر شده است، رسم الخط فارسی از این پیشرفت عقب مانده است و تاکنون در زمینه درک و ناحیهبندی اسناد فارسی، مجموعه دادگانی با دسترسی عمومی ارائه نشده است. از سوی دیگر، اگرچه زبانهای فارسی و عربی شباهتهای زیادی دارند، اما تفاوت بین ساختار این دو زبان باعث میشود که سیستمهای آموزشدیدهocr با مجموعه داده عربی، دقت مناسبی روی تصاویر اسناد فارسی نداشته باشند. در این مقاله، یک مجموعه داده برای تصاویر اسناد فارسی معرفی میگردد که مشتمل بر 5598 تصویر است. تصاویر تهیه شده متعلق به روزنامهها، کتابهای درسی، مقالات علمی، فایلهای pdf فارسی، پایاننامهها، انواع لوگو ایرانی، کتب دستنوشته قدیمی و جزوات تایپ شده و دستنویس ریاضی هستند. در مجموعه داده معرفی شده، اشیا درون تصاویر به 6 گروه پاراگراف (متن)، شکل، جدول، لوگو، رابطه ریاضی و سرصفحه دستهبندی و برچسبگذاری شدهاند. برای ارزیابی کارایی مجموعه تصویر پیشنهادی، سه روش شناخته شده مبتنی بر یادگیری عمیق پیاده سازی و نتایج بر مبنای معیارهای مختلف گزارش شده است.
|
کلیدواژه
|
پردازش تصویر، اسناد متن فارسی، ناحیهبندی سند، درک سند، مجموعه داده
|
آدرس
|
دانشگاه شهید باهنر کرمان, دانشکده فنی و مهندسی, ایران, دانشگاه شهید باهنر کرمان, دانشکده فنی و مهندسی, ایران, دانشگاه شهید باهنر کرمان, دانشکده فنی و مهندسی, ایران, دانشگاه شهید باهنر کرمان, دانشکده فنی و مهندسی, ایران, دانشگاه شهید باهنر کرمان, دانشکده فنی و مهندسی, ایران, دانشگاه شهید باهنر کرمان, دانشکده فنی و مهندسی, ایران
|
پست الکترونیکی
|
nezam@uk.ac.ir
|
|
|
|
|
|
|
|
|
introducing a database for farsi document image understanding and segmentation
|
|
|
Authors
|
faraji amin ,faraji amin ,saeed masoud ,saeed masoud ,nezamabadi-pour hossein ,nezamabadi-pour hossein
|
Abstract
|
document images segmentation is one of the recent activities that have attracted researchers' attention. unfortunately, there is no report on a benchmark dataset for farsi document images understanding and segmentations applications that be available in the web. in the current article, a benchmark image dataset for the sake of the farsi document images segmentation is presented, which includes 5598 images. the provided images are taken from the newspapers, textbooks and academic articles. objects in the images are categorized and labeled into six different groups to be used easily in the subsequent applications. the object groups used in the dataset are paragraph(text), figure, table, logo, mathematical equation and header. to asset the effectiveness of the proposed document image dataset, three existing well-known methods based on deep learning are implemented on it and the results are presented.
|
|
|
|
|
|
|
|
|
|
|
|
|