بازشناسی کلمات دست نوشته با ویژگی های نوین و کاهش فرهنگ لغت

Fa | Ar | En

بازشناسی کلمات دست نوشته با ویژگی های نوین و کاهش فرهنگ لغت


نویسنده	برومند سمیه ,ایرانپور مبارکه مجید
منبع	ماشين بينايي و پردازش تصوير - 1396 - دوره : 4 - شماره : 2 - صفحه:35 -47
چکیده	بازشناسی کلمات دست‌نوشته و تبدیل آن به متن تایپی معادل می‌ تواند در تفسیر دست‌نوشته و جستجو در اسناد بسیار حائز اهمیت باشد. در این مقاله سیستمی به منظور تشخیص برون‌ خط دست‌ نوشته فارسی در یک فرهنگ لغت محدود معرفی شده است. به منظور استخراج ویژگی، بعد از بلوک ‌بندی تصویر ورودی و استخراج مرکز هر بلوک توسط مرکز ثقل، میانگین مرکز اجزای متصل از الگوریتم سیفت متراکم استفاده شده است. از روش آنالیز تفکیک‌ کننده خطی برای کاهش تعداد ویژگی‌ ها استفاده شده است. در این مقاله، در مرحله نخست کلمات موجود در فرهنگ لغت بر اساس شباهت با استفاده از الگوریتم isocluse به همراه الگوریتم سلسله ‌مراتبی خوشه ‌بندی شده است. میانگین هر خوشه در فضای ویژگی به عنوان نماینده آن خوشه و مدخل مشترک اعضای آن خوشه در فرهنگ لغت تصویری، در نظر گرفته شده است. در مرحله دوم به منظور بازشناسی کلمه ‌ی جدید از کلمات کاندید، از روش ماشین ‌بردار ‌پشتیبان به صورت چندکلاسه و دو‌کلاسه استفاده شده است. نتایج بدست آمده نشان دهنده عملکرد بهتر روش ماشین‌ بردار ‌پشتیبان دو‌کلاسه از لحاظ سرعت و دقت بر روی مجموعه داده ایران‌شهر می‌ باشد. در مرحله بازشناسی با انتخاب 5 خوشه نزدیک به کلمه دست‌نوشته مورد آزمون با دقت 93.37% حدود 76.65% از کلمات مورد بررسی کاهش خواهد یافت.
کلیدواژه	تشخیص کلمه دست نوشته، آنالیز تفکیک‌کننده خطی، سیفت متراکم، کاهش فرهنگ لغت، الگوریتم خوشه بندی isocluse، کلاس بند ماشین بردار پشتیبان دوکلاسه
آدرس	دانشگاه آزاد اسلامی واحد مبارکه, ایران, دانشگاه پیام نور, دانشکده مهندسی کامپیوتر و فناوری اطلاعات, ایران
پست الکترونیکی	iranpour@pnu.ac.ir

Handwritten word recognition by new feature and lexicon reduction

Authors	boroumand somayeh ,IranpourMobarakeh Majid
Abstract	Handwritten word recognition (HWR) is very important in document analysis and retrieval. In this paper, an offline handwritten recognition system for Persian manuscript is introduced. For feature extraction, SIFT descriptors extracted densely from the block of word image and enriched by appending the normalized x and y coordinates and the scale they were extracted at. Linear discriminate analysis (LDA) is used for feature reduction. All words in the dictionary were hierarchically clustered by ISOCLUSE algorithm. In order to recognize the word images, multipleclass and twoclass SVM classifiers methods were used. The experimental results showed a better performance in terms of speed and precision of twoclass SVM method on the Iranshahr data set. The accuracy of proposed system by select 5 top cluster is shown 93.37% by 76.65% reduction of lexicon.
Keywords