|
|
شناسایی کلمات دستنویس نستعلیق فارسی با استفاده از تقطیع مبتنی بر کانتور بالایی کلمات و مدل پنهان مارکف
|
|
|
|
|
نویسنده
|
صفابخش رضا ,ادیبی پیمان
|
منبع
|
اميركبير - 1382 - دوره : 14 - شماره : 55 - آ - صفحه:653 -677
|
چکیده
|
در این مقاله یک سیستم کامل برای شناسایی کلمات دستنویس فارسی با استفاده از یک مدل پنهان مارکف با چگالی پیوسته مشاهدات و طول متغیر حالات ارائه شده است. ابتدا در مرحله پیش پردازش پس از عملیات باینری کردن و حذف نویز و یافتن اجزاء متصل، سرکشها و زیرکشهای حروف کشف و از تصویر حذف می گردند. سپس یک الگوریتم تقطیع جدید مبتنی بر تحلیل کانتور بالایی اجرای می شود. در این الگوریتم هدف این است که حتی الامکان مشکل عدم تقطیع وجود نداشته باشد. طول حالات متغیر برای برطرف کردن مساله تقطیع زیادی در نظر گرفته شده است. با یافتن ترتیب راست به چپ، این قطعه ها یا زیر حروف بعنوان دنباله سمبلهای مدل شونده محسوب می گردند. یک بردار ویژگی تلفیقی هشت عنصری که شامل سه توصیفگر فوریه و تعدادی ویژگی ساختاری می باشند برای نمایش این سمبلها در فضای ویژگی بکار می رود. آموزش مدل به سادگی و بدون نیاز به روش تخمین مجدد انجام می گیرد. دراین آموزش تعدادی از پارامترهای مدل از مجموعه تصاویر آموزشی وتعدادی دیگر از فرهنگ لغات بدست می آیند. در نهایت یک نسخه الگوریتم ویتربی اصلاح شده که قادر به تولید l بهترین مسیر سراسری بوده و می تواند برای هر حالت موقعیتها و شکلهای متفاوت را بعنوان زیر حالات در نظر گیرد و همچنین طول حالات متغیر را پیشتیانی نماید، جهت شناسایی بکار رفته است. آزمایشهایی که بر روی نمونه های دستنویس با کیفیت متوسط و یک فرهنگ لغات 50 کلمه ای انجام شد نتایج بسیار خوبی برای روش بکار رفته نشان داد.
|
کلیدواژه
|
شناسایی کلمات، دستنویس، فارسی، نستعلیق، مدل پنهان مارکف، تقطیع، استخراج ویژگی
|
آدرس
|
دانشگاه صنعتی امیرکبیر, دانشکده مهندسی کامپیوتر و فناوری اطلاعات, ایران, دانشگاه صنعتی امیرکبیر, دانشکده مهندسی کامپیوتر, ایران
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Authors
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|