تشخیص الفبای دستی فارسی ناشنوایان مبتنی بر اطلاعات نرمال سازی شده در تصاویر ژرفا

Fa | Ar | En

تشخیص الفبای دستی فارسی ناشنوایان مبتنی بر اطلاعات نرمال سازی شده در تصاویر ژرفا


نویسنده	رجبی شهاب ,موسوی نیا امیر
منبع	كنترل - 1398 - دوره : 13 - شماره : 3 - صفحه:29 -39
چکیده	پس از ارائه دستگاه کینکت، محصول شرکت مایکروسافت گزارشهای بسیاری از کاربرد این دستگاه در تشخیص حالت دست و انگشتان منتشر شدهاست. در بیشتر این کاربرد ها اطلاعات ژرفا تنها برای جداسازی تصویر دست از پس زمینه استفاده شده و پردازش اصلی بر روی تصاویر ویدیویی و در فضای دو بعدی انجام شده است. در این مقاله روشی ارائه می شود که اطلاعات ژرفا نقش پر رنگ تری در پردارش دارند. با کمک روش آستانه گذاری مبتنی بر ژرفا، ابتدا قالب دست شخص در فضای سه بعدی استخراج می شود. سپس در فضای سه بعدی، راستای عمود برکف دست پیدا شده و با استفاده از ماتریسهای دوران و انتقال، این راستا با راستای دوربین همسو می شود. به این ترتیب دورانهای دست حول محورهای پیچ و یاو از تصویر حذف شده و با استفاده از ماتریس انتقال، تصویر دست در فاصله مشخصی از دوربین قرار می گیرد. در مرحله بعد، از دو ابزار تبدیل موجک و یک توصیفگر جدید به نام توصیفگر دایروی که در این سیستم معرفی شده است برای استخراج ویژگی ها استفاده می شود. یک شبکه های عصبی، غربالگری اولیه را در ویژگی های استخراج شده توسط تبدیل موجک انجام داده و سپس توصیفگر دایروی با استفاده از ماشین بردار پشتیبان بازشناسی حرف موردنظر را به اتمام می رساند. در آزمایشهای عملی با کمک اطلاعات برخط سنسور کینکت دقت شناسایی حروف الفبای فارسی %96.7 و تاخیر 2 ثانیه برای هر علامت بدست آمده است.
کلیدواژه	الفبای ایستای فارسی ناشنوایان، سنسور کینکت، تبدیل موجک، توصیفگر دایروی، شبکه عصبی
آدرس	دانشگاه صنعتی خواجه نصیرالدین طوسی, گروه الکترونیک, ایران, دانشگاه صنعتی خواجه نصیرالدین طوسی, دانشکده مهندسی کامپیوتر, گروه معماری کامپیوتر, ایران
پست الکترونیکی	moosavie@kntu.ac.ir

Persian sign language detection based on normalized depth image information

Authors	Rajabi Shahab ,Mousavinia Amir
Abstract	There are many reports of using the Kinect to detect hand and finger gestures after release of device by Microsoft. The depth information is mostly used to separate the hand image in the twodimension of RGB domain. This paper proposes a method in which the depth information plays a more dominant role. Using a threshold in depth space first the hand template is extracted. Then in 3D domain the perpendicular vector to the hand surface is found. Using the rotation matrix all the rotations along three axes are compensated in a way that the camera z coordinate lies perpendicular to hand surface. Then the resulted 3d image is translated to a distance of 80 to 100 cm from the Kinect. Wavelet transform with a new descriptor, called Circular Descriptor are used to extract required features. A trained MLP neural network in conjunction with a SVM is used to classify the signs. Empirical results show an average accuracy of 96.7 % with a two seconds delay for online recognition of Persian Sign Language.
Keywords	Persian sign language ,deaf people ,Kinect sensor ,wavelet ,circular descriptor