Persian digit recognition system in aerial writing based on depth image
Subject Areas : Generalreza maleki 1 , Shahram Mohammadi 2
1 -
2 -
Keywords: Kinect Sensor, Depth Image, Slope Mark Changes, Hidden Markov Model,
Abstract :
Recognizing handwriting on paper, screen or in the air are some of the challenges in machine vision. Recognizing aerial text has many challenges due to its three-dimensional nature. In this research work, Persian digit recognition is considered in aerial text in which the user writes the digits zero to nine in front of the Kinect sensor in the air and the system is able to detect the above digits using the sensor depth information. In the proposed system, the k-means automatic clustering method is used to separate the hand and fingertip from the background, the proposed linear slope change method is used to extract the feature, and the hidden Markov model (HMM) category is used to identify the feature and figure. The detection accuracy of the proposed system for Persian cultivars with local database and 10-fold cross-validation is 98%. The proposed system was compared with the results of several similar works, these comparisons show that the proposed system works relatively better than the systems under comparison.
1. Mitra, S., Acharya, T. 2007. Gesture recognition: a survey. IEEE Trans Syst Man Cybern (SMC)Part C Appl Rev 37(3), pp:311–324.
2. Karam, M. 2006. A framework for research and design of gesture-based human computer interactions. PhD Thesis, University of Southampton.
3. Stefan, A., Athitsos, V., Alon, J., Sclaroff, S. 2008. Translation and scale invariant gesture recognition in complex scenes. in Proc. 1st ACM Int. Conf. PErvasive Technol. Related Assist. Environ., Art. no. 7.
4. Stern, H., Shmueli, M., Berman, S. 2013. Most discriminating segment Longest common subsequence (MDSLCS) algorithm for dynamic hand gesture classification. Pattern Recognit. Lett., vol. 34, no. 15, pp:1980–1989.
5. Elmezain, M., AlHamadi, A., Michaelis, B. 2009. Hand trajectory-based gesture spotting and recognition using HMM. In using HMM. In Proc. 16th IEEE Int.Conf. Image Process., pp: 3577–3580.
6. Doliotis, P., Stefan, A., McMurrough, C., Eckhard, D., Athitsos, V. 2011. Comparing gesture recognition accuracy using color and depth information. in Proc. 4th ACM Int. Conf. Pervasive Technol. Related Assist. Environ., Art. no. 20.
7. Mackay, D. 2003. Information Theory, Inference and Learning Algorithms. Cambridge University Press. pp. 284–292. ISBN 0-52 64298-1.MR 2012999.
8. Liu, N., Lovell, B. C., Kootsookos, P. J. 2003. Evaluation of HMM training algorithms for letter hand gesture recognition. Proceedings of the 3rd IEEE International Symposium on Signal Processing and Information Technology.
9. Rabiner, LR. 1989. A Tutorial on Hidden Markov Models and Selected Application in Speech Recognition. Proc. of the IEEE, Vol.77, No.2, pp:257—286
10. Kane, L., Khanna, P. 2017. Vision-Based Mid-Air Unistroke Character Input Using Polar Signatures. IEEE TRANSACTIONS ON HUMAN-MACHINE SYSTEMS.
11.Based Mid-Air Unistroke Character Input Using Polar Signatures. IEEE TRANSACTIONS ON HUMAN-MACHINE SYSTEMS.
11. Feng, Z., Xu, S., Zhang, X., Jin, L., Ye, Z. 2012. Real-time Fingertip Tracking and Detection using Kinect Depth Sensor for a New Writing-in-the Air System. The 4th International Conference on Internet Multimedia Computing and Service (ICIMCS), China.
12. Elmezain, M., Alhamadi, A., Appenrodt, J., Michaelis, B. 2008. A Hidden Markov Model-Based Isolated and Meaningful Hand Gesture Recognition. PROCEEDINGS OF WORLD ACADEMY OF SCIENCE, ENGINEERING AND TECHNOLOGY.
13. Liu, N., Lovell, B. C., Kootsookos, P. J. 2003. Evaluation of HMM training algorithms for letter hand gesture recognition. Proceedings of the 3rd IEEE International Symposium on Signal Processing and Information Technology.
14. Liu, F., Du, B., Wang, Q., Wang, Y., Zeng, W. 2017. Hand Gesture Recognition Using via Deterministic Learning. 29th Chinese Control and Decision Conference (CCDC)
15. رضایی و ذهابی، 1389، اندازهگیری الکترونیکی، انتشارات دانش نگار، تهران
رضا ملکی و ......... فصلنامه فناوری اطلاعات و ارتباطات ایران، سال دهم، شمارههای 35 و 36، بهار و تابستان 1397
فصلنامه علمي- پژوهشي فناوري اطلاعات و ارتباطات ایران | سال دهم، شمارههاي 35 و 36، بهار و تابستان 1397 صص: 43- 56 |
|
سامانه تشخیص ارقام فارسی در نوشتار هوایی مبتنی بر تصویر عمق
*رضا ملکی **شهرام محمدی
*دکتری برق- الکترونیک، دانشگاه زنجان، سازمان تنظیم مقررات و ارتباطات رادیویی، تبریز، ایران
** استادیار، دانشکده مهندسی برق، دانشگاه زنجان
تاریخ دریافت: 18/9/1398 تاریخ پذیرش:05/11/1398
چکیده
تشخیص دستنوشته از روی کاغذ، صفحهنمایش و یا در هوا از چالشهایی هستند که در بینایی ماشین وجود دارند. تشخیص نوشتار هوایی به خاطر سهبعدی بودن دارای چالشهای زیادی است. در این کار تحقیقی تشخیص ارقام فارسی در نوشتار هوایی مدنظر است که در آن، کاربر ارقام صفر تا نه را در مقابل حسگر کینکت در هوا مینویسد و سامانه با استفاده از اطلاعات عمق حسگر قادر به تشخیص ارقام فوق است. در سامانه پیشنهادی، برای جداسازی دست و نوک انگشت از پسزمینه از روش خوشهبندی خودکار k-means، برای استخراج ویژگی از روش تغییر علامت شیبخط پیشنهادی و جهت تشخیص ویژگی و تعیین رقم از دستهبند مدل مارکوف مخفی (HMM) استفادهشده است. دقت تشخیص سامانه پیشنهادی برای ارقام فارسی با دیتابیس محلی و بااعتبار سنجی متقابل 10 برابری 98 درصد است. سامانه پیشنهادی با نتایج چندین کار مشابه مقایسه گردید، این مقایسهها نشان میدهند که سامانه پیشنهادی بهصورت نسبی بهتر از سامانههای تحت مقایسه کار میکند.
واژههای کلیدی: حسگر کینکت، تصویر عمق، تغییرات علامت شیبخط، مدل مارکوف مخفی
1- مقدمه
پیشرفتهای عظیمی در حوزههای فناوری محاسباتی، ارتباطی و نمایشگرها انجامشدهاند؛ اما پیشرفت چندانی در حوزه تعامل با این تجهیزات، حاصل نشده است؛ بنابراین، لازم است تنگناهای موجود مرتفع شوند. این الزام باعث شده است که در چند سال گذشته حوزه تعامل انسان - کامپیوتر1 (HCI) به یک حوزه تحقیقی فعالی تبدیل گردد. اگرچه در طراحی و ساخت صفحهکلیدها و موشوارهها پیشرفتهای زیادی انجامشده است؛ اما هنوز این تجهیزات، مخصوصاً در تعامل با فضاهای سهبعدی جهت HCI مناسب نیستند. موشوارهها که دارای آزادی دوبعدی هستند نمیتوانند فضای سهبعدی را تقلید نمایند. استفاده از ژستهای دست، جایگزین جذاب و طبیعی برای تجهیزات واسط دوبعدی در محیطهای مجازی هستند. یک ژست بهعنوان حرکت فیزیکی دست، بازو، صورت و بدن باهدف انتقال اطلاعات بامعنی تعریف میشود] 1[. طبق تحقیقی که انجامشده است، دست بهصورت گستردهای در مقایسه با سایر اجزای بدن جهت تعامل استفاده میشود] 2[. ژستهای دست توسط تجهیزات تماسی و غیر تماسی قابلتشخیص هستند. تجهیزات غیر تماسی به خاطر طبیعی
___________________
1. Human-Computer Interaction
نویسنده عهدهدار مکاتبات: رضا ملکی r.maleki@znu.ac.ir
|
بودن تعامل، ارجحیت بالاتری برای کاربر و محققین دارند. از مهمترین کاربردهای تعامل با تجهیزات غیرتماسی نوشتار هوایی1 است که مانند صفحهکلید سهبعدی عمل میکند. سامانه تشخیص نوشتار هوایی در محیطهایی که امکان استفاده از موشواره و صفحهکلید وجود ندارد مانند محیطهای روغنی، گازی قابلاستفاده است. سامانه تشخیص نوشتار هوایی میتواند کاراکترهای خیلی بیشتری نسبت به صفحهکلید عادی منتقل کند. این سامانه میتواند در حوزه بازی و گیم، صدور دستورات کنترلی، تعامل با ربات و ماشینها بهصورت گسترده استفاده گردد. در حوزه تشخیص نوشتار هوایی کاراکترهای فارسی کار معتبری تابهحال گزارش نشده است؛ بنابراین، در کار حاضر تلاش و تمرکز ما روی تشخیص نوشتار هوایی ارقام فارسی صفرتا نه است و در کارهای آینده روی تشخیص حروف فارسی، اعداد و کلمات و عبارتهای فارسی نوشتهشده در هوا متمرکز میشویم.این مقاله بهصورت زیر تنظیمشده است. در بخش دوم کارهای مرتبط با تشخیص نوشتار هوایی کاراکترها بیان میشود. در بخش سوم الگوریتمهای استفادهشده در بلوکهای ساختاری سامانه تشریح میگردد. در بخش چهارم نتایج عملی سامانه پیشنهادی بیان میگردد و در قسمت پنجم نتیجهگیری و کارهای آینده و در انتها مراجع ارائه میشوند.
2- کارهای مرتبط با تشخیص نوشتار هوایی کاراکتر
برای حوزه تشخیص نوشتار هوایی مقالات و سامانههای زیادی گزارش شدهاند. استفان و همکاران از یک دوربین رنگ با وضوح 320×240 و دستهبند DSTW2 برای شناسایی نوشتار هوایی ژستهای دست ارقام انگلیسی استفاده کردند] 3[. استرن با استفاده از مفهوم MDS3 (بخشی از ژست کاراکتر است که از بخشهای ژستهای دیگر متفاوت است) و دستهبند MDSLCS (توسعهیافته LCS است) ارقام انگلیسی نوشتهشده در هوا را با حسگر PrimeSense 3D تشخیص دادند] 4[. المازین و همکاران برای تشخیص نوشتار هوایی اعداد انگلیسی از تصاویر رنگ و عمق دوربین استریو استفاده کردند] 5[. آنها برای انجام این کار از دستهبند HMM استفاده کردهاند. چون از تصویر رنگ برای جداسازی دست در کار آنها استفادهشده است؛ بنابراین، تشخیص ارقام در کار آنها به شرایط نوری محیط شدیداً وابسته است. در کار دیگری، تصاویر رنگ و عمق دوربین کینکت برای آشکارسازی ارقام انگلیسی صفرتا نه نوشتهشده در هوا مقایسه میشوند] 6[. نتایج نشان میدهند که استفاده از تصویر عمق برای جداسازی دست و تشخیص ارقام، خطای کمتری را ایجاد میکند. نتایج ارزیابی سامانههای گزارششده در حوزه تشخیص نوشتار هوایی نشان دادند که استفاده از تصویر عمق بجای تصویر رنگ دقت تشخیص بالاتری را ارائه میدهد؛ بنابراین از روی نتایج سامانههای گزارششده فوق، در این کار تحقیقی از تصویر عمق ژست دست استفاده میشود که با استفاده از خوشه بند خودکار k-means، دست و نوک انگشت از پسزمینه در هر فریم جداسازی میشود و درنهایت، خط سیر از اتصال نقاط نوک انگشت هر فریم حاصل میگردد. روش استخراج ویژگی از خط سیر ژست دست نیز مهمترین مسئلهای است که بهصورت مستقیم روی دقت تشخیص ژستها مؤثر است. مهمترین ویژگیهایی که میتوانند بردار ویژگی را از خط سیر استخراج کنند عبارتاند از: شیب منحنی، طول، نقاط ماکزیمم و می نیمم منحنی و تعداد نقاط برخورد با منحنی. بردار تشخیص مؤثر، بردار تشخیصی است که نسبت بهاندازه، انتقال و چرخش ژست یا خط سیر مقاوم است، ابعاد بسیار کمی را ایجاد میکند و همچنین برای هر ژست منحصربهفرد است. در کار حاضر روشی پیشنهاد میشود که برای هر ژست دست، بردار تشخیص مؤثری را ایجاد میکند که این بردار بهعنوان ورودی برای دستهبند HMM جهت تشخیص ژست دست استفاده میگردد. مشابه کارهای ] 5[ ] 12-13[،در سامانه پیشنهادی از دستهبند HMM استفادهشده است. HMM دارای تئوری ریاضی بسیار قوی است و درصورتیکه خوب آموزش ببیند دارای دقت بالا در تشخیص کلاسها است. زمان آموزش HMM نسبت به دستهبندهای دیگر مانند SVM و KNN بسیار بالا است؛ اما بعدازاین که آموزش دید زمان تشخیص نسبت به دستهبندهای فوق بسیار پایینتر خواهد بود.
__________________________
1. Air-writing
2. Dynamic Space Time Warping
3. Most Discriminating Segments
3- الگوریتمهای بلوکهای ساختاری سامانه
در حالت کلی سامانههای گزارششده در حوزه تشخیص نوشتار هوایی از چهار بلوک اصلی تشکیلشدهاند که عبارتاند از: 1- بلوک اخذ داده: وظیفه تبدیل کردن ژستهای دست به تصاویر را انجام میدهد. 2- پیشپردازش و جداسازی دست: وظیفه استخراج دست، نوک انگشت و خط سیر ژست دست را دارد و همچنین نویز و پسزمینه را حذف میکند. 3- استخراج ویژگی: وظیفه استخراج بردار ویژگی از خط سیر را دارد. 4- دستهبند: شناسایی کاراکتر از روی بردار ویژگی را انجام میدهد. در پیادهسازی سامانه پیشنهادی دقیقاً چهار بلوک فوق در نظر گرفتهشده است. شکل 1 بلوک دیاگرام سامانه پیشنهادی را نشان میدهد؛ که در ادامه، ساختار سامانه پیشنهادی تشریح میگردد.
3-1- بلوک اخذ داده
در کار حاضر، حس گر استفادهشده برای تبدیل ژست دست به تصویر، دوربین کینکت XBOX360 مایکروسافت است. این حسگر در ابتدا توسط شرکت مایکروسافت برای کنسول بازی ساخته شده بود؛ اما محققان موفق شدند بعد از هک کردن درایورهای این حسگر، آن را برای کارهای تحقیقاتی و بخصوص در حوزه بینایی ماشین بکار بگیرند. خروجی دوربین کینکت تصاویر رنگ، عمق، اسکلتی و مادونقرمز است. در این کار تحقیقاتی از تصویر عمق کینکت که دارای 30 فریم بر ثانیه با وضوح 480×640 است استفاده میشود. برای استفاده از دادههای عمق حسگر کینکت، از کلاسها و متدهای خاصی که در چارچوب Kinect SDK وجود دارند استفاده شد.
3-2- پیشپردازش و جداسازی دست
نوشتار هوایی توسط نوک انگشت یا بهوسیله مرکز دست انجام میشود. برای استخراج نقاطی که نوشتار هوایی را انجام میدهند، لازم است که دست از پسزمینه تصویر در هر فریم استخراج شود. برای استخراج دست از پسزمینه روشهای مختلفی در مقالات پیشنهاد شده است که مهمترین این روشها استفاده از آشکارسازی پوست در تصاویر رنگی، استفاده از اطلاعات عمق دست در تصاویر عمق، استفاده از نقاط مفصل در تصاویر اسکلتی و یا استفاده از اطلاعات رنگ و عمق همزمان دست در تصاویر رنگ و عمق هستند. تصاویر رنگی شدیداً به شرایط نوری محیط وابسته میباشند؛ بنابراین، آشکارسازی و جداسازی دست در تصاویر رنگی با تغییرات روشنایی و سایهها دچار خطای زیادی است. استفاده تنها از تصاویر اسکلتی برای آشکارسازی دست نیز در شرایط خاص امکانپذیر است و معمولاً استفاده از تصویر اسکلتی برای آشکارسازی دست، همراه با تصاویر رنگی انجام میشود]14[. تصاویر عمق در مقایسه با تصاویر رنگ جزئیات کاملی از ژست دست را انتقال نمیدهند؛ اما چون جزئیات انتقالی شامل نوک انگشت و مرکز دست را بهصورت کامل شامل میباشند و این نقاط مستقل از تغییرات روشنایی محیط هستند گزینه بسیار عالی برای جداسازی دست در تصاویر هستند؛ به همین دلیل، در این کار تحقیقی از تصویر عمق ژست دست استفاده میشود. در اینجا، برای استخراج ناحیه دست از پسزمینه خوشهبند k-means تصویر عمق بکار گرفتهشده است. خوشهبندی k-means روش تقریب سازی برداری است که نقاط تصویر را به چندین ناحیه اختصاص میدهد. هر ناحیه یک خوشه نامیده میشود. نقاط داخل هر خوشه برچسبهای برابری دارند. چگونگی قرار دادن یک نقطه در داخل یک خوشه وابسته به نزدیک بودن آن نقطه به مرکز خوشه است. رابطه (1) شرط قرار دادن نقاطی مانند Xp را در درون خوشه Si نشان میدهد]7[. در این رابطه k و m به ترتیب تعداد خوشهها و مرکز خوشهها هستند.
مرکز خوشه توسط متوسط گیری نقاط درون خوشهها به دست میآید؛ که این موضوع در رابطه (2) نشان دادهشده است. در شروع، مرکز خوشهها بهصورت تصادفی روی تصویر انتخاب میشوند. سپس بروز رسانی خوشهها با استفاده از روابط (1) و (2) انجام میشود. در بروز رسانی، مراکز خوشهها حرکت میکنند. زمانی که تعداد نقاط در داخل خوشهها تقریباً ثابت ماند، حرکت خوشهها متوقف میشود و خوشهبندی همگرا میشود.
استخراج ناحیه هدف از تصویر کامل با استفاده از خوشهبندی k-means بهصورت شدید وابسته به تعداد خوشهها است. در فاصله نزدیک که ناحیه هدف بیشترین سطح تصویر را پوشش میدهد، ناحیه هدف میتواند با تعداد کمی از خوشهها استخراج شود؛ اما زمانی که فاصله افزایش پیدا میکند با خوشههای کم نمیتوان ناحیه هدف را استخراج کرد. شکل 2 این موضوع را نشان میدهد. چنانچه از این شکل دیده میشود، جهت آشکارسازی صحیح ناحیه هدف باید تعداد خوشهها متناسب با فاصله ناحیه هدف از دوربین باشد.
(1)
(2)
شکل 1- بلوک دیاگرام سامانه پیشنهادی برای شناسایی ارقام فارسی در نوشتار هوایی.
اگر تعداد خوشهها متناسب با فاصله ناحیه هدف از دوربین نباشد امکان استخراج ناحیه هدف وجود نخواهد داشت. شکل 3 این مطلب را نشان می دهد. دراین شکل ناحیه هدف که دست کاربر است درصورتیکه k=7 باشد قابلاستخراج است (شکل 3.الف) اما اگر k=3 باشد علاوه بر دست، صورت کاربر نیز استخراج میشود ( شکل 3.ب) همچنین اگر k=9 انتخاب شود فقط قسمتی از دست استخراج میشود ( شکل3.ج). در این مقاله، برای پیادهسازی ارتباط بین تعداد خوشهها و فاصله ناحیه هدف از دوربین، خوشهبندی خودکار k-means پیشنهاد میشود. در این روش، تعداد خوشهها متناسب با فاصله کاربر از دوربین است و تعداد خوشهها با دور شدن کاربر از دوربین بهصورت خودکار افزایش پیدا میکند. نتیجه 20 آزمایش عملی که توزیع آن در شکل 4 آمده است، نشان داد که رابطه تعداد خوشهها نسبت به نزدیکترین نقطه به دوربین از رابطه (3) به دست میآید. در این رابطه k، D و[.] به ترتیب تعداد خوشهها، نزدیکترین فاصله دوربین از کاربر برحسب متر و جزء صحیح عدد هستند. رابطه (3) از طریق درونیابی خطی با روش حداقل مربعات بهدستآمده است ] 15[.
(3)
یک مثال از خوشهبندی خودکار در شکل 5 نشان دادهشده است. چنانچه از این شکل دیده میشود، برای یک شخص در فاصله 159 سانتیمتری از دوربین تعداد خوشهها طبق رابطه (3) برابر k=[5.66-0.1]=5 خواهد بود. در اینجا، خوشهبندی توسط روابط (1) و (2) انجامشده و کوچکترین مقدار عمق در هر خوشه بهعنوان برچسب آن خوشه انتخاب میشود. چون دست نزدیکترین ناحیه به دوربین است بنابراین بعد از خوشهبندی خودکار، خوشه با برچسب کمینه انتخاب میشود. این خوشه، نزدیکترین خوشه به دوربین است و ناحیه نوک انگشت نیز در این ناحیه خواهد بود. بالاترین نقطه این تصویر نسبت به کف که دارای کمترین پهنا است بهعنوان نوک انگشت خواهد بود (شکل 5.د). اتصال نقاط نوک انگشت پیداشده در فریمهای متوالی، خط سیر نوک انگشت را تشکیل میدهد. این خط سیر درواقع همان ژست دست کاربر است که نوشتار هوایی ارقام را انجام داده است. در کار حاضر، برای حذف اشیایی که در مقایسه با دست به دوربین نزدیکتر است از تفریق هر فریم از تصویر مرجع استفادهشده است که در آن، تصویر مرجع تصویری است که قبل از نوشتار هوایی از صحنه گرفته میشود. خروجی تفریق ممکن است شامل یک سری حبابهای کوچک ناشی از حرکتهای جزئی اشیای فوق و یا انعکاست نوری باشد که برای حذف آن از فیلتر حباب استفادهشده است که این موضوع در شکل 6 نشان دادهشده است.
47 |
47 |
شکل 4- توزیع تعداد خوشهها نسبت به کمترین فاصله نقطه تصویر از دوربین
شکل 5- نحوه استخراج نقطه نوک انگشت الف) تصویر عمق در فاصله 159 سانتیمتری از دوربین، ب) نتیجه خوشهبندی خودکار، ج) انتخاب نزدیکترین خوشه به دوربین د) تعیین نقطه نوک انگشت.
شکل 6- استفاده از فیلتر Blob برای حذف حباب های ریز در تصویر الف) تصویر مرجع ب) تصویر جاری، ج) تفریق تصویر جاری از تصویر مرجع، د) نتیجه اعمال فیلتر Blob.
3-3- استخراج بردار ویژگی
48 |
49 |
(4)
اگر علامت تانژانتها در نقطه فرضی یکسان نباشند. این نقطه، بهعنوان یک نقطه بحرانی عمل میکند. برای ارزیابی تغییرات علامت تانژانتها از پارامتری بنام k استفاده میشود که در آن، است. اگر در یک نقطه، k منفی، صفر یا بینهایت باشد این نقطه، یک نقطه بحرانی خواهد بود؛ اما اگر نقطه مورد ارزیابی نقطه بحرانی نباشد یعنی k > 0 باشد در این حالت، پردازش بر روی نقطه بعدی انجام میشود؛ بنابراین، (X1, Y1) = (X0, Y0)، (X2, Y2) = (X1, Y1) و (X3, Y3) = (X2, Y2) خواهد بود و این عمل ادامه پیدا میکند تا نقطه بحرانی (XC1, YC1) پیدا شود. پردازش در هر لحظه روی سه نقطه انجام میشود. شکل 9، سهنقطه بحرانی E، F و M را که با استفاده از این روش پیداشدهاند نشان میدهد. تانژانتهای معکوس خطوط مابین نقاط A با E، E با F و F با M به ترتیب اولین، دومین و سومین مؤلفه از بردار ویژگی ورودی (IFV) هستند؛ بنابراین بردار ویژگی برای این خط سیر بهصورت زیر خواهد بود:
IFV= {θ1, θ2, θ3}
برای محدود کردن تعداد زاویهها، میتوان از کوانتایزر2یا تقریب کننده استفاده کرد ]8[. سادهترین روش تقریب، تقسیم کردن کل زاویه 0 تا 360 درجه به قسمتهای مساوی و اختصاص یک برچسب برای هریک از نواحی است. یک مثال نمونه از تقریب زاویه در شکل 10 نشان دادهشده است. در این شکل ناحیه 360 درجه به قسمتهای 30 درجه تقسیمشده است؛ و برای هریک از نواحی و همچنین محورهای افقی و عمودی برچسبهای 1 تا 16 استفاده گردیده است. استفاده از بلوک تقریب کننده باعث میشود که بردار با مؤلفههای زاویهای به بردار با مؤلفههای عددی محدود تبدیل شوند. شکل 11 بردار ویژگی که با روش SVD برای رقم 5 به دست میآید را نشان میدهد. زاویه نرمال از تقسیم کردن مؤلفههای زاویهای بردار ویژگی به 360 درجه به دست میآید. بردار ویژگی که با روش SVD به دست میآید، بهصورت کامل به اندازه و انتقال خط سیر مقاوم است. این در حالی است که به چرخش خط سیر فقط تا 30 درجه مقاوم است. ارزیابی ریاضی نشان میدهد که برای مقاوم بودن به 360 درجه، کافی است که مؤلفههای مجاور بردار ویژگی مطابق با رابطه (5) از هم دیگر تفریق گردند. در اینجا 0 ≤ j <L است و L طول بردار IFV است. مقاوم بودن روش SVD با رابطه (5) در قالب یک مثال در شکل 12 نشان دادهشده است. در اینجا، بردار ویژگی IFVD6 یک نسخه
_____________________________
1.Slope Variations Detection
49 |
اصلاحی از IFV6 است که مستقل از چرخش خط سیر خواهد بود. شکل 13 استقلال بردار ویژگی را از اندازه، انتقال و چرخش خط سیر نشان میدهد.در این شکل با توجه به تغییرات اندازه خط سیر، تغییرات محل شروع خط سیر و همچنین چرخش خط سیر همواره بردار ویژگی بهصورت ذیل است:
IFV2= {12, 9, 7, 14}
شکل 7- مقایسه روش زنجیره کد با روش SVD پیشنهادی، الف) سطوح کوانتیزه برای تعیین برچسب خط، ب) روش تعیین زاویه خط دونقطه مجاور نسبت به افق، ج) استفاده از روش زنجیره کد برای تعیین ویژگی برای خط سیر نمونه، د) تعیین بردار ویژگی برای خط سیر نمونه با استفاده از روش پیشنهادی SVD
شکل 8- خطوط گذرنده از نقاط مجاور نقطه فرضی برای تعیین نقطه بحرانی در روی خط سیر.
شکل 9- سهنقطه بحرانی پیداشده روی خط سیر با روش SVD.
شکل 10- تقریب سازی 30 درجهای.
50 |
50 |
شکل 12- مقاوم بودن بردار ویژگی اصلاحی IFVD6 در چرخشهای 90 و 180 درجهای در جهت عقربههای ساعت برای رقم شش.
شکل 13- مقاوم بودن بردار ویژگی به اندازه، انتقال و چرخش خط سیر، الف) خط سیر اصلی رقم 2 ب) خطوط بحرانی و تغییر اندازه خط سیر، ج) تغییر محل خط سیر ( انتقال)، د) چرخش خط سیر.
4-3- دستهبند HMM
مدل مارکوف مخفی (HMM) یک مدل ریاضی برای فرآیندهای استاتیکی است. HMM توسط پارامترهای زیر نشان داده میشود]9[.
· سری حالتها S= {s1, s2,…, sN} که در آن N تعداد کل حالتها است.
· احتمال اولیه πi برای هر حالت که i=0,1,…,N است و (πi =P(si
·
51 |
· سری انتشار (مشاهده) O= {o1,o2, …, oT} که T طول مسیر ژست است.
· سری نمادهای گسسته V= {v1, v2, …., vM} که M تعداد نمادهای گسسته را بیان میکند.
· ماتریس مشاهده N در M،} B={ bim که bim احتمال انتشار نماد vm از حالت si است. جمع ورودیها در هر ردیف ماتریس B برابر با یک است.
برای HMM سه نوع توپولوژی تعریفشده است.
1. ارگودیگ: هر حالت به هر حالت دلخواهی میتواند وصل شود.
2. مدل چپ به راست: هر حالت میتواند به خودش و یا به حالتهای مستقیم وصل شود.
3. مدل چپ به راست محدود: هر حالت میتواند به خودش و یا به حالت بعدی خود وصل شوند.
برای ساخت بلوک دستهبند برای هر رقم، باید تعداد حالتها و تعداد نمادهای گسسته مشخص شوند. بقیه پارامترها یعنی ماتریس گذر A، ماتریس احتمال اولیه π و ماتریس مشاهده B از طریق آموزش با استفاده از نمونههای آموزشی به دست میآیند. انتخاب تعداد حالتها برای بلوکهای HMM موضوعی چالشی است که هنوز جوابی قطعی برای آن ارائه نشده است. در کار حاضر، حالتها از روی بیشینه خطوط بحرانی هریک از ارقام مشخصشدهاند. بیشینه خطوط بحرانی برای کلیه ارقام فارسی از روی نمونههای آموزشی مشخص میگردند. تعداد نمادهای گسسته برابر دامنه تغییرات مشاهدات هستند. درکار حاضر، چون از روش SVD برای استخراج بردار ویژگی استفاده میگردد؛ بنابراین، تعداد نمادهای گسسته 16 (1 تا 16) نماد با تقریب 30 درجه خواهد بود. توپولوژی HMM برای رقم فارسی دو در شکل 14 نشان دادهشده است. چنانچه از این شکل دیده میشود تعداد حالتها 8 و تعداد نمادها 16 هستند و توپولوژی از نوع چپ به راست محدود است. در اینجا، برای پیدا کردن پارامترهای A، B و π از الگوریتم آموزش باوم– ولش روی نمونه های آموزشی استفادهشده است ]9[.
فرآیند کلی کار برای به دست آوردن کلاس بردار ویژگی، بهصورت ذیل است:
1. آموزش هریک از بلوکهای دستهبند هر رقم از روی نمونههای آموزشی جمعآوریشده برای آن کلاس از روی الگوریتم باوم- ولش.
2. به دست آوردن بیشینه احتمال کلاسها برای بردار مشاهده از روی ضرایب پیشرو یا پسرو.
3. انتخاب کلاسی که بالاترین احتمال را برای بردار مشاهده نشان میدهد.
52 |
(6) C_IFV[i]= (sum×3+1) +3×i+com9[i]+(IFV[i]-1) ×165
شکل 14- مدل مارکوف مخفی الف) خطوط بحرانی رقم فارسی 2، ب) توپولوژی HMM برای رقم فارسی 2.
53 |
شکل 15- جدول کد کردن مؤلفه بردار ویژه با مقدار 1.
4- نتایج عملی
53 |
جدول 1- مقایسه دقت تشخیص متوسط HMM با بردار ویژگی کد شده و کد نشده.
نوع کلاسبندی | دقت | مدتزمان آموزش | مدتزمان تشخیص |
HMM with SVD | 68 | 5.3 s | 20 ms |
HMM with Coded SVD | 98 | 4.5 s | 62 ms |
جدول 2- مقایسه سامانه پیشنهادی با نتایج چندین کار مشابه گزارششده.
روش | اعتبارسنجی متقابل دو برابری | اعتبارسنجی متقابل 10 برابری |
Kane and Khanna [10] | - | 95.5
|
Feng [11] | 86 | 100 |
Stern [4] | - | 92.6 |
Proposed approach | 92 | 98 |
54 |
شکل16- فریمهایی از نوشتار هوایی رقم 3.
5- نتیجهگیری
54 |
خط سیر از روی بردار ویژگی از دستهبند HMM استفاده
گردید. دقت تشخیص متوسط در HMM به خاطر تداخل بین برداری نمونههای آموزشی بسیار پایین است؛ بنابراین،
برای افزایش آن از کدینگ برداری روی نمونهها استفاده شد. نتایج عملی نشان میدهند که دقت تشخیص متوسط سامانه
منابع 1. Mitra, S., Acharya, T. 2007. Gesture recognition: a survey. IEEE Trans Syst Man Cybern (SMC)Part C Appl Rev 37(3), pp:311–324. 2. Karam, M. 2006. A framework for research and design of gesture-based human computer interactions. PhD Thesis, University of Southampton. 3. Stefan, A., Athitsos, V., Alon, J., Sclaroff, S. 2008. Translation and scale invariant gesture recognition in complex scenes. in Proc. 1st ACM Int. Conf. PErvasive Technol. Related Assist. Environ., Art. no. 7. 4. Stern, H., Shmueli, M., Berman, S. 2013. Most discriminating segment Longest common subsequence (MDSLCS) algorithm for dynamic hand gesture classification. Pattern Recognit. Lett., vol. 34, no. 15, pp:1980–1989. 5. Elmezain, M., AlHamadi, A., Michaelis, B. 2009. Hand trajectory-based gesture spotting and recognition using HMM. In using HMM. In Proc. 16th IEEE Int.Conf. Image Process., pp: 3577–3580. 6. Doliotis, P., Stefan, A., McMurrough, C., Eckhard, D., Athitsos, V. 2011. Comparing gesture recognition accuracy using color and depth information. in Proc. 4th ACM Int. Conf. Pervasive Technol. Related Assist. Environ., Art. no. 20.
|
پیشنهادی 98 درصد است. سامانه پیشنهادی با نتایج چندین کار گزارششده مقایسه گردید و نتایج مقایسه نشان دادند که سامانه پیشنهادی عملکرد بهتری دارد. کارهای آینده ما روی تشخیص حروف، اعداد و کلمات فارسی با استفاده از حسگرهای سهبعدی جدید و ارزان متمرکز خواهد بود.
7. Mackay, D. 2003. Information Theory, Inference and Learning Algorithms. Cambridge University Press. pp. 284–292. ISBN 0-52 64298-1.MR 2012999. 8. Liu, N., Lovell, B. C., Kootsookos, P. J. 2003. Evaluation of HMM training algorithms for letter hand gesture recognition. Proceedings of the 3rd IEEE International Symposium on Signal Processing and Information Technology. 9. Rabiner, LR. 1989. A Tutorial on Hidden Markov Models and Selected Application in Speech Recognition. Proc. of the IEEE, Vol.77, No.2, pp:257—286 10. Kane, L., Khanna, P. 2017. Vision-Based Mid-Air Unistroke Character Input Using Polar Signatures. IEEE TRANSACTIONS ON HUMAN-MACHINE SYSTEMS. 11.Based Mid-Air Unistroke Character Input Using Polar Signatures. IEEE TRANSACTIONS ON HUMAN-MACHINE SYSTEMS. 11. Feng, Z., Xu, S., Zhang, X., Jin, L., Ye, Z. 2012. Real-time Fingertip Tracking and Detection using Kinect Depth Sensor for a New Writing-in-the Air System. The 4th International Conference on Internet Multimedia Computing and Service (ICIMCS), China. 12. Elmezain, M., Alhamadi, A., Appenrodt, J., Michaelis, B. 2008. A Hidden Markov Model-Based Isolated and Meaningful Hand Gesture Recognition. PROCEEDINGS OF WORLD ACADEMY OF SCIENCE, ENGINEERING AND TECHNOLOGY. 13. Liu, N., Lovell, B. C., Kootsookos, P. J. 2003. Evaluation of HMM training algorithms for letter hand gesture recognition. Proceedings of the 3rd IEEE International Symposium on Signal Processing and Information Technology. 14. Liu, F., Du, B., Wang, Q., Wang, Y., Zeng, W. 2017. Hand Gesture Recognition Using via Deterministic Learning. 29th Chinese Control and Decision Conference (CCDC) 15. رضایی و ذهابی، 1389، اندازهگیری الکترونیکی، انتشارات دانش نگار، تهران
|
55
|
Hidden Markov Model-Based Isolated and Meaningful Hand Gesture Recognition. PROCEEDINGS OF WORLD ACADEMY OF SCIENCE, ENGINEERING AND TECHNOLOGY.
13. Liu, N., Lovell, B. C., Kootsookos, P. J. 2003. Evaluation of HMM training algorithms for letter hand gesture recognition. Proceedings of the 3rd IEEE
International Symposium on Signal Processing and Information Technology.
14. Liu, F., Du, B., Wang, Q., Wang, Y., Zeng, W. 2017. Hand Gesture Recognition Using via Deterministic Learning. 29th Chinese Control and Decision Conference (CCDC)
15. رضایی و ذهابی، 1389، اندازهگیری الکترونیکی، انتشارات دانش نگار، تهران
56
|