تشخیص درب مبتنی بر بینایی ماشین در صحنههای بیرونی
الموضوعات :عباس وفایی 1 , مهدی طالبی 2 , سید امیرحسن منجمی 3
1 - دانشگاه اصفهان
2 - داشجوی دکتری
3 - -
الکلمات المفتاحية: بینایی کامپیوتر, تشخیص درب, استخراج خطوط, رنگ, بافت,
ملخص المقالة :
دربها نشانهی مهمی جهت ورود و خروج از ساختمان برای افراد نابینا و رباتها میباشند. تشخیص درب در محیطهای بیرونی به یکی از مسایل دشوار در بینایی کامپیوتر تبدیل شده است؛ زیرا معمولا̎ در دربهای محیطهای بیرونی، ویژگیهای یک درب ساده مانند دستگیره، گوشهها و فضای خالی بین درب و زمین آشکار نیستند. در این مقاله، روشی برای تشخیص درب در محیطهای بیرونی ارائه می شود. پس از استخراج خطوط و حذف خطوط اضافی، ناحیه ی بین خطوط عمودی تشکیل میشود و ویژگیهای هر ناحیه شامل ارتفاع، عرض، محل، رنگ، بافت و تعداد خطوط داخل ناحیه استخراج می گردند. سپس از دانش اضافی مانند وجود درب در پایین تصویر، ارتفاع و عرض معقول درب و اختلاف رنگ و بافت درب با ناحیهی اطراف، برای تصمیمگیری وجود درب استفاده می شود. این روش بر روی مجموعه تصاویر eTRIMS و مجموعه تصاویر خودمان شامل دربهای منازل، آپارتمانها و فروشگاهها امتحان شده است و نتایج ارائهشده، برتری روش پیشنهادی نسبت به روشهای پیشین را نشان میدهد.
1. R. Szeliski, Computer Vision: Algorithms and Applications, Springer, London, 2011.
2. D. Anguelov, D. Koller, E. Parker, and S. Thrun, “Detecting and Modeling Doors with Mobile Robots,” Proc. Int. Conf. on Robotics and Automation, USA, pp. 3777-3784, 2004.
3. Z. Chen, Y. Li, and S.T. Birchfield, “Visual Detection of Lintel-Occluded Doors by Integrating Multiple Cues Using Data-Driven Markov Chain Monte Carlo Process,” Robotics and Autonomous Systems, Vol. 59, No. 11, pp. 966-976, 2011.
4. J. Hensler, M. Blaich, and O. Bittel, “Real-Time Door Detection Based on Adaboost Learning Algorithm,” Proc. Int. Conf. on Research and Education in Robotics, France, pp. 61-73, 2009.
5. A.C. Murillo, J. Kosecka, J.J. Guerrero, and C. Sagues, “Visual Door Detection Integrating Appearance and Shape Cues,” Robotics and Autonomous Systems, Vol. 56, No. 6, pp. 512-521, 2008.
6. R. Sekkal, F. Pasteau, M. Babel, B. Brun, and I. Leplumey, “Simple Monocular Door Detection and Tracking,” Proc. Int. Conf. on Image Processing, Australia, pp. 3929-3933, 2013.
7. J. Liu, T. Korah, V. Hedau, V. Parameswaran, R. Grzeszczuk, and Y. Liu, “Entrance Detection from Street-View Images,” Proc. Int. Conf. on Computer Vision and Pattern Recognition Workshop (CVPR), USA, 2014.
8. S.J. Kang, H.H. Trinh, D.N. Kim, and K.H. Jo, “Entrance Detection of Buildings Using Multiple Cues,” Proc. Int. Conf. on Intelligent Information and Database Systems, Vietnam, pp. 251-260, 2010.
9. O. Teboul, I. Kokkinos, L. Simon, P.
Koutsourakis, and N. Paragios, “ShapeGrammar Parsing via Reinforcement Learning,” Proc. Int. Conf. on Computer Vision and Pattern Recognition (CVPR), USA, pp. 2273-2280, 2011.
10. H. Riemenschneider, U. Krispel, W. Thaller, M. Donoser, S. Havemann, D. Fellner, and H. Bischof, “Irregular Lattices for Complex
Shape Grammar Facade Parsing,” Proc. Int. Conf. on Computer Vision and Pattern Recognition (CVPR), USA, pp. 1640-1647, 2012.
11.M. Mathias, A. Martinovic, and L. Van Gool,“ATLAS: A Three-Layered Approach to Facade Parsing,” Int. Journal of Computer Vision (IJCV), Vol. 118, No. 1, pp. 22-48, 2016.
12.A. Cohen, A.G. Schwing, and M. Pollefeys, “Efficient Structured Parsing of Facades Using Dynamic Programming,” Proc. Int. Conf. on Computer Vision and Pattern Recognition (CVPR), USA, pp. 3206-3213, 2014.
13. R. Gadde, R. Marlet, and N. Paragios, “Learning
Grammars for Architecture-Specific Façade
Parsing,” Int. Journal of Computer Vision (IJCV), Vol. 117, No. 3, pp. 290-316, 2016. 14.C. Zhou and C. Liu, “Semantic Image
Segmentation using Low-Level Features and Contextual Cues,” Computers and Electrical Engineering, Vol. 40, pp. 844-857, 2014.
15. S. Gould and X. He, “Scene Understanding by Labeling Pixels,” Communications of the ACM, Vol. 57, No. 11, pp. 68-77, 2014.
16. J. Xiao, T. Fang, P. Zhao, M. Lhuillier, and L. Quan, “Image-based Street-side City Modeling,” ACM Transactions on Graphics, Vol. 28, No. 5, 2009.
17.B. Shuai, Z. Zuo, G. Wang, and B. Wang, “Scene Parsing with Integration of Parametric and Non-parametric Models,” IEEE Trans. on Image Processing, Vol. 25, No. 5, pp. 2379-2391, 2016.
18. P.F. Felzenszwalb and D.P. Huttenlocher, “Efficient Graph-Based Image Segmentation,” Int. Journal of Computer Vision (IJCV), Vol. 59, No. 2, pp. 167-181, 2004.
19. J. Tighe and S. Lazebnik, “Superparsing: Scalable Nonparametric Image Parsing with Superpixels,” Int. Journal of Computer Vision (IJCV), Vol. 101, No. 2, pp. 329-349, 2013.
20. C. Liu, J. Yuen, and A. Torralba, “Nonparametric Scene Parsing via Label Transfer,” IEEE Trans. on Pattern Analysis and Machine Intelligence (PAMI), Vol. 33, No. 12, pp. 2368-2382, 2011.
21. P. Razzaghi and S. Samavi, “A New Fast Approach to Nonparametric Scene Parsing,” Pattern Recognition Letters, Vol. 42, pp. 56-64, 2014.
22. M. Najafi, S. Taghavi Namin, M. Salzmann, and L. Petersson, “Sample and Filter: Nonparametric Scene Parsing via Efficient Filtering, Proc. Int. Conf. on Computer Vision and Pattern Recognition (CVPR), USA, pp. 607-615, 2016.
23. R.G. Von Gioi, J. Jakubowicz, J.M. Morel, and G. Randall, “LSD: A Fast Line Segment Detector with a False Detection Control,” IEEE Trans. on Pattern Analysis and Machine Intelligence (PAMI), Vol. 32, No. 4, pp. 722-732, 2010.
24. F. Korc and W. Forstner, “eTRIMS Image Database for Interpreting Images of Man-Made Scenes,” Technical Report, University of Bonn, 2009.
25.R.G. Von Gioi, J. Jakubowicz, J.M. Morel, and G. Randall, “LSD: a Line Segment Detector,” Image Processing On Line, Vol. 2, pp. 35-55, 2012.
26.T. Leung and J. Malik, “Representing and Recognizing the Visual Appearance of Materials using Three-dimensional Textons,” Int. Journal of Computer Vision (IJCV), Vol. 43, No. 1, pp. 29-44, 2001.
27. A.K. Jain and F. Farrokhnia, “Unsupervised Texture Segmentation using Gabor Filters,” Pattern Recognition, Vol. 24,
No. 12, pp. 1167-1186, 1991.Code available:
28. A.K. Jain and F. Farrokhnia, “Unsupervised Texture Segmentation using Gabor Filters,” Pattern Recognition, Vol. 24, No. 12, pp. 1167-1186, 1991.Code available: http://note.sonots.com/SciSoftware.html
29. D. Hoiem, A.A. Efros, and M. Hebert, “Recovering Surface Layout from an Image,” Int. Journal of Computer Vision (IJCV), Vol. 75, No. 1, pp. 151-172, 2007.
29. S. Bu, P. Han, Z. Liu, and J. Han, “Scene Parsing using Inference Embedded Deep Networks,” Pattern Recognition, Vol. 59, pp. 188-198, 2016.
30. Y. Guo, Y. Liu, A. Oerlemans, S. Lao, S. Wu, and M . S . Lew , “Deep Learning for Visual Understanding: A Review,” Neurocomputing, Vol. 187. 27-48, 2016.
31. E. Shelhamer, J. Long, and T. Darrell, “Fully Convolutional Networks for Semantic Segmentation,” IEEE Trans. on Pattern Analysis and Machine Intelligence (PAMI), Vol. 39, No. 4, pp. 640-651, 2017.
مهناز نژادعلی و .......... فصلنامه فناوری اطلاعات و ارتباطات ایران، سال هفتم، شمارههای 25و26، پاییز و زمستان 1394
فصلنامه علمي- پژوهشي فناوري اطلاعات و ارتباطات ایران | سال هشتم، شمارههاي 29 و 30، پاییز و زمستان 1395 صص: 71- 82 |
|
تشخیص درب مبتنی بر بینایی ماشین در صحنههای بیرونی
*مهدی طالبی **عباس وفایی *** امیرحسن منجمی
* دانشجوی دکتری، دانشکدهی مهندسی کامپیوتر، دانشگاه اصفهان، اصفهان ** دانشیار، دانشکدهی مهندسی کامپیوتر، دانشگاه اصفهان، اصفهان *** دانشیار، دانشکدهی مهندسی کامپیوتر، دانشگاه اصفهان، اصفهان تاریخ دریافت:10/02/96 تاریخ پذیرش: 06/07/96
چکیده
دربها نشانهی مهمی جهت ورود و خروج از ساختمان برای افراد نابینا و رباتها میباشند. تشخیص درب در محیطهای بیرونی به یکی از مسایل دشوار در بینایی کامپیوتر تبدیل شده است؛ زیرا معمولا̎ در دربهای محیطهای بیرونی، ویژگیهای یک درب ساده مانند دستگیره، گوشهها و فضای خالی بین درب و زمین آشکار نیستند. در این مقاله، روشی برای تشخیص درب در محیطهای بیرونی ارائه میشود. پس از استخراج خطوط و حذف خطوط اضافی، ناحیهی بین خطوط عمودی تشکیل میشود و ویژگیهای هر ناحیه شامل ارتفاع، عرض، محل، رنگ، بافت و تعداد خطوط داخل ناحیه استخراج میگردند. سپس از دانش اضافی مانند وجود درب در پایین تصویر، ارتفاع و عرض معقول درب و اختلاف رنگ و بافت درب با ناحیهی اطراف، برای تصمیمگیری وجود درب استفاده میشود. این روش بر روی مجموعه تصاویر eTRIMS و مجموعه تصاویر خودمان شامل دربهای منازل، آپارتمانها و فروشگاهها امتحان شده است و نتایج ارائهشده، برتری روش پیشنهادی نسبت به روشهای پیشین را نشان میدهد.
واژههای کلیدی: بینایی کامپیوتر، تشخیص درب، استخراج خطوط، رنگ، بافت
1.مقدمه
تشخیص درب در محیطهای بیرونی به دلیل وجود انواع مختلف دربها، شلوغی، سایهها و اختفا یکی از موضوعات پیچیده میباشد. در میان هزاران اشیای مختلف که هنوز سیستمی به اندازهی یک کودک دو ساله قادر به شناخت اشیا نیست [1]، درب یکی از اشیای مهم است که در مسیریابی رباتها و افراد نابینا میتواند نقش مهمی ایفا کند. همچنان که ابزار مجهز به جیپیاس1 میتوانند
فرد نابینا، ربات و یا ماشین را تا نزدیک مقصد راهنمایی کنند تشخیص درب میتواند برای ورود به مکان مورد نظر بسیار مفید باشد. همچنین در مدلسازی سهبعدی شهری برای برنامهی گوگلارث2 ،تشخیص نمای ساختمان و اجزای آن شامل درب، جزء گامهای ضروری است.
در دههی اخیر کارهای زیادی روی تشخیص درب در محیطهای درونی برای حل مسألهی مکانیابی و نقشهبرداری همزمان3 انجام شده است که میتوان به سه دسته تقسیم کرد:
نویسنده عهددار مکاتبات: مهدی طالبی mtalebi@eng.ui.ac.ir |
این حسگرها به ظاهر و رفتار شی مثلاً رنگ و حرکت درب،
حساس هستند.
2. تشخیص درب با استفاده از اطلاعات بصری تصویر [5 ,4 ,3]:
این مقالهها خصیصههای درب شامل اختلاف رنگی درب و
اطراف آن، عدم وجود بافت4 در قسمت پایین درب، خطوط
عمودی و افقی درب، دستگیرهی درب، نقاط محو5، فاصلهی
خالی پایین بین درب و زمین را در نظر میگیرند. سپس با
استفاده از الگوریتم آدابوست6 همهی خصیصههای درب
ترکیب میشوند تا دستهبند قوی درب به دست آید و
تصمیمگیری شود که درب پیدا شده است یا خیر.
3. تشخیص درب با استفاده از ترکیب حسگر و دوربین [6]:
در این کار از حسگر مبتنی بر لیزر به همراه استخراج
خصیصههای تصویر برای بالا بردن دقت تشخیص درب
استفاده شده است.
به هر حال در نتایج این کارها گزارش شده است که رباتها به صورت برخط با دقت بالای 90 درصد میتوانند دربها را تشخیص دهند که البته این دقت برای دربهای سادهی داخل راهرو به دست آمده است.
با وجود توجه بسیار به تشخیص درب در محیطهای درونی، دقت تشخیص درب در محیطهای بیرونی به دلیل پیچیدگی آن، بسیار کم است. در بعضی از الگوریتمها، از توزیع لبهها و استخراج خصیصههای تصویر برای تشخیص درب استفاده میشود که مجموعه تصاویر آنها بسیار خاص و محدود میباشند [۸ ,۷]. در کارهای دیگر، تشخیص درب بر روی مجموعه تصاویر نمای ساختمان7 مانند ECP20118 با 104 تصویر [9] و یا Graz2012 با 50 تصویر [10] انجام میگیرد. روشهای موجود برای تجزیه نمای ساختمان به صورت روشهای قطعهبندی9 معمولی [12 ,11] و یا
روشهای تشخیص مبتنی بر گرامر [13] میباشند. به هر حال در این مجموعه تصاویر نمای ساختمان، عناصر ساختمان مانند درب و دیوار و پنجره و بالکن با نظم خاصی قرار گرفتهاند و از این محدودیت برای تشخیص استفاده میشود.
در بسیاری از مقالهها، تشخیص درب به همراه اشیای دیگر به صورت تجزیه تصویر10 انجام میشود. منظور از تجزیه تصویر این است که برای هر پیکسل تصویر، برچسب معنایی مانند ساختمان، درب، زمین، آسمان و ... مشخص میشود. روشهای تجزیه تصویر و یا قطعهبندی معنایی به دو صورت پارامتریک و غیرپارامتریک انجام میشوند. روشهای پارامتریک مبتنی بر یادگیری هستند که پارامترهای مدل در فاز آموزش تخمین زده میشوند [17-14]. در این کارها، ابتدا تصاویر آموزشی به ناحیههایی از پیکسلهای پیوسته مشابه به نام ابرپیکسل11 تقسیم میگردند [18] و پس از تعیین خصیصههای این ابرپیکسلها، از روشهای یادگیری ماشینی مانند ماشینهای بردار پشتیبان12 استفاده میشوند تا بتوان تصاویر تست را برچسبگذاری کرد. از معایب این روش آن است که برای تصاویر جدید آموزشی، دوباره باید یادگیری و تخمین پارامترها انجام شود که بسیار وقتگیر است. به هر حال، برای مجموعه تصاویر کوچک با دهها برچسب، روشهای پارامتریک دقت تشخیص بالایی دارند. در روش غیر پارامتریک تجزیه تصویر، دانش تصاویر آموزشی برچسبگذاریشده به تصاویر تست منتقل میشود [22-19]. این روش برای مجموعه تصاویر زیاد با صدها برچسب، دقت تشخیص قابل مقایسه با روش پارامتریک را دارد در حالی که پیچیدگیهای یادگیری را ندارد. به هر حال تجزیه تصویر بسیار پیچیده است و علاوه بر آن، چون چندین شیء با هم تشخیص داده میشوند دقت تشخیص درب پایین است در صورتی که درب بسیار مهمتر از اشیای دیگر مانند آسمان، بالکن یا پنجره میباشد.
هدف ما در این مقاله، تشخیص درب در محیطهای بیرونی است که مراحل تشخیص آن در شکل 1 نشان داده شده است. در این روش ابتدا خطوط تصویر با الگوریتم LSD13 [23] استخراج میگردند (شکل1.ب). سپس خطوط مورب و بسیار کوتاه یا بلند حذف میشوند (شکل1.ج). پس از آن فقط خطوط عمودی در نظر گرفته میشوند (شکل1.د) و بین این خطوط عمودی آن خطوطی که پایینتر هستند و میتوانند ناحیههای کاندید درب را تشکیل دهند انتخاب میگردند (شکل1.ه). آنگاه ناحیههایی بین هر دو خط عمودی تشکیل میشوند و ویژگیهای هر ناحیه استخراج میگردند: مختصات خط عمودی راست و چپ ناحیه، رنگ، بافت و تعداد خطوط عمودی و افقی داخل ناحیه. در آخر با استفاده از این ویژگیها، تصمیمگیری میشود که کدام ناحیه میتواند درب باشد (شکل1.و). به هر حال در محیطهای بیرونی معمولا̎ رنگ و بافت درب با ناحیه اطراف متفاوت است. همچنین مکانهای درب در پایین تصویر و تعداد خطوط روی درب بیشتر از جاهای دیگر مانند درخت و ماشین است. مجموعه تصاویری از دربهای خانهها، آپارتمانها و فروشگاهها تهیه شده است که الگوریتم ما با دقت 4/88 درصد درب و یا بخشی از آن را مشخص میکند ضمن اینکه برای مجموعه تصاویر eTRIMS14 [24] دقت تشخیص 3/78 درصد به دست آمده است.
این مقاله به صورت زیر سازماندهی شده است: در بخش 2 جزئیات روش و الگوریتم تشخیص درب توضیح داده میشود و سپس در بخش 3 نتایج بررسی میگردند. در بخش 4 هم به نتیجهگیری و کارهای آینده پرداخته میشود.
2.روش پیشنهادی
در این قسمت، مراحل تشخیص درب از یک تصویر محیط بیرونی شرح داده میشود که بلوک دیاگرام آن در شکل 2 نشان داده شده است.
|
شکل 1: مراحل تشخیص درب در محیط بیرونی. (الف) تصویر ورودی، (ب) خطوط استخراجشده، (ج) تصویر و خطوط عمودی و افقی، (د) تصویر و خطوط عمودی، (ه) تصویر و خطوط عمودی کاندید ناحیه درب، (و) تصویر خروجی و قسمتی از درب تشخیصدادهشده
1-2-استخراج خطوط
خطوط میتوانند نقش مؤثری در شناسایی اشیای ساخته بشری مانند ساختمان و اجزای آن شامل درب و پنجره ایفا کنند. در ابتدا تصویر رنگی به خاکستری تبدیل میشود زیرا بر خلاف تصاویر رنگی که از چند کانال استفاده میکنند تصاویر خاکستری با یک کانال، باعث پردازش سریعتر میشوند و همچنین در بعضی مسائل مانند استخراج خطوط نیازی به رنگ تصویر نیست و شدت روشنایی تصویر کفایت میکند. در اینجا از الگوریتم تشخیص قطعه خط (LSD) [25] استفاده میشود که یک تصویر خاکستری را به عنوان ورودی میگیرد و در سه مرحله مطابق شکل ۳ خطوط
تصویر را استخراج میکند (شکل 1.ب).
۱. تصویر را با گروهبندی پیکسلهای دارای شیب یکسان، به
ناحیههای پشتیبان خط تقسیم میکند (شکل ۳.الف).
2. قطعه خط مستطیلی شکلی را می یابد که بهتر، ناحیه پشتیبان خط در مرحلهی ۱ را تقریب میزند (شکل ۳.ب).
۳. بر اساس تعداد پیکسلها و تعداد نقاط همراستا در ناحیه مستطیل شکل، بررسی میکند که آیا این ناحیه میتواند تشکیل یک خط دهد یا خیر (شکل ۳.ج).
فرض ما بر این است که تصاویر از دوربین در راستای افق به دست میآیند که معمولا̎ تصاویر هم در واقعیت و هم در مجموعه تصاویر به این صورت هستند. بنابراین فقط خطوط تصویر با 15 درجهی اختلاف با خط عمود و افق به عنوان خطوط عمودی و افقی در نظر گرفته شدهاند. سپس به دلیل تعداد زیاد خطوط و برای پردازش سریعتر، خطوط بسیار کوتاه و بلند در مقایسه با میانگین طول خطوط حذف شدهاند. همچنین از چند خط موازی بسیار نزدیک به هم فقط بلندترین آنها نگه داشته شدهاند(شکل 1.ج).
2-2- تعیین خطوط عمودی کاندید ناحیه درب
خطوط عمودی برای پردازش و تعیین ناحیه درب در نظر گرفته شدهاند (شکل 1.د) و در مراحل بعد، از خطوط افقی برای تصمیمگیری وجود درب استفاده شده است. سپس با استفاده از الگوریتم خوشهبندی15k-means ، این خطوط عمودی بر اساس مختصات پایینترین نقطه به چند ناحیه از خطوط عمودی موازی که در یک ردیف باشند تقسیم
شدهاند. چون در مجموعه تصاویر، درب در پایین تصویر وجود دارد خطوط عمودی پایینترین ناحیه برای پردازش در نظر گرفته شدهاند. البته اگر در موارد خاص تعداد خطوط ناحیه پایین و میانگین طولی این خطوط، کمتر از یکچهارم ناحیه بالاتر باشد ناحیه بالاتری برای وجود درب در نظر گرفته شده است. به عنوان مثال در شکل (1.د) خطوط عمودی ردیف پایین روی بلوار، درخت و تاکسی حذف و خطوط ردیف بالاتر در شکل (1.ه) برای تشکیل ناحیه در نظر گرفته شده است.
شکل 2: بلوک دیاگرام روش پیشنهادی تشخیص درب
(الف) تصویر ورودی و تشکیل ناحیههای پشتیبان خط
(ب) تقریب مستطیلی ناحیه پشتیبان خط
(ج) بررسی نقاط همراستا
شکل ۳: سه مرحلهی الگوریتم LSD ]25]
2-3- تشکیل ناحیه بین خطوط عمودی
چون در صحنههای بیرونی انواع دربها با اندازههای مختلف وجود دارند و شاید تصویر از نمای دور گرفته شده باشد و یا قسمتی از درب مثلاً توسط ماشین مخفی شده باشد هر ناحیه کوچک یا بزرگی میتواند یک درب باشد. بنابراین هر خط عمود با هر یک از خطوط دیگر و انتهای راست و چپ تصویر تشکیل یک ناحیه میدهد. برای مثال، مطابق رابطهی (1) جهت تعیین تعداد ناحیهها، برای دو خط عمود در شکل ۴ تعداد ۵ ناحیه ایجاد میگردد.
(۱) تعداد ناحیهها
که n تعداد خطوط عمودی است.
2-4- تعیین ویژگیهای هر ناحیه
در این بخش، ویژگیهای هر ناحیه مطابق جدول 1 استخراج میگردند.
شکل 4: پنج ناحیه ایجاد شده برای دو خط عمودی
مختصات نقطهی ابتدایی و انتهایی خط عمودی راست و چپ |
رنگ: میانگین مقادیر HSV : C(1:3) هیستوگرام hue در 5 قسمت: C(4:8) هیستوگرام saturation در 3 قسمت: C(9:11) |
بافت: ( با استفاده از بانک فیلتر لییانگ و مالیک19 (LM) ) میانگین پاسخ فیلتر برای هر یک از 15 فیلتر: T(1:15) هیستوگرام پاسخ بیشینه در 15 قسمت: T(16:30) |
تعداد خطوط عمودی و افقی هر ناحیه |
2-4-1- مختصات خطوط عمودی راست و چپ ناحیه
برای هر ناحیه، مختصات نقطهی ابتدایی و انتهایی هر یک از دو خط عمودی راست و چپ در نظر گرفته میشود.
2-4-2- رنگ
معمولا̎ رنگ درب با رنگ اطراف درب مثل دیوار متفاوت میباشد. در اینجا از فضای رنگی HSV16 استفاده میشود زیرا بر خلاف فضای رنگی 17RGB، سطح خاکستری تصویر و اطلاعات رنگی را جدا میکند و به علت توانایی آن در قبال تغییرات نور، در کاربردهای بینایی کامپیوتر بسیار مفید است. بنابراین برای هر ناحیه، میانگین مقادیر HSV، هیستوگرام hue در پنج قسمت18 و هیستوگرام saturation در سه قسمت مشخص میگردد.
2-4-3- بافت
بافت درب هم مانند رنگ معمولا̎ با بافت اطراف درب متفاوت است. در اینجا از قسمتی از بانک فیلتر طراحیشده به وسیلهی لییانگ و مالیک19 ((LM استفاده میشود [26]. برای کاهش زمان پردازش ضمن افزایش دقت تشخیص درب، فقط تعدادی از فیلترها با پارامترهای زیر انتخاب میگردند: ساختار 19×19 پیکسلی با مقیاس و 6 جهت. در کل 15 فیلتر شامل فیلترهای با 6 لبه، 6 میله20، 1 گاسین و 2 لاپلاسین فیلتر گاسین21 وجود دارد. سپس برای هر ناحیه، میانگین پاسخ فیلتر برای هر یک از 15 فیلتر و هیستوگرام پاسخهای بیشینه در 15 قسمت تعیین میشوند.
2-4-4- تعداد خطوط عمودی و افقی هر ناحیه
تعداد خطوط عمودی و افقی در داخل هر ناحیه شمارش شده است زیرا در اکثر اوقات تعداد خطوط عمودی و افقی در ناحیه درب بیشتر از ناحیههای شامل انسان، درخت و یا ماشین است. همچنین اگر تعداد این خطوط برای ناحیهای نزدیک به صفر باشد این ناحیه نمیتواند کاندید درب باشد هر چند اختلاف رنگ و بافت این ناحیه با ناحیههای همسایه راست و چپ زیاد باشد.
5-2- تصمیمگیری برای وجود درب
در این بخش، با استفاده از ناحیهها و ویژگیهای آنها، ناحیه درب مشخص میگردد. در الگوریتم 1، ابتدا عرض و ارتفاع هر ناحیه و توسط تابعی مجموع اختلاف رنگ و بافت هر ناحیه از ناحیههای مجاور محاسبه میشود (بخش 2-5-1). همچنین در بخش 2-5-2 درصد اشغال ناحیه توسط حداکثر رنگ و بافت محاسبه میگردد. سپس ناحیههای غیر معقول حذف میشوند و در نهایت، ناحیهای که درصد یکنواختی و اختلاف رنگ و بافت آن بیشتر است به عنوان درب در نظر گرفته میشود.
الگوریتم 1: الگوریتم تشخیص درب ورودی: تصویر و ویژگیهای هر ناحیه 1-3- درصد یکنواختی رنگ و بافت ناحیه (بخش ۲-۵-۲) گام 2: (مجموع اختلاف رنگ و بافت کوچکتر از مقدارآستانه 1 است) یا (عرض و ارتفاع ناحیه کوچکتر از مقدار آستانه 3 است)یا |
تابع 1: محاسبهی مجموع اختلاف رنگ و بافت ورودی: ویژگیهای رنگ و بافت (جدول 1) diffR(1:3) = abs(C(1:3)-CR(1:3));
گام 2: اختلاف رنگ و بافت ناحیه از ناحیه چپ را محاسبه diffL(1:3) = abs(C(1:3)-CL(1:3));
گام 3: مجموع این دو اختلاف را برگردان. return sum(diffR(1:21)) + پایان
|
تابع 1: محاسبهی مجموع اختلاف رنگ و بافت
1-5-2- مجموع اختلاف رنگ و بافت از ناحیههای مجاور
در تابع1، مجموع اختلاف رنگ و بافت هر ناحیه از ناحیههای راست و چپ محاسبه میگردد. از ویژگیهای رنگ و بافت در جدول ۱ استفاده میشود که ۱۱ ویژگی رنگی هر ناحیه در C و 30 ویژگی بافتی در T قرار میگیرند. برای اندازهگیری شباهت بین دو توزیع احتمال و یا دو هیستوگرام P و Q از روش واگرایی جنسن-شانون (JSD) 22 استفاده میشود که بر اساس روش کالبک-لیبلر23(KL) است و به صورت رابطهی (2) محاسبه میگردد:
(2)
2-5-2- درصد اشغال ناحیه با حداکثر رنگ و بافت
ابتدا تصویر با استفاده از فضای رنگیL*a*b* و الگوریتم خوشهبندی k-means به سه رنگ قطعهبندی میشود (شکل 5.ب). عدد 3 که با آزمایش انتخاب شده است باعث میشود که رنگهای مشابه در یک دسته قرار گیرند. چون در واقعیت هم اگر رنگ درب مختلف باشد معمولاً ترکیبی از رنگهای مشابه میباشد پس مثلاً اگر رنگ درب ترکیبی از رنگهای سفید، خاکستری، شیری و قهوهای روشن باشد بهتر است کل درب را به عنوان یک قطعه در نظر بگیرد. سپس مشخص شده است رنگ و بافتی که حداکثر فضای ناحیه را پوشش دادهاند چند درصد کل ناحیه را شامل میشوند. برای نمونه، اگر ناحیهای با ۸۰ درصد رنگ اول، ۱۵ درصد رنگ دوم و ۵ درصد رنگ سوم پوشیده شده باشد ۸۰ درصد در نظر گرفته شده است که این یعنی ۸۰ درصد ناحیه توسط یک رنگ اشغال شده است. از آنجا که در اکثر تصاویر، دربها دارای رنگ یکسان هستند پس میتوان گفت اگر این پارامتر مقدار کوچکی باشد یعنی در این ناحیه، پراکندگی رنگی زیاد است و نمی توان به عنوان درب در نظر گرفت مانند یک ناحیه بزرگ که شامل درخت ، دیوار و ماشین باشد.
همچنین تصویر به سه ناحیه بافتی مانند شکل (۵.ج) قطعهبندی میشود. سیستم قطعهبندی بافتی در سه مرحلهی زیر انجام میگیرد [27] :
1. تجزیه تصویر ورودی با استفاده از بانک فیلتر گابور24
2. استخراج ویژگی
3. خوشهبندی k-means
3. 1. مراکز k خوشه به صورت تصادفی انتخاب میشوند.
3. 2. نمونهها به نزدیکترین مراکز تخصیص مییابند.
3. 3. مراکز k خوشه دوباره محاسبه میگردند.
3. 4. اگر مراکز خوشهها ثابت ماند k خوشه مشخص شده است و کار تمام است. در غیر این صورت به مرحله 3. 2. برگرد و مراحل را دوباره تکرار کن.
شکل 5: قطعهبندی تصویر بر اساس رنگ و بافت. (الف) تصویر، (ب) قطعهبندی به سه رنگ، (ج) قطعهبندی به سه بافت
3. نتایج
این روش بر روی دو مجموعه تصاویر اجرا شده است. 1) مجموعه تصاویر eTRIMS [24] با 60 تصویر از نماهای مختلف ساختمان، 2) مجموعه تصاویر خود ما با 300 تصویر با رزولوشن25480×640 پیکسل. از کد برنامهنویسی استخراج خطوط LSD به زبان C [25] استفاده گردیده و الگوریتم به زبان C و MATLAB R2014a بر روی لپتاپ با حافظهی 8 گیگابایت و پردازنده intel core i7 2.11GH پیادهسازی شده است. دقت تشخیص درب در مجموعه تصاویر eTRIMS ، 3/78 درصد و در مجموعه تصاویر خود ما 4/88 درصد است. همچنین وابسته به تعداد خطوط استخراجی، زمان اجرا متفاوت میباشد که میانگین آن 6/5 ثانیه به دست آمده است.
در شکل 6 خروجیهای تشخیص درب نشان داده شده است. شکل (6.الف،ب) مربوط به مجموعه تصاویر eTRIMS و بقیه از مجموعه تصاویر خودمان هستند. در شکل (6.ج) با اینکه فقط ناحیه بالای درب آشکار است اما الگوریتم، تشخیص درستی دارد. همچنین این الگوریتم در تصاویر با چند درب در شکل (6.د،ه) فقط یک درب آن را تشخیص میدهد و در بعضی از تصاویر مانند شکل (6.ه) که به دلیل دوری تصویر یا همرنگی درب با محیط اطراف، خطوط بلند به درستی استخراج نمیشوند فقط قسمتی از درب مشخص میشود.
به هر حال واضح است که چون الگوریتم ما فقط از خطوط، رنگ و بافت استفاده میکند در بعضی تصاویر مانند شکل 7 دچار اشتباه میشود. در شکل (7.الف) از مجموعه تصاویر eTRIMS با اینکه یک درب در سمت چپ تصویر وجود دارد اما به دلیل همرنگی بسیار زیاد آن با ساختمان، خطوط آن استخراج نشده است و برنامه به اشتباه پیغام «درب وجود ندارد.» را نشان میدهد که البته تشخیص درب در این تصویر با چشم خود ما هم کمی مشکل به نظر میآید. همچنین در بعضی تصاویر دور و یا شلوغ با وجود ماشین، انسان و درخت که خطوط به درستی استخراج نمیشوند نیز الگوریتم دچار اشتباه میشود مانند شکل (7.ب) که قسمت بزرگی از درب به خاطر وجود ماشین مشخص نیست.
شکل 6: تشخیص درب در محیطهای بیرونی. تصاویر (الف، ب) از مجموعه تصاویر eTRIMS و تصاویر
شکل 7: دو تصویری که الگوریتم ما در تشخیص درب اشتباه کرده است.
|
چون یک مجموعه تصاویر استاندارد، مخصوص دربهای ورودی در محیطهای پیچیدهی بیرونی وجود ندارد برای مقایسهی عادلانه، روشهای پیشین روی محموعه تصاویر خودمان پیادهسازی و اجرا شده است. نتایج در جدول ۲ نشان داده میشود. در الگوریتم پیشنهادی ما، دقت تشخیص درب ۴/۸۸ درصد به دست آمده است که نسبت به روش لیو و همکاران26 [7] ۱/۵ درصد و در مقایسه با روش کانگ و همکاران27 [8] ۸/۸ درصد برتری داشته است.
در الگوریتم ۱ برای تشخیص درب، از چهار ویژگی رنگ، بافت، عرض و ارتفاع، و تعداد خطوط عمودی و افقی استفاده شده است. در شکل 8، ابتدا اثرهای همهی ویژگیها بدون در نظرگرفتن یک ویژگی و در انتها همه ویژگیها برای تشخیص درب در مجموعه تصاویر خودمان و eTRIMS بررسی شده است. شکل 8 نشان میدهد که در تشخیص درب، ویژگیهای رنگ و بافت بسیار مؤثر هستند اما ویژگیهای عرض و ارتفاع و تعداد خطوط تأثیر کمتری دارند. همچنین رنگ، نقش مؤثرتری نسبت به بافت برای تشخیص درب بازی میکند.
روشها | دقت تشخیص درب |
لیو و همکاران26 [7] | %۳/8۳ |
کانگ و همکاران27 [8] | %6/۷۹ |
الگوریتم پیشنهادی | %۴/۸۸ |
شکل 8: دقت تشخیص درب برای مجموعه ویژگیهای مختلف
4.نتیجهگیری و کارهای آینده
در این مقاله، با استفاده از خطوط، رنگ، بافت و تشکیل ناحیه بین خطوط عمودی، روشی برای تشخیص درب در محیطهای بیرونی ارائه شده است. چون در تصاویر، مشخصات ظاهری درب مانند دستگیره و یا گوشهها آشکار نبوده است از محدودیتهای زمینهای28یعنیدانش محیطهای ساختهی بشری بهره برده شده است. به عنوان مثال در مجموعه تصاویر، دربها در پایین تصویر وجود دارند یا در ناحیههای درب، تجمع خطوط بیشتر از ناحیههای دیگر شامل درخت، ماشین و یا انسان است. الگوریتم پیشنهادی بر روی مجموعه تصاویر خودمان و eTRIMS آزمایش شده است و با اینکه مجموعه تصاویر ما شامل انواع گوناگون دربها است ولی به علت استخراج بسیار دقیق خطوط با الگوریتم LSD و استفاده از دانش موجود، تشخیص درب قابل قبولی داشته است.
در آینده، میخواهیم با استفاده از قطعهبندی تصویر به زمین، آسمان و سطوح عمودی[28] و تشکیل مجموعه تصاویر کاملتری از انواع ساختمانها با استفاده از یادگیری عمیق29 و شبکهی عصبی کانولوشنال30 [31-29] به تشخیص دقیق ساختمان و درب بپردازیم.
5.منابع
1. R. Szeliski, Computer Vision: Algorithms and Applications, Springer, London, 2011.
2. D. Anguelov, D. Koller, E. Parker, and S. Thrun, “Detecting and Modeling Doors with Mobile Robots,” Proc. Int. Conf. on Robotics and Automation, USA, pp. 3777-3784, 2004.
3. Z. Chen, Y. Li, and S.T. Birchfield, “Visual Detection of Lintel-Occluded Doors by Integrating Multiple Cues Using Data-Driven Markov Chain Monte Carlo Process,” Robotics and Autonomous Systems, Vol. 59, No. 11, pp. 966-976, 2011.
4. J. Hensler, M. Blaich, and O. Bittel, “Real-Time Door Detection Based on Adaboost Learning Algorithm,” Proc. Int. Conf. on Research and Education in Robotics, France, pp. 61-73, 2009.
5. A.C. Murillo, J. Kosecka, J.J. Guerrero, and C. Sagues, “Visual Door Detection Integrating Appearance and Shape Cues,” Robotics and Autonomous Systems, Vol. 56, No. 6, pp. 512-521, 2008.
6. R. Sekkal, F. Pasteau, M. Babel, B. Brun, and I. Leplumey, “Simple Monocular Door Detection and Tracking,” Proc. Int. Conf. on Image Processing, Australia, pp. 3929-3933, 2013.
7. J. Liu, T. Korah, V. Hedau, V. Parameswaran, R. Grzeszczuk, and Y. Liu, “Entrance Detection from Street-View Images,” Proc. Int. Conf. on Computer Vision and Pattern Recognition Workshop (CVPR), USA, 2014.
8. S.J. Kang, H.H. Trinh, D.N. Kim, and K.H. Jo, “Entrance Detection of Buildings Using Multiple Cues,” Proc. Int. Conf. on Intelligent Information and Database Systems, Vietnam, pp. 251-260, 2010.
9. O. Teboul, I. Kokkinos, L. Simon, P.
Koutsourakis, and N. Paragios, “ShapeGrammar Parsing via Reinforcement Learning,” Proc. Int. Conf. on Computer Vision and Pattern Recognition (CVPR), USA, pp. 2273-2280, 2011.
10. H. Riemenschneider, U. Krispel, W. Thaller, M. Donoser, S. Havemann, D. Fellner, and H. Bischof, “Irregular Lattices for Complex
Shape Grammar Facade Parsing,” Proc. Int. Conf. on Computer Vision and Pattern Recognition (CVPR), USA, pp. 1640-1647, 2012.
11.M. Mathias, A. Martinovic, and L. Van Gool,“ATLAS: A Three-Layered Approach to Facade Parsing,” Int. Journal of Computer Vision (IJCV), Vol. 118, No. 1, pp. 22-48, 2016.
12.A. Cohen, A.G. Schwing, and M. Pollefeys, “Efficient Structured Parsing of Facades Using Dynamic Programming,” Proc. Int. Conf. on Computer Vision and Pattern Recognition (CVPR), USA, pp. 3206-3213, 2014.
13. R. Gadde, R. Marlet, and N. Paragios, “Learning
Grammars for Architecture-Specific Façade
Parsing,” Int. Journal of Computer Vision (IJCV), Vol. 117, No. 3, pp. 290-316, 2016.
14.C. Zhou and C. Liu, “Semantic Image
Segmentation using Low-Level Features and Contextual Cues,” Computers and Electrical
Engineering, Vol. 40, pp. 844-857, 2014.
15. S. Gould and X. He, “Scene Understanding by Labeling Pixels,” Communications of the ACM, Vol. 57, No. 11, pp. 68-77, 2014.
16. J. Xiao, T. Fang, P. Zhao, M. Lhuillier, and L. Quan, “Image-based Street-side City Modeling,” ACM Transactions on Graphics, Vol. 28, No. 5, 2009.
17.B. Shuai, Z. Zuo, G. Wang, and B. Wang, “Scene Parsing with Integration of Parametric and Non-parametric Models,” IEEE Trans. on Image Processing, Vol. 25, No. 5, pp. 2379-2391, 2016.
18. P.F. Felzenszwalb and D.P. Huttenlocher, “Efficient Graph-Based Image Segmentation,” Int. Journal of Computer Vision (IJCV), Vol. 59, No. 2, pp. 167-181, 2004.
19. J. Tighe and S. Lazebnik, “Superparsing: Scalable Nonparametric Image Parsing with Superpixels,” Int. Journal of Computer Vision (IJCV), Vol. 101, No. 2, pp. 329-349, 2013.
20. C. Liu, J. Yuen, and A. Torralba, “Nonparametric Scene Parsing via Label Transfer,” IEEE Trans. on Pattern Analysis and Machine Intelligence (PAMI), Vol. 33, No. 12, pp. 2368-2382, 2011.
21. P. Razzaghi and S. Samavi, “A New Fast Approach to Nonparametric Scene Parsing,” Pattern Recognition Letters, Vol. 42, pp. 56-64, 2014.
22. M. Najafi, S. Taghavi Namin, M. Salzmann, and L. Petersson, “Sample and Filter: Nonparametric Scene Parsing via Efficient Filtering, Proc. Int. Conf. on Computer Vision and Pattern Recognition (CVPR), USA, pp. 607-615, 2016.
23. R.G. Von Gioi, J. Jakubowicz, J.M. Morel, and G. Randall, “LSD: A Fast Line Segment Detector with a False Detection Control,” IEEE Trans. on Pattern Analysis and Machine Intelligence (PAMI), Vol. 32, No. 4, pp. 722-732, 2010.
24. F. Korc and W. Forstner, “eTRIMS Image Database for Interpreting Images of Man-Made Scenes,” Technical Report, University of Bonn, 2009.
25.R.G. Von Gioi, J. Jakubowicz, J.M. Morel, and G. Randall, “LSD: a Line Segment Detector,” Image Processing On Line, Vol. 2, pp. 35-55, 2012.
26.T. Leung and J. Malik, “Representing and Recognizing the Visual Appearance of Materials using Three-dimensional Textons,” Int. Journal of Computer Vision (IJCV), Vol. 43, No. 1, pp. 29-44, 2001.
27. A.K. Jain and F. Farrokhnia, “Unsupervised Texture Segmentation using Gabor Filters,” Pattern Recognition, Vol. 24,
No. 12, pp. 1167-1186, 1991.Code available:
28. A.K. Jain and F. Farrokhnia, “Unsupervised Texture Segmentation using Gabor Filters,” Pattern Recognition, Vol. 24, No. 12, pp. 1167-1186, 1991.Code available:
http://note.sonots.com/SciSoftware.html
29. D. Hoiem, A.A. Efros, and M. Hebert, “Recovering Surface Layout from an Image,” Int.
Journal of Computer Vision (IJCV), Vol. 75, No. 1, pp. 151-172, 2007.
29. S. Bu, P. Han, Z. Liu, and J. Han, “Scene Parsing using Inference Embedded Deep Networks,” Pattern Recognition, Vol. 59, pp. 188-198, 2016.
30. Y. Guo, Y. Liu, A. Oerlemans, S. Lao, S. Wu, and M . S . Lew , “Deep Learning for Visual
Understanding: A Review,” Neurocomputing, Vol. 187. 27-48, 2016.
31. E. Shelhamer, J. Long, and T. Darrell, “Fully Convolutional Networks for Semantic Segmentation,” IEEE Trans. on Pattern Analysis and Machine Intelligence (PAMI), Vol. 39, No. 4, pp. 640-651, 2017.
[1] GPS (Global positioning system)
[2] Google Earth
[3] Simultaneous localization and mapping (SLAM)
[4] Texture
[5] Vanishing points
[6] Adaboost
[7] Facade
[8] Ecole Centrale Paris
[9] Segmentation
[10] Image parsing
[11] Superpixel
[12] Support vector machines (SVM)
[13] Line Segment Detector (LSD)
[14] E-training for interpreting images of man-made
scenes (eTRIMS)
[15] Clustering
[16] Hue Saturation Value (HSV)
[17] Red Green Blue (RGB)
[18] Bin
[19] Leung-Malik(LM)
[20] Bar
[21] Laplacian of Gaussian (LoG)
[22] Jensen-Shannon Divergence (JSD)
[23] Kullback-Leibler (KL)
[24] Gabor
[25] Resolution
[26] Liu et al.
[27] Kang et al.
[28] Context
[29] Deep learning
[30] Convolutional neural network (CNN)