یک معماری دومسیره کارآمد مبتنی بر شبکه عصبی عمیق برای بازشناسی دروازه در ویدئوی بازی فوتبال
الموضوعات :امیرحسین زنگنه 1 , مهدی جم پور 2 , کامران لایقی 3
1 - دانشجو دکتری واحد تهران شمال دانشگاه آزاد اسلامی
2 - استادیار، دانشکده مهندسي کامپیوتر ، دانشگاه صنعتی قوچان
3 - استادیارگروه مهندسی کامپیوتر، واحد تهران شمال، دانشگاه آزاد اسلامی
الکلمات المفتاحية: معماری یادگیری عمیق دو مسیره, ترکیب ویژگیها, شبکه عصبی عمیق VGG, ویژگیهای کلاسیک, معماری مشترک,
ملخص المقالة :
در این مقاله یک روش خودکار با استفاده از یک مدل معماری دومسیره یادگیری عمیق برای مساله تحلیل تصاویر ویدئویی ورزش فوتبال، با تاکید بر شناسایی دروازه به عنوان یکی از مهمترین عناصر رویداد گُل که مهمترین رویداد بازی فوتبال می باشد، ارائه کرده ایم. معماری پیشنهادی، شکل توسعه یافته مدل VGG سیزده لایه میباشد که طی آن یک مدل معماری دو مسیره تعریف شده است. در مدل معماری پیشنهادی برای بازشناسی دروازه در مسیر اول، مدل با مجموعه داده آموزشی، آموزش داده می شود. اما در مسیر دوم، مجموعه داده های آموزشی ابتدا توسط یک سیستم غربالکننده مورد بررسی قرار گرفته و بهترین تصاویر که شامل ویژگی های متفاوتی با ویژگی های انتخاب شده توسط مسیر اول هستند، انتخاب میشوند. به عبارت دیگر در مسیر دوم، ویژگیهایی از شبکهای مشابه مسیر اول، ولی پس از عبور از سیستم غربالگر تولید میشود.سپس بردارهای ویژگی تولید شده در دو مسیر با یکدیگر ادغام شده و یک بردار ویژگی سراسری حاصل می شود و بدین ترتیب فضاهای متفاوتی از مساله بازشناسی دروازه تحت پوشش قرار گرفته است. ارزیابیهای متنوعی بر روی روش ارائه شده انجام شده است. نتایج ارزیابیها، حاکی از بهبود دقت بازشناسی دروازه بهوسیله مدل معماری دومسیره ارائه شده نسبت به مدل پایه میباشد. همچنین مقایسه روش پیشنهادی با نتایج موجود نشان میدهد دقت روش پیشنهادی، بهتر از نتایج منتشر شده است.
P. Shi and X. Yu, “Goal event detection in soccer videos using multi-clues detection rules,” in Management and Service Science, 2009. MASS’09. International Conference on, 2009, pp. 1–4.
M.-L. Shyu, Z. Xie, M. Chen, and S.-C. Chen, “Video semantic event/concept detection using a subspace-based multimedia data mining framework,” IEEE Transactions on Multimedia, vol. 10, no. 2, pp. 252–259, 2008.
M. H. Kolekar, “Bayesian belief network based broadcast sports video indexing,” Multimedia Tools and Applications, vol. 54, no. 1, pp. 27–54, 2011.
D. W. Tjondronegoro and Y.-P. P. Chen, “Knowledge-discounted event detection in sports video,” Ieee transactions on systems, man, and cybernetics-part a: Systems and humans, vol. 40, no. 5, pp. 1009–1024, 2010.
L.-Y. Duan, M. Xu, Q. Tian, C.-S. Xu, and J. S. Jin, “A unified framework for semantic shot classification in sports video,” IEEE Transactions on Multimedia, vol. 7, no. 6, pp. 1066–1083, 2005.
B. Li, J. H. Errico, H. Pan, and I. Sezan, “Bridging the semantic gap in sports video retrieval and summarization,” Journal of Visual Communication and Image Representation, vol. 15, no. 3, pp. 393–424, 2004.