یک معماری دومسیره کارآمد مبتنی بر شبکه عصبی عمیق برای بازشناسی دروازه در ویدئوی بازی فوتبال
محورهای موضوعی : هوش مصنوعی و رباتیکامیرحسین زنگنه 1 , مهدی جم پور 2 , کامران لایقی 3
1 - دانشجو دکتری واحد تهران شمال دانشگاه آزاد اسلامی
2 - استادیار، دانشکده مهندسي کامپیوتر ، دانشگاه صنعتی قوچان
3 - استادیارگروه مهندسی کامپیوتر، واحد تهران شمال، دانشگاه آزاد اسلامی
کلید واژه: معماری یادگیری عمیق دو مسیره, ترکیب ویژگیها, شبکه عصبی عمیق VGG, ویژگیهای کلاسیک, معماری مشترک,
چکیده مقاله :
در این مقاله یک روش خودکار با استفاده از یک مدل معماری دومسیره یادگیری عمیق برای مساله تحلیل تصاویر ویدئویی ورزش فوتبال، با تاکید بر شناسایی دروازه به عنوان یکی از مهمترین عناصر رویداد گُل که مهمترین رویداد بازی فوتبال می باشد، ارائه کرده ایم. معماری پیشنهادی، شکل توسعه یافته مدل VGG سیزده لایه میباشد که طی آن یک مدل معماری دو مسیره تعریف شده است. در مدل معماری پیشنهادی برای بازشناسی دروازه در مسیر اول، مدل با مجموعه داده آموزشی، آموزش داده می شود. اما در مسیر دوم، مجموعه داده های آموزشی ابتدا توسط یک سیستم غربالکننده مورد بررسی قرار گرفته و بهترین تصاویر که شامل ویژگی های متفاوتی با ویژگی های انتخاب شده توسط مسیر اول هستند، انتخاب میشوند. به عبارت دیگر در مسیر دوم، ویژگیهایی از شبکهای مشابه مسیر اول، ولی پس از عبور از سیستم غربالگر تولید میشود.سپس بردارهای ویژگی تولید شده در دو مسیر با یکدیگر ادغام شده و یک بردار ویژگی سراسری حاصل می شود و بدین ترتیب فضاهای متفاوتی از مساله بازشناسی دروازه تحت پوشش قرار گرفته است. ارزیابیهای متنوعی بر روی روش ارائه شده انجام شده است. نتایج ارزیابیها، حاکی از بهبود دقت بازشناسی دروازه بهوسیله مدل معماری دومسیره ارائه شده نسبت به مدل پایه میباشد. همچنین مقایسه روش پیشنهادی با نتایج موجود نشان میدهد دقت روش پیشنهادی، بهتر از نتایج منتشر شده است.
In this paper, an automated method has been presented using a dual-path deep learning architecture model for the problem of soccer video analysis and it emphasizes the gate recognition as one of the most important elements of the goal event that is the most important soccer game event. The proposed architecture is considered as an extended form of the VGG 13-layer model in which a dual-path architectural model has been defined. For recognizing the gate in the first path using the proposed architectural model, the model is trained by the training dataset. But in the second path, the training dataset is first examined by a screening system and the best images containing features different from the features of the first path are selected. In another word, features of a network similar to the first path, but after passing through the screening system are generated in the second path. Afterwards, the feature vectors generated in two paths are combined to create a global feature vector, thus covering different spaces of the gate recognition problem. Different evaluations have been performed on the presented method. The evaluation results represent the improved accuracy of gate recognition using the proposed dual-path architectural model in comparison to the basic model. A comparison of proposed method with other existing outcomes also represents the improved accuracy of the proposed method in comparison to the published results.
P. Shi and X. Yu, “Goal event detection in soccer videos using multi-clues detection rules,” in Management and Service Science, 2009. MASS’09. International Conference on, 2009, pp. 1–4.
M.-L. Shyu, Z. Xie, M. Chen, and S.-C. Chen, “Video semantic event/concept detection using a subspace-based multimedia data mining framework,” IEEE Transactions on Multimedia, vol. 10, no. 2, pp. 252–259, 2008.
M. H. Kolekar, “Bayesian belief network based broadcast sports video indexing,” Multimedia Tools and Applications, vol. 54, no. 1, pp. 27–54, 2011.
D. W. Tjondronegoro and Y.-P. P. Chen, “Knowledge-discounted event detection in sports video,” Ieee transactions on systems, man, and cybernetics-part a: Systems and humans, vol. 40, no. 5, pp. 1009–1024, 2010.
L.-Y. Duan, M. Xu, Q. Tian, C.-S. Xu, and J. S. Jin, “A unified framework for semantic shot classification in sports video,” IEEE Transactions on Multimedia, vol. 7, no. 6, pp. 1066–1083, 2005.
B. Li, J. H. Errico, H. Pan, and I. Sezan, “Bridging the semantic gap in sports video retrieval and summarization,” Journal of Visual Communication and Image Representation, vol. 15, no. 3, pp. 393–424, 2004.