Manuscript ID : 1400061224247 Visit : 7254 Page: 103 - 114

Article Type: Original Research

An efficient Two Pathways Deep Architecture for Soccer Goal Recognition towards Soccer Highlight Summarization

Subject Areas : AI and Robotics

Amirhosein Zangane ¹ , Mehdi Jampour ² , Kamran Layeghi ³

1 - Doctoral student of North Tehran branch
2 - Assistant Professor, Faculty of Computer Engineering
3 - دانشگاه آزاد

Received: 2021-01-25 Accepted : 2021-08-25 Published : 2021-11-23

Keywords: Dual-Path Deep Learning Architecture, Feature Combination, Deep VGG, Classic Features, Common Architecture,

Abstract :

In this paper, an automated method has been presented using a dual-path deep learning architecture model for the problem of soccer video analysis and it emphasizes the gate recognition as one of the most important elements of the goal event that is the most important soccer game event. The proposed architecture is considered as an extended form of the VGG 13-layer model in which a dual-path architectural model has been defined. For recognizing the gate in the first path using the proposed architectural model, the model is trained by the training dataset. But in the second path, the training dataset is first examined by a screening system and the best images containing features different from the features of the first path are selected. In another word, features of a network similar to the first path, but after passing through the screening system are generated in the second path. Afterwards, the feature vectors generated in two paths are combined to create a global feature vector, thus covering different spaces of the gate recognition problem. Different evaluations have been performed on the presented method. The evaluation results represent the improved accuracy of gate recognition using the proposed dual-path architectural model in comparison to the basic model. A comparison of proposed method with other existing outcomes also represents the improved accuracy of the proposed method in comparison to the published results.

References:

P. Shi and X. Yu, “Goal event detection in soccer videos using multi-clues detection rules,” in Management and Service Science, 2009. MASS’09. International Conference on, 2009, pp. 1–4.
M.-L. Shyu, Z. Xie, M. Chen, and S.-C. Chen, “Video semantic event/concept detection using a subspace-based multimedia data mining framework,” IEEE Transactions on Multimedia, vol. 10, no. 2, pp. 252–259, 2008.
M. H. Kolekar, “Bayesian belief network based broadcast sports video indexing,” Multimedia Tools and Applications, vol. 54, no. 1, pp. 27–54, 2011.
D. W. Tjondronegoro and Y.-P. P. Chen, “Knowledge-discounted event detection in sports video,” Ieee transactions on systems, man, and cybernetics-part a: Systems and humans, vol. 40, no. 5, pp. 1009–1024, 2010.
L.-Y. Duan, M. Xu, Q. Tian, C.-S. Xu, and J. S. Jin, “A unified framework for semantic shot classification in sports video,” IEEE Transactions on Multimedia, vol. 7, no. 6, pp. 1066–1083, 2005.
B. Li, J. H. Errico, H. Pan, and I. Sezan, “Bridging the semantic gap in sports video retrieval and summarization,” Journal of Visual Communication and Image Representation, vol. 15, no. 3, pp. 393–424, 2004.

Full-Text:

الگوي تهيه مقالات

دو فصلنامه علمي

فناوري اطلاعات و ارتباطات ایران

سال سیزدهم، شماره‌هاي49و50، پاییز و زمستان 1400

صص: 103_114

$E:\E Drive\logo\iicta Logo0.JPG$

یک معماری دومسیره کارآمد مبتنی بر شبکه عصبی عمیق برای بازشناسی دروازه در ویدئوی بازی فوتبال

امیرحسین زنگنه* مهدی چم پور ** کامران لایقی ***

*دانشجوی دکتری، گروه مهندسی کامپیوتر، واحد تهران شمال، دانشگاه آزاد اسلامی، تهران، ایران.

**استادیار، دانشکده مهندسي کامپیوتر ، دانشگاه صنعتی قوچان، قوچان، ایران.

*** استادیار، گروه مهندسی کامپیوتر، واحد تهران شمال، دانشگاه آزاد اسلامی، تهران، ایران.

تاریخ دریافت: 06/11/1399 تاریخ پذیرش: 03/06/1400

نوع مقاله: پژوهشی

چكیده

در این مقاله یک روش خودکار با استفاده از یک مدل معماری دومسیره یادگیری عمیق برای مساله تحلیل تصاویر ویدئویی ورزش فوتبال، با تاکید بر شناسایی دروازه به عنوان یکی از مهمترین عناصر رویداد گُل که مهمترین رویداد بازی فوتبال میباشد، ارائه کردهایم. معماری پیشنهادی، شکل توسعه یافته مدل VGG سیزده لایه می‌باشد که طی آن یک مدل معماری دو مسیره تعریف شده است. در مدل معماری پیشنهادی برای بازشناسی دروازه در مسیر اول، مدل با مجموعه داده آموزشی، آموزش داده میشود. اما در مسیر دوم، مجموعه دادههای آموزشی ابتدا توسط یک سیستم غربال‌کننده مورد بررسی قرار گرفته و بهترین تصاویر که شامل ویژگیهای متفاوتی با ویژگیهای انتخاب شده توسط مسیر اول هستند، انتخاب می‌شوند. به عبارت دیگر در مسیر دوم، ویژگی‌هایی از شبکه‌ای مشابه مسیر اول، ولی پس از عبور از سیستم غربالگر تولید می‌شود.سپس بردارهای ویژگی تولید شده در دو مسیر با یکدیگر ادغام شده و یک بردار ویژگی سراسری حاصل میشود و بدین ترتیب فضاهای متفاوتی از مساله بازشناسی دروازه تحت پوشش قرار گرفته است. ارزیابی‌های متنوعی بر روی روش ارائه شده انجام شده است. نتایج ارزیابی‌ها، حاکی از بهبود دقت بازشناسی دروازه به‌وسیله مدل معماری دومسیره ارائه شده نسبت به مدل پایه می‌باشد. همچنین مقایسه روش پیشنهادی با نتایج موجود نشان می‌دهد دقت روش پیشنهادی، بهتر از نتایج منتشر شده است.

واژگان کلیدی: معماری یادگیری عمیق دو مسیره، ترکیب ویژگی‌ها، شبکه عصبی عمیق VGG، ویژگی‌های کلاسیک، معماری مشترک

1. مقدمه

نویسنده مسئول: مهدی چم پور jampour@qiet.ac.ir

با توجه به گسترش روز افزون تجهیزات دیجیتالی ضبط و ذخیرهسازی ویدیو، امروزه کاربران بسیاری در سراسر دنیا به ناچار با حجم بسیار گستردهای از دادههای ویدیویی در ارتباط میباشند. برخی از این ویدیوها مربوط به حوزه سرگرمی و پرکردن اوقات فراغت کاربران و برخی دیگر نیز مرتبط با حوزههای نظارتی و امنیتی میباشند.

چنانکه استفاده از سیستمهای نظارت ویدیویی در بیشتر سازمانها، ادارات، کارخانجات و محیطهای کاری موجب مراقبت و کنترل دقیق محیط، کاهش تخلفات، افزایش توانایی در آشکارسازی سریع حوادث و نظمدهی محیط کاری شده است. افزایش سامانههای نظارتی موجب شده تا حجم عظیمی از دادههای چند رسانهای تولید شود که در گام اول ذخیره‌سازی این حجم گسترده از دادههای ویدیویی نیازمند استفاده از رسانههای ذخیره‌ساز فراوان میباشد و در گام دوم مدیریت محتوایی آنها بصورت دستی، نیازمند تعداد بسیار زیادی کاربر انسانی و صرف مدت زمان طولانی است که در عمل امکان‌پذیر نبوده و با خطای زیادی روبرو میباشد.

بخش دیگری از ویدیوهای در دسترس کاربران ویدیوهای مختلف، مربوط به حوزه سرگرمی میباشد. کاربران با توجه به گرایش و علاقهمندی‌های شخصی، برنامههای ویدیو‌های مختلف را تهیه می‌کنند یا سایر ویدیوهای موجود در فضای مجازی را پیگیری و مشاهده و در برخی موارد نیز اقدام به ذخیره‌سازی آنها میکنند. در این میان لزوم خلاصهسازی فیلم‌های ویدیویی و خصوصا ویدیوهای ورزشی با توجه به اینکه معمولا دارای مدت زمان طولانی میباشند، ملموستر است.

ورزش فوتبال یکی از ورزشهای محبوب در جهان است که نه تنها هواداران، بلکه محققان زیادی از مناطق مختلف را در سراسر جهان به خود جلب کرده است. از جمله ویدیوهای ورزشی محبوب، ویدیوهای ورزش فوتبال است که به دلیل علاقه‌مندی طیف گستردهای از مردم جهان به این ورزش از اهمیت بسیار بالایی برخوردار می باشد. مسئله زمان طولانی بازی فوتبال موجب شده که علاوه بر حجم زیاد مورد نیاز برای ذخیرهسازی، در اغلب موارد همه مردم فرصت تماشای 90 دقیقه فوتبال را نداشته باشند و البته علاقه‌مند هستند دستکم لحظات مهم و هیجان انگیز بازی را مشاهده کنند. در نتیجه با توجه به زمانگیر بودن فیلم‌های ویدیوی و ویدیوهای ورزشی و محدود بودن زمان بسیاری از علاقهمندان و طرفداران این ویدیوها، جهت انتقال محتوای ویدیو به بینندگان، خلاصهسازی ویدیو انجام میشود. به این ترتیب بینندگان می‌توانند بدون نیاز به مشاهده کل ویدیو، بخش‌های مهم و اصلی آن رویداد را مشاهده و درک کنند.

خلاصه سازی مطلوب یک ویدئو ورزشی فرآیند ساده ای نیست و نیازمند پردازش انسانی میباشد. در روشهای سنتی یک کاربر سراسر یک ویدیو را مورد نظارت قرار داده و بخش‌های مهم آن را برچسب‌گذاری میکند که کاری زمانگیر و دشوار میباشد. برای این منظور، نیازمند تشخیص دقیق رویدادهای مهم و حساس بازی فوتبال هستیم که مبهم و هنوز به عنوان یک سوال باز مطرح می‌باشد. با این حال در این مقاله، ما دقیقا درصدد تعریف یک رویداد حساس در بازی فوتبال نیستیم بلکه برای شناسایی و تعیین رویدادها در بازی فوتبال، براساس یک پژوهش میدانی عمل کردهایم. ما به منظور شناسایی مهمترین رویدادهای بازی پرطرفدار فوتبال، پرسشنامه‌ای شامل 7 رویداد طراحی کردیم و انتخاب مهمترین رویدادها را به شرکتکنندگان در نظرسنجی واگذار کردیم. فرم نظرسنجی مذکور شامل رویدادهای گل، کرنر، کارت قرمز، کارت زرد، ضربه آزاد، پنالتی و برخورد توپ با تیرک دروازه میباشد.

جدول 1. نتایج نظرسنجی در مورد مهمترین رویداد بازی فوتبال

ردیف	نوع رویداد	میانگین امتیاز دریافتی
1	گل	6.05
2	کرنر	3.94
3	کارت قرمز	4.16
4	کارت زرد	2.88
5	ضربه آزاد	4.66
6	پنالتی	5.60
7	برخورد توپ با تیرک دروازه	4.49

طی این پژوهش میدانی، پرسشنامه را بین 200 نفر در محدودههای سنی مختلف پخش کرده و از مخاطبان درخواست کردیم که به 7 رویداد مهم مطرح شده در پرسشنامه از عدد یک (کم اهمیت‌ترین) تا عدد 7 (پر اهمیت‌ترین) یک امتیاز را اختصاص دهند. نتایج نظرسنجی در جدول 1 ارائه شده است. همانطور که انتظار داشتیم براساس میانگین نظر شرکتکنندگان در نظرسنجی مهمترین رویداد، رویداد گل و پس از آن رویداد پنالتی میباشد.

براساس نتایج حاصل از نظر سنجی، مواردی که در حین تماشای یک بازی فوتبال توجه مردم را به خود جلب میکنند شامل شوت، پنالتی، کارت زرد، کارت قرمز، خطاها، ضربات آزاد، کرنر و گل می‌باشند که آنها را به عنوان رویدادهای مهم وحساس در بازی فوتبال تعریف میکنیم. لازم به ذکر است که براساس نتایج حاصله، رویداد «گُل» مهمترین و حساس‌ترین رویداد در بازی فوتبال به شمار میآید.

از سوی دیگر، کشف و شناسایی رویدادها و وقایع پیچیده در ویدیوها عملیاتی چالش برانگیز و پیچیده است که توجه محققان زیادی را در جامعه بینایی رایانه به خود جلب کرده است. در مقایسه با تشخیص مفهومهای مجزا¹، که عمدتاً بر شناسایی اشیاء خاص و صحنه در تصاویر ثابت یا کلیپ‌های کوتاه ویدیویی شامل حرکات ساده متمرکز است، تشخیص رویداد چندرسانه‌ای با فیلم‌های پیچیده‌تری مرتبط می‌باشد که شامل تعامل انسان با اشیاء مختلف در صحنه‌های متفاوت است و پردازش آنها معمولا چند دقیقه یا حتی چند ساعت زمان نیاز دارد.بنابراین، یک رویداد، یک انتزاع معنایی از توالی‌ سطح بالاتر نسبت به یک یا چند مفهوم است. به عنوان مثال، رویداد گُل را می‌توان ترکیب چندین مفهوم مانند اشیاء (بازیکنان، توپ، دروازه و تور)، صحنه (زمین چمن که مسابقه روی آن انجام می‌شود)، اقدامات (حرکت بازیکنان، موقعیت توپ، شادی کردن بازیکنان) و مفاهیم صوتی (صدای گزارشگر و تماشاچیان، صدای بازیکنان، تشویق تماشاچیان) و غیره تعریف نمود.

با توجه به مشکلات موجود لزوم خلاصهسازی خودکار ویدیوها کاملا محسوس است. در خلاصهسازی خودکار ویدیو با معرفی رویدادهای مهم و حساس، سیستم قادر است پس از دریافت یک ویدیو در ورودی با حذف افزونگیهای بصری و فریمهای تکراری، یک کلیپ خلاصه شده از ویدیو که در برگیرنده محتوای ویدیوی اصلی میباشد را در اختیار کاربر قرار دهد.

در این مقاله ما یک روش خودکار برای تحلیل تصاویر ویدئویی ورزش فوتبال ارائه میکنیم که با تاکید بر شناسایی یکی از عوامل قابل توجه در تشخیص رویدادهای مهم و حساس بازی فوتبال، یک روش خودکار برای تشخیص و خلاصه‌سازی لحظات مهم بازی تلقی می‌شود. همانطور که در شکل 1 نشان داده شده در این مقاله، با ترکیب ویژگی‌های استخراج شده توسط یک مدل معماری دومسیره یادگیری عمیق، روشی خودکار معرفی می‌کنیم که در آن دروازه به عنوان یک عامل تفکیک کننده شناسایی می‌شود. اگر چه این عامل به تنهایی نشان دهنده لحظات همیشه حساس نیست ولی گامی موثر بسوی تفکیک لحظات مهم بازی فوتبال و خلاصه‌سازی آن به شمار می آید.

ادامه این مقاله به شرح زیر سازماندهی شده ‌است: در بخش ۲، کارهای انجام شده در زمینه خلاصهسازی ویدیویی فوتبال مورد بررسی قرار می‌گیرد، سپس در بخش ۳، روش پیشنهادی به تفصیل شرح داده می‌شود؛ در بخش ۴ نتایج تجربی ارائه شده است و در نهایت، نتیجه‌گیری در بخش ۵ ذکر شده است.

شکل 1. معماری دومسیره پیشنهادی جهت ترکیب ویژگیها استخراج شده توسط شبکه عصبی آموزش داده شده با مجموعه دادهای آموزشی و شبکه عصبی آموزش داده شده با دادهای منتخب مبتنی بر سیستم غربالگر.

2. کارهای مرتبط

تشخیص خودکار رخدادها و تفسیر معنایی صحنه‌ها، یک کار چالش برانگیز در خلاصه‌سازی ویدیو بازی فوتبال است. این کار می‌تواند با استخراج ویژگی‌ها در سطوح معنایی مختلف انجام شود. ویژگی‌های سطح پایین

تصویر مانند رنگ، شکل و بافت، توپ، دهانه دروازه، و همچنین ویژگی‌های ویدئویی مانند فریم‌های متوالی و عکس‌ها برای به دست آوردن ویژگی‌های سطح بالا از قبیل شناسایی وضعیت ویدیو مانند حالت پخش مجدد بازی و حالت وقفه ایجاد شده در بازی استفاده می‌شوند.

کارهایی برای خلاصه سازی ویدیو انجام شده که ما آنها را به دو دسته کلی تقسیم کرده‌ایم: 1) روش‌هایی که برای خلاصه‌سازی از ویژگیهای مختلف ویدیو مانند ویژگیهای دیداری، شنیداری یا متن‌های مرتبط با ویدیو استفاده میکنند. 2) روش‌هایی که منحصرا ویژگیهای دیداری موجود در فریم‌های ویدیو را برای شناسایی رویداد، مورد استفاده قرار میدهند.

1_2 رو شهایی مبتنی بر ویژگیهای ویدیو

ویژگیهای صوتی شامل تشویق تماشاگران و هیجان مفسران ورزشی استخراج شده، و همزمان نشانه‌های(ویژگی‌های) بصری تشخیص داده شدهاند. بعد از استخراج مفهوم معنایی و توجه به توالی معنایی رویدادهایی که با هم مرتبط هستند، مانند ورود توپ به دروازه و هلهله تماشاچیان، قوانین موجود برای شناسایی رویداد به کار گرفته میشوند[1]. در کاری مشابه برای تجزیه و تحلیل محتوی ویدیو اقدام به استخراج ویژگی‌های سطح پایین و سطح میانی از کانال‌های صدا / تصویری کردند[2].

روشی برای آنالیز معنایی ویدیو و خلاصه‌سازی ویدیو با شناسایی مفاهیم با استفاده از یک شبکه بیزی معرفی شده است که در آن، رویدادهای برجسته بازی با استفاده از ویژگی‌های صوتی با استفاده از قوانین تولید شده و دانش این حوزه از کلیپ‌های ویدیو، شناسایی می‌شوند[3]. مجموعه‌ای از کلیپ‌های برجسته که شامل رویداد‌های حساس بازی هستند، برچسب‌گذاری شده و در یک چکیده ویدئویی برای کاربردهای مختلف مانند مرور رویدادهای مهم، شاخص‌گذاری و بازیابی ویدیو بکار برده می‌شوند.

استخراج ویژگی‌های صوتی (صدای سوت داور) و تصویری ویدیو برای شناسایی وقفه‌های ایجاد شده در بازی، مورد استفاده قرار گرفتهاند. [4]. برای مثال در بازی فوتبال زمانی که سوت داور شنیده می‌شود به این معنی است که یک خطا اتفاق افتاده یا توپ خارج از میدان بوده و در نتیجه یک وقفه در بازی رخ داده است. از جمله مزایای کار یاد شده، عمومی بودن و کاربردی بودن آن برای همه بازی‌هایی است که دارای ساختار بازی/ وقفه میباشند.

همچنین [5]–[9] نیز از ویژگی صوتی به عنوان یکی از مهمترین ویژگیها برای شناسایی رویدادهای حساس استفاده کردند. به عنوان مثال، برای شناسایی رویداد گل در بازی فوتبال از تغییرات صدای گزارشگر و تغییرات صدای تماشاچیان استفاده کردند. به عقیده آنها افزایش شدید انرژی صوتی نشان دهنده رویدادی خاص در بازی میباشد [10], [11].

کارهای انجام شده دسته اول که از ویژگیهای مختلف برای شناسایی رویداد استفاده میکنند با محدیدویتهای از جمله: 1- افزایش تعداد سنسورها و تجهیزات سخت افزاری به منظور ضبط صوت، 2- محدودیت در فاصله ضبط دادهها، با استفاده از دوربین میتوان رویدادها را از فاصله دور ثبت و ضبط نمود در حالیکه اگر بخواهیم همان ویدیو را با صدا تهیه کنیم با محدودیت فاصله روبرو خواهیم بود. 3- حذف نویز و صداهای اضافی موجود در ویدیو که توسط تماشاچیان تولید میشود و می‌تواند موجب خطا در عملکرد سیستم شود. به عنوان مثال روش‌هایی که با شناسایی صدای سوت داور اقدام به شناسایی رویداد میکنند در مواردی که تماشاچیان اقدام به سوت زدن در حین بازی میکنند با خطا روبرو میشوند. 4- در ویدیوهایی که در ورزشگاه‌های سرپوشیده تهیه میشوند، صدای تماشاچیان صدای غالب بوده و عملا صدای سوت داور و بازیکنان توسط روشهای مالتی‌مُدال قابل استفاده نیستند. 5- روشهای مالتی‌مدال فقط روی ویدیوهایی که تحت شرایط خاصی تهیه شدهاند، قابلیت استفاده را دارا بوده و عمومی نیستند.

2_2 روشهای مبتنی بر ویژگیهای فریم

شرکتهای پخش ویدیویی از تکرارهای² صحنههای هیجان انگیز و مهم استفاده می‌کنند تا روی رویدادهای خاص بازی با جزئیات کامل تأکید کرده و آنها را برای بینندگان خود نمایش دهند. صحنه تکرار به طور عمده شامل نمایش حرکت آهسته یک رویداد جالب و گاهی اوقات لوگو بازی (علامت ویژه مسابقه یا علامت تجاری اسپانسر برای برخی از فریمها) است، که در آغاز و پایان صحنه تکرار استفاده می‌شود. استفاده از ویژگی تکرار رویداد‌های حساس بازی نیز در برخی از کارهای مشابه برای خلاصه‌سازی ویدیو مورد استفاده قرار میگیرد.

برای شناسایی رویداد‌های حساس بازی اقدام به شناسایی لوگو بازی کردهاند[12]. به نظر آنها هنگامی رویداد گل شناسایی می‌شود که یک وقفه در مسابقه تشخیص داده می‌شود یا برخی علایم از تشویق بازیکنان مشاهده می‌شوند و یا پخش مجدد بازی از زوایای مختلف که توسط دوربین های مختلف بدست ‌آمدهاند، نمایش داده می‌شوند. هنگامی که لوگوی مسابقات در ویدیو پخش میشود اقدام به تشخیص صحنه تکرار میکنند و سپس برای خلاصه سازی ویدیو با استفاده از شناسایی صحنهی تکرار، شناسایی مبتنی بر قاعده گل و تشخیص حمله، اقدام میکنند. این تشخیص از طریق تشخیص مرز براساس دهانهی دروازه، طبقه‌بندی عکس، تشخیص صحنهی تکرار، و تشخیص بورد ثبت امتیازات امکان‌پذیر است.

برای شناسایی رویدادهای حساس بازی فوتبال اقدام به تشخیص صحنههای پخش مجدد در ویدیو کردند[13]. به نظر آنها صحنههای پخش مجدد حاوی رویدادهای مهم بازی میباشند. برای شناسایی صحنههای پخش مجدد نیز اقدام به شناسایی لوگوی بازی در فریمهای ویدیو کردهاند. آنها به محض تشخیص لوگوی مسابقات در یک فریم، به فریم‌های قبلی برگشته و این کار را تا رسیدن به فریمی که حاوی یک تصویر از نمای دور³، است ادامه میدهند. مجموعه فریمهای بین تصویر نمای دور و لوگوی مسابقات به عنوان رویداد مهم بازی خلاصه میشوند.

برای شناسایی رویدادهای حساس بازی اقدام به تشخیص صحنههای پخش مجدد ویدیو کردهاند[14]. به عقیده آنها لوگوی مسابقات قبل

شکل 2. معماری اولیه شبکه VGG و لایه‌های استفاده شده در آن

و بعد صحنههای پخش مجدد ویدیو قرار دارند. آنها برای تشخیص وجود یا عدم وجود لوگوی مسابقات در فریمهای ویدیو از شبکه عصبی کانولوشن استفاده کرده و براساس رویدادهای حساس شناسایی شده اقدام به خلاصه سازی ویدیو کردهاند.

در روشهای مبتنی بر شناسایی لوگوی [15]–[17] مسابقات 1- باید لوگوی مسابقات برای سیستم تعریف شود 2- سیستم فقط به تصویر لوگو مسابقه حساس بوده و هیچ دانشی در مورد نوع رویداد اتفاق افتاده نداشته و در نتیجه امکان خلاصه سازی ویدیو براساس نوع رویداد در این روش وجود ندارد و 3- این روش عمومی نبوده و فقط برای ویدیو‌هایی طراحی شده که توسط یک کاربر انسانی از قبل مورد بررسی قرار گرفته باشد که سلیقه و انتخاب کاربر شرکت‌های پخش ویدیویی در آن دخیل است.

یادگیری عمیق به عنوان یکی از تکنیک‌های یادگیری ماشین، از پیشرفت‌های فناوری واحدهای پردازش گرافیکی⁴ استفاده کرده ‌است، و این امر به نوبه خود استفاده گسترده از آن را فراهم آورده ‌است. کریمی و همکاران [18] از یادگیری عمیق برای شناسایی رویدادهای ورزش فوتبال با تاکید بر استخراج رویداد کارت زرد و قرمز استفاده کردهاند. آنها ابتدا تصاویر ورزش فوتبال را از سایر تصوایر تفکیک کرده و در مرحله بعد اقدام به شناسایی رویداد میکنند.

تکنیک‌های یادگیری عمیق به نتایج بسیار خوبی در بسیاری از مسائل مهم در مقایسه با روشهای سنتی دست یافته‌اند. شبکه‌های عصبی پیچشی⁵ یکی از مدل‌های یادگیری عمیق با لایه‌های متعدد میباشند که شامل سطوح چندگانه هستند. در مقایسه با شبکه‌های کاملا متصل، شبکه‌های عصبی پیچشی دارای قابلیت تعمیم بالاتری هستند. این امر آن‌ها را برای کاربردهای مختلف از جمله تشخیص اشیا، و دستهبندی تصاویر مناسب می‌کند [19]–[21]. با توجه به اینکه در این مقاله هدف ما بازشناسی دروازه به عنوان عامل شناسایی لحظات حساس میباشد ما از یک شبکه عصبی پیچشی استفاده کردهایم.

3. روش پیشنهادی

در این بخش با توجه به ضرورت توسعه روش‌های خودکار و کارآمد برای خلاصه‌سازی رویدادهای مهم ویدیو، به معرفی روش پیشنهادی می‌پردازیم. ما از یک مدل پایه یادگیری عمیق برای استخراج ویژگیها استفاده می‌کنیم، اما پیش‌تر نشان داده شده که با استفاده از شبکه‌های عصبی عمیق همچنان ممکن است برخی ویژگی‌های مفید برای دسته‌بندی کشف و استخراج نشوند [22] در نتیجه روش‌های ترکیبی می‌توانند برای این منظور کارآمد باشند. ما در این مقاله، با ارائه یک معماری دومسیره، در یک مسیر به استخراج ویژگی‌های مبتنی بر شبکه عمیق پرداخته و در مسیر دوم به کمک یک سیستم غربالگر ابتکاری به استخراج ویژگی‌های مکمل می‌پردازیم که در بخش تجربیات نشان داده شده است ترکیب این دو مسیر، توصیف مطلوبتری از تصاویر به منظور تفکیک‌پذیری ایجاد می‌کند و سبب بهبود کارآیی سیستم در شناسایی هدف می‌شود. در ادامه ما ابتدا معماری پایه VGG که در این مقاله مورد استفاده قرار گرفته شده است و انگیزه استفاده از آن را شرح می‌دهیم، سپس در زیربخش بعدی سیستم غربال‌گر ابتکاری‌مان را معرفی کرده و در زیربخش آخر، مدل ترکیبی پیشنهادی را ارائه و تشریح می‌کنیم.

1_3 معماری مدل پایه

ما در این مقاله از مدل پایه شبکه عصبی عمیق VGG-13 برای بازشناسی تصاویر حاوی دروازه استفاده می‌کنیم. مدل VGG یک معماری شبکه عصبی پیچشی است که توسط سایمون و زیسرمن در سال 2014 پیشنهاد شد. این شبکه نشان داد که میتوان با افزایش عمق شبکه، دقت دستهبندی را بهبود بخشید. انگیزه ما، در به کارگیری شبکه VGG عمق شبکه بوده است. چنانکه، عمق مناسب شبکه یادگیری عمیق در عملکرد آن بسیار موثر می باشد. معماری VGG با هدف تعامل بین عمق مطلوب شبکه و از سوی دیگر کاهش تعداد پارامترها در شبکه طراحی شده است چنانکه در همه لایهها از فیلتر پیچشی (کانولوشن) 3×3 با طول گام 1 و همچنین یک حداکثر تجمع ⁶ 2×2 استفاده شده است. تابع فعال‌سازی که شبکهVGG با آن کار می‌کند یکسوساز خطی (ریلو⁷) می‌باشد و چنانکه در شکل 2 نشان داده شده است در لایه آخر از تابع سیگموئید⁸ استفاده می‌شود.

روش‌های مبتنی بر یادگیری عمیق، کارآیی بسیار مطلوبی در استخراج ویژگیها دارند، اما تضمینکننده استخراج همه ویژگیها، یا به عبارتی بهترین ویژگی‌ها نیستند [23]. در نتیجه با اطمینان میتوان گفت که استخراج خودکار ویژگی‌های تصویر توسط یک مدل یادگیری عمیق ساده برای کاربردهایی مانند بازشناسی دروازه در تصاویر بازی فوتبال اگر چه مفید است اما کامل نبوده و ترکیب ویژگی‌های مختلف استخراج شده که هرکدام قادر به پوشش بخشی از فضای مساله میباشند سبب بهبود دقت در عملکرد سیستم خواهند شد. لذا در ادامه به معرفی مسیر دوم معماری پیشنهادی، به عنوان مکملی برای استخراج ویژگی مطلوب می‌پردازیم.

3_2 سیستم غربالگر تصاویر

ما در مسیر دوم به ارائه یک مدل شبکه عصبی عمیق می‌پردازیم که بطور سری در ادامه سیستم غربالگر ابتکاری‌مان قرار دارد چنانکه ویژگی‌هایی را از تصاویر استخراج می‌کند که در بخش نتایج نشان می‌دهیم ترکیب آنها با ویژگی‌های شبکه عصبی عمیق در مسیر اول، سبب بهبود کارآیی سیستم بازشناسی می‌شود. هدف از زیرسیستم غربالگر در مسیر دوم، کمک به شناسایی و جداسازی تصاویر آموزشی برتر می‌باشد که منظور از واژه برتر در اینجا، اشاره به تصاویری است که توسط ماشین از قابلیت تفکیک‌پذیری بالاتری برخوردارند. سیستم غربالگر پیشنهادی از یادگیرنده‌های ضعیف⁹ بر اساس ضریب همبستگی و توابع چگالی احتمال استفاده میکند. برای این منظور ابتدا فرآیند شناسایی بهترین تصاویر توسط سیستم غربالگر را به عنوان یک منبع اولیه از ویژگی‌های بسیار مطلوب در شناسایی دروازه شرح می‌دهیم.

ما ابتدا ضریب همبستگی هر تصویر از تصاویر شامل دروازه (مثبت) در مجموعه تصاویر آموزشی را نسبت به سایر تصاویر آموزشی، اعم از حاوی دروازه (مثبت) یا تصاویر غیردروازه (منفی) را محاسبه می‌کنیم. سپس بر اساس ضرایب به دست آمده، توابع چگالی احتمال آنها را نسبت به همه تصاویر آموزشی حاوی دروازه و غیردروازه محاسبه می‌کنیم. تصاویری که بتوانند تمایز بهتری بین تصاویر شامل دروازه و بدون دوازه ایجاد کنند، به عنوان تصاویر منتخب انتخاب میشوند. به عبارت دیگر، به صورت یک رابطه 1 به n، توابع چگالی احتمال هر تصویر بر اساس میزان ضریب همبستگی آن نسبت به سایر تصاویر محاسبه می‌شود. به این ترتیب به هر تصویر از مجموعه تصاویر آموزشی به دید یک یادگیرنده ضعیف اما سراسری نگاه می‌کنیم. بدیهی است، تصویری که بتواند بیشترین همیستگی با سایر تصاویر مثبت و عدم همبستگی با تصاویر منفی را کسب کند از ویژگی‌های مطلوبتری برخوردار است که می‌تواند در نهایت منجر به توصیف بهتر تصاویر دیده نشده گردد.

ما از توابع چگالی احتمال برای نمایش میزان تفکیک‌پذیری هر یک از یادگیرنده‌های ضعیف استفاده کرده‌ایم؛ به عنوان مثال شکل 3 (سمت راست) مربوط به یک یادگیرنده مطلوب است که بخوبی تصاویر دارای دروازه و غیردروازه را تفکیک کرده است. در عوض، (سمت چپ) توابع چگالی احتمال یک یادگیرنده ضعیف ناموفق را نشان می‌دهد که همپوشانی دو تابع بیانگر عدم توانایی در تفکیک مطلوب تصاویر دارای دروازه و غیردروازه می‌باشد. ما به منظور محاسبه خودکار میزان همپوشانی توابع چگالی احتمال، روابط (1) تا (7) را بسط داده‌ایم چنانکه این روابط به ما کمک می‌کنند به مقداری عددی به منظور تصمیم‌گیری در خصوص مقدار همپوشانی توابع چگالی احتمال، و به طور کلی انتخاب یا عدم انتخاب یادگیرنده‌های ضعیف اقدام کنیم. بدیهی است هر چه مقدار همپوشانی که از رابطه (7) به دست می‌آید کمتر باشد میزان تفکیک‌پذیری توسط یادگیرنده ضعیف بهتر بوده و بنابراین مطلوب انتخاب ما است. بنابراین بر اساس توزیع نرمال دو تابع چگالی احتمال داریم:

(1)

(2)

که در آن مجموعه داده مثبت، مجموعه داده منفی، تابع چگالی احتمال داده مثبت، تابع چگالی احتمال داده منفی، میانگین تابع چگالی احتمال دادههای مثبت و تابع چگالی احتمال دادههای منفی می‌باشند. برای محاسبه فاصله 2 تابع چگالی احتمال داریم:

(3)

(4)

(5)

که با بسط آن خواهیم داشت:

(6)

(7)

حاصل رابطه (7) مقداری عددی در بازه صفر تا یک خواهد بود که هر چه مقدار آن کمتر باشد میزان همپوشانی دو تابع چگالی احتمال کمتر خواهد بود که تفکیک پذیری بیشتر مجموعه هدف و غیرهدف را بیان می‌کند. ما از آن به عنوان عاملی برای انتخاب 200 تصویر با بیشترین معیار جهت تفکیک تصاویر مثبت (دروازه) و منفی (غیردروازه) به منظور آموزش شبکه در مسیر دوم استفاده می‌کنیم. در زیربخش بعد، معماری دو مسیره پیشنهادی و نهایتا ترکیب ویژگیها برای استخراج ویژگی‌های سراسری را معرفی می‌کنیم.

3_3 معماری مدل شبکه مشترک پیشنهادی

جدول 2. پارامترهای مربوط به پیاده‌سازی شبکه عمیق پیشنهادی

Value	Parameter
Adam	Optimizer
Binary cross-entropy	Loss function
Accuracy	Performance metric
2 (Gate and Non-Gate)	Total Classes
32	Batch Size
50	Epoch

شکل 3. تابع چگالی احتمال یک تصویر مثبت (سمت راست) و تابع چگالی احتمال یک تصویر منفی (سمت چپ).

در مدل معماری پیشنهادی برای بازشناسی دروازه در مسیر اول، مدل با مجموعه داده آموزشی، آموزش داده میشود. اما در مسیر دوم، مجموعه دادههای آموزشی ابتدا توسط یک سیستم غربال‌کننده که در بخش 2-3 معرفی شد مورد بررسی قرار گرفته و بهترین تصاویر که شامل ویژگیهای متفاوتی با ویژگیهای انتخاب شده توسط مسیر اول هستند، انتخاب می‌شوند. به عبارتی یک غربال اولیه بر روی تصاویر آموزشی اعمال می‌کنیم و شبکه مسیر دوم با مجموعه غربال شده آموزش داده میشود که سبب تاکید بیشتر بر محتوای هدف، تقویت و بهبود تفکیک‌پذیری مدل پیشنهادی می‌گردد. در معماری نسخه پایه شبکه VGG، ورودی شبکه شامل مجموعه‌ای از قطعه‌های تصویر است اما در این مقاله به منظور بازنمایی بهتر ویژگی‌های تصویر، در حقیقت با تعریف مسیر دوم، به تقویت داده‌های سراسری پرداخته‌ایم. به این ترتیب، در معماری دو مسیره پیشنهادی، تصویر ورودی که اندازه آن 200 ×200 است به دو مسیر وارد می شود و در مسیر اول از لایه‌های پیچشی عبور میکند که عمق آنها از 32 در لایه اول تا 256 در لایه چهارم افزایش پیدا میکند. سپس لایه‌های پیچشی با سه لایه اتصال کامل دنبال می‌شوند. در مسیر دوم، ویژگی‌هایی از شبکه‌ای مشابه ولی پس از عبور از سیستم غربالگر تولید می‌شود.

بعد از لایه Flatten هر مسیر دارای یک بردار ویژگی 80000 بُعدی میباشد که با هم ادغام شده و یک بردار 160000 بُعدی حاصل میشود. بردار بدست آمده در حقیقت یک بردار ویژگی سراسری میباشد که از ترکیب ویژگیهای دو مسیر بدست میآید. که این بردار ویژگی سراسری، ورودی لایه Dense را تشکیل میدهد.

در بخش بعدی، با تحلیل مدل پایه شبکه عمیق VGG و روش پیشنهادی، بر روی پایگاه ‌داده تصاویر، با توجه به اینکه در دو مسیر معماری پیشنهادی فضاهای متفاوتی از مساله تحت پوشش قرار گرفته است انتظار داریم که بردار ویژگی مشترک ایجاد شده از کارآیی مطلوبتری در مقایسه با بردار ویژگی مدل پایه برخوردار باشد.

4. نتایج تجربی و آزمایش‌ها

در این بخش به ارزیابی و تحلیل روش پیشنهادی می‌پردازیم. در ابتدا مشخصات پایگاه داده تصاویر مورد استفاده را معرفی کرده و سپس روش پایه و روش پیشنهادی را مورد ارزیابی قرار می‌دهیم. همچنین در انتهای این بخش مقایسه‌ای با سایرکارهای مشابه انجام پذیرفته است. پلتفرم مورد استفاده در پیاده‌سازی این تحقیق پایتون بوده و پارامترهای مربوط به شبکه عمیق پیشنهادی نیز در جدول شماره 2 ارائه شده است.

4_1 پایگاه‌داده تصاویر

با توجه به تحقیقات انجام شده، در حال حاضر هیچ مجموعه داده اختصاصی برای تحلیل اشیاء موجود در زمین فوتبال به صورت دسترسی رایگان برای امور تحقیقاتی وجود ندارد. با این حال، تعدادی پایگاه داده تصاویر وجود دارد که شامل ویدئو و تصاویر متنوعی از جمله زمین فوتبال می‌باشند که آنها نیز بطور خاص الزاما شامل دروازه نیستند ضمن آنکه تعداد آنها نیز به اندازه‌ای که ما برای آموزش شبکه پیشنهادی استفاده کنیم نیست. به عنوان مثال، تنها مجموعه داده‌ی در دسترس، مربوط به ویدیوهای مربوط به پنج مسابقه فوتبال از لیگ فوتبال اسپانیا (La Liga) است[14] که آن نیز به دلیل محدودیت در تعداد مسابقات و تیمهای شرکت‌کننده، همچنین عدم تنوع در شرایط مختلف روشنایی، آب و هوا و غیره از جامعیت کافی برخوردار نیست. درنتیجه ما برای رفع محدودیتهای یاد شده اقدام به تهیه یک مجموعه داده تصاویر از ویدئوهای فوتبال در شرایط بسیار متنوع کردیم که مشخصات آن در ادامه ذکر شده است.

4_2 آماده سازی پایگاه داده تصاویر فوتبال

با توجه به خلاء پایگاه داده تصاویر مرتبط با موضوع تحقیقاتی مورد نظر این مقاله، ما یک مجموعه داده به شرح اطلاعات زیر ارایه کردیم. ما ۱۰۰۰ تصویر از تعداد 20 مسابقه فوتبال از سراسر جهان از جمله لیگ آسیا (شامل کشورهای ایران، ژاپن، کره و غیره)، لیگ‌های اروپایی (شامل کشورهای آلمان، اسپانیا، ایتالیا و غیره)، لیگ‌های آمریکایی (به عنوان مثال برزیل، آرژانتین و غیره) استخراج کردیم. به منظور حفظ جامعیت داده‌ها و تنوع در شرایط واقعی، بازی‌ها مربوط به ساعات مختلف و در فصل‌های متفاوت می‌باشند که از بیش برازش مدل‌های پیشنهادی مبتنی بر یادگیری ماشینی جلوگیری نماید.

به لحاظ آماری، تصاویر به گونه‌ای جمع‌آوری شده‌اند که نیمی از آنها حاوی دروازه و نیمه دیگر تصاویر دیگری از بازی فوتبال هستند یعنی ما در این پایگاه داده تصاویر، 500 تصویر شامل دروازه داریم و 500 تصویر دیگر از بازی فوتبال می‌باشد که در آنها دروازه مشاهده نمی‌شود. همچنین اندازه تصاویر متنوع است و هیچ محدودیتی برای آنها لحاظ نشده است در نتیجه طول و عرض تصاویر مختلف است با این حال کوچکترین تصویر در اندازه 640 × 288 است و بزرگترین تصویر در اندازه 1920× 1080 می‌باشد لازم به ذکر است که همه تصاویر رنگی هستند.

4_3 معیارهای ارزیابی روش پیشنهادی

ما به منظور ارزیابی عملکرد روش پیشنهادی از 4 معیار ارزیابی شامل بازیابی¹⁰ (رابطه 8)، وضوح¹¹ (رابطه 9)، معیار-اف¹² (رابطه 10) و دقت¹³ (رابطه 11) استفاده کرده ایم. همچنین بر اساس این پارامترها مشخصه عملکرد سیستم¹⁴ را نیز محاسبه می‌کنیم. در این ارزیابی‌ها هدف پیدا کردن فریم‌هایی از یک ویدئوی بازی فوتبال است که در آنها دروازه مشاهده شود، انگیزه نویسندگان از شناسایی فریم‌های شامل دروازه آن است که برش‌هایی از ویدئوی بازی که در آنها دروازه مشاهده می‌شود احتمالا جزء بخش‌های حساس بازی است و در نتیجه برای خلاصه‌سازی ویدئوی بازی فوتبال می‌تواند به عنوان یک ویژگی سطح بالا تلقی گردد. اگر چه می‌توان دانش شناسایی برش‌های حساس بازی را هنوز هوشمندانه‌تر تعریف کرد که آن نیز می‌تواند به عنوان بخشی از کارهای آتی به شمار آید.

(8)

(9)

که در آن TP¹⁵ تعداد نمونه های مثبتی است که به درستی مثبت شناسایی شدهاند، TN¹⁶ تعداد نمونههای منفی که به درستی منفی شناسایی شده‌اند، FP¹⁷ تعداد شناسایی‌های مثبت کاذب و FN¹⁸ تعداد شناسایی‌های منفی کاذب میباشند. سپس مقدار معیار-اف f- و دقت به شرح زیر تعریف میشوند:

(10)

(11)

شکل 4 . منحنی مشخصه عملکرد سیستم روش پیشنهادی

4_4 ارزیابی و مقایسه روش ارائه شده

شکل 5. مقایسه نتایج روش‌های پیشنهادی با روش پایه VGG و روش سیستم غربالگر به تنهایی

در این بخش، نتایج ارزیابی روش پیشنهادی در ترکیب ویژگی‌های استخراج شده توسط مدل شبکه عصبی عمیق با ویژگی‌های سراسری استخراج شده به روش کلاسیک ارائه شده است. طی این ارزیابی با شرایط یکسان، مدل VGG-13 که مدل پایه معماری ارائه شده می‌باشد و روش پیشنهادی روی پایگاه‌داده معرفی شده در بخش 4-2 مورد ارزیابی قرار دادهایم. در این ارزیابی که هدف آن شناسایی دروازه در تصاویر می‌باشد، مجموعه دادههای تست که شامل تصاویر دربردارندهی دروازه و تصاویر فاقد دروازه میباشند به شبکه عصبی عمیق پایه و شبکه عصبی عمیق پیشنهادی ارائه شده در بخش 3، به عنوان ورودی داده شده و سپس نتایج روش پیشنهادی روی مجموعه تصاویر تست محاسبه و نتایج حاصل با نتایج کارهای قبلی [24] مقایسه شده است. جدول 3 این نتایج را نشان می‌دهد چنانکه مشاهده می‌شود دقت روش پیشنهادی با معماری دو مسیره نسبت به روش پایه (VGG) برای شناسایی تصاویر حاوی دروازه از بهبود قابل توجهی برخوردار شده است و از 87% به 92% افزایش یافته است. این نتیجه با بهبود متناسب و معناداری بر روی همه مولفه‌های حساسیت و شناسایی حاصل شده است که بیانگر بهبود کارآیی روش پیشنهادی نسبت به روش پایه می‌باشد. روش پیشنهادی علیرغم بهبود دقت دارای زمان آموزش بیشتری میباشد. همچنین بر این اساس، دو مولفه دقت و کارآیی محاسبه شده و در آن جدول ذکر شده است. ضمن آنکه بر اساس این دو مولفه، منحنی مشخصه عملکرد سیستم در شکل 4 نمایش داده شده است.

همچنین نتایج حاصل از مقایسه روش پیشنهادی با سایر روشها براساس پارامتر دقت در جدول 4 ارائه شده‌ است. نتایج حاصل به وضوح برتری روش پیشنهادی در مقایسه با سایر کارهای انجام شده قبلی در این زمینه را نشان می‌دهد.

جدول 3. مقایسه نتایج روش پیشنهادی و روش پایه

زمان آموزش ثانیه به ازای هر عکس میباشد.

نام روش	معماری پایه VGG	روش پیشنهادی
TP	89 %	93 %
TN	85 %	91 %
FN	11 %	7 %
FP	15 %	9 %
معیار بازیابی	0.85	0.91
معیار وضوح	0.89	0.93
معیار- اف	0.86	0.91
دقت	87 %	92 %
زمان آموزش	0.426	0.556

جدول 4. مقایسه نتایج روش پیشنهادی و سایر روشها

روش	دقت
معماری پایه VGG	87 %
همه یادگیرندههای ضعیف [24]	57 %
یادگیرندههای ضعیف منتخب [24]	80.5 %
روش پیشنهادی	92 %

در یک مقایسه دیگر ما نتایج حاصل از روش پیشنهادی را که یک روش ترکیبی است با هر یک از نتایج شبکه عصبی پایه و روشی که در آن صرفا از سیستم غربال‌گر استفاده کرده است مقایسه کردیم که در شکل 5 نشان داده شده است.

چنانکه از این تصویر مشاهده می شود به ازای آموزش در مرحل میانی و پس از آن، نتایج از هر دو مدل مجزا بهتر می باشد.

از طرف دیگر به منظور تحلیل بیشتر روش پیشنهادی با توجه به آنکه در معماری روش‌های مبتنی بر شبکه‌های عصبی عمیق نقش تعداد داده‌های آموزشی مهم است ما برای بررسی میزان تاثیر دادههای آموزشی در میزان دقت روش پیشنهادی، از سه قرارداد تقسیم داده های آموزشی و آزمایشی استفاده می کنیم. در قرارداد اول، 25% کل داده‌های آموزشی را برای آموزش مدل و 75% را برای آزمایش استفاده می‌کنیم. طی قرارداد دوم، ما 50% داده‌ها را برای آموزش و 50% را برای آزمایش استفاده می‌کنیم و بالاخره در قرارداد سوم، 75% داده‌های آموزشی برای آموزش مدل و 25% برای آزمایش مورد استفاده قرار می‌گیرند. به این ترتیب علاقه‌مندیم نقش تعداد داده‌های آموزشی بر مدل پیشنهادی را نیز مورد ارزیابی قرار دهیم. نتایج روش پیشنهادی با تقسیم‌بندی ذکر شده بر روی پایگاه‌داده تصاویر معرفی شده در بخش 4-2 اعمال شده است که در جدول 5 و نمودار گرافیکی آن طی مراحل¹⁹ مختلف در شکل

جدول 5. مقایسه نتایج روش پیشنهادی و روش پایه

رهیافت	دقت
قرارداد ارزیابی	75-25	50-50	25-75
روش عمیق پایه	67 %	85 %	87 %
روش پیشنهادی	90 %	91 %	92 %

6 قابل مشاهده می‌باشد.

شکل6. ارزیابی روش پیشنهادی با سه قرارداد متنوع در استفاده از داده‌های آموزشی و آزمایشی 25-75، 50-50 و 75-25 درصد

نتایج ارزیابی روش پیشنهادی در دسته بندی مجموعه تصاویر آزمایشی برای تعدادی از تصاویر در شکل 7 ارائه شدهاند. شکل 7-الف به وضوح توانایی روش پیشنهادی در شناسایی تصاویر فاقد دروازه در مجموعه تصاویر و شکل 7-ب توانایی روش پیشنهادی در شناسایی و دسته بندی تصاویر دارای دروازه را نشان میدهد. براساس نتایج ارائه شده روش پیشنهادی توانسته با درصد احتمال بالایی تصاویر هر دسته را شناسایی و تفکیک کند که گویای کارایی و دقت روش پیشنهادی میباشد.

شکل7. ارزیابی روش پیشنهادی در دستهبندی مجموعه دادهای تست به دو دسته تصاویر فاقد دروازه (الف) و دسته تصاویر دارای دروازه (ب)

برای ارزیابی روش پیشنهادی اقدام به مقایسه نتایج روش پیشنهادی با سایر کارهای انجام شده کردهایم. برای این منظور برای مقایسه و ارزیابی روش پیشنهادی با نتایج کار انجام شده توسط کریمی و همکاران، دادههای مربوط به رویداد کارت زرد ارائه شده توسط کریمی و همکاران²⁰ را دانلود و سپس نتایج روش پیشنهادی با کار انجام شده توسط کریمی و همکاران را در جدول شماره 6 ارائه کردهایم. براساس نتایج ارائه شده روش پیشنهادی در شناسایی رویداد کارت زرد دارای دقت بهتری میباشد.

جدول 6. مقایسه نتایج روش پیشنهادی در شناسایی کارت زرد و سایر روشها

روش	دقت
کریمی و همکاران [18]	92.66 %
روش پیشنهادی	95.26 %

5. نتیجهگیری

امروزه حجم بسیار فراوانی از ویدئو‌های مختلف در اختیار کاربران در سراسر جهان قرار دارد. برخی از این ویدیوها مربوط به حوزه سرگرمی و برخی دیگر نیز مرتبط با حوزههای نظارتی و امنیتی میباشند.

از جمله این ویدئوها، ویدیوهای ورزشی و خصوصا ویدئوهای ورزش فوتبال است که به دلیل علاقهمندی طیف گستردهای از مردم جهان به این ورزش دارای اهمیت بالایی است. علاوه بر موضوع علاقهمندی فوتبال دوستان، مسئله زمان طولانی بازی فوتبال است که در اغلب موارد همه مردم فرصت تماشای 90 دقیقه بازی فوتبال را ندارد و البته علاقه‌مند هستند دستکم لحظات مهم و هیجان انگیز بازی را مشاهده کنند. به همین علت اخیرا برخی از فراهمکنندگان خدمات ارائه ویدئوهای ورزشی به خلاصه‌سازی بازی فوتبال پرداخته‌اند که با استقبال کاربران‌شان مواجه شده است. در این مقاله ما یک روش خودکار با استفاده از یک مدل معماری دومسیره یادگیری عمیق برای تحلیل تصاویر ویدئویی ورزش فوتبال، با تاکید بر شناسایی دروازه به عنوان یکی از مهمترین عناصر رویداد گُل که مهمترین رویداد بازی فوتبال میباشد، ارائه کردیم.

رشد چشمگیر روش‌های مبتنی بر یادگیری عمیق توانسته نتایج قابل قبولی را در حوزه تحلیل تصویر فراهم کنند. روش‌های مبتنی بر یادگیری عمیق کارآیی بسیار مطلوبی در استخراج ویژگیها دارند، اما تضمینکننده استخراج همه ویژگیها یا به عبارتی بهترین ویژگی‌ها نیستند. در نتیجه با اطمینان میتوان گفت که استخراج خودکار ویژگی‌های تصویر برای بازشناسی دروازه در تصاویر بازی فوتبال اگر چه بسیار مفید است اما کامل نبوده و ترکیب ویژگی‌ها سبب بهبود دقت سیستم شناسایی هدف می‌گردد. ترکیب ویژگی‌های استخراج شده با روشهای سنتی که قادر به پوشش مسئله هدف هستند با روش‌های خودکار استخراج ویژگی عمیق پروسهای هوشمندانه است که می‌تواند منجر به کسب نتایجی بهتر در مقایسه با هر یک از آنها به تنهایی شود.

در این مقاله، ما یک روش خودکار هوشمند بازشناسی دروازه در جهت شناسایی لحظات حساس بازی فوتبال به منظور خلاصه‌سازی آن ارائه کردیم که در آن با ارائه یک مدل معماری دومسیره یادگیری عمیق، از هر دو مسیر ویژگی استخراج شده توسط شبکه‌های عصبی عمیق و ویژگی‌های سنتی بهره‌مند شدیم. در این مقاله نشان دادیم که ترکیب این ویژگی‌ها توصیف مطلوب‌تری به‌منظور بازشناسی هدف (دروازه) حاصل می‌کند. براساس نتایج ارائه شده، روش پیشنهادی در مقایسه با سایر روشها از دقت بیشتر و خطای کمتری برخودار میباشد.

مراجع

[1] P. Shi and X. Yu, “Goal event detection in soccer videos using multi-clues detection rules,” in Management and Service Science, 2009. MASS’09. International Conference on, 2009, pp. 1–4.

[2] M.-L. Shyu, Z. Xie, M. Chen, and S.-C. Chen, “Video semantic event/concept detection using a subspace-based multimedia data mining framework,” IEEE Transactions on Multimedia, vol. 10, no. 2, pp. 252–259, 2008.

[3] M. H. Kolekar, “Bayesian belief network based broadcast sports video indexing,” Multimedia Tools and Applications, vol. 54, no. 1, pp. 27–54, 2011.

[4] D. W. Tjondronegoro and Y.-P. P. Chen, “Knowledge-discounted event detection in sports video,” Ieee transactions on systems, man, and cybernetics-part a: Systems and humans, vol. 40, no. 5, pp. 1009–1024, 2010.

[5] L.-Y. Duan, M. Xu, Q. Tian, C.-S. Xu, and J. S. Jin, “A unified framework for semantic shot classification in sports video,” IEEE Transactions on Multimedia, vol. 7, no. 6, pp. 1066–1083, 2005.

[6] B. Li, J. H. Errico, H. Pan, and I. Sezan, “Bridging the semantic gap in sports video retrieval and summarization,” Journal of Visual Communication and Image Representation, vol. 15, no. 3, pp. 393–424, 2004.

[7] H.-G. Kim, S. Roeber, A. Samour, and T. Sikora, “Detection of goal events in soccer videos,” in Storage and Retrieval Methods and Applications for Multimedia 2005, 2005, vol. 5682, pp. 317–326.

[8] L. Xie, S.-F. Chang, A. Divakaran, and H. Sun, “Unsupervised discovery of multilevel statistical video structures using hierarchical hidden Markov models,” in Multimedia and Expo, 2003. ICME’03. Proceedings. 2003 International Conference on, 2003, vol. 3, p. III–29.

[9] D. Tjondronegoro, Y.-P. P. Chen, and B. Pham, “Highlights for more complete sports video summarization,” IEEE multimedia, vol. 11, no. 4, pp. 22–37, 2004.

[10] T. Wang, J. Li, Q. Diao, W. Hu, Y. Zhang, and C. Dulong, “Semantic event detection using conditional random fields,” in 2006 Conference on Computer Vision and Pattern Recognition Workshop (CVPRW’06), 2006, pp. 109–109.

[11] C.-L. Huang, H.-C. Shih, and C.-Y. Chao, “Semantic analysis of soccer video using dynamic Bayesian network,” IEEE Transactions on Multimedia, vol. 8, no. 4, pp. 749–760, 2006.

[12] M. Y. Eldib, B. S. A. Zaid, H. M. Zawbaa, M. El-Zahar, and M. El-Saban, “Soccer video summarization using enhanced logo detection,” in Image Processing (ICIP), 2009 16th IEEE International Conference on, 2009, pp. 4345–4348.

[13] B. Fakhar, H. R. Kanan, and A. Behrad, “Event detection in soccer videos using unsupervised learning of Spatio-temporal features based on pooled spatial pyramid model,” Multimedia Tools and Applications, pp. 1–31, 2019.

[14] J. Yu, A. Lei, and Y. Hu, “Soccer Video Event Detection Based on Deep Learning,” in International Conference on Multimedia Modeling, 2019, pp. 377–389.

[15] Z. Dang, J. Du, Q. Huang, and S. Jiang, “Replay detection based on semi-automatic logo template sequence extraction in sports video,” in Image and Graphics, 2007. ICIG 2007. Fourth International Conference on, 2007, pp. 839–844.

[16] H. Pan, P. Van Beek, and M. I. Sezan, “Detection of slow-motion replay segments in sports video for highlights generation,” in icassp, 2001, pp. 1649–1652.

[17] H. M. Zawbaa, N. El-Bendary, A. E. Hassanien, and T. Kim, “Event detection based approach for soccer video summarization using machine learning,” International Journal of Multimedia and Ubiquitous Engineering, vol. 7, no. 2, pp. 63–80, 2012.

[18] A. Karimi, R. Toosi, and M. A. Akhaee, “Soccer Event Detection Using Deep Learning,” arXiv preprint arXiv:2102.04331, 2021.

[19] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2014, pp. 580–587.

[20] S. Gerke, K. Muller, and R. Schafer, “Soccer jersey number recognition using convolutional neural networks,” in Proceedings of the IEEE International Conference on Computer Vision Workshops, 2015, pp. 17–24.

[21] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778.

[22] S. He and L. Schomaker, “Deep adaptive learning for writer identification based on single handwritten word images,” Pattern Recognition, vol. 88, pp. 64–74, 2019.

[23] S. F. Chevtchenko, R. F. Vale, V. Macario, and F. R. Cordeiro, “A convolutional neural network with feature fusion for real-time hand posture recognition,” Applied Soft Computing, vol. 73, pp. 748–766, 2018.

[24] A. Zanganeh and M. Jampour, "Automatic Weak Learners Selection for Pattern Recognition and its application in Soccer Goal Recognition," 2019 4th International Conference on Pattern Recognition and Image Analysis (IPRIA), 2019, pp. 240-245, doi: 10.1109/PRIA.2019.8785966.

An effective dual-path deep neural network-based architecture for gate recognition in soccer video

Abstract

Keywords: Dual-Path Deep Learning Architecture, Feature Combination, Deep VGG, Classic Features, Common Architecture

[1] Atomic concept

[2] Replay

[3] Long View Shot

[4] Graphical Processing Units

[5] Convolutional Neural Networks

[6] Max pooling

[7] ReLU

[8] Sigmoid

[9] Weak lerner

[10] Recall

[11] Precision

[12] F-measure

[13] Accuracy

[14] ROC

[15] True Positive

[16] True Negative

[17] False Positive

[18] False Negative

[19] Epoch

[20] https://github.com/FootballAnalysis/footballanalysis/tree/main/Dataset/Soccer%20Event%20Dataset%20(Image)

Share To

Article Url

An efficient Two Pathways Deep Architecture for Soccer Goal Recognition towards Soccer Highlight Summarization

Rimag

Links

Related Centers

Technical Support

Official pages