یک معماری دومسیره کارآمد مبتنی بر شبکه عصبی عمیق برای بازشناسی دروازه در ویدئوی بازی فوتبال
الموضوعات :امیرحسین زنگنه 1 , مهدی جم پور 2 , کامران لایقی 3
1 - دانشجو دکتری واحد تهران شمال دانشگاه آزاد اسلامی
2 - استادیار، دانشکده مهندسي کامپیوتر ، دانشگاه صنعتی قوچان
3 - استادیارگروه مهندسی کامپیوتر، واحد تهران شمال، دانشگاه آزاد اسلامی
الکلمات المفتاحية: معماری یادگیری عمیق دو مسیره, ترکیب ویژگیها, شبکه عصبی عمیق VGG, ویژگیهای کلاسیک, معماری مشترک,
ملخص المقالة :
در این مقاله یک روش خودکار با استفاده از یک مدل معماری دومسیره یادگیری عمیق برای مساله تحلیل تصاویر ویدئویی ورزش فوتبال، با تاکید بر شناسایی دروازه به عنوان یکی از مهمترین عناصر رویداد گُل که مهمترین رویداد بازی فوتبال می باشد، ارائه کرده ایم. معماری پیشنهادی، شکل توسعه یافته مدل VGG سیزده لایه میباشد که طی آن یک مدل معماری دو مسیره تعریف شده است. در مدل معماری پیشنهادی برای بازشناسی دروازه در مسیر اول، مدل با مجموعه داده آموزشی، آموزش داده می شود. اما در مسیر دوم، مجموعه داده های آموزشی ابتدا توسط یک سیستم غربالکننده مورد بررسی قرار گرفته و بهترین تصاویر که شامل ویژگی های متفاوتی با ویژگی های انتخاب شده توسط مسیر اول هستند، انتخاب میشوند. به عبارت دیگر در مسیر دوم، ویژگیهایی از شبکهای مشابه مسیر اول، ولی پس از عبور از سیستم غربالگر تولید میشود.سپس بردارهای ویژگی تولید شده در دو مسیر با یکدیگر ادغام شده و یک بردار ویژگی سراسری حاصل می شود و بدین ترتیب فضاهای متفاوتی از مساله بازشناسی دروازه تحت پوشش قرار گرفته است. ارزیابیهای متنوعی بر روی روش ارائه شده انجام شده است. نتایج ارزیابیها، حاکی از بهبود دقت بازشناسی دروازه بهوسیله مدل معماری دومسیره ارائه شده نسبت به مدل پایه میباشد. همچنین مقایسه روش پیشنهادی با نتایج موجود نشان میدهد دقت روش پیشنهادی، بهتر از نتایج منتشر شده است.
P. Shi and X. Yu, “Goal event detection in soccer videos using multi-clues detection rules,” in Management and Service Science, 2009. MASS’09. International Conference on, 2009, pp. 1–4.
M.-L. Shyu, Z. Xie, M. Chen, and S.-C. Chen, “Video semantic event/concept detection using a subspace-based multimedia data mining framework,” IEEE Transactions on Multimedia, vol. 10, no. 2, pp. 252–259, 2008.
M. H. Kolekar, “Bayesian belief network based broadcast sports video indexing,” Multimedia Tools and Applications, vol. 54, no. 1, pp. 27–54, 2011.
D. W. Tjondronegoro and Y.-P. P. Chen, “Knowledge-discounted event detection in sports video,” Ieee transactions on systems, man, and cybernetics-part a: Systems and humans, vol. 40, no. 5, pp. 1009–1024, 2010.
L.-Y. Duan, M. Xu, Q. Tian, C.-S. Xu, and J. S. Jin, “A unified framework for semantic shot classification in sports video,” IEEE Transactions on Multimedia, vol. 7, no. 6, pp. 1066–1083, 2005.
B. Li, J. H. Errico, H. Pan, and I. Sezan, “Bridging the semantic gap in sports video retrieval and summarization,” Journal of Visual Communication and Image Representation, vol. 15, no. 3, pp. 393–424, 2004.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال سیزدهم، شمارههاي49و50، پاییز و زمستان 1400 صص: 103_114 |
|
یک معماری دومسیره کارآمد مبتنی بر شبکه عصبی عمیق برای بازشناسی دروازه در ویدئوی بازی فوتبال
امیرحسین زنگنه* مهدی چم پور ** کامران لایقی ***
*دانشجوی دکتری، گروه مهندسی کامپیوتر، واحد تهران شمال، دانشگاه آزاد اسلامی، تهران، ایران.
**استادیار، دانشکده مهندسي کامپیوتر ، دانشگاه صنعتی قوچان، قوچان، ایران.
*** استادیار، گروه مهندسی کامپیوتر، واحد تهران شمال، دانشگاه آزاد اسلامی، تهران، ایران.
تاریخ دریافت: 06/11/1399 تاریخ پذیرش: 03/06/1400
نوع مقاله: پژوهشی
چكیده
در این مقاله یک روش خودکار با استفاده از یک مدل معماری دومسیره یادگیری عمیق برای مساله تحلیل تصاویر ویدئویی ورزش فوتبال، با تاکید بر شناسایی دروازه به عنوان یکی از مهمترین عناصر رویداد گُل که مهمترین رویداد بازی فوتبال میباشد، ارائه کردهایم. معماری پیشنهادی، شکل توسعه یافته مدل VGG سیزده لایه میباشد که طی آن یک مدل معماری دو مسیره تعریف شده است. در مدل معماری پیشنهادی برای بازشناسی دروازه در مسیر اول، مدل با مجموعه داده آموزشی، آموزش داده میشود. اما در مسیر دوم، مجموعه دادههای آموزشی ابتدا توسط یک سیستم غربالکننده مورد بررسی قرار گرفته و بهترین تصاویر که شامل ویژگیهای متفاوتی با ویژگیهای انتخاب شده توسط مسیر اول هستند، انتخاب میشوند. به عبارت دیگر در مسیر دوم، ویژگیهایی از شبکهای مشابه مسیر اول، ولی پس از عبور از سیستم غربالگر تولید میشود.سپس بردارهای ویژگی تولید شده در دو مسیر با یکدیگر ادغام شده و یک بردار ویژگی سراسری حاصل میشود و بدین ترتیب فضاهای متفاوتی از مساله بازشناسی دروازه تحت پوشش قرار گرفته است. ارزیابیهای متنوعی بر روی روش ارائه شده انجام شده است. نتایج ارزیابیها، حاکی از بهبود دقت بازشناسی دروازه بهوسیله مدل معماری دومسیره ارائه شده نسبت به مدل پایه میباشد. همچنین مقایسه روش پیشنهادی با نتایج موجود نشان میدهد دقت روش پیشنهادی، بهتر از نتایج منتشر شده است.
واژگان کلیدی: معماری یادگیری عمیق دو مسیره، ترکیب ویژگیها، شبکه عصبی عمیق VGG، ویژگیهای کلاسیک، معماری مشترک
1. مقدمه
نویسنده مسئول: مهدی چم پور jampour@qiet.ac.ir
|
چنانکه استفاده از سیستمهای نظارت ویدیویی در بیشتر سازمانها، ادارات، کارخانجات و محیطهای کاری موجب مراقبت و کنترل دقیق محیط، کاهش تخلفات، افزایش توانایی در آشکارسازی سریع حوادث و نظمدهی محیط کاری شده است. افزایش سامانههای نظارتی موجب شده تا حجم عظیمی از دادههای چند رسانهای تولید شود که در گام اول ذخیرهسازی این حجم گسترده از دادههای ویدیویی نیازمند استفاده از رسانههای ذخیرهساز فراوان میباشد و در گام دوم مدیریت محتوایی آنها بصورت دستی، نیازمند تعداد بسیار زیادی کاربر انسانی و صرف مدت زمان طولانی است که در عمل امکانپذیر نبوده و با خطای زیادی روبرو میباشد.
بخش دیگری از ویدیوهای در دسترس کاربران ویدیوهای مختلف، مربوط به حوزه سرگرمی میباشد. کاربران با توجه به گرایش و علاقهمندیهای شخصی، برنامههای ویدیوهای مختلف را تهیه میکنند یا سایر ویدیوهای موجود در فضای مجازی را پیگیری و مشاهده و در برخی موارد نیز اقدام به ذخیرهسازی آنها میکنند. در این میان لزوم خلاصهسازی فیلمهای ویدیویی و خصوصا ویدیوهای ورزشی با توجه به اینکه معمولا دارای مدت زمان طولانی میباشند، ملموستر است.
ورزش فوتبال یکی از ورزشهای محبوب در جهان است که نه تنها هواداران، بلکه محققان زیادی از مناطق مختلف را در سراسر جهان به خود جلب کرده است. از جمله ویدیوهای ورزشی محبوب، ویدیوهای ورزش فوتبال است که به دلیل علاقهمندی طیف گستردهای از مردم جهان به این ورزش از اهمیت بسیار بالایی برخوردار می باشد. مسئله زمان طولانی بازی فوتبال موجب شده که علاوه بر حجم زیاد مورد نیاز برای ذخیرهسازی، در اغلب موارد همه مردم فرصت تماشای 90 دقیقه فوتبال را نداشته باشند و البته علاقهمند هستند دستکم لحظات مهم و هیجان انگیز بازی را مشاهده کنند. در نتیجه با توجه به زمانگیر بودن فیلمهای ویدیوی و ویدیوهای ورزشی و محدود بودن زمان بسیاری از علاقهمندان و طرفداران این ویدیوها، جهت انتقال محتوای ویدیو به بینندگان، خلاصهسازی ویدیو انجام میشود. به این ترتیب بینندگان میتوانند بدون نیاز به مشاهده کل ویدیو، بخشهای مهم و اصلی آن رویداد را مشاهده و درک کنند.
خلاصه سازی مطلوب یک ویدئو ورزشی فرآیند ساده ای نیست و نیازمند پردازش انسانی میباشد. در روشهای سنتی یک کاربر سراسر یک ویدیو را مورد نظارت قرار داده و بخشهای مهم آن را برچسبگذاری میکند که کاری زمانگیر و دشوار میباشد. برای این منظور، نیازمند تشخیص دقیق رویدادهای مهم و حساس بازی فوتبال هستیم که مبهم و هنوز به عنوان یک سوال باز مطرح میباشد. با این حال در این مقاله، ما دقیقا درصدد تعریف یک رویداد حساس در بازی فوتبال نیستیم بلکه برای شناسایی و تعیین رویدادها در بازی فوتبال، براساس یک پژوهش میدانی عمل کردهایم. ما به منظور شناسایی مهمترین رویدادهای بازی پرطرفدار فوتبال، پرسشنامهای شامل 7 رویداد طراحی کردیم و انتخاب مهمترین رویدادها را به شرکتکنندگان در نظرسنجی واگذار کردیم. فرم نظرسنجی مذکور شامل رویدادهای گل، کرنر، کارت قرمز، کارت زرد، ضربه آزاد، پنالتی و برخورد توپ با تیرک دروازه میباشد.
جدول 1. نتایج نظرسنجی در مورد مهمترین رویداد بازی فوتبال
|
براساس نتایج حاصل از نظر سنجی، مواردی که در حین تماشای یک بازی فوتبال توجه مردم را به خود جلب میکنند شامل شوت، پنالتی، کارت زرد، کارت قرمز، خطاها، ضربات آزاد، کرنر و گل میباشند که آنها را به عنوان رویدادهای مهم وحساس در بازی فوتبال تعریف میکنیم. لازم به ذکر است که براساس نتایج حاصله، رویداد «گُل» مهمترین و حساسترین رویداد در بازی فوتبال به شمار میآید.
از سوی دیگر، کشف و شناسایی رویدادها و وقایع پیچیده در ویدیوها عملیاتی چالش برانگیز و پیچیده است که توجه محققان زیادی را در جامعه بینایی رایانه به خود جلب کرده است. در مقایسه با تشخیص مفهومهای مجزا1، که عمدتاً بر شناسایی اشیاء خاص و صحنه در تصاویر ثابت یا کلیپهای کوتاه ویدیویی شامل حرکات ساده متمرکز است، تشخیص رویداد چندرسانهای با فیلمهای پیچیدهتری مرتبط میباشد که شامل تعامل انسان با اشیاء مختلف در صحنههای متفاوت است و پردازش آنها معمولا چند دقیقه یا حتی چند ساعت زمان نیاز دارد.بنابراین، یک رویداد، یک انتزاع معنایی از توالی سطح بالاتر نسبت به یک یا چند مفهوم است. به عنوان مثال، رویداد گُل را میتوان ترکیب چندین مفهوم مانند اشیاء (بازیکنان، توپ، دروازه و تور)، صحنه (زمین چمن که مسابقه روی آن انجام میشود)، اقدامات (حرکت بازیکنان، موقعیت توپ، شادی کردن بازیکنان) و مفاهیم صوتی (صدای گزارشگر و تماشاچیان، صدای بازیکنان، تشویق تماشاچیان) و غیره تعریف نمود.
با توجه به مشکلات موجود لزوم خلاصهسازی خودکار ویدیوها کاملا محسوس است. در خلاصهسازی خودکار ویدیو با معرفی رویدادهای مهم و حساس، سیستم قادر است پس از دریافت یک ویدیو در ورودی با حذف افزونگیهای بصری و فریمهای تکراری، یک کلیپ خلاصه شده از ویدیو که در برگیرنده محتوای ویدیوی اصلی میباشد را در اختیار کاربر قرار دهد.
در این مقاله ما یک روش خودکار برای تحلیل تصاویر ویدئویی ورزش فوتبال ارائه میکنیم که با تاکید بر شناسایی یکی از عوامل قابل توجه در تشخیص رویدادهای مهم و حساس بازی فوتبال، یک روش خودکار برای تشخیص و خلاصهسازی لحظات مهم بازی تلقی میشود. همانطور که در شکل 1 نشان داده شده در این مقاله، با ترکیب ویژگیهای استخراج شده توسط یک مدل معماری دومسیره یادگیری عمیق، روشی خودکار معرفی میکنیم که در آن دروازه به عنوان یک عامل تفکیک کننده شناسایی میشود. اگر چه این عامل به تنهایی نشان دهنده لحظات همیشه حساس نیست ولی گامی موثر بسوی تفکیک لحظات مهم بازی فوتبال و خلاصهسازی آن به شمار می آید.
ادامه این مقاله به شرح زیر سازماندهی شده است: در بخش ۲، کارهای انجام شده در زمینه خلاصهسازی ویدیویی فوتبال مورد بررسی قرار میگیرد، سپس در بخش ۳، روش پیشنهادی به تفصیل شرح داده میشود؛ در بخش ۴ نتایج تجربی ارائه شده است و در نهایت، نتیجهگیری در بخش ۵ ذکر شده است.
شکل 1. معماری دومسیره پیشنهادی جهت ترکیب ویژگیها استخراج شده توسط شبکه عصبی آموزش داده شده با مجموعه دادهای آموزشی و شبکه عصبی آموزش داده شده با دادهای منتخب مبتنی بر سیستم غربالگر.
|
تشخیص خودکار رخدادها و تفسیر معنایی صحنهها، یک کار چالش برانگیز در خلاصهسازی ویدیو بازی فوتبال است. این کار میتواند با استخراج ویژگیها در سطوح معنایی مختلف انجام شود. ویژگیهای سطح پایین
تصویر مانند رنگ، شکل و بافت، توپ، دهانه دروازه، و همچنین ویژگیهای ویدئویی مانند فریمهای متوالی و عکسها برای به دست آوردن ویژگیهای سطح بالا از قبیل شناسایی وضعیت ویدیو مانند حالت پخش مجدد بازی و حالت وقفه ایجاد شده در بازی استفاده میشوند.
کارهایی برای خلاصه سازی ویدیو انجام شده که ما آنها را به دو دسته کلی تقسیم کردهایم: 1) روشهایی که برای خلاصهسازی از ویژگیهای مختلف ویدیو مانند ویژگیهای دیداری، شنیداری یا متنهای مرتبط با ویدیو استفاده میکنند. 2) روشهایی که منحصرا ویژگیهای دیداری موجود در فریمهای ویدیو را برای شناسایی رویداد، مورد استفاده قرار میدهند.
1_2 رو شهایی مبتنی بر ویژگیهای ویدیو
ویژگیهای صوتی شامل تشویق تماشاگران و هیجان مفسران ورزشی استخراج شده، و همزمان نشانههای(ویژگیهای) بصری تشخیص داده شدهاند. بعد از استخراج مفهوم معنایی و توجه به توالی معنایی رویدادهایی که با هم مرتبط هستند، مانند ورود توپ به دروازه و هلهله تماشاچیان، قوانین موجود برای شناسایی رویداد به کار گرفته میشوند[1]. در کاری مشابه برای تجزیه و تحلیل محتوی ویدیو اقدام به استخراج ویژگیهای سطح پایین و سطح میانی از کانالهای صدا / تصویری کردند[2].
روشی برای آنالیز معنایی ویدیو و خلاصهسازی ویدیو با شناسایی مفاهیم با استفاده از یک شبکه بیزی معرفی شده است که در آن، رویدادهای برجسته بازی با استفاده از ویژگیهای صوتی با استفاده از قوانین تولید شده و دانش این حوزه از کلیپهای ویدیو، شناسایی میشوند[3]. مجموعهای از کلیپهای برجسته که شامل رویدادهای حساس بازی هستند، برچسبگذاری شده و در یک چکیده ویدئویی برای کاربردهای مختلف مانند مرور رویدادهای مهم، شاخصگذاری و بازیابی ویدیو بکار برده میشوند.
استخراج ویژگیهای صوتی (صدای سوت داور) و تصویری ویدیو برای شناسایی وقفههای ایجاد شده در بازی، مورد استفاده قرار گرفتهاند. [4]. برای مثال در بازی فوتبال زمانی که سوت داور شنیده میشود به این معنی است که یک خطا اتفاق افتاده یا توپ خارج از میدان بوده و در نتیجه یک وقفه در بازی رخ داده است. از جمله مزایای کار یاد شده، عمومی بودن و کاربردی بودن آن برای همه بازیهایی است که دارای ساختار بازی/ وقفه میباشند.
همچنین [5]–[9] نیز از ویژگی صوتی به عنوان یکی از مهمترین ویژگیها برای شناسایی رویدادهای حساس استفاده کردند. به عنوان مثال، برای شناسایی رویداد گل در بازی فوتبال از تغییرات صدای گزارشگر و تغییرات صدای تماشاچیان استفاده کردند. به عقیده آنها افزایش شدید انرژی صوتی نشان دهنده رویدادی خاص در بازی میباشد [10], [11].
کارهای انجام شده دسته اول که از ویژگیهای مختلف برای شناسایی رویداد استفاده میکنند با محدیدویتهای از جمله: 1- افزایش تعداد سنسورها و تجهیزات سخت افزاری به منظور ضبط صوت، 2- محدودیت در فاصله ضبط دادهها، با استفاده از دوربین میتوان رویدادها را از فاصله دور ثبت و ضبط نمود در حالیکه اگر بخواهیم همان ویدیو را با صدا تهیه کنیم با محدودیت فاصله روبرو خواهیم بود. 3- حذف نویز و صداهای اضافی موجود در ویدیو که توسط تماشاچیان تولید میشود و میتواند موجب خطا در عملکرد سیستم شود. به عنوان مثال روشهایی که با شناسایی صدای سوت داور اقدام به شناسایی رویداد میکنند در مواردی که تماشاچیان اقدام به سوت زدن در حین بازی میکنند با خطا روبرو میشوند. 4- در ویدیوهایی که در ورزشگاههای سرپوشیده تهیه میشوند، صدای تماشاچیان صدای غالب بوده و عملا صدای سوت داور و بازیکنان توسط روشهای مالتیمُدال قابل استفاده نیستند. 5- روشهای مالتیمدال فقط روی ویدیوهایی که تحت شرایط خاصی تهیه شدهاند، قابلیت استفاده را دارا بوده و عمومی نیستند.
2_2 روشهای مبتنی بر ویژگیهای فریم
شرکتهای پخش ویدیویی از تکرارهای2 صحنههای هیجان انگیز و مهم استفاده میکنند تا روی رویدادهای خاص بازی با جزئیات کامل تأکید کرده و آنها را برای بینندگان خود نمایش دهند. صحنه تکرار به طور عمده شامل نمایش حرکت آهسته یک رویداد جالب و گاهی اوقات لوگو بازی (علامت ویژه مسابقه یا علامت تجاری اسپانسر برای برخی از فریمها) است، که در آغاز و پایان صحنه تکرار استفاده میشود. استفاده از ویژگی تکرار رویدادهای حساس بازی نیز در برخی از کارهای مشابه برای خلاصهسازی ویدیو مورد استفاده قرار میگیرد.
برای شناسایی رویدادهای حساس بازی اقدام به شناسایی لوگو بازی کردهاند[12]. به نظر آنها هنگامی رویداد گل شناسایی میشود که یک وقفه در مسابقه تشخیص داده میشود یا برخی علایم از تشویق بازیکنان مشاهده میشوند و یا پخش مجدد بازی از زوایای مختلف که توسط دوربین های مختلف بدست آمدهاند، نمایش داده میشوند. هنگامی که لوگوی مسابقات در ویدیو پخش میشود اقدام به تشخیص صحنه تکرار میکنند و سپس برای خلاصه سازی ویدیو با استفاده از شناسایی صحنهی تکرار، شناسایی مبتنی بر قاعده گل و تشخیص حمله، اقدام میکنند. این تشخیص از طریق تشخیص مرز براساس دهانهی دروازه، طبقهبندی عکس، تشخیص صحنهی تکرار، و تشخیص بورد ثبت امتیازات امکانپذیر است.
برای شناسایی رویدادهای حساس بازی فوتبال اقدام به تشخیص صحنههای پخش مجدد در ویدیو کردند[13]. به نظر آنها صحنههای پخش مجدد حاوی رویدادهای مهم بازی میباشند. برای شناسایی صحنههای پخش مجدد نیز اقدام به شناسایی لوگوی بازی در فریمهای ویدیو کردهاند. آنها به محض تشخیص لوگوی مسابقات در یک فریم، به فریمهای قبلی برگشته و این کار را تا رسیدن به فریمی که حاوی یک تصویر از نمای دور3، است ادامه میدهند. مجموعه فریمهای بین تصویر نمای دور و لوگوی مسابقات به عنوان رویداد مهم بازی خلاصه میشوند.
شکل 2. معماری اولیه شبکه VGG و لایههای استفاده شده در آن
|
در روشهای مبتنی بر شناسایی لوگوی [15]–[17] مسابقات 1- باید لوگوی مسابقات برای سیستم تعریف شود 2- سیستم فقط به تصویر لوگو مسابقه حساس بوده و هیچ دانشی در مورد نوع رویداد اتفاق افتاده نداشته و در نتیجه امکان خلاصه سازی ویدیو براساس نوع رویداد در این روش وجود ندارد و 3- این روش عمومی نبوده و فقط برای ویدیوهایی طراحی شده که توسط یک کاربر انسانی از قبل مورد بررسی قرار گرفته باشد که سلیقه و انتخاب کاربر شرکتهای پخش ویدیویی در آن دخیل است.
یادگیری عمیق به عنوان یکی از تکنیکهای یادگیری ماشین، از پیشرفتهای فناوری واحدهای پردازش گرافیکی4 استفاده کرده است، و این امر به نوبه خود استفاده گسترده از آن را فراهم آورده است. کریمی و همکاران [18] از یادگیری عمیق برای شناسایی رویدادهای ورزش فوتبال با تاکید بر استخراج رویداد کارت زرد و قرمز استفاده کردهاند. آنها ابتدا تصاویر ورزش فوتبال را از سایر تصوایر تفکیک کرده و در مرحله بعد اقدام به شناسایی رویداد میکنند.
تکنیکهای یادگیری عمیق به نتایج بسیار خوبی در بسیاری از مسائل مهم در مقایسه با روشهای سنتی دست یافتهاند. شبکههای عصبی پیچشی5 یکی از مدلهای یادگیری عمیق با لایههای متعدد میباشند که شامل سطوح چندگانه هستند. در مقایسه با شبکههای کاملا متصل، شبکههای عصبی پیچشی دارای قابلیت تعمیم بالاتری هستند. این امر آنها را برای کاربردهای مختلف از جمله تشخیص اشیا، و دستهبندی تصاویر مناسب میکند [19]–[21]. با توجه به اینکه در این مقاله هدف ما بازشناسی دروازه به عنوان عامل شناسایی لحظات حساس میباشد ما از یک شبکه عصبی پیچشی استفاده کردهایم.
در این بخش با توجه به ضرورت توسعه روشهای خودکار و کارآمد برای خلاصهسازی رویدادهای مهم ویدیو، به معرفی روش پیشنهادی میپردازیم. ما از یک مدل پایه یادگیری عمیق برای استخراج ویژگیها استفاده میکنیم، اما پیشتر نشان داده شده که با استفاده از شبکههای عصبی عمیق همچنان ممکن است برخی ویژگیهای مفید برای دستهبندی کشف و استخراج نشوند [22] در نتیجه روشهای ترکیبی میتوانند برای این منظور کارآمد باشند. ما در این مقاله، با ارائه یک معماری دومسیره، در یک مسیر به استخراج ویژگیهای مبتنی بر شبکه عمیق پرداخته و در مسیر دوم به کمک یک سیستم غربالگر ابتکاری به استخراج ویژگیهای مکمل میپردازیم که در بخش تجربیات نشان داده شده است ترکیب این دو مسیر، توصیف مطلوبتری از تصاویر به منظور تفکیکپذیری ایجاد میکند و سبب بهبود کارآیی سیستم در شناسایی هدف میشود. در ادامه ما ابتدا معماری پایه VGG که در این مقاله مورد استفاده قرار گرفته شده است و انگیزه استفاده از آن را شرح میدهیم، سپس در زیربخش بعدی سیستم غربالگر ابتکاریمان را معرفی کرده و در زیربخش آخر، مدل ترکیبی پیشنهادی را ارائه و تشریح میکنیم.
1_3 معماری مدل پایه
ما در این مقاله از مدل پایه شبکه عصبی عمیق VGG-13 برای بازشناسی تصاویر حاوی دروازه استفاده میکنیم. مدل VGG یک معماری شبکه عصبی پیچشی است که توسط سایمون و زیسرمن در سال 2014 پیشنهاد شد. این شبکه نشان داد که میتوان با افزایش عمق شبکه، دقت دستهبندی را بهبود بخشید. انگیزه ما، در به کارگیری شبکه VGG عمق شبکه بوده است. چنانکه، عمق مناسب شبکه یادگیری عمیق در عملکرد آن بسیار موثر می باشد. معماری VGG با هدف تعامل بین عمق مطلوب شبکه و از سوی دیگر کاهش تعداد پارامترها در شبکه طراحی شده است چنانکه در همه لایهها از فیلتر پیچشی (کانولوشن) 3×3 با طول گام 1 و همچنین یک حداکثر تجمع6 2×2 استفاده شده است. تابع فعالسازی که شبکهVGG با آن کار میکند یکسوساز خطی (ریلو7) میباشد و چنانکه در شکل 2 نشان داده شده است در لایه آخر از تابع سیگموئید8 استفاده میشود.
روشهای مبتنی بر یادگیری عمیق، کارآیی بسیار مطلوبی در استخراج ویژگیها دارند، اما تضمینکننده استخراج همه ویژگیها، یا به عبارتی بهترین ویژگیها نیستند [23]. در نتیجه با اطمینان میتوان گفت که استخراج خودکار ویژگیهای تصویر توسط یک مدل یادگیری عمیق ساده برای کاربردهایی مانند بازشناسی دروازه در تصاویر بازی فوتبال اگر چه مفید است اما کامل نبوده و ترکیب ویژگیهای مختلف استخراج شده که هرکدام قادر به پوشش بخشی از فضای مساله میباشند سبب بهبود دقت در عملکرد سیستم خواهند شد. لذا در ادامه به معرفی مسیر دوم معماری پیشنهادی، به عنوان مکملی برای استخراج ویژگی مطلوب میپردازیم.
3_2 سیستم غربالگر تصاویر
ما در مسیر دوم به ارائه یک مدل شبکه عصبی عمیق میپردازیم که بطور سری در ادامه سیستم غربالگر ابتکاریمان قرار دارد چنانکه ویژگیهایی را از تصاویر استخراج میکند که در بخش نتایج نشان میدهیم ترکیب آنها با ویژگیهای شبکه عصبی عمیق در مسیر اول، سبب بهبود کارآیی سیستم بازشناسی میشود. هدف از زیرسیستم غربالگر در مسیر دوم، کمک به شناسایی و جداسازی تصاویر آموزشی برتر میباشد که منظور از واژه برتر در اینجا، اشاره به تصاویری است که توسط ماشین از قابلیت تفکیکپذیری بالاتری برخوردارند. سیستم غربالگر پیشنهادی از یادگیرندههای ضعیف9 بر اساس ضریب همبستگی و توابع چگالی احتمال استفاده میکند. برای این منظور ابتدا فرآیند شناسایی بهترین تصاویر توسط سیستم غربالگر را به عنوان یک منبع اولیه از ویژگیهای بسیار مطلوب در شناسایی دروازه شرح میدهیم.
ما ابتدا ضریب همبستگی هر تصویر از تصاویر شامل دروازه (مثبت) در مجموعه تصاویر آموزشی را نسبت به سایر تصاویر آموزشی، اعم از حاوی دروازه (مثبت) یا تصاویر غیردروازه (منفی) را محاسبه میکنیم. سپس بر اساس ضرایب به دست آمده، توابع چگالی احتمال آنها را نسبت به همه تصاویر آموزشی حاوی دروازه و غیردروازه محاسبه میکنیم. تصاویری که بتوانند تمایز بهتری بین تصاویر شامل دروازه و بدون دوازه ایجاد کنند، به عنوان تصاویر منتخب انتخاب میشوند. به عبارت دیگر، به صورت یک رابطه 1 به n، توابع چگالی احتمال هر تصویر بر اساس میزان ضریب همبستگی آن نسبت به سایر تصاویر محاسبه میشود. به این ترتیب به هر تصویر از مجموعه تصاویر آموزشی به دید یک یادگیرنده ضعیف اما سراسری نگاه میکنیم. بدیهی است، تصویری که بتواند بیشترین همیستگی با سایر تصاویر مثبت و عدم همبستگی با تصاویر منفی را کسب کند از ویژگیهای مطلوبتری برخوردار است که میتواند در نهایت منجر به توصیف بهتر تصاویر دیده نشده گردد.
ما از توابع چگالی احتمال برای نمایش میزان تفکیکپذیری هر یک از یادگیرندههای ضعیف استفاده کردهایم؛ به عنوان مثال شکل 3 (سمت راست) مربوط به یک یادگیرنده مطلوب است که بخوبی تصاویر دارای دروازه و غیردروازه را تفکیک کرده است. در عوض، (سمت چپ) توابع چگالی احتمال یک یادگیرنده ضعیف ناموفق را نشان میدهد که همپوشانی دو تابع بیانگر عدم توانایی در تفکیک مطلوب تصاویر دارای دروازه و غیردروازه میباشد. ما به منظور محاسبه خودکار میزان همپوشانی توابع چگالی احتمال، روابط (1) تا (7) را بسط دادهایم چنانکه این روابط به ما کمک میکنند به مقداری عددی به منظور تصمیمگیری در خصوص مقدار همپوشانی توابع چگالی احتمال، و به طور کلی انتخاب یا عدم انتخاب یادگیرندههای ضعیف اقدام کنیم. بدیهی است هر چه مقدار همپوشانی که از رابطه (7) به دست میآید کمتر باشد میزان تفکیکپذیری توسط یادگیرنده ضعیف بهتر بوده و بنابراین مطلوب انتخاب ما است. بنابراین بر اساس توزیع نرمال دو تابع چگالی احتمال داریم:
(1)
(2)
که در آن مجموعه داده مثبت، مجموعه داده منفی، تابع چگالی احتمال داده مثبت، تابع چگالی احتمال داده منفی، میانگین تابع چگالی احتمال دادههای مثبت و تابع چگالی احتمال دادههای منفی میباشند. برای محاسبه فاصله 2 تابع چگالی احتمال داریم:
(3)
(4)
(5)
که با بسط آن خواهیم داشت:
(6)
=
(7)
حاصل رابطه (7) مقداری عددی در بازه صفر تا یک خواهد بود که هر چه مقدار آن کمتر باشد میزان همپوشانی دو تابع چگالی احتمال کمتر خواهد بود که تفکیک پذیری بیشتر مجموعه هدف و غیرهدف را بیان میکند. ما از آن به عنوان عاملی برای انتخاب 200 تصویر با بیشترین معیار جهت تفکیک تصاویر مثبت (دروازه) و منفی (غیردروازه) به منظور آموزش شبکه در مسیر دوم استفاده میکنیم. در زیربخش بعد، معماری دو مسیره پیشنهادی و نهایتا ترکیب ویژگیها برای استخراج ویژگیهای سراسری را معرفی میکنیم.
3_3 معماری مدل شبکه مشترک پیشنهادی
جدول 2. پارامترهای مربوط به پیادهسازی شبکه عمیق پیشنهادی
|
شکل 3. تابع چگالی احتمال یک تصویر مثبت (سمت راست) و تابع چگالی احتمال یک تصویر منفی (سمت چپ).
|
بعد از لایه Flatten هر مسیر دارای یک بردار ویژگی 80000 بُعدی میباشد که با هم ادغام شده و یک بردار 160000 بُعدی حاصل میشود. بردار بدست آمده در حقیقت یک بردار ویژگی سراسری میباشد که از ترکیب ویژگیهای دو مسیر بدست میآید. که این بردار ویژگی سراسری، ورودی لایه Dense را تشکیل میدهد.
در بخش بعدی، با تحلیل مدل پایه شبکه عمیق VGG و روش پیشنهادی، بر روی پایگاه داده تصاویر، با توجه به اینکه در دو مسیر معماری پیشنهادی فضاهای متفاوتی از مساله تحت پوشش قرار گرفته است انتظار داریم که بردار ویژگی مشترک ایجاد شده از کارآیی مطلوبتری در مقایسه با بردار ویژگی مدل پایه برخوردار باشد.
4. نتایج تجربی و آزمایشها
در این بخش به ارزیابی و تحلیل روش پیشنهادی میپردازیم. در ابتدا مشخصات پایگاه داده تصاویر مورد استفاده را معرفی کرده و سپس روش پایه و روش پیشنهادی را مورد ارزیابی قرار میدهیم. همچنین در انتهای این بخش مقایسهای با سایرکارهای مشابه انجام پذیرفته است. پلتفرم مورد استفاده در پیادهسازی این تحقیق پایتون بوده و پارامترهای مربوط به شبکه عمیق پیشنهادی نیز در جدول شماره 2 ارائه شده است.
4_1 پایگاهداده تصاویر
با توجه به تحقیقات انجام شده، در حال حاضر هیچ مجموعه داده اختصاصی برای تحلیل اشیاء موجود در زمین فوتبال به صورت دسترسی رایگان برای امور تحقیقاتی وجود ندارد. با این حال، تعدادی پایگاه داده تصاویر وجود دارد که شامل ویدئو و تصاویر متنوعی از جمله زمین فوتبال میباشند که آنها نیز بطور خاص الزاما شامل دروازه نیستند ضمن آنکه تعداد آنها نیز به اندازهای که ما برای آموزش شبکه پیشنهادی استفاده کنیم نیست. به عنوان مثال، تنها مجموعه دادهی در دسترس، مربوط به ویدیوهای مربوط به پنج مسابقه فوتبال از لیگ فوتبال اسپانیا (La Liga) است[14] که آن نیز به دلیل محدودیت در تعداد مسابقات و تیمهای شرکتکننده، همچنین عدم تنوع در شرایط مختلف روشنایی، آب و هوا و غیره از جامعیت کافی برخوردار نیست. درنتیجه ما برای رفع محدودیتهای یاد شده اقدام به تهیه یک مجموعه داده تصاویر از ویدئوهای فوتبال در شرایط بسیار متنوع کردیم که مشخصات آن در ادامه ذکر شده است.
4_2 آماده سازی پایگاه داده تصاویر فوتبال
با توجه به خلاء پایگاه داده تصاویر مرتبط با موضوع تحقیقاتی مورد نظر این مقاله، ما یک مجموعه داده به شرح اطلاعات زیر ارایه کردیم. ما ۱۰۰۰ تصویر از تعداد 20 مسابقه فوتبال از سراسر جهان از جمله لیگ آسیا (شامل کشورهای ایران، ژاپن، کره و غیره)، لیگهای اروپایی (شامل کشورهای آلمان، اسپانیا، ایتالیا و غیره)، لیگهای آمریکایی (به عنوان مثال برزیل، آرژانتین و غیره) استخراج کردیم. به منظور حفظ جامعیت دادهها و تنوع در شرایط واقعی، بازیها مربوط به ساعات مختلف و در فصلهای متفاوت میباشند که از بیش برازش مدلهای پیشنهادی مبتنی بر یادگیری ماشینی جلوگیری نماید.
به لحاظ آماری، تصاویر به گونهای جمعآوری شدهاند که نیمی از آنها حاوی دروازه و نیمه دیگر تصاویر دیگری از بازی فوتبال هستند یعنی ما در این پایگاه داده تصاویر، 500 تصویر شامل دروازه داریم و 500 تصویر دیگر از بازی فوتبال میباشد که در آنها دروازه مشاهده نمیشود. همچنین اندازه تصاویر متنوع است و هیچ محدودیتی برای آنها لحاظ نشده است در نتیجه طول و عرض تصاویر مختلف است با این حال کوچکترین تصویر در اندازه 640 × 288 است و بزرگترین تصویر در اندازه 1920× 1080 میباشد لازم به ذکر است که همه تصاویر رنگی هستند.
4_3 معیارهای ارزیابی روش پیشنهادی
ما به منظور ارزیابی عملکرد روش پیشنهادی از 4 معیار ارزیابی شامل بازیابی10 (رابطه 8)، وضوح11 (رابطه 9)، معیار-اف12 (رابطه 10) و دقت13 (رابطه 11) استفاده کرده ایم. همچنین بر اساس این پارامترها مشخصه عملکرد سیستم14 را نیز محاسبه میکنیم. در این ارزیابیها هدف پیدا کردن فریمهایی از یک ویدئوی بازی فوتبال است که در آنها دروازه مشاهده شود، انگیزه نویسندگان از شناسایی فریمهای شامل دروازه آن است که برشهایی از ویدئوی بازی که در آنها دروازه مشاهده میشود احتمالا جزء بخشهای حساس بازی است و در نتیجه برای خلاصهسازی ویدئوی بازی فوتبال میتواند به عنوان یک ویژگی سطح بالا تلقی گردد. اگر چه میتوان دانش شناسایی برشهای حساس بازی را هنوز هوشمندانهتر تعریف کرد که آن نیز میتواند به عنوان بخشی از کارهای آتی به شمار آید.
(8)
(9)
که در آن TP15 تعداد نمونه های مثبتی است که به درستی مثبت شناسایی شدهاند، TN16 تعداد نمونههای منفی که به درستی منفی شناسایی شدهاند، FP17 تعداد شناساییهای مثبت کاذب و FN18 تعداد شناساییهای منفی کاذب میباشند. سپس مقدار معیار-اف f- و دقت به شرح زیر تعریف میشوند:
(10)
(11)
شکل 4 . منحنی مشخصه عملکرد سیستم روش پیشنهادی
|
شکل 5. مقایسه نتایج روشهای پیشنهادی با روش پایه VGG و روش سیستم غربالگر به تنهایی
|
جدول 3. مقایسه نتایج روش پیشنهادی و روش پایه
| همچنین نتایج حاصل از مقایسه روش پیشنهادی با سایر روشها براساس پارامتر دقت در جدول 4 ارائه شده است. نتایج حاصل به وضوح برتری روش پیشنهادی در مقایسه با سایر کارهای انجام شده قبلی در این زمینه را نشان میدهد.
جدول 4. مقایسه نتایج روش پیشنهادی و سایر روشها
|
چنانکه از این تصویر مشاهده می شود به ازای آموزش در مرحل میانی و پس از آن، نتایج از هر دو مدل مجزا بهتر می باشد.
جدول 5. مقایسه نتایج روش پیشنهادی و روش پایه
|
شکل6. ارزیابی روش پیشنهادی با سه قرارداد متنوع در استفاده از دادههای آموزشی و آزمایشی 25-75، 50-50 و 75-25 درصد
|
شکل7. ارزیابی روش پیشنهادی در دستهبندی مجموعه دادهای تست به دو دسته تصاویر فاقد دروازه (الف) و دسته تصاویر دارای دروازه (ب)
|
جدول 6. مقایسه نتایج روش پیشنهادی در شناسایی کارت زرد و سایر روشها
|
امروزه حجم بسیار فراوانی از ویدئوهای مختلف در اختیار کاربران در سراسر جهان قرار دارد. برخی از این ویدیوها مربوط به حوزه سرگرمی و برخی دیگر نیز مرتبط با حوزههای نظارتی و امنیتی میباشند.
از جمله این ویدئوها، ویدیوهای ورزشی و خصوصا ویدئوهای ورزش فوتبال است که به دلیل علاقهمندی طیف گستردهای از مردم جهان به این ورزش دارای اهمیت بالایی است. علاوه بر موضوع علاقهمندی فوتبال دوستان، مسئله زمان طولانی بازی فوتبال است که در اغلب موارد همه مردم فرصت تماشای 90 دقیقه بازی فوتبال را ندارد و البته علاقهمند هستند دستکم لحظات مهم و هیجان انگیز بازی را مشاهده کنند. به همین علت اخیرا برخی از فراهمکنندگان خدمات ارائه ویدئوهای ورزشی به خلاصهسازی بازی فوتبال پرداختهاند که با استقبال کاربرانشان مواجه شده است. در این مقاله ما یک روش خودکار با استفاده از یک مدل معماری دومسیره یادگیری عمیق برای تحلیل تصاویر ویدئویی ورزش فوتبال، با تاکید بر شناسایی دروازه به عنوان یکی از مهمترین عناصر رویداد گُل که مهمترین رویداد بازی فوتبال میباشد، ارائه کردیم.
رشد چشمگیر روشهای مبتنی بر یادگیری عمیق توانسته نتایج قابل قبولی را در حوزه تحلیل تصویر فراهم کنند. روشهای مبتنی بر یادگیری عمیق کارآیی بسیار مطلوبی در استخراج ویژگیها دارند، اما تضمینکننده استخراج همه ویژگیها یا به عبارتی بهترین ویژگیها نیستند. در نتیجه با اطمینان میتوان گفت که استخراج خودکار ویژگیهای تصویر برای بازشناسی دروازه در تصاویر بازی فوتبال اگر چه بسیار مفید است اما کامل نبوده و ترکیب ویژگیها سبب بهبود دقت سیستم شناسایی هدف میگردد. ترکیب ویژگیهای استخراج شده با روشهای سنتی که قادر به پوشش مسئله هدف هستند با روشهای خودکار استخراج ویژگی عمیق پروسهای هوشمندانه است که میتواند منجر به کسب نتایجی بهتر در مقایسه با هر یک از آنها به تنهایی شود.
در این مقاله، ما یک روش خودکار هوشمند بازشناسی دروازه در جهت شناسایی لحظات حساس بازی فوتبال به منظور خلاصهسازی آن ارائه کردیم که در آن با ارائه یک مدل معماری دومسیره یادگیری عمیق، از هر دو مسیر ویژگی استخراج شده توسط شبکههای عصبی عمیق و ویژگیهای سنتی بهرهمند شدیم. در این مقاله نشان دادیم که ترکیب این ویژگیها توصیف مطلوبتری بهمنظور بازشناسی هدف (دروازه) حاصل میکند. براساس نتایج ارائه شده، روش پیشنهادی در مقایسه با سایر روشها از دقت بیشتر و خطای کمتری برخودار میباشد.
مراجع
[1] P. Shi and X. Yu, “Goal event detection in soccer videos using multi-clues detection rules,” in Management and Service Science, 2009. MASS’09. International Conference on, 2009, pp. 1–4.
[2] M.-L. Shyu, Z. Xie, M. Chen, and S.-C. Chen, “Video semantic event/concept detection using a subspace-based multimedia data mining framework,” IEEE Transactions on Multimedia, vol. 10, no. 2, pp. 252–259, 2008.
[3] M. H. Kolekar, “Bayesian belief network based broadcast sports video indexing,” Multimedia Tools and Applications, vol. 54, no. 1, pp. 27–54, 2011.
[4] D. W. Tjondronegoro and Y.-P. P. Chen, “Knowledge-discounted event detection in sports video,” Ieee transactions on systems, man, and cybernetics-part a: Systems and humans, vol. 40, no. 5, pp. 1009–1024, 2010.
[5] L.-Y. Duan, M. Xu, Q. Tian, C.-S. Xu, and J. S. Jin, “A unified framework for semantic shot classification in sports video,” IEEE Transactions on Multimedia, vol. 7, no. 6, pp. 1066–1083, 2005.
[6] B. Li, J. H. Errico, H. Pan, and I. Sezan, “Bridging the semantic gap in sports video retrieval and summarization,” Journal of Visual Communication and Image Representation, vol. 15, no. 3, pp. 393–424, 2004.
[7] H.-G. Kim, S. Roeber, A. Samour, and T. Sikora, “Detection of goal events in soccer videos,” in Storage and Retrieval Methods and Applications for Multimedia 2005, 2005, vol. 5682, pp. 317–326.
[8] L. Xie, S.-F. Chang, A. Divakaran, and H. Sun, “Unsupervised discovery of multilevel statistical video structures using hierarchical hidden Markov models,” in Multimedia and Expo, 2003. ICME’03. Proceedings. 2003 International Conference on, 2003, vol. 3, p. III–29.
[9] D. Tjondronegoro, Y.-P. P. Chen, and B. Pham, “Highlights for more complete sports video summarization,” IEEE multimedia, vol. 11, no. 4, pp. 22–37, 2004.
[10] T. Wang, J. Li, Q. Diao, W. Hu, Y. Zhang, and C. Dulong, “Semantic event detection using conditional random fields,” in 2006 Conference on Computer Vision and Pattern Recognition Workshop (CVPRW’06), 2006, pp. 109–109.
[11] C.-L. Huang, H.-C. Shih, and C.-Y. Chao, “Semantic analysis of soccer video using dynamic Bayesian network,” IEEE Transactions on Multimedia, vol. 8, no. 4, pp. 749–760, 2006.
[12] M. Y. Eldib, B. S. A. Zaid, H. M. Zawbaa, M. El-Zahar, and M. El-Saban, “Soccer video summarization using enhanced logo detection,” in Image Processing (ICIP), 2009 16th IEEE International Conference on, 2009, pp. 4345–4348.
[13] B. Fakhar, H. R. Kanan, and A. Behrad, “Event detection in soccer videos using unsupervised learning of Spatio-temporal features based on pooled spatial pyramid model,” Multimedia Tools and Applications, pp. 1–31, 2019.
[14] J. Yu, A. Lei, and Y. Hu, “Soccer Video Event Detection Based on Deep Learning,” in International Conference on Multimedia Modeling, 2019, pp. 377–389.
[15] Z. Dang, J. Du, Q. Huang, and S. Jiang, “Replay detection based on semi-automatic logo template sequence extraction in sports video,” in Image and Graphics, 2007. ICIG 2007. Fourth International Conference on, 2007, pp. 839–844.
[16] H. Pan, P. Van Beek, and M. I. Sezan, “Detection of slow-motion replay segments in sports video for highlights generation,” in icassp, 2001, pp. 1649–1652.
[17] H. M. Zawbaa, N. El-Bendary, A. E. Hassanien, and T. Kim, “Event detection based approach for soccer video summarization using machine learning,” International Journal of Multimedia and Ubiquitous Engineering, vol. 7, no. 2, pp. 63–80, 2012.
[18] A. Karimi, R. Toosi, and M. A. Akhaee, “Soccer Event Detection Using Deep Learning,” arXiv preprint arXiv:2102.04331, 2021.
[19] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2014, pp. 580–587.
[20] S. Gerke, K. Muller, and R. Schafer, “Soccer jersey number recognition using convolutional neural networks,” in Proceedings of the IEEE International Conference on Computer Vision Workshops, 2015, pp. 17–24.
[21] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778.
[22] S. He and L. Schomaker, “Deep adaptive learning for writer identification based on single handwritten word images,” Pattern Recognition, vol. 88, pp. 64–74, 2019.
[23] S. F. Chevtchenko, R. F. Vale, V. Macario, and F. R. Cordeiro, “A convolutional neural network with feature fusion for real-time hand posture recognition,” Applied Soft Computing, vol. 73, pp. 748–766, 2018.
[24] A. Zanganeh and M. Jampour, "Automatic Weak Learners Selection for Pattern Recognition and its application in Soccer Goal Recognition," 2019 4th International Conference on Pattern Recognition and Image Analysis (IPRIA), 2019, pp. 240-245, doi: 10.1109/PRIA.2019.8785966.
An effective dual-path deep neural network-based architecture for gate recognition in soccer video Abstract In this paper, an automated method has been presented using a dual-path deep learning architecture model for the problem of soccer video analysis and it emphasizes the gate recognition as one of the most important elements of the goal event that is the most important soccer game event. The proposed architecture is considered as an extended form of the VGG 13-layer model in which a dual-path architectural model has been defined. For recognizing the gate in the first path using the proposed architectural model, the model is trained by the training dataset. But in the second path, the training dataset is first examined by a screening system and the best images containing features different from the features of the first path are selected. In another word, features of a network similar to the first path, but after passing through the screening system are generated in the second path. Afterwards, the feature vectors generated in two paths are combined to create a global feature vector, thus covering different spaces of the gate recognition problem. Different evaluations have been performed on the presented method. The evaluation results represent the improved accuracy of gate recognition using the proposed dual-path architectural model in comparison to the basic model. A comparison of proposed method with other existing outcomes also represents the improved accuracy of the proposed method in comparison to the published results.
Keywords: Dual-Path Deep Learning Architecture, Feature Combination, Deep VGG, Classic Features, Common Architecture
|
[1] Atomic concept
[2] Replay
[3] Long View Shot
[4] Graphical Processing Units
[5] Convolutional Neural Networks
[6] Max pooling
[7] ReLU
[8] Sigmoid
[9] Weak lerner
[10] Recall
[11] Precision
[12] F-measure
[13] Accuracy
[14] ROC
[15] True Positive
[16] True Negative
[17] False Positive
[18] False Negative
[19] Epoch
[20] https://github.com/FootballAnalysis/footballanalysis/tree/main/Dataset/Soccer%20Event%20Dataset%20(Image)