خلاصهسازی ویدئویی با روش ترکیبی گراف شبکهای و خوشهبندی
الموضوعات :مهسا رحیمی رسکتی 1 , همایون موتمنی 2 , ابراهیم اکبری 3 , حسین نعمت زاده 4
1 - دانشگاه آزاد اسلامی واحد ساری
2 - دانشگاه آزاد اسلامی واحد ساری
3 - دانشگاه آزاد اسلامی واحد ساری
4 - دانشگاه آزاد اسلامی واحد ساری
الکلمات المفتاحية: کاوش ویدئویی, خلاصهسازی ویدئویی, خوشهبندی, K-Medoids, شبکه توجه گرافی کانولوشنالی,
ملخص المقالة :
ما در دنیایی زندگی میکنیم که وجود دوربینهای خانگی و قدرت رسانه باعث شده تا با حجم خیرهکنندهای از دادههای ویدئویی سر و کار داشته باشیم. مسلم است روشی که بتوان با کمک آن، این حجم بالای فیلم را با سرعت و بهینه مورد دسترسی و پردازش قرار داد، اهمیت ویژهای پیدا میکند. با کمک خلاصهسازی ویدئویی این مهم حاصل شده و فیلم به یک سری فریم یا کلیپ کوتاه ولی بامعنی خلاصه میگردد. در این پژوهش سعی گردیده در ابتدا داده با کمک الگوریتم K-Medoids خوشهبندی شود؛ سپس در ادامه با کمک شبکه توجه گرافی کانولوشنالی، جداسازی زمانی و گرافی انجام گیرد و در گام بعدی با کمک روش ردکردن اتصال، نویزها و موارد تکراری حذف گردد. سرانجام با ادغام نتایج بهدستآمده از دو گام متفاوت گرافی و زمانی، خلاصهسازی انجام گیرد. نتایج به دو صورت کیفی و کمی و بر روی سه دیتاست SumMe، TVSum و OpenCv مورد بررسی قرار گرفت. در روش کیفی بهطور میانگین 88% نرخ صحت در خلاصهسازی و 31% میزان خطا دست یافته که به نسبت سایر روشها جزء بالاترین نرخ صحت است. در ارزیابی کمی نیز روش پیشنهادی، کارایی بالاتری نسبت به روشهای موجود دارد.
[1] A. Messina and M. Montagnuolo, "Fuzzy mining of multimedia genre applied to television archives," in Proc. IEEE Int.Conf. on Multimedia and Expo, pp. 117-120, Hannover, Germany, 23 Jun.-26 Apr. 2008.
[2] A. Bora and S. Sharma, "A review on video summarization approcahes: recent advances and directions," in Proc. Int. Conf. on Advances in Computing, Communication Control and Networking, ICACCCN'18, pp. 601-606, Greater Noida, India, 12-13 Oct. 2018.
[3] M. K. Mahesh and K. Pai, "A survey on video summarization techniques," in Proc. Innovations in Power and Advanced Computing Technologies, i-PACT'19, 5 pp., Vellore, India, 22-23 Mar. 2019.
[4] V. K. Vivekraj, D. Sen, and B. Raman, "Video skimming: taxonomy and comprehensive survey," ACM Computing Surveys, vol. 52, no. 5, Article ID: 106, 38 pp., Sept. 2019.
[5] P. Li, Q. Ye, L. Zhang, L. Yuan, X. Xu, and L. Shao, "Exploring global diverse attention via pairwise temporal relation for video summarization," Computer Vision and Pattern Recognition, vol. 111, Article ID: 107677, Mar. 2020.
[6] M. Gygli, H. Grabner, H. Riemenschneider, and L. V. Gool, "Creating summaries from user videos," In: D. Fleet, T. Pajdla, B. Schiele, and T. Tuytelaars, (eds) Computer Vision-ECCV'14, Lecture Notes in Computer Science, vol 8695. Springer, pp. 505-520, 2014.
[7] Y. Song, J. Vallmitjana, A. Stent, and A. Jaimes, "TVSum: summarizing web videos using titles," in Proc. IEEE Conf. on Computer Vision and Pattern Recognition, CVPR'15, pp. 5179-5187, Boston, MA, USA, 7-12 Jun. 2015.
[8] G. Bradski, A. Keahler, and V. Pisarevsky, "Learning-based computer vision with Intel's open source computer vision library," Intel. Technology J., vol. 9, no. 2, pp. 119-130, May 2005.
[9] D. Zhao, J. Xiu, Y. Bai, and Z. Yang, "An improved item-based movie recommendation algorithm," in Proc. 4th Int. Conf. on Cloud Computing and Intelligence Systems, CCI'16, pp. 278-281, Beijing, China, 17-19 Aug. 2016.
[10] A. Dimou, D. Matsiki, A. Axenopoulos, and P. Daras, "A user-centric approach for event-driven summarization of surveillance videos," in Proc. 6th Int. Conf. on Imaging for Crime Prevention and Detection, ICDP'15, 6 pp., London, UK, 15-17 Jul. 2015.
[11] H. Zeng, et al., "EmotionCues: emotion-oriented visual summarization of classroom videos," IEEE Trans. on Visualization and Computer Graphics, vol. 27, no. 7, pp. 3168-3181, Jul. 2021.
[12] P. Li, C. Tang, and X. Xu, "Video summarization with a graph convolutional attention network," Frontiers of Information Technology & Electronic Engineering, vol. 22, no. 6, pp. 902-913, 2021.
[13] S. S. de Almeida, et al., "Speeding up a video summarization approach using GPUs and multicore CPUs," Procedia Computer Science, vol. 29, pp. 159-171, 2014.
[14] K. Zhang, W. L. Chao, F. Sha, and K. Grauman, "Video summarization with long short-term memory," In: B. Leibe, J. Matas, N. Sebe, and M. Welling, (eds) Computer Vision-ECCV'16, Lecture Notes in Computer Scienc, vol 9911. Springer, pp. 766-782, 2016.
[15] M. Rochan, L. Ye, and Y. Wang, "Video summarization using fully convolutional sequence networks," In: V. Ferrari, M. Hebert, C. Sminchisescu, and Y. Weiss, (eds) Computer Vision-ECCV'18, Lecture Notes in Computer Science, vol 11216. Springer, pp. 358-374, 2018.
[16] Y. Li, L. Wang, T. Yang, and B. Gong, "How local is the local diversity? reinforcing sequential determinantal point processes with dynamic ground sets for supervised video summarization," In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds) Computer Vision-ECCV'18, Lecture Notes in Computer Science, vol 11216. Springer, pp. 156-174, 2018.
[17] B. Zhao, X. Li, and X. Lu, "Property-constrained dual learning for video summarization," IEEE Trans. on Neural Networks and Learning Systems, vol. 31, no. 10, pp. 3989-4000, Oct. 2020.
[18] B. U. Kota, A. Stone, K. Davila, S. Setlur, and V. Govindaraju, "Automated whiteboard lecture video summarization by content region detection and representation," in Proc. 25th Int. Conf. on Pattern Recognition, ICPR'21, pp. 10704-10711, Milan, Italy, 10-15 Jan. 2021.
[19] G. Liang, Y. Lv, S. Li, S. Zhang, and Y. Zhang, "Video summarization with a convolutional attentive adversarial network," Pattern Recognition, vol. 131, Article ID: 108840, Nov. 2022.
[20] R. Yang, S. Wang, X. Wu, T. Liu, and X. Liu, "Using lightweight convolutional neural network to track vibration displacement in rotating body video," Mechanical Systems and Signal Processing, vol. 177, Article ID: 109137, Sept. 2022.
[21] S. Sikandar, R. Mahmum, and N. Akbar, "Cricket videos summary generation using a novel convolutional neural network," in Mohammad Ali Jinnah University Int. Conf. on Computing, MAJICC'22, 7 pp., Karachi, Pakistan, 27-28 Oct. 2022.
[22] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, et al., "Going deeper with convolutions," in Proc. IEEE Conf. on Computer Vision and Pattern Recognition, CVPR'15, 9 pp., Boston, MA, USA, 7-12 Jun. 2015.
[23] A. Rahimi, T. Cohn, and T. Baldwin, "Semi-supervised user geolocation via graph convolutional networks," in Proc of the 56th Annual Meeting of the Association for Computational Linguistics, vol. 1, pp. 2009-2019, Melbourne, Australia, Jul. 2018.
[24] A. P. Ta, M. Ben, and G. Gravier, "Improving cluster selection and event modeling in unsupervised mining for automatic audiovisual video structuring," In: K. Schoeffmann, B, Merialdo, A. G, Hauptmann, and C. W. Ngo, Andreopoulos, Y., Breiteneder, C. (eds) Advances in Multimedia Modeling. MMM 2012. Lecture Notes in Computer Science, vol 7131. Springer, Berlin, pp. 529-540, 2012.
[25] Z. Ji, K. Xiong, Y. Pang, and X. Li, "Video summarization with attention-based encoder-decoder networks," IEEE Trans. on Circuits and Systems for Video Technology, vol. 30, no. 6, pp. 1709-1717, Jun. 2019.
[26] X. Li, Q. Li, D. Yin, L. Zhang, and D. Peng, "Unsupervised video summarization based on an encoder-decoder architecture," J. of Physics: 5th Int. Conf. on Advanced Algorithms and Control Engineering, ICAACE'22, vol. 2258, Article ID: 012067, Sanya, China, 20-22 Jan, 2022.
[27] S. E. F. de Avila, et al., "VSUMM: a mechanism designed to produce static video summaries and a novel evaluation method," Pattern Recognition Letters, vol. 32, no. 1, pp. 56-68, Jan. 2011.
[28] M. Furini, F. Geraci, M. Montangero, and M. Pellegrini, "STIMO: STIll and MOving video storyboard for the web scenario," Multimedia Tools and Applications, vol. 46, no. 1, pp. 529-540, Jan. 2009.
[29] P. Mundur, Y. Rao, and Y. Yesha, "Keyframe-based video summarization using delaunay clustering," International J. on Digital Libraries, vol. 6, no. 2, pp. 219-232, 2006.
[30] D. DeMenthon, V. Kobla, and D. Doermann, "Video summarization by curve simplification," in Proc. of the 6th ACM Int. Conf. on Multimedia, pp. 211-218, Bristol, UK, 13-16 Sept. 1998.
[31] B. Mahasseni, M. Lam, and S. Todorovic, "Unsupervised video summarization with adversarial LSTM networks," in Proc. IEEE Conf. on Computer Vision and Pattern Recognition, pp. 2982-2991, Honolulu, HI, USA, 21-26 Jul. 2017.
[32] K. Y. Zhou, Y. Qiao, and T. Xiang, "Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward," in Proc. AAAI Conf. on Artificial Intelligence, pp. 7582-7589, New Orleans, LA, USA, 2-7 Feb. 2018.
[33] H. W. Wei, et al., "Video summarization via semantic attended networks," in Proc. AAAI Conf. on Artificial Intelligence, pp. 216-223, New Orleans, LA, USA, 2-7 Feb. 2018.
[34] M. Rochan and Y. Wang, "Video summarization by learning from unpaired data," in Proc IEEE/CVF Conf. on Computer Vision and Pattern Recognition, pp. 7894-7903, Long Beach, CA, USA, 15-20 Jun. 2019.
[35] Y. Jung, D. Cho, D. Kim, and I. S. Kweon, "Discriminative feature learning for unsupervised video summarization," in Proc AAAI Conf. on Artificial Intelligence, pp. 8537-8544, Honolulu, HI, USA, 27 Jun.-1 Feb. 2019.
نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 21، شماره 2، تابستان 1402 101
مقاله پژوهشی
خلاصهسازی ویدئویی با روش ترکیبی گراف شبکهای و خوشهبندی
مهسا رحیمی رسکتی، همایون مؤتمنی، ابراهیم اکبری و حسین نعمتزاده
چکیده: ما در دنیایی زندگی میکنیم که وجود دوربینهای خانگی و قدرت رسانه باعث شده تا با حجم خیرهکنندهای از دادههای ویدئویی سر و کار داشته باشیم. مسلم است روشی که بتوان با کمک آن، این حجم بالای فیلم را با سرعت و بهینه مورد دسترسی و پردازش قرار داد، اهمیت ویژهای پیدا میکند. با کمک خلاصهسازی ویدئویی این مهم حاصل شده و فیلم به یک سری فریم یا کلیپ کوتاه ولی بامعنی خلاصه میگردد. در این پژوهش سعی گردیده در ابتدا داده با کمک الگوریتم K-Medoids خوشهبندی شود؛ سپس در ادامه با کمک شبکه توجه گرافی کانولوشنالی، جداسازی زمانی و گرافی انجام گیرد و در گام بعدی با کمک روش ردکردن اتصال، نویزها و موارد تکراری حذف گردد. سرانجام با ادغام نتایج بهدستآمده از دو گام متفاوت گرافی و زمانی، خلاصهسازی انجام گیرد. نتایج به دو صورت کیفی و کمی و بر روی سه دیتاست SumMe، TVSum و OpenCv مورد بررسی قرار گرفت. در روش کیفی بهطور میانگین 88% نرخ صحت در خلاصهسازی و 31% میزان خطا دست یافته که به نسبت سایر روشها جزء بالاترین نرخ صحت است. در ارزیابی کمی نیز روش پیشنهادی، کارایی بالاتری نسبت به روشهای موجود دارد.
کلیدواژه: کاوش ویدئویی، خلاصهسازی ویدئویی، خوشهبندی، K-Medoids، شبکه توجه گرافی کانولوشنالی.
1- مقدمه
امروزه چند رسانه، نقشی اساسی در زندگی بشر ایفا میکند؛ چند رسانه ترکیبی از محتویات مختلف مانند متن، تصویر، صوت، ویدئو، گرافیک و ... هستند که از طریق آنها میتوان به هر نوع اطلاعاتی به صورت دیجیتالی دسترسی داشت. به عبارت دیگر، ارائه جذابی از دادههای یکپارچه است [1]. دادهها مجموعهای از متغیرها و واحدهای اطلاعاتی هستند که در یک فرایند جمعآوری میشوند و آنها را میتوان به هر شکل و برای هر هدفی مورد استفاده قرار داد یا به آنها دسترسی داشت. فرایندی که برای استخراج دادههای قابل استفاده از مجموعه قابل توجهی از دادههای خام استفاده میشود، دادهکاوی نامیده میشود. زندگی امروزی، دادههای زیادی را ارائه میدهد و یافتن اطلاعات مفید از آنها میتواند در جنبههای مختلف پزشکی، اقتصادی، آموزشی و ... به ما کمک کند. یکی از محبوبترین انواع دادهها ویدئو است. ویدئو یک رسانه الکترونیکی است که شامل تکثیر، پخش و نمایش رسانههای تصویری متحرک است. ویدئوها به دلیل تأثیر قابل توجهی که بر ذهن مردم دارند، بیش از هر شکل دیگری از اطلاعات محبوب هستند. برای اکثر مردم، دیدن چیزی به جای خواندن یا گوشدادن محبوبتر و راحتتر است.
امروزه با رواج دوربینها در همه جا، دسترسی آسان به اینترنت و پیشرفت چشمگیر در پردازش ویدئو، حجم عظیمی از دادههای ویدئویی در دسترس است. در حالی که این دادهها از اهمیت زیادی برخوردار هستند و میتوانند از بسیاری جهات کمک کنند، دسترسی به آنها چالشبرانگیز و وقتگیر است. این میزان داده باعث کاهش عملکرد برنامههای مختلف که بر مبنای پردازش ویدئو کار میکنند، مانند جستجوی ویدئو، فهرستبندی ویدئویی، توصیههای ویدئویی و ... میشود [2]. خلاصهسازی ویدئویی، روشی مؤثر برای کاهش این ایرادات و مشکلات است و کمک میکند تا ویدئوهای طولانی را به رویدادهای ضروری یا فریمهای کلیدی کاهش داده که به صرفهجویی در زمان و انرژی بسیار کمک میکند. تکنیکهای پیشرفتهای در این زمینه وجود دارد و پیشرفتهای زیادی در دهههای گذشته حاصل شده است. با این حال، محققان هنوز در حال کار برای تولید تکنیکهای کارآمدتر و قویتر و ایجاد ویدئوهای خلاصهشده دقیقتر و مفهومیتر هستند [2].
خلاصهسازی ویدئو به کشف معنی یا هدف واقعی یک ویدئوی طولانی در نسخه کوتاهتر کمک میکند. با انتخاب مفهومیترین فریمهای یک ویدئو که فریمهای کلیدی نامیده میشود، یک نسخه انتزاعی ساخته میشود. خلاصهسازی ویدئویی در دهه 1990 معرفی شد و قدمت زیادی ندارد؛ اما به دلیل اهمیت آن، محققان زیادی بر روی آن کار کردهاند. خلاصهسازی ویدئو دارای سه مرحله است [3]:
1) اطلاعات ویدئویی ابتدا برای کشف عوامل، ساختار یا نقاط برجسته در اجزای بصری، صوتی و متنی تجزیه و تحلیل میشوند.
2) فریمهای معنیدار که نشاندهنده محتوای ویدئو هستند، انتخاب میشوند.
3) تلفیق خروجی انجام میگیرد که شامل سازماندهی فریمها/ شاتهای استخراجشده در نسخه خلاصهشده ویدئو است.
خلاصهسازی ویدئو عمدتاً به دو نوع خلاصهسازی ویدئویی فریم کلیدی (یا خلاصهسازی ثابت ویدئویی) و خلاصهسازی پویای ویدئویی2 طبقهبندی میشود. اولی با انتخاب گروهی از فریمهای کلیدی که کل ویدئو را نشان میدهد خلاصه را تولید میکند؛ در حالی که دومی یک ویدئو را در یک نسخه کوتاهتر خلاصه مینماید.
خلاصهسازی پویا بازپخشی از ویدئوی اصلی است که در واقع فیلمی تشکیلشده از قطعات اصلی ویدئوی ابتدایی است که میتوان آن را به دو گروه برجستهسازی و سکانسهایی از ویدئوی اصلی یا خلاصه سکانس تقسیم کرد. برجستهسازی یعنی جالبترین و جذابترین قسمتهای یک ویدئو را استخراج کنیم؛ در حالی که در خلاصه سکانس، محتوا و ایده اصلی یک ویدئو به نمایش گذاشته میشود. در میان انواع انتزاعهای ویدئویی، خلاصه سکانس بالاترین خلاصه معنایی را از محتوای یک ویدئو منتقل میکند. این خلاصه را میتوان با شناسایی مؤلفههای مهم موجود در ویژگیهای بهدستآمده از ویدئو (چه تکوجهی یا چندوجهی) ایجاد کرد كه به دلیل پویابودن این نوع خلاصهسازی، کمک به درک بهتری از خلاصه نهایی میکند و به همین دلیل اخیراً در بسیاری از تحقیقات مورد توجه محققین قرار گرفته است [4].
یکی از مزایای استفاده از خلاصهسازی پویا در مقایسه با نوع ایستای آن، استفاده از اطلاعات صوتی است؛ زیرا گاهی اوقات صوت حاوی اطلاعات مهمی است که میتواند در خلاصهسازی بهینه یاری رساند. بنابراین تفاوت اصلی بین خلاصه پویا و ایستا وجود اطلاعات حرکتی و صوتی در نوع پویاست. خروجی خلاصهسازی ویدئوی ایستا تنها گروهی از تصاویر است؛ در حالی که خروجی خلاصهسازی ویدئویی پویا حاوی محتوای دادههای ویدئویی و صوتی است.
برخی از کلید مزایای خلاصهسازی پویا ویدئو عبارت هستند از
1) انتقال طرح اصلی ویدئو در زمان کوتاهتر
2) کاهش زمان انتقال برای ویدئوهای جستجوشده از طریق اینترنت
3) بهینهسازی فضای ذخیرهسازی (با ذخیرهکردن ویدئو به شکل خلاصهشده آن افزایش مییابد).
4) ادغام اطلاعات منتقلشده از طریق ویدئوهای متعدد متعلق به یک موضوع
مقایسه دو نوع خلاصهسازی ویدئویی نشان میدهد که اولی خلاصهای دقیقتر ارائه میدهد؛ اما دومی به راحتی قابل درک است [3].
خلاصهسازی کاربردهای فراوان دارد همچون
- فیلمها
- ویدئوهای پزشکی
- ویدئوهای کاربرساخته
- ویدئوهای نظارتی
- ویدئوهای ورزشی
- و ...
در این مقاله سعی گردیده که با الهام از لی3 و همکاران روشی بر اساس جاسازی گراف زمانی4 ارائه شود [5]. در این روش در ابتدا با کمک روش K-medoids ویدئو به یک سری کلاستر خلاصه و کاندیدا تقسیم میشود تا با این کار علاوه بر بالابردن صحت نتیجه، از حجم دادهها و همچنین محاسبات کاست. سپس دادههای موجود به دو نوع ویژگیهای زمانی و گرافی تقسیم میشوند. در قسمت جاسازی زمانی دقیقاً مشابه الگوریتم لی و همکاران عمل میگردد؛ اما در قسمت گرافی سعی شده تا از روش شبکههای عصبی گراف 5(GNN) استفاده شود که به نظر میرسد نتایجی بهتر و با صحت بالاتری ارائه میدهند. ادغام محتویات6 در گام آخر بر روی نتایج دو گام قبلی انجام میگیرد.
اهداف اصلی این مقاله عبارت هستند از
- انتخاب کلاسترهای منتخب جهت خلاصهسازی بهتر و بهینهتر داده ویدئویی انجام میگیرد.
- جاسازی زمانی و گرافی انجام گرفته تا در نهایت و با ترکیب و تلفیق آنها، خلاصهسازی نهایی انجام گیرد.
- نتیجه با کمک دو روش کمی و کیفی بر روی دیتاستهای SumMe [6]، TVSum [7] و OpenCV [8] انجام گرفت که بر اساس این بررسی کارایی راهکار پیشنهادی اثبات شد.
مقاله به شرح زیر سازماندهی شده است: بخش 2 پیشینه و کارهای مرتبط را بررسی میکند. بخش 3 چارچوب پیشنهادی را تشریح مینماید و بخش 4 به بررسی ارزیابی روش پیشنهادی میپردازد. نهایتاً نتیجهگیری در بخش 5 ارائه شده است.
2- مرور ادبیاتی
نسخه کوتاهتر خلاصه میکند. مقایسه دو نوع خلاصهسازی ویدئویی نشان در زمینه کاوش ویدئویی و به خصوص خلاصهسازی ویدئویی کارهای تحقیقاتی زیادی انجام گرفته است.
راجات7 و همکاران در سال 2016 به خلاصهسازی رویدادها در ویدئو پرداختند. در روش آنها ویدئو به تمام اجزای موجود در محتویات آن تقسیم شد (شامل متن، صدا، صورتها و ...) و سپس بر این اساس خلاصهسازی ویدئو انجام گرفت [9]. دیمو8 و همکاران در سال 2015 با کمک روش کاربرمحور سعی در خلاصهسازی ویدئو داشتند. در این روش از اطلاعات سطح بالای فریمهای حذفشده و اطلاعات سطح پایین ویدئو استفاده میشود تا خلاصهسازی با معنای بهتر ارائه گردد [10].
اصولاً هر دو روش مبتنی بر فرهنگ لغت و خوشهبندی، رویکردهای بدون نظارت هستند و این مستلزم آن است که خلاصه تولیدشده آموزنده یا متنوع باشد. وانگ9 و همکاران [11] یک روش کلاسترینگ ارائه کردند که بر اساس آن روش k-mean را بهبود داده و در کنار آن با کمک ضریب سیلوئت10 به بهینهترین خلاصهسازی رسیدند. بیشوراجایا11 و شارما12 [12]، روش شبکه عصبی کانولوشنال13 را با تلفیق نتیجه نهایی با خوشهبندی K-means ارائه کردند و برای بهدستآوردن روش بهینهتر در انتهای کار از ضریب سیلوئت کمک گرفتند. شاو14 و چاودری15 [13] با ترکیب خوشهبندی K-means با فرمول کولهپشتی 16(IK) به روش بهینه خلاصهسازی دست یافتند. دیگر روشهای خوشهبندی، یادگیری عمیق هستند که کارایی خلاصهسازی را بهبود بخشیدند. معمولاً شبکه عصبی بازگشتی17 برای رمزگشایی ارتباطات زمانی میان فریمهای ویدئویی به کار میرود. ژانگ18 و همکاران [14] با کمکگرفتن از LSTM استخراج فریمهای حاوی مفهوم را انتخاب نموده و از فرایند نقطهای 19(DPP) برای بهبود انتخاب فریمها استفاده کردند.
برای خودکارکردن خلاصهسازی، راکن20 و وانگ21 [15] خلاصهسازی ویدئو را بر اساس یادگیری تابع نگارش دادهای از روی دادههای ناهمتا و با کمک محدودیتهای موجود ایجاد کردند. برای بررسی ساختار زمانی ویدئو و اعمال تنوع محلی، لی22 و همکاران [16] مدل احتمالی بر اساس کنترل پویای فواصل زمانی ایجاد کردند و با کمک الگوریتمهای یادگیری آن را آموزش دادند. با این کار نه تنها خلاصهای از ویدئو ساخته شد که میتوان محتوای اصلی ویدئو را تفسیر کرد. روش آنها ژاوو23 و همکاران را بر آن داشت [17] تا روش یادگیری دوسویه را ارائه دهند. این قالب کاری با ترکیب خلاصه ایجاد شده و ساختار ویدئو، اطلاعات ویدئویی زمانی و فضایی را استخراج نماید. شاو و چاودری [18] برای خلاصهسازی ویدئوی فردساخته از نمایشهای مختلف گرافی داده ویدئویی استفاده کردهاند.
شاو و چاودری با کمک انواع نمایشهای گرافی، خلاصهسازی او شخص با صحت بالاتر ارائه کردند [18]. روش تشخیص مرز شات با استفاده از اطلاعات متقابل مبتنی بر گراف، ارائه و سپس یک نمودار وزنی برای هر عکس ایجاد گردید. یک فریم نماینده از هر شات با استفاده از معیار مرکزیت نمودار انتخاب گشت. روش جدیدی برای مشخصکردن فریمهای ویدئویی خودمحور با استفاده از یک مدل مرکز فراگیر مبتنی بر نمودار در ادامه نشان داده شده است. در اینجا هر قاب نماینده به عنوان اتحاد یک منطقه مرکزی (گراف) و یک منطقه فراگیر (گراف) مدلسازی میشود. با بهرهبرداری از معیارهای طیفی عدم تشابه بین دو گراف (مرکز و اطراف)، مناطق بهینه مرکز و اطراف تعیین میشوند. نواحی بهینه برای همه فریمها در یک عکس مانند قاب نماینده نگه داشته میشود. تفاوتهای مرکز فراگیر در مقادیر آنتروپی و جریان نوری همراه با خصیصه PHOG (24HOG هرمی) از هر فریم استخراج میگردند. تمام فریمها در یک ویدئو در نهایت با نمودار وزنی دیگری نشان داده میشوند که به عنوان نمودار شباهت ویدئو (VSG) نامیده میشود. فریمها با استفاده از رویکرد مبتنی بر حداقل درخت پوشا (MST) با معیاری جدید برای لبههای غیرقابل قبول دستهبندی میگردند. نزدیکترین فریم به مرکز هر خوشه برای ساخت خلاصه انتخاب میشود.
لی و همکاران [5] شبکههای کانولوشنی گرافی 25(GCAN) را معرفی کردند. این روش با ترکیب روش گرافی و زمانی به یک سری اطلاعات و دادههای متقابل میرسد که با ترکیب آنها به شاتهای کلیدی کاندیدا میرسد. تعداد روشهایی که از گراف در خلاصهسازی ویدئویی استفاده کردند، بسیار کم است و در واقع استفاده از گراف باعث افزایش صحت و بالارفتن دقت میگردد.
لیانگ26 و همکاران یک شبکه کانولوشنی 27CAAN را پیشنهاد دادهاند که ایده اصلی آن، ایجاد یک خلاصهکننده عمیق میباشد که روشی غیرنظارتی است [19]. قالب کلی این روش پیشنهادی از یک مولد و یک جداکننده تشکیل شده است. اولی اهمیت امتیازها را برای همه فریمهای یک ویدئو پیشبینی میکند؛ در حالی که دومی سعی میکند ویژگیهای فریمهای وزندارشده با امتیاز را از ویژگیهای فریم اصلی متمایز کند. برای ثبت رابطه زمانی عمومی و محلی فریمهای ویدئویی، مولد از یک شبکه توالی کانولوشنال برای ساخت نمایش عمومی یک ویدئو استفاده میکند. برای بهینهسازی پارامترها، تابع هدف از سه تابع ضرر تشکیل شده که میتواند پیشبینی امتیاز اهمیت سطح فریم را به طور مشترک هدایت کند. مقایسه روش پیشنهادی با روشهای موجود، کارآمدی روش پیشنهادی را اثبات میکند.
یانگ28 و همکاران در راهکار خود از دوربین صنعتی پرسرعت برای ضبط ویدئو و از شبکههای عصبی کانولوشنال عمیق در زمینه اندازهگیری ارتعاشات بصری استفاده کردهاند [20] و بر این اساس، دقت تشخیص هدف و سرعت ردیابی جابهجایی را اندازهگیری میکند. از مدل شبکههای عصبی کانولوشنال برای شناسایی ارتعاشات در ویدئو استفاده شده است. نشان داده شده که کارایی محاسباتی و کمیت پارامتر شبکههای کانولوشنال در ردیابی جابهجایی و حرکت در ویدئوهای بالا میباشد. در ابتدا شبکه عصبی کانولوشن سبکوزن به عنوان شبکه ستون فقرات در نظر گرفته میشود. در این راهکار شبکه عصبی کانولوشن استاندارد با کانولوشن قابل تفکیک عمقی و کانولوشن نقطهای جایگزین میگردد. سپس با توجه به مزیتهای سرعت و دقت الگوریتمهای یادگیری عمیق برای ردیابی اشیای ویدئویی، فاصلههای مرکز شیء و اندازههای مرزی را با کمک یک الگوریتم تشخیص در شبکه تخمین میزند. از روش شناسایی مجدد (re-ID) برای تقویت همبستگی جابهجایی هدف بین فریمهای مجاور استفاده میشود. راهکار پیشنهادی در مقایسه با روشهای موجود برتری خود را نشان داده است.
اسکندر و همکاران سعی کردند که یک شبکه عصبی کانولوشنال تغییریافته جدید را ارائه دهند [21]؛ یعنی یک مدل نظارتی از یادگیری عمیق را برای خلاصهسازی ویدئوهای کریکت ارائه دادهاند. شبکه عصبی کانولوشن کریکت پیشنهادی (C-CNN) آموزندهترین ویژگیها را از فریمهای ویدئویی میآموزد و طبقهبندی باینری را به کلاس مثبت و منفی انجام میدهد. با کمک این روش میتوان فریمهای کلیدی را کل ویدئو یافته و خروجی خلاصهای از کل ویدئو به دست آورد. با بررسی تجربی راهکار پیشنهادی، برتری این روش نسبت به روشهای مشابه نشان داده شده است.
3- راهکار پیشنهادی
در شکل 1 مدلی کلی از راهکار پیشنهادی قابل مشاهده است. در ابتدا با کمک الگوریتم k-medoids کلاسترهایی ایجاد گردیده و با انتخاب فریمهای کلیدی، یک سری فریمهای نماینده انتخاب میشوند که برای مرحله آخر و رأیگیری میان فریمهای نتیجه باقی میمانند. از سوی دیگر، تفاوت میان فریمهای کلیدی سنجیده شده و بسته به یک حد آستانه، تعدادی از این فریمها انتخاب شده و کلاسترهای آنها به عنوان ورودی مرحله بعدی و شروع خلاصهسازی جدید در نظر گرفته میشوند. در این گام با الهام از روش پیشنهادی لی و همکاران [12] در ابتدا با کمک GoogleNet ویژگیهای یک تصویر جداسازی میشوند. سپس در دو گام با کمک شاخه زمانی و گرافی یک گروه از شاتهای ویدئویی فراهم میآید و در انتها با کمک همین شاتها خلاصه دینامیکی از ویدئو به دست میآید که معنای ویدئوی کلی را به خوبی در خود حفظ کرده است.
[1] این مقاله در تاریخ 31 خرداد ماه 1401 دریافت و در تاریخ 16 اردیبهشت ماه 1402 بازنگری شد.
مهسا رحیمی رسکتی، دانشكده مهندسي كامپيوتر، دانشگاه آزاد ساری، ساري، ايران، (email: mr2.mco@gmail.com).
همایون مؤتمنی (نویسنده مسئول)، دانشكده مهندسي كامپيوتر، دانشگاه آزاد ساری، ساري، ايران، (email: h_motameni@yahoo.com).
ابراهیم اکبری، دانشكده مهندسي كامپيوتر، دانشگاه آزاد ساری، ساري، ايران،
(email: akbari@iausari.ac.ir).
حسین نعمتزاده، دانشكده مهندسي كامپيوتر، دانشگاه آزاد ساری، ساري، ايران، (email: hn_61@yahoo.com).
[2] . Video Skimming
[3] . Ping Li
[4] . Temporal Graph Embedding
[5] . Graph Neural Networks
[6] . Context Fusion
[7] . Rajat Aggarwal
[8] . Anastasios Dimou
[9] . Fengsui Wang
[10] . Silhouette Coefficient
[11] . Madhushree Basavarajaiah
[12] . Ananda S. Chowdhury
[13] . Convolutional Neural Network
[14] . Abhimanyu Sahu
[15] . Ananda S. Chowdhury
[16] . Integer Knapsack Type Formulation
[17] . Recurrent Neural Network
[18] . Zhang
[19] . Determinantal Point Process
[20] . Rochan
[21] . Wang
[22] . Y. Li
[23] . Zhao
[24] . Histogram of Oriented Gradients
[25] . Graph Convolutional Attention Network
[26] . Guoqiang Liang
[27] . Convolutional Attentive Adversarial Network
[28] . Rongliang Yang
شکل 1: مدل سیستم پیشنهادی.
3-1 الگوریتم K-medoids
خوشهبندی برای تحلیل دادهها و اطلاعات به کار میرود. در این روش که به یادگیری غیرنظارتی هم معروف است نقاط داده را با کمک بیشینهکردن شباهت درون خوشه و کمینهکردن شباهت با نقاط داده خارج خوشه، خوشهبندی میکنند.
الگوریتم k-Medoids که بهبودیافته الگوریتم k-Means است، عملکردی بسیار شبیه با آن الگوریتم دارد؛ با این تفاوت که در الگوریتم k-Medoids بهجای استفاده از میانگین، از خود نمونهها برای مرکز ثقل و نمایندگی خوشهها استفاده میشود. با انتخاب نمونههای واقعی جهت نمایش یک خوشه، حساسیت روش نسبت به نمونههای نویز و خارج از محدوده کاهش مییابد. بنابراین روش k-Medoids برخلاف روش
k-Means به جای اینکه مقادیر میانگین از نمونهها را دریافت کند، از مرکزیترین نمونه موجود در خوشه به عنوان نمایش و نماینده خوشه استفاده میکند.
با کمک الگوریتم K-Medoids در ابتدا ویدئو به فریمهای کلیدی که نشاندهنده فعالیت خاصی هستند، تقسیم میشود. جهت بهبود روش
K-Medoids تلاش گردیده در انتخاب k با جستجوی سریع در میان فریمهای موجود، تعداد فریمهایی که از لحاظ ویژگی تصویری با یک میزان آستانه، تفاوت بیشتری دارند، شمرده شوند که این میزان برابر با تعداد K است. استفاده از این خوشهبندی قبل از بهدستآوردن سازگاری باعث بالارفتن کارایی، دقت و حذف نویز میشود. پس از انتخاب فریمهای کلیدی با کمک ضریب سیلوئت، تعدادی فریم به عنوان فریم کاندیدا انتخاب میگردند و خوشههای آنها نیز به عنوان خوشههای کلیدی و در واقع دادههای گام بعدی برگزیده میشوند
(1)
رابطه (1) میانگین فاصله بین نقطه و سایر نقاط داده در همان خوشه است که در آن فاصله بین نقاط داده و در خوشه است. (تقسیم) انجام میشود زیرا فاصله در جمع وارد نمیگردد). در واقع نشان میدهد که چه اندازه به خوبی به خوشه خود اختصاص داده شده است (هرچه مقدار کوچکتر باشد، انتساب بهتر است). سپس میانگین عدم شباهت نقطه با بعضی خوشههای به عنوان میانگین فاصله به تمام نقاط در تعریف میشود (که در آن ) و بنابراین برای هر نقطه داده اکنون تعریف میشود
(2)
کوچکترینبودن (عملگر min در فرمول)، میانگین فاصله با همه نقاط در خوشههای دیگر است که عضو آنها نیست. خوشهای با کوچکترین میانگین نابرابری، خوشه همسایه نامیده میشود زیرا این بهترین خوشه مناسب بعدی برای نقطه است و در نهایت برای نسبتدادن هر گره به خوشه مناسب خود از ضریب سیلوئت استفاده میشود که مقدار آن برای نقطه داده برابر است با
(3)
3-2 جداسازی زمانی و گرافی
برای جداسازی زمانی و گرافی در ابتدا از GoogleNet به عنوان شبکه کانولوشنی استفاده میشود. GoogleNet یک شبکه عصبی کانولوشن عمیق ۲۲لایه است که محققان Google آن را ساختهاند. این شبکه به دلیل وجود عمق به افزایش عملکرد چشمگیرش میانجامد. در هر سکانس ویدئویی، مجموعه شامل فریم و نشاندهنده امین فریم است، به عنوان ورودی وارد GoogleNet [22] شده تا ویژگیهای فریم را استخراج کند. این ویژگیها یعنی که نشانگر امین فریم با عنصر است. این فریمها به طور جداگانه و مستقل وارد بخش زمانی و گرافی میشوند.
جاسازی زمانی با و جاسازی گرافی با مشخص میگردند. بنابراین در بردار و برای امین فریم، نشاندهنده جاسازی زمانی و نشاندهنده جاسازی گرافی است.
3-2-1 شاخه زمانی
ورودی از گام قبلی وارد این مرحله میشود. برای یادگیری جاسازی زمانی فریمها از چندین هسته گسترشیافته کانولوشنال با
شکل 2: قالب کاری روش پیشنهادی.
پهنای زمانی و نرخ کانولوشن استفاده میشود تا ارتباط فضایی میان فریمها را ثبت کند. خروجی جاسازی محلی در این روش برای مجموعه برابر است با
(4)
که و و نرخ کانولوشن برای بهدستآوردن پیچیدگی زمانی کانولوشنال 1(DTC) به کار میروند. DTC میدان پذیرش نورونها را بدون آنکه وضوح را کاهش دهد، بزرگ میکند. در اینجا و قرار داده شده است. سمبل به معنی ضرب عنصرهاست. هرم کانولوشنالی زمانی از عملگر کانولوشن به صورت موازی ایجاد شده و نرخ کانولوشن آن نیز در حال افزایش است. امین نرخ کانولوشن برای افزایش طول بعد زمانی به کار میرود. خروجی کانولوشنهای به هم متصل میشوند تا بردار ویژگی زمانی بهتری را ایجاد کنند؛ یعنی
(5)
که منجر به جاساز زمانی میگردد.
3-2-2 شاخه گرافی
با توجه به اینکه در روش ارائهشده توسط لی و همکاران از رویکرد فضایی پایه استفاده شده که نمیتواند برای گرافهای با مقیاس بالا به خوبی عمل کند [12]، به همین خاطر در اینجا از شبکه عصبی گراف استفاده شده که در شکل 2 آمده است. ورودی در اینجا گراف سیگنال ( که فضای بعدی اقلیدسی میباشد) است که در ابتدا و با کمک انتقال گراف فوریه به دامنه طیف منتقل میگردد و در ادامه عملیات کانولوشنالی اتفاق میافتد. بعد از کانولوشنالی، سیگنال نتیجه دوباره با کمک فوریه معکوس به دست میآید. این انتقالها به صورت زیر حاصل میشوند
(6)
(7)
که ماتریس بردارهای ویژه از گراف نرمالشده لاپلاس است. گراف لاپلاس بوده که ماتریس مثلثی مقادیر ویژه است. کانولوشنالی گراف لاپلاس نرمالشده با کمک فرمول زیر به دست میآید
(8)
که فیلتر دامنه طیف است. فیلتر با کمک ماتریس مثلثی سادهشده ساده میگردد
(9)
3-2-2-1 عملگر بازگشتی
در یک گراف، هر گره با ویژگیهایش مشخص میشود. در این گام از شبکه عصبی گراف یا GNN استفاده میشود که این مدل میتواند برای تجزیه و تحلیل نمودارها استفاده گردد. گرافها ساختارهای دادهای قوی هستند که شامل روابط بین اشیا میباشند و GNNها اجازه میدهند که این روابط را به روشهای جدیدی کشف کنند. مثلاً میتوان از GNN برای شناسایی افرادی که احتمالاً محصولی را در رسانههای اجتماعی توصیه میکنند، استفاده کرد. در اینجا هدف GNN یادگیری شرایطی است که در آن و شامل اطلاعات خود و همسایهها برای هر گره است. وضعیتی که در آن جاساز شده، بردار بعدی گره برای ایجاد خروجی است. گامهای محاسبه این مقادیر برابر است با
(10)
(11)
که ، ، و ویژگیهای ، ویژگی یالها، وضعیت و ویژگی گرههای همسایه است. تابع انتقال محلی است که میان تمام گرهها به اشتراک استفاده شده و وضعیت هر گره را بر اساس ورودی همسایههایش مشخص میکند. نیز تابع خروجی محلی است که نحوه ایجاد خروجی را بیان میکند.
3-2-2-2 ماژول ردکردن اتصال
مسلم است که در شبکههای عصبی، هرچه میزان لایهها بیشتر باشد به نتایج بهتری میرسیم؛ اما از سوی دیگر، دادههای بیشتر باعث ایجاد روابط بالا و پیشآمدن نویز یا پیچیدگی میگردند. یک روش برای حل این مسأله، روش ردکردن اتصال است تا بعضی از اتصالات موجود در شبکه (که اهمیت کمتری دارند) نادیده گرفته شوند. به عنوان یک روش میتوان از روش رحیمی و همکاران [23] بهره برد که در آن، خروجی یک لایه با ورودی آن جمع میگردد و از این رقم بهدستآمده برای مقادیر گام بعدی استفاده میشود.
3-2-2-3 ماژول ادغام2
از روش ادغام ساده گره استفاده شده است. در این مدل عملگرهای مربوط به گره یعنی بیشینه، کمینه و مجموع به کار میروند تا ارائهای جامع از گره داشته باشند. با کمک این عملگرها نتایج حاصل از گامهای پیش با هم ادغام شده و خروجی حاصل بیانگر نتیجه نهایی است.
3-2-2-4 ادغام محتوا
در آخرین گام باید میان دو جاسازی زمانی و گرافی بهدستآمده ادغام انجام گیرد تا شاتهای کاندیدا انتخاب گردیده و خلاصهسازی انجام گیرد. دو نوع اطلاعات در متغیر با هم ادغام میشوند. این گام حاوی لایه خطی با تابع فعالسازی، لایه خطی با تابع سیگموئید3 و گیت ترکیب4 میباشد. فرمول ریاضی این دو لایه به شرح زیر است
(12)
(13)
که و وزنهای ماتریس و و خروجیهای دو لایه خطی است. برای حفظ معنی بین فریمها، دو ماتریس ویژگی فریم و ساختار گرافی با کمک گیت ترکیب با هم ترکیب میشوند تا حاصل گردد
(14)
با کمک اعمال مقدار حاصلشده از فرمول بالا بر روی گرهها، مقداری نامنفی حاصل میگردد که اهمیت هر گره را نشان میدهد و در این گام با کمک الگوریتم تقسیمبندی زمانی هسته 5(KTS) برای انتخاب شاتهای کلیدی به کار میرود.
4- ارزیابی راهکار پیشنهادی
در این بخش به معرفی تنظیمات کلی انجام آزمایش بر روی نتایج حاصل از راهکار پیشنهادی پرداخته شده و نتايج مورد بررسی قرار میگیرند.
4-1 دیتاست
کارایی راهکار پیشنهادی بر روی سه دیتاست SumMe، TvSum و OpenCv مورد ارزیابی قرار گرفت. SumMe شامل 25 ویدئو با طول یک تا شش دقیقه بوده که رویدادهای مختلف ورزشی، تعطیلات و ... را پوشش میدهد. TVSum نیز شامل 50 ویدئوی ویرایششده است که در10 گروه مختلف با طول 5/1 تا 11 دقیقه هستند. این دو دیتاست توسط کاربرها نشانهگذاری شدهاند که این نشانهها میزان اهمیت فریمها را برای هر ویدئو نشان میدهند. دیتاست سوم نیز OpenCv است که از 50 ویدئو با موضوعات مختلف و بیشتر در جنبه مستند ساخته شده است. طول این ویدئوها حداکثر تا 10 دقیقه هستند که برای ارزیابی در بخش کمی مورد استفاده قرار گرفتند.
4-2 ارزیابی کیفی
در امر خلاصهسازی ویدئویی هنوز استانداردی برای سنجش و ارزیابی نتیجه به صورت کیفی وجود ندارد. به دلایل مختلفی چون سلیقه افراد، تخصصیبودن خلاصه در رشتههای متفاوت و ... نمیتوان نظر درستی در مورد خوبی یا بدی یک خلاصه داد و در نتیجه نمیتوان به راحتی عمل ارزیابی را به انجام رساند.
در اینجا سعی شده تا یکی از راهکارهای کیفی ارزیابی خلاصهسازی به نام کاس 6(CUS) استفاده شود که در واقع تغییر در روش F-measure و تبدیل آن به روشی کاربرمحور است [24]. این روش نتیجه خلاصهسازی خودکار را با نظر کاربران میسنجد و ارزیابی مناسبی با نظر مستقیم کاربران انجام میدهد. تمامی ویدئوها با فرمت 1- MPEG (30 فریم در ثانیه و 352 × 240 پیکسل) هستند. ویدئوهای انتخابشده بین چندین ژانر (مستند، آموزشی، زودگذر، تاریخی، سخنرانی) توزیع شده و مدت آنها از 1 تا 4 دقیقه متغیر است.
خلاصههای کاربران توسط 50 کاربر ایجاد شده که هر کدام از آنها با 5 ویدئو سر و کار داشتند؛ یعنی هر ویدئو دارای 5 خلاصه ویدئو است که توسط 5 کاربر مختلف ایجاد شده است. به عبارت دیگر، 250 خلاصه ویدئویی به صورت دستی ایجاد شدهاند.
در ابتدا از 50 کاربر درخواست میشود تا فیلم را دیده و بعد به صورت دستی طبق میل خود خلاصهای ایستا از آن فیلم تهیه کنند. برای راحتی کار، فریمهای نمونه در اختیارشان قرار میگیرد تا از میان آنها خلاصهها را پیدا کنند. کاربر در انتخاب فریمها و تعداد آنها کاملاً مختار و آزاد است. در گام دوم، این فریمهای انتخابشده با فریمهای خلاصهسازی خودکار مورد مقایسه قرار میگیرند. در گام سوم کیفیت این فریمها با کمک دو مقیاس و سنجیده میشود
(15)
(16)
که برابر است با تعداد فریمهای کلیدی مشابه بین خلاصه خودکار و خلاصه کاربران که دقیقاً برعکس یعنی تعداد فریمهای کلیدی که در این دو با هم برابر نیستند میباشد. نیز تعداد فریمهای موجود در خلاصه کاربر است.
4-3 ارزیابی کمی
مقیاس F-measure به میزانی گسترده در مقالات مختلف جهت ارزیابی کارایی مورد استفاده قرار میگیرد [12]، [14]، [17] و [25]. برای تمام دیتاستها، نشانهگذاریها از سطح فریم به سطح شات تغییر سطح میدهند و شاتهای کلیدی را برای خلاصههایی که زمانی کمتر از
%15 ویدئوی اصلی دارند، انتخاب میکنند. برای محاسبه F-measure در ابتدا مقادیر صحت7 و پوشش8 محاسبه میگردند. در این حالت صحت و پوشش با فرمولهای زیر به دست میآیند
(17)
(18)
که در روابط بالا خلاصههای ایجادشده توسط الگوریتم و خلاصه ایجادشده توسط بشر است. بنابراین F-measure از رابطه زیر به دست میآید
(19)
4-4 تنظیمات ارزیابی
برای ارزیابی روش کمی نیاز به یک سری تنظیمات پیشپردازشی است و بر اساس آنچه ژانگ و همکاران ارائه کردند، این ارزیابی در 3 گام انجام میپذیرد: مرکزی 9(C)، تفضیلی 10(A) و انتقالی 11(T) که تنظیمات آن در جدول 1 آمده است. برای آموزش روش پیشنهادی از 80% دادهها استفاده شده و مجموعه آزمون برابر با 20% باقیمانده است.
[1] . Dilated Temporal Convolution
[2] . Pooling Module
[3] . Sigmoid Function
[4] . Fusion Gate
[5] . Kernel Temporal Segmentation
[6] . Comparison of User Summaries
[7] . Precision
[8] . Recall
[9] . Canonical
[10] . Augmented
[11] . Transfer
جدول 1: تنظیمات ارزیابی.
آزمون | آموزش | تنظیمات | دیتاست |
%20 از SumMe | %80 از SumMe | C | SumMe |
%20 از SumMe | SumME %80OVPYouTubeTVSum | A | |
SumMe | OVPYouTubeTVSum | T | |
%20 از TVSum | %80 از TVSum | C | TVSum |
%20 از TVSum | TVSum %80OVPYouTubeSumME | A | |
TVSum | OVPYouTubeSumMe | T |
جدول 2: مقادیر ارزیابی روشهای موجود در برابر راهکار پیشنهادی [19].
راهکار پیشنهادی | [26] VSN | [27] 2VSUMM | [27] 1VSUMM | [28] STIMO | [29] DT | [30] OV |
|
89/0 | 80/0 | 70/0 | 85/0 | 72/0 | 53/0 | 70/0 | CUSA |
28/0 | 26/0 | 27/0 | 38/0 | 58/0 | 29/0 | 57/0 | CUSE |
جدول 3: تفاوت میان CUSA در سطح اطمینان 98% روشها با روش پیشنهادی.
بازه اطمینان (95%) | تفاوتها | |
ماکسیمم | مینیمم | |
03/0 | 01/0 | روش پیشنهادی- 1VSUMM |
18/0 | 16/0 | روش پیشنهادی- 2VSUMM |
21/0 | 12/0 | روش پیشنهادی- OV |
38/0 | 3/0 | روش پیشنهادی- DT |
18/0 | 13/0 | روش پیشنهادی- STIMO |
4-5 جزئیات پیادهسازی
ویژگیها از روی تابعی با 1024 بعد در GoogleNet روی ImageNet آموزش داده شدهاند. راهکار پیشنهادی بر روی ماشینی با پردازشگر GHz 59/2 و Ti 1650 NVIDIA GeForce GTX پیادهسازی شده است.
5- نتایج و تحلیل دادهها
این بخش به بررسی روشهای ارزیابی راهکار پیشنهادی به دو روش کمی و کیفی میپردازد.
5-1 ارزیابی کیفی
نتایج حاصل از راهکار پیشنهادی توسط روش کاس بر روی 50 ویدئو از سایت OpenCV مورد بررسی قرار گرفت. نرخ خطا و نرخ صحت بهدستآمده در ابتدا با 5 روش دیگر که آنها نیز بر روی ویدئوهای OpenCV اعمال شدهاند، مقایسه میگردد که نتیجه این مقایسه در جدول 2 مشخص است.
مقایسه دوبهدوی راهکارهای پیشنهادی با هر یک از 5 روش با بازه اطمینان 98% انجام گرفته که به نوعی برتری راهکار پیشنهادی را نشان میدهد. طبق جدول 2، روش پیشنهادی دارای بالاترین میزان نرخ صحت نتایج است و نرخ خطای نسبتاً پایینی نیز دارد که این، بیانگر برتری روش میباشد. در ادامه در جداول 3 و 4، مقایسه دوبهدوی نتایج حاصل از راهکار پیشنهادی که توسط روش کاس به دست آمده است، با هر یک از 5 روش و در بازه اطمینان 98% انجام گرفته و به نوعی برتری راهکار پیشنهادی را نشان میدهند. در میان روشها 1VSUMM دومین رتبه را بعد از راهکار پیشنهادی دارد؛ اما در عین حال نرخ خطای آن بالاتر است. VSN نرخ خطای پایینتری نسبت به روش پیشنهادی دارد و توانسته از
جدول 4: تفاوت میان CUSE در سطح اطمینان 98% روشها با روش پیشنهادی.
بازه اطمینان (98%) | تفاوتها | |
ماکسیمم | مینیمم | |
01/0- | 15/0- | روش پیشنهادی- 1VSUMM |
12/0 | 01/0- | روش پیشنهادی- 2VSUMM |
1/0- | 42/0- | روش پیشنهادی- OV |
07/0 | 03/0- | روش پیشنهادی- DT |
18/0- | 4/0- | روش پیشنهادی- STIMO |
تخمین اشتباه جلوگیری کند؛ اما با وجود این نرخ صحت آن به میزان 9/0 پایینتر از روش پیشنهادی است. با توجه به موارد قیدشده، راهکار پیشنهادی توانسته که بالاترین نرخ صحت و یکی از پایینترین نرخ خطاها را کسب کند. طبق قاعده در سطوح اطمینان 98% چنانچه ارزش مقادیر برابر با صفر باشد، نشاندهنده عدم کیفیت است. در هیچ کدام از مقایسههای انجامشده، نتیجه صفر حاصل نشده که نشانگر کیفیت بالای روش پیشنهادی است. از سوی دیگر همان طور که مشخص است نرخ صحت الگوریتم پیشنهادی از تمام روشها بالاتر بهتر میباشد. در مورد نرخ خطا همان طور که نتایج نیز نشان میدهند، نرخ خطای روش پیشنهادی از اکثر روشها پایینتر بوده و بهتر عمل میکند؛ اما نسبت به دو روش دیگر 2VSUMM و VSN ضعیفتر است. با وجود این، تفاوت میان نرخ خطای روش پیشنهادی و این دو روش کم بوده و نرخ صحت بالاتری نیز نسبت به این دو دارد.
5-2 ارزیابی کمی
همان طور که در جدول 5 آمده است، روش پیشنهادی در اکثر حالات دارای مقادیر بالاتر F-measure نسبت به روشهای موجود است.
روش vsLSTM و dppLSTM هر دو خلاصهسازی با کارایی کمی دارند؛ چرا که برای مدلکردن روابط زمانی متغیرهای خود از LSTM کمک گرفتند و به دلیل محدودیتهایی که روش LSTM دارد نتوانستند به خوبی ارتباط میان فریمها را در ویدئوهای با زمان و طول بالا نشان دهند. در صورتی که روش پیشنهادی با کمکگرفتن از TSA توانسته که به راحتی این مشکل را حل کند و روابط معنایی میان فریم و شاتها را نیز حفظ نماید. روش SUM-GAN نیز در روند خلاصهسازی خود از LSTM بهره برده و دقیقاً مانند روشهای قیدشده در مورد ویدئوهای طولانیمدت دچار ایراد است. روش DR-DSN با بهکارگیری روشهای یادگیری و روشهای rewardدهنده توانسته که بر تنوع ویدئوها فائق
جدول 5: مقایسه کارایی روش پیشنهادی با روشهای مختلف.
F-measure | method | |||||
TVSum | SumMe | |||||
T | A | C | T | A | C | |
9/56 | 9/57 | 2/54 | 7/40 | 6/41 | 6/37 | [14] vsLSTM |
7/58 | 6/59 | 7/54 | 8/41 | 9/42 | 6/38 | [14] dppLSTM |
| 2/61 | 3/56 |
| 6/43 | 7/41 | [31] SUM-GANsup |
9/58 | 8/59 | 1/58 | 6/42 | 9/43 | 1/42 | [32] DR-DSNsup |
| 8/59 |
|
| 1/44 |
| [32] HAS-RNN |
|
| 4/58 |
|
| 3/44 | [16] DyseqDPP |
|
| 2/58 |
|
| 3/45 | [33] SASUMsup |
2/58 | 2/92 | 8/56 | 1/44 | 1/51 | 5/47 | [15] SUM-FCN |
|
|
|
|
| 0/48 | [34] UnpairedVSNpsup |
4/57 | 1/57 | 5/58 | 1/44 | 7/48 | 6/48 | [35] CSNetsup |
| 8/60 | 4/59 |
| 6/44 | 9/43 | [25] A-AVS |
| 8/61 | 0/61 |
| 1/46 | 4/44 | [25] M-AVS |
| 3/61 | 2/59 |
| 1/44 | 7/43 | [17] PCDLsup |
7/58 | 1/61 | 7/60 | 8/46 | 2/54 | 0/53 | [12] GCANsup |
6/65 | 9/89 | 0/60 | 0/50 | 2/54 | 0/54 | روش پیشنهادی |
آمده و خلاصهسازی خوبی داشته باشد و مشکلات موجود در روش SUM_GAN را رفع کند؛ اما در کنار آن، مشکل پرهزینهبودن روش و قوانین مربوط به آموزش را دارد. HSARNN از LSTM دوسویه بهره میبرد ولی باز هم به دلیل محدودیتهای این روش توانسته است که روابط عمومی بین شاتهای ویدئوهای طولانی را به خوبی نشان دهد. DYSeqDPP روش قبلی خود یعنی SeqDPP را بهبود بخشیده و با کمک الگوریتم آموزشی به نتایج خوبی رسیده است؛ اما در عوض روش آموزش این الگوریتم ساده نیست و باعث ایجاد نقطه ضعف در این روش شده است. SASUM یا نیاز به تعریفگرهای متنی از ویدئو دارد که معمولاً دسترسی به آنها سخت یا غیرممکن است و یا نیاز به توصیفگرهای ویدئویی دارد که ساخت آنها پرهزینه بوده و اغلب برای خلاصهسازی به خوبی عمل نمیکنند.
اين رويكرد با معرفی شبکههای کانولوشنالی، کارایی را در روش افزایشی بر روی SumMe بهبود بخشیده است؛ اما در عین حال نشانههای عمومی زمانی ویدئوها را در نظر نگرفته که باعث کاهش کیفیت نتایج در این روش شده است. CSNet از یک شبکه دوجریانه برای استفاده از هر دو ویژگیهای عمومی و محلی فریمها استفاده میکند؛ اما نتوانسته است که ساختار گرافی دادهها را در نظر بگیرد. AVS از دو تابع افزایشی1 (A-AVS) و ضربی2 (M-AVS) استفاده کرده و LSTM دومسیره را به کار برده تا به کارایی بالاتری در TVSum برسد؛ اما با این کار ساختار حقیقی نمونه فریمها را از یاد برده و از خلاصهسازی مفهومی و معنایی فاصله گرفته است. GCAN نیز نسبت به سایر روشهای مشابه برتری داشته که این نشانگر تأثیر استفاده از هر دو جاسازی گرافی و زمانی است. اما این روش کمی برای ویدئوهای طولانیمدت پرهزینه میباشد و به همین خاطر، روش پیشنهادی در ابتدا با روش خوشهبندی توانست که فریمهای مهمتر را جداسازی کند و از حجم فریمها و پیچیدگیهای آتی بکاهد. در کنار آن با کمک تغییر روش گرافی و بهبود آن، نتایج بامعنیتری ایجاد نموده و صحت نتیجه را افزایش دهد.
6- نتیجهگیری
با توجه به اهمیت دادههای ویدئویی و عملیات پردازش این نوع داده، این مقاله به خلاصهسازی ویدئویی پرداخته است. برای رسیدن به این هدف، در ابتدا به وسیله الگوریتم خوشهبندی K-medoid و سپس کمکگرفتن از دو بخش جاسازی ساختاری زمانی و گرافی، خلاصهسازی روی شاتهای کلیدی برگزیده از مرحله قبل انجام میگردد. برای ارزیابی راهکار پیشنهادی سعی شده تا نتایج حاصل با کمک دو روش کیفی و کمی بر روی سه دیتاست مورد بررسی قرار گیرد. برای ارزیابی کیفی با الگوریتم کاس و تغییر در آن، ميتوان به ارزیابی درستی از نتیجه خلاصهسازی ویدئویی رسید. با این روش میتوان نتایج خلاصهسازی خودکار را به صورت مستقل و جدا با نظر تکتک کاربران سنجید و در مورد کیفیت ویدئوها و نزدیکی آنها به ادراک انسانی تصمیم گرفت.
این راهکار بر روی 50 ویدئو تکرار شد و میانگین 89% نرخ صحت را در خلاصهسازی دارد و میزان خطای آن 28% است که به نسبت سایر روشها جزء بالاترین نرخ صحتها میباشد و نرخ خطای آن نیز نسبت به اغلب روشها پایین بوده و نسبت به سایر روشها چندان بالا نیست.
نتیجه بررسی با روش کمی که در سه شرایط مختلف و بر روی دو دیتاست انجام گرفت، منجر به دستیافتن به F-measure با درصد بالا شده که نسبت به روشهای مشابه، کارایی بالاتری از خود نشان داده است. برای کارهای آتی پیشنهاد میشود که با تغییر الگوریتم خوشهبندی گام اول سعی درد بهبود نتیجه نهایی داشت. همچنین با وجود اینکه قسمت مربوط به بخش گرافی یا شبکه عصبی گرافی نتایج مطلوبی داشته است اما میتوان با بهینهترکردن بخش زمانی و تغییر آن با الگوریتمهای مشابه موجود، نتیجه نهایی را بهبود بخشید.
مراجع
[1] A. Messina and M. Montagnuolo, "Fuzzy mining of multimedia genre applied to television archives," in Proc. IEEE Int.Conf. on Multimedia and Expo, pp. 117-120, Hannover, Germany, 23 Jun.-26 Apr. 2008.
[2] A. Bora and S. Sharma, "A review on video summarization approcahes: recent advances and directions," in Proc. Int. Conf. on Advances in Computing, Communication Control and Networking, ICACCCN'18, pp. 601-606, Greater Noida, India, 12-13 Oct. 2018.
[3] M. K. Mahesh and K. Pai, "A survey on video summarization techniques," in Proc. Innovations in Power and Advanced Computing Technologies, i-PACT'19, 5 pp., Vellore, India, 22-23 Mar. 2019.
[4] V. K. Vivekraj, D. Sen, and B. Raman, "Video skimming: taxonomy and comprehensive survey," ACM Computing Surveys, vol. 52, no. 5, Article ID: 106, 38 pp., Sept. 2019.
[5] P. Li, Q. Ye, L. Zhang, L. Yuan, X. Xu, and L. Shao, "Exploring global diverse attention via pairwise temporal relation for video summarization," Computer Vision and Pattern Recognition, vol. 111, Article ID: 107677, Mar. 2020.
[6] M. Gygli, H. Grabner, H. Riemenschneider, and L. V. Gool, "Creating summaries from user videos," In: D. Fleet, T. Pajdla, B. Schiele, and T. Tuytelaars, (eds) Computer Vision-ECCV'14, Lecture Notes in Computer Science, vol 8695. Springer, pp. 505-520, 2014.
[7] Y. Song, J. Vallmitjana, A. Stent, and A. Jaimes, "TVSum: summarizing web videos using titles," in Proc. IEEE Conf. on Computer Vision and Pattern Recognition, CVPR'15, pp. 5179-5187, Boston, MA, USA, 7-12 Jun. 2015.
[8] G. Bradski, A. Keahler, and V. Pisarevsky, "Learning-based computer vision with Intel's open source computer vision library," Intel. Technology J., vol. 9, no. 2, pp. 119-130, May 2005.
[9] D. Zhao, J. Xiu, Y. Bai, and Z. Yang, "An improved item-based movie recommendation algorithm," in Proc. 4th Int. Conf. on Cloud Computing and Intelligence Systems, CCI'16, pp. 278-281, Beijing, China, 17-19 Aug. 2016.
[10] A. Dimou, D. Matsiki, A. Axenopoulos, and P. Daras, "A user-centric approach for event-driven summarization of surveillance videos," in Proc. 6th Int. Conf. on Imaging for Crime Prevention and Detection, ICDP'15, 6 pp., London, UK, 15-17 Jul. 2015.
[11] H. Zeng, et al., "EmotionCues: emotion-oriented visual summarization of classroom videos," IEEE Trans. on Visualization and Computer Graphics, vol. 27, no. 7, pp. 3168-3181, Jul. 2021.
[12] P. Li, C. Tang, and X. Xu, "Video summarization with a graph convolutional attention network," Frontiers of Information Technology & Electronic Engineering, vol. 22, no. 6, pp. 902-913, 2021.
[13] S. S. de Almeida, et al., "Speeding up a video summarization approach using GPUs and multicore CPUs," Procedia Computer Science, vol. 29, pp. 159-171, 2014.
[14] K. Zhang, W. L. Chao, F. Sha, and K. Grauman, "Video summarization with long short-term memory," In: B. Leibe, J. Matas, N. Sebe, and M. Welling, (eds) Computer Vision-ECCV'16, Lecture Notes in Computer Scienc, vol 9911. Springer, pp. 766-782, 2016.
[15] M. Rochan, L. Ye, and Y. Wang, "Video summarization using fully convolutional sequence networks," In: V. Ferrari, M. Hebert, C. Sminchisescu, and Y. Weiss, (eds) Computer Vision-ECCV'18, Lecture Notes in Computer Science, vol 11216. Springer, pp. 358-374, 2018.
[16] Y. Li, L. Wang, T. Yang, and B. Gong, "How local is the local diversity? reinforcing sequential determinantal point processes
with dynamic ground sets for supervised video summarization," In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds) Computer Vision-ECCV'18, Lecture Notes in Computer Science, vol 11216. Springer, pp. 156-174, 2018.
[17] B. Zhao, X. Li, and X. Lu, "Property-constrained dual learning
for video summarization," IEEE Trans. on Neural Networks and Learning Systems, vol. 31, no. 10, pp. 3989-4000, Oct. 2020.
[18] B. U. Kota, A. Stone, K. Davila, S. Setlur, and V. Govindaraju, "Automated whiteboard lecture video summarization by content region detection and representation," in Proc. 25th Int. Conf. on Pattern Recognition, ICPR'21, pp. 10704-10711, Milan, Italy, 10-15 Jan. 2021.
[19] G. Liang, Y. Lv, S. Li, S. Zhang, and Y. Zhang, "Video summarization with a convolutional attentive adversarial network," Pattern Recognition, vol. 131, Article ID: 108840, Nov. 2022.
[20] R. Yang, S. Wang, X. Wu, T. Liu, and X. Liu, "Using lightweight convolutional neural network to track vibration displacement in rotating body video," Mechanical Systems and Signal Processing, vol. 177, Article ID: 109137, Sept. 2022.
[21] S. Sikandar, R. Mahmum, and N. Akbar, "Cricket videos summary generation using a novel convolutional neural network," in Mohammad Ali Jinnah University Int. Conf. on Computing, MAJICC'22, 7 pp., Karachi, Pakistan, 27-28 Oct. 2022.
[22] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, et al., "Going deeper with convolutions," in Proc. IEEE Conf. on Computer Vision and Pattern Recognition, CVPR'15, 9 pp., Boston, MA, USA, 7-12 Jun. 2015.
[23] A. Rahimi, T. Cohn, and T. Baldwin, "Semi-supervised user geolocation via graph convolutional networks," in Proc of the 56th Annual Meeting of the Association for Computational Linguistics, vol. 1, pp. 2009-2019, Melbourne, Australia, Jul. 2018.
[24] A. P. Ta, M. Ben, and G. Gravier, "Improving cluster selection and event modeling in unsupervised mining for automatic audiovisual video structuring," In: K. Schoeffmann, B, Merialdo, A. G, Hauptmann, and C. W. Ngo, Andreopoulos, Y., Breiteneder, C. (eds) Advances in Multimedia Modeling. MMM 2012. Lecture Notes in Computer Science, vol 7131. Springer, Berlin, pp. 529-540, 2012.
[25] Z. Ji, K. Xiong, Y. Pang, and X. Li, "Video summarization with attention-based encoder-decoder networks," IEEE Trans. on Circuits and Systems for Video Technology, vol. 30, no. 6, pp. 1709-1717, Jun. 2019.
[26] X. Li, Q. Li, D. Yin, L. Zhang, and D. Peng, "Unsupervised video summarization based on an encoder-decoder architecture," J. of Physics: 5th Int. Conf. on Advanced Algorithms and Control Engineering, ICAACE'22, vol. 2258, Article ID: 012067, Sanya, China, 20-22 Jan, 2022.
[27] S. E. F. de Avila, et al., "VSUMM: a mechanism designed to produce static video summaries and a novel evaluation method," Pattern Recognition Letters, vol. 32, no. 1, pp. 56-68, Jan. 2011.
[28] M. Furini, F. Geraci, M. Montangero, and M. Pellegrini, "STIMO: STIll and MOving video storyboard for the web scenario," Multimedia Tools and Applications, vol. 46, no. 1, pp. 529-540, Jan. 2009.
[29] P. Mundur, Y. Rao, and Y. Yesha, "Keyframe-based video summarization using delaunay clustering," International J. on Digital Libraries, vol. 6, no. 2, pp. 219-232, 2006.
[30] D. DeMenthon, V. Kobla, and D. Doermann, "Video summarization by curve simplification," in Proc. of the 6th ACM Int. Conf. on Multimedia, pp. 211-218, Bristol, UK, 13-16 Sept. 1998.
[31] B. Mahasseni, M. Lam, and S. Todorovic, "Unsupervised video summarization with adversarial LSTM networks," in Proc. IEEE Conf. on Computer Vision and Pattern Recognition, pp. 2982-2991, Honolulu, HI, USA, 21-26 Jul. 2017.
[32] K. Y. Zhou, Y. Qiao, and T. Xiang, "Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward," in Proc. AAAI Conf. on Artificial Intelligence, pp. 7582-7589, New Orleans, LA, USA, 2-7 Feb. 2018.
[33] H. W. Wei, et al., "Video summarization via semantic attended networks," in Proc. AAAI Conf. on Artificial Intelligence, pp. 216-223, New Orleans, LA, USA, 2-7 Feb. 2018.
[34] M. Rochan and Y. Wang, "Video summarization by learning from unpaired data," in Proc IEEE/CVF Conf. on Computer Vision and Pattern Recognition, pp. 7894-7903, Long Beach, CA, USA, 15-20 Jun. 2019.
[35] Y. Jung, D. Cho, D. Kim, and I. S. Kweon, "Discriminative feature learning for unsupervised video summarization," in Proc AAAI Conf. on Artificial Intelligence, pp. 8537-8544, Honolulu, HI, USA, 27 Jun.-1 Feb. 2019.
مهسا رحیمی رسکتی در سال 1387 مدرك كارشناسي مهندسي نرمافزار خود را از دانشگاه پیام نور و در سال 1392 مدرك كارشناسي ارشد مهندسي نرمافزار خود را از دانشگاه آزاد اسلامی قزوین و در سال 1400 مدرک دکتری مهندسی نرمافزار خود را از دانشگاه آزاد اسلامی ساری دريافت نمود. وی از سال 1389 تا کنون در دانشكده مهندسي كامپيوتر دانشگاه پیام نور و فرهنگیان مشغول به تدریس ميباشد. زمينههاي علمي مورد علاقه ایشان عبارتند از: داده کاوی، مهندسی نرمافزار و خلاصهسازی.
همایون موتمنی کارشناسی مهندسی کامپیوتر-نرمافزار را در سال ۱۳۷۴ از دانشگاه شهید بهشتی،کارشناسی ارشد مهندسی کامپیوتر- هوش را در سال ۱۳۷۷ ودکترای مهندسی کامپیوتر- نرمافزار را در سال ۱۳۸۶ از دانشگاه علوم وتحقیقات تهران اخذ نموده است وی از سال ۱۳۷۷ بهعنوان عضو هیات علمی دانشگاه آزاد اسلامی بوده و
هماکنون استاد تمام دانشگاه آزاد اسلامی در رشته مهندسی کامپیوتر میباشد.
زمینههای تحقیقاتی مورد علاقه ایشان عبارتند از: مهندسی نرمافزار، ارزیابی کارایی، محاسبات تکاملی و سیستمهای فازی.
ابراهیم اکبری مدرک دکتری خود را در رشته علوم کامپیوتر از دانشگاه فناوری مالزی، در سال 1394 دریافت نمود. وی اکنون استادیار گروه مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد ساری است. تحقیقات او در زمینه تجزیه و تحلیل دادهها، الگوریتمها و کاربردهای داده کاوی، یادگیری ماشین و تشخیص الگو است.
حسین نعمتزاده فارغ التحصیل دکترای علوم کامپیوتر (نرم افزار) از دانشگاه یو تی ام مالزی است. وی از سال 1391 عضو هیات علمی و استادیار گروه کامپیوتردانشگاه آزاد اسلامی واحد ساری بوده است. ایشان همچنین از سال 1400 در دانشگاه مالاگا اسپانیا به عنوان محقق در زمینه علم داده در حال فعالیت می باشند. زمینه تحقیقاتی ایشان به طور کلی حوزه علم داده و به طور خاص انتخاب ویژگی و هوش مصنوعی قابل توضیح است.
[1] . Additive
[2] . Multiplicative