امروزه بازشناسی کنش انسان از روی تصویر ایستا به یکی از موضوعات فعال در زمینه بینایی ماشین و شناسایی الگو تبدیل شده است. تمرکز این کار بر روی شناسایی کنش یا رفتار انسان از روی یک تصویر است. برخلاف روشهای سنتی که از ویدئوها یا دنبالهای از تصاویر برای بازشناسی کنش انسان چکیده کامل
امروزه بازشناسی کنش انسان از روی تصویر ایستا به یکی از موضوعات فعال در زمینه بینایی ماشین و شناسایی الگو تبدیل شده است. تمرکز این کار بر روی شناسایی کنش یا رفتار انسان از روی یک تصویر است. برخلاف روشهای سنتی که از ویدئوها یا دنبالهای از تصاویر برای بازشناسی کنش انسان استفاده میکنند، یک تصویر ایستا فاقد اطلاعات زمانی است. بنابراین بازشناسی کنش مبتنی بر تصویر ایستا دارای چالش بیشتری نسبت به بازشناسی کنش مبتنی بر ویدئو است. با توجه به اهمیت اطلاعات حرکتی در بازشناسی کنش از روش flow2Im برای تخمین اطلاعات حرکتی از روی تصویر ایستا استفاده شده است. ساختار پیشنهادی در این مقاله، حاصل ترکیب سه شبکه عصبی عمیق است که تحت عنوان شبکه سهشاخه یاد شده است. شبکه اول بر روی تصویر خام رنگی و شبکه دوم بر روی شار نوری پیشبینی شده از روی تصویر و شبکه سوم بر روی ژست به دست آمده از انسان موجود در تصویر آموزش میبیند. در نهایت تلفیق این سه شبکه عصبی عمیق سبب افزایش دقت بازشناسی کنش انسان شده است. به عبارت دیگر در این مقاله علاوه بر اطلاعات مکانی و زمانی پیشبینی شده از اطلاعات ژست انسان نیز برای بازشناسی کنش استفاده شده است زیرا ویژگی ژست برای بازشناسی کنش بسیار حائز اهمیت است. روش پیشنهادی در این مقاله توانسته است به دقت 80/91 درصد بر روی مجموعه داده action 7Willow، به دقت 02/91 درصد بر روی مجموعه داده 2012Pascal voc و به دقت 87/96 درصد بر روی مجموعه داده 10Stanford دست یابد. با توجه به مقایسه نتایج با روشهای قبلی متوجه خواهیم شد که روش پیشنهادی بالاترین دقت را بر روی هر سه مجموعه داده نسبت به کارهای اخیر به دست آورده است.
پرونده مقاله
کارایی سیستمهای بازشناسی کنشهای انسانی به استخراج بازنمایی مناسب از دادههای ویدئویی وابسته است. در سالهای اخیر روشهای یادگیری عمیق به منظور استخراج بازنمایی فضایی- زمانی کارا از دادههای ویدئویی ارائه شده است، در حالی که روشهای یادگیری عمیق در توسعه بعد زمان، پیچ چکیده کامل
کارایی سیستمهای بازشناسی کنشهای انسانی به استخراج بازنمایی مناسب از دادههای ویدئویی وابسته است. در سالهای اخیر روشهای یادگیری عمیق به منظور استخراج بازنمایی فضایی- زمانی کارا از دادههای ویدئویی ارائه شده است، در حالی که روشهای یادگیری عمیق در توسعه بعد زمان، پیچیدگی محاسباتی بالایی دارند. همچنین پراکندگی و محدودبودن دادههای تمایزی و عوامل نویزی زیاد، مشکلات محاسباتی بازنمایی کنشها را شدیدتر ساخته و قدرت تمایز را محدود مینماید. در این مقاله، شبکههای یادگیری عمیق فضایی و زمانی با افزودن سازوکارهای انتخاب ویژگی مناسب جهت مقابله با عوامل نویزی و کوچکسازی فضای جستجو، ارتقا یافتهاند. در این راستا، سازوکارهای انتخاب ویژگی غیر برخط و برخط، برای بازشناسی کنشهای انسانی با پیچیدگی محاسباتی کمتر و قدرت تمایز بالاتر مورد بررسی قرار گرفته است. نتایج نشان داد که سازوکار انتخاب ویژگی غیر برخط، منجر به کاهش پیچیدگی محاسباتی قابل ملاحظه میگردد و سازوکار انتخاب ویژگی برخط، ضمن کنترل پیچیدگی محاسباتی، منجر به افزایش قدرت تمایز میشود.
پرونده مقاله
رایمگ
سامانه رایمگ تمامی فرآیندهای دریافت، ارزیابی و داوری، ویراستاری، صفحهآرایی و انتشار الکترونیکی نشریات علمی را به انجام میرساند