هر اقدام یا کنش یک انسان با استفاده از حرکت دادن مفصلهایش انجام میگیرد. بنابراین بین انجام یک کنش و نحوه حرکات مفصلها رابطه وجود دارد. هدف از این پروژه تشخیص کنشهای انسان با استفاده از مسیر حرکت سهبعدی مفصلها است. به عبارت دیگر با داشتن اطلاعات مکان مفصلهای یک فرد در یک بازه زمانی، کنشی که این فرد انجام داده است باید تشخیص داده شود.
۱. مقدمه
تشخیص کنشهای انسان یکی از بخشهای مهم در بینایی ماشین است و بسیاری از سامانههای مختلف (مانند سامانه خلاصه سازی ویدئو، تشخیص خودکار حرکات ورزشی، نظارت خودکار در مکانهای عمومی، تعامل انسان با کامپیوتر بدون استفاده از صفحه کلید و موشواره و ... ) نیاز به تشخیص کنش انسان دارند. بعضی از سامانهها کنشهای جدیدی برای خود تعریف میکنند مثلا در بسیاری از برنامههای ارتباط با کامپیوتر یک حرکت خاص با دست، چشم یا سر باعث عملکرد خاصی در برنامه میشود. در مقابل این گروه سامانههای دیگری هستند که حرکات طبیعی انسان را شناسایی و تحلیل میکنند مثلا سامانه نظارت خودکار، نیاز به فهمیدن کنشهای طبیعی انسان مانند دویدن، توقف، راه رفتن و .. دارد.
یک راه حل برای تشخیص کنش، استفاده از پردازش تصاویر دو بعدی در ویدئو است [9][7][6][4]. اما با پیشرفت فناوری بسیاری از ابزارهای اندازهگیری عمق در دسترس قرار گرفتند (مانند kinect) و همچنین استفاده از چند دوربین نیز ممکن شد. روش دیگر استفاده از این اطلاعات سه بعدی برای تشخیص کنش است [17][10][8][5][1]. برای محاسبه اطلاعات سه بعدی میتوان اطلاعات عمق را به صورت مستقیم اندازهگیری کرد [5] یا با استفاده از چند دوربین این اطلاعات را به دست آورد.
قسمت اول تشخیص کنشهای انسان پیدا کردن قسمتهای مختلف بدن انسان و ردیابی آنها در اطلاعات و ویدئوهای ورودی است که در این پروژه فرض شده این قسمت انجام شده است. این کار یا با استفاده از چند دوربین و محاسبه ارتباط بین آنها یا با استفاده از حسگرهای اندازه گیری مکان یا با هر روش دیگری ممکن است انجام شده باشد. حتی اگر این اطلاعات به صورت کاملا دقیق محاسبه شوند هنوز تشخیص کنشهای انسان پیچیده و دشواره خواهد بود. یکی از دلایل آن ابعاد زیاد اطلاعات بدست آمده است که باعث افزایش محاسبات و خطا در تشخیص کنش میشود.
ورودی این پروژه اطلاعات محاسبه شده سهبعدی مکان مفصلهای یک انسان در یک بازه زمانی هستند و با استفاده از این اطلاعات، کنش مرتبط تشخیص داده خواهد شد. کنشهای مورد نظر، کنشهای طبیعی انسان مانند راه رفتن، نشستن، دویدن و ... هستند.
۲. کارهای مرتبط
اگر کلاسهبندی مثل SVM و Bayesian Networks فقط با مکان مفاصل بدن کنشها را تشخیص دهد، نمیتواند به خوبی عمل کند. زیرا کنشهای متفاوتی هستند که این الگو برای آنها یکسان است. Fengjun برای یادگیری کنشها، یک مدل جدید ارائه میدهد و در ادامه برای پیدا کردن یک کنش جدید، آن را با مدلهای قبلی مقایسه میکند. در مدل آنها برای اندازهگیری فاصله ابتدا برای هر مفصل فاصله تا مدل محاسبه میشود و سپس مجموع وزندار فاصلههای اندازهگیری شده به عنوان فاصلهی نهایی در نظر گرفته میشود. در نهایت مدل با کمترین فاصله به عنوان نتیجه نهایی اعلام میشود [1].
۳. آزمایشها
۴. کارهای آینده
۵. مراجع
[1] Lv, Fengjun, Ramakant Nevatia, and Mun Wai Lee. "3D human action recognition sing spatio-temporal motion templates." In Computer Vision in Human-Computer Interaction, pp. 120-130., 2005
[2] Bulling, Andreas, Ulf Blanke, and Bernt Schiele. "A tutorial on human activity recognition using body-worn inertial sensors." In ACM Computing Surveys (CSUR) 46, 2014
[3] Golparvar-Fard, Mani, Arsalan Heydarian, and Juan Carlos Niebles. "Vision-based action recognition of earthmoving equipment using spatio-temporal features and support vector machine classifiers." In Advanced Engineering Informatics 27,
pp. 652-663, 2013
[4] Zhu, Yuke, Tian Lan, Yijian Yang, Steven N. Robinovitch, and Greg Mori. "Latent Spatio-temporal Models for Action Localization and Recognition in Nursing Home Surveillance Video." In IAPR Conference on Machine Vision Applications (MVA). 2013.
[5] Xia, Lu, and J. K. Aggarwal. "Spatio-temporal depth cuboid similarity feature for activity recognition using depth camera." In Computer Vision and Pattern Recognition (CVPR), IEEE Conference on, pp. 2834-2841, 2013.
[6] Brendel, William, and Sinisa Todorovic. "Learning spatiotemporal graphs of human activities." In Computer Vision (ICCV), IEEE International Conference on, pp. 778-785, 2011
[7] A. Oikonomopoulos, I. Patras and M. Pantic. “Spatiotemporal saliency for human action recognition.” In Proc. Of IEEE Int’l Conf. on Multimedia and Expo (ICME’05), 2005.
[8] V. Parameswaran and R. Chellappa. “View invariants for human action recognition.” In Proc. of CVPR, pp. 613-619, 2003.
[9] A. Shokoufandeh, S.J. Dickinson, C. Jonsson, L. Bretzner and T. “Lindeberg. On the representation and matching of qualitative shape at multiple scales.” In Proc. of ECCV, pp. 759-775, 2002.
[10] L. Campbell and A. Bobick. “Recognition of human body motion using phase space constraints.” In Proc. of ICCV, pp. 624-630, 1995.
[11] C. Rao, A. Yilmaz and M. Shah. “View-Invariant Representation and Recognition of Actions.” In Int’l Journal of Computer Vision 50(2), Nov. 2002, pp. 203-226.
[12] D Weinland, R Ronfard, and E Boyer, "Free viewpoint action recognition using motion history volumes," In Computer Vision and Image Understanding, pp. 249-257, 2006.
[13] J. K. Aggarwal and M. S. Ryoo, "Human activity analysis: A review," In ACM Computing Surveys, 2011.
[14] J. Davis and A. Bobick. “The Representation and Recognition of Action Using Temporal Templates.” In Proc. Of CVPR, pp. 928-934, 1997.
[15] Aaron F. Bobick and James W. Davis, "The recognition of human movement using temporal templates," In Pattern Analysis and Machine Intelligence, IEEE Transactions on, , pp. 257-267, 2001.
[16] Weinland, Daniel, Remi Ronfard, and Edmond Boyer. "A survey of vision-based methods for action representation, segmentation and recognition." In Computer Vision and Image Understanding 115, pp. 224-241, 2011.
[17] Jamalifar, Hamed, Vahid Ghadakchi, and Shohreh Kasaei. "3D human action recognition using Gaussian processes dynamical models." In Telecommunications (IST), Sixth International Symposium on, pp. 1179-1183, 2012.
[18] Somasundaram, Guruprasad, Anoop Cherian, Vassilios Morellas, and Nikolaos Papanikolopoulos. "Action recognition using global spatio-temporal features derived from sparse representations." Computer Vision and Image Understanding, pp.1-13, 2014