هر اقدام یا کنش یک انسان با استفاده از حرکت دادن مفصل‌هایش انجام می‌گیرد. بنابراین بین انجام یک کنش و نحوه حرکات مفصل‌ها رابطه وجود دارد. هدف از این پروژه تشخیص کنش‌های انسان با استفاده از مسیر حرکت سه‌بعدی مفصل‌ها است. به عبارت دیگر با داشتن اطلاعات مکان مفصل‌های یک فرد در یک بازه زمانی، کنشی که این فرد انجام داده است باید تشخیص داده شود.

۱. مقدمه

تشخیص کنش‌های انسان یکی از بخش‌های مهم در بینایی ماشین است و بسیاری از سامانه‌های مختلف (مانند سامانه خلاصه سازی ویدئو، تشخیص خودکار حرکات ورزشی، نظارت خودکار در مکان‌های عمومی، تعامل انسان با کامپیوتر بدون استفاده از صفحه کلید و موشواره و ... ) نیاز به تشخیص کنش انسان دارند. بعضی از سامانه‌ها کنش‌های جدیدی برای خود تعریف می‌کنند مثلا در بسیاری از برنامه‌های ارتباط با کامپیوتر یک حرکت خاص با دست، چشم یا سر باعث عملکرد خاصی در برنامه می‌شود. در مقابل این گروه سامانه‌های دیگری هستند که حرکات طبیعی انسان را شناسایی و تحلیل می‌کنند مثلا سامانه نظارت خودکار، نیاز به فهمیدن کنش‌های طبیعی انسان مانند دویدن، توقف، راه رفتن و .. دارد.
یک راه حل برای تشخیص کنش، استفاده از پردازش تصاویر دو بعدی در ویدئو است [9][7][6][4]. اما با پیشرفت فناوری بسیاری از ابزارهای اندازه‌گیری عمق در دسترس قرار گرفتند (مانند kinect) و همچنین استفاده از چند دوربین نیز ممکن شد. روش دیگر استفاده از این اطلاعات سه بعدی برای تشخیص کنش است [17][10][8][5][1]. برای محاسبه اطلاعات سه بعدی می‌توان اطلاعات عمق را به صورت مستقیم اندازه‌گیری کرد [5] یا با استفاده از چند دوربین این اطلاعات را به دست آورد.
قسمت اول تشخیص کنش‌های انسان پیدا کردن قسمت‌های مختلف بدن انسان و ردیابی آنها در اطلاعات و ویدئو‌های ورودی است که در این پروژه فرض شده این قسمت انجام شده است. این کار یا با استفاده از چند دوربین و محاسبه ارتباط بین آنها یا با استفاده از حسگرهای اندازه گیری مکان یا با هر روش دیگری ممکن است انجام شده باشد. حتی اگر این اطلاعات به صورت کاملا دقیق محاسبه شوند هنوز تشخیص کنش‌های انسان پیچیده و دشواره خواهد بود. یکی از دلایل آن ابعاد زیاد اطلاعات بدست آمده است که باعث افزایش محاسبات و خطا در تشخیص کنش می‌شود.
ورودی این پروژه اطلاعات محاسبه شده سه‌بعدی مکان مفصل‌های یک انسان در یک بازه زمانی هستند و با استفاده از این اطلاعات، کنش مرتبط تشخیص داده خواهد شد. کنش‌های مورد نظر، کنش‌های طبیعی انسان مانند راه رفتن، نشستن، دویدن و ... هستند.

۲. کارهای مرتبط

اگر کلاسه‌بندی مثل SVM و Bayesian Networks فقط با مکان مفاصل بدن کنش‌ها را تشخیص دهد، نمی‌تواند به خوبی عمل کند. زیرا کنش‌های متفاوتی هستند که این الگو برای آنها یکسان است. Fengjun برای یادگیری کنش‌ها، یک مدل جدید ارائه می‌دهد و در ادامه برای پیدا کردن یک کنش جدید، آن را با مدل‌های قبلی مقایسه می‌کند. در مدل آنها برای اندازه‌گیری فاصله ابتدا برای هر مفصل فاصله تا مدل محاسبه می‌شود و سپس مجموع وزن‌دار فاصله‌های اندازه‌گیری شده به عنوان فاصله‌ی نهایی در نظر گرفته می‌شود. در نهایت مدل با کمترین فاصله به عنوان نتیجه نهایی اعلام می‌شود [1].

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

[1] Lv, Fengjun, Ramakant Nevatia, and Mun Wai Lee. "3D human action recognition sing spatio-temporal motion templates." In Computer Vision in Human-Computer Interaction, pp. 120-130., 2005
[2] Bulling, Andreas, Ulf Blanke, and Bernt Schiele. "A tutorial on human activity recognition using body-worn inertial sensors." In ACM Computing Surveys (CSUR) 46, 2014
[3] Golparvar-Fard, Mani, Arsalan Heydarian, and Juan Carlos Niebles. "Vision-based action recognition of earthmoving equipment using spatio-temporal features and support vector machine classifiers." In Advanced Engineering Informatics 27,
pp. 652-663, 2013
[4] Zhu, Yuke, Tian Lan, Yijian Yang, Steven N. Robinovitch, and Greg Mori. "Latent Spatio-temporal Models for Action Localization and Recognition in Nursing Home Surveillance Video." In IAPR Conference on Machine Vision Applications (MVA). 2013.
[5] Xia, Lu, and J. K. Aggarwal. "Spatio-temporal depth cuboid similarity feature for activity recognition using depth camera." In Computer Vision and Pattern Recognition (CVPR), IEEE Conference on, pp. 2834-2841, 2013.
[6] Brendel, William, and Sinisa Todorovic. "Learning spatiotemporal graphs of human activities." In Computer Vision (ICCV), IEEE International Conference on, pp. 778-785, 2011
[7] A. Oikonomopoulos, I. Patras and M. Pantic. “Spatiotemporal saliency for human action recognition.” In Proc. Of IEEE Int’l Conf. on Multimedia and Expo (ICME’05), 2005.
[8] V. Parameswaran and R. Chellappa. “View invariants for human action recognition.” In Proc. of CVPR, pp. 613-619, 2003.
[9] A. Shokoufandeh, S.J. Dickinson, C. Jonsson, L. Bretzner and T. “Lindeberg. On the representation and matching of qualitative shape at multiple scales.” In Proc. of ECCV, pp. 759-775, 2002.
[10] L. Campbell and A. Bobick. “Recognition of human body motion using phase space constraints.” In Proc. of ICCV, pp. 624-630, 1995.
[11] C. Rao, A. Yilmaz and M. Shah. “View-Invariant Representation and Recognition of Actions.” In Int’l Journal of Computer Vision 50(2), Nov. 2002, pp. 203-226.
[12] D Weinland, R Ronfard, and E Boyer, "Free viewpoint action recognition using motion history volumes," In Computer Vision and Image Understanding, pp. 249-257, 2006.
[13] J. K. Aggarwal and M. S. Ryoo, "Human activity analysis: A review," In ACM Computing Surveys, 2011.
[14] J. Davis and A. Bobick. “The Representation and Recognition of Action Using Temporal Templates.” In Proc. Of CVPR, pp. 928-934, 1997.
[15] Aaron F. Bobick and James W. Davis, "The recognition of human movement using temporal templates," In Pattern Analysis and Machine Intelligence, IEEE Transactions on, , pp. 257-267, 2001.
[16] Weinland, Daniel, Remi Ronfard, and Edmond Boyer. "A survey of vision-based methods for action representation, segmentation and recognition." In Computer Vision and Image Understanding 115, pp. 224-241, 2011.
[17] Jamalifar, Hamed, Vahid Ghadakchi, and Shohreh Kasaei. "3D human action recognition using Gaussian processes dynamical models." In Telecommunications (IST), Sixth International Symposium on, pp. 1179-1183, 2012.
[18] Somasundaram, Guruprasad, Anoop Cherian, Vassilios Morellas, and Nikolaos Papanikolopoulos. "Action recognition using global spatio-temporal features derived from sparse representations." Computer Vision and Image Understanding, pp.1-13, 2014

۶. پیوندهای مفید

محسن ایمانی

شما تعریف مناسبی را برای مسئله بیان کرده‌اید و دید مختصری هم به مخاطب در مورد روش‌های کلی حل مسئله ارائه نمودید.
اما خلا اصلی کار شما در این فاز این بود که به اندازه کافی مسیر پیش رو را که در فازهای بعد در آن خواهید نمود را روشن نکرده‌اید.. بهتر بود در این فاز در مورد این گام‌ها از قبیل استخراج خصیصه‌ها و بخش‌بندی تصویر هم شرح مختصری می‌آوردید.
در بخشی که به معرفی کاربردها پرداخته‌اید هیچ ارجاعی دیده نمی‌شود. بهتر بود حداقل برخی از این کاربردها همراه با مرجع و یا لینکی از آن بود که مخاطب را بیشتر با موضوع پروژه آشنا و علاقمند سازد.
به جای لغت «کلاسه‌بندی» از «رده‌بندی» استفاده کنید.
سعی کنید در حد ممکن از زبان فارسی استفاده کنید. اسم‌های خارجی نظیر کینکت و یا فنگجان رو هم بهتر است با رسم‌الخط فارسی بنویسید و در صورت نیاز در پاورقی انگلیسی آن را بیاورید.