تغییرات دسته‌بندی تصاویر

در این پروژه شما باید هر تصویر را با توجه به محتوای[^Content] آن دسته‌بندی[^Classification] نمایید. برای مثال آیا شیئی[^Object] از یک دسته[^Class] خاص (مثل صفحه کلید) در تصویر وجود دارد یا خیر. یا اینکه تصویر متعلق به صحنه[^Scene] فرودگاه است یا خیابان. به مثال اول دسته‌بندی شیء و به مثال دوم دسته‌بندی صحنه گفته می‌شود. در حالت کلی این سامانه‌ها بر پایه‌ی چارچوب یادگیری ماشین کار می‌کنند. بدین معنی که با داشتن تعدادی نمونه‌ی مثبت: ![positive](http://bayanbox.ir/id/4413769390211746038?view) و تعدادی نمونه منفی: ![negative](http://bayanbox.ir/id/1300467730143874044?view) برای یک تصویر جدید بتواند دسته‌بندی را انجام دهد: ![query](http://bayanbox.ir/id/4811798205273713626?view) برای ارزیابی این سیستم‌ها پایگاه داده‌های مختلفی وجود دارد که دسته‌ها و روش ارزیابی را تعیین کرده‌اند. # مقدمه هدف از طرح مسئله‌ی دسته‌بندی تصاویر، تشخیص محتوای یک تصویر و تعیین دسته‌ای است که تصویر بدان تعلق دارد. برای آنکه بتوان محتوای یک تصویر را شناسایی کرد، لازم است اطلاعاتی از تصویر استخراج شده و مورد پردازش قرار گیرد. برای پردازش این اطلاعات روش‌های مختلفی ارائه شده است که هرکدام ویژگی‌های خاص خود را دارند. منظور از دسته بندی تصویر، تشخیص موضوع اصلی تصویر و مفهومی است که به بیننده می‌رساند. در نتیجه می‌توان تصویر را در یکی از دسته‌هایی که از پیش تعریف شده است قرار داد. ~~دسته‌بندی نیز به دو روش کلی باناظر و بی‌ناظر انجام می‌گیرد.~~ یکی از موارد استفاده از مسئله‌ی دسته‌بندی تصاویر در هنگام کار با منابع تصویر حجیم است. به عنوان نمونه زمانی که بخواهیم در میان تعداد بسیار زیادی تصویر موجود، یک تصویر معین، و یا همه‌ی تصاویر مربوط به یک موضوع خاص را بیابیم، بهترین راه استفاده از این تکنیک است. همچنین مورد دیگری که می‌توان مثال زد تشخیص و تعیین نواحی در عکس‌های ماهواره‌ای می‌باشد. عکس‌های ماهواره ای مساحت بسیار زیادی را پوشش می‌دهند و از حجم بالایی از اطلاعات در تصویر برخوردارند. لذا برای بررسی این عکس‌ها و استخراج اطلاعات از آن‌ها، عکس را به تعداد زیادی قطعات کوچکتری از تصویر تقسیم می‌کنند و از تکنیک دسته‌بندی تصاویر کمک می‌گیرند. # کارهای مرتبط یک پژوهش انجام‌گرفته در همین زمینه، استفاده از تکنیک SPM برای شناسایی مناظر طبیعی است.[3] پژوهش دیگری که بیشتر روی تصاویر حاوی اشیاء کارایی دارد، روش Locality-constrained Linear Coding نام گرفته که با تاکید بر نیازمند بودن رویکرد Bag-of-features از روش SPM به دسته بندهای غیر خطی، سعی در ارائه‌ی روشی دارد که در آن از دسته‌بندی خطی استفاده شود.[6] # آزمایش‌ها # کارهای آینده # مراجع [1] Visual Object Recognition, Kristen Grauman and Bastian Leibe, Synthesis Lectures on Artificial Intelligence and Machine Learning, April 2011, Vol. 5, No. 2, Pages 1-181. [لینک](http://bayanbox.ir/id/3567863871569365905?info) [2] Gabriella Csurka, et al, Visual Categorization with Bags of Keypoints, ECCV Wrokshops 2004" [لینک](http://www.cs.berkeley.edu/~efros/courses/AP06/Papers/csurka-eccv-04.pdf) [3] Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories, Lazebnik, Schmid, and Ponce, CVPR 2006 [لینک](http://www-cvr.ai.uiuc.edu/ponce_grp/publication/paper/cvpr06b.pdf) [4] Modeling the Shape of the Scene: a Holistic Representation of the Spatial Envelope, Oliva and Torralba, IJCV 2001. [لینک](http://people.csail.mit.edu/torralba/courses/6.870/papers/IJCV01-Oliva-Torralba.pdf) [5] Perronnin, Florent, and Christopher Dance. "Fisher kernels on visual vocabularies for image categorization." Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on. IEEE, 2007. [لینک](http://image.ntua.gr/iva/files/PerronninDance_CVPR2007%20-%20Fisher%20Kernels%20on%20Visual%20Vocabularies%20for%20Image%20categorization.pdf) [6] Locality-Constrained Linear Coding for Image Classification. J. Wang, J. Yang, K. Yu, and T. Huang CVPR 2010 [لینک](http://www.ifp.illinois.edu/~jyang29/papers/CVPR10-LLC.pdf) [7] Chatfield, Ken, et al. "The devil is in the details: an evaluation of recent feature encoding methods." (2011). [لینک](http://lucca.robots.ox.ac.uk/~vgg/publications/2011/Chatfield11/chatfield11.pdf) [8] A. Quattoni, and A.Torralba. Recognizing Indoor Scenes. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009. [لینک](http://people.csail.mit.edu/torralba/publications/indoor.pdf) [9] A. Berg, T. Berg, and J. Malik. Shape matching and object recognition using low distortion correspondences. Proc. of CVPR’05, pages 26–33. [10] O. Boiman, E. Shechtman, and M. Irani. In defense of nearest-neighbor based image classiﬁcation. Proc. of CVPR’08, 2008. [11] G. Csurka, C. Dance, L. Fan, J. Willamowski, and C. Bray. Visual categorization with bags of keypoints. Workshop on Statistical Learning in Computer Vision, ECCV, pages 1–22,2004. [12] P. Jain, B. Kullis, and K. Grauman. Fast image search for learned metrics. Proc. of CVPR’08, 2008. این زمینه، استفاده از تکنیک SPM[^Spatial Pyramid Matching] برای شناسایی مناظر طبیعی است.[3] در این روش تصویر به تعداد زیادی قسمت‌های کوچک‌تر تقسیم می‌شود. سپس برای هر قسمت نمودار ویژگی‌های محلی آن قسمت محاسبه می‌گردد. با داشتن نمودار ویژگی‌های تمامی قسمت‌های تصویر می‌توان محتوای تصویر اولیه را با دقت نسبتا بالایی تشخیص داد. این امر با تکنیکی تحت عنوان bag-of-features انجام می‌پذیرد. اساس کار تکنیک bag-of-features بر مبنای تقسیمات نامنظم تصویر مورد بررسی، قرار گرفته است.[11] البته این تکنیک شاخه‌های دیگری همچون تشخیص الگو و یا تشخیص کلمات نیز دارد. تصاویر زیر[12] مربوط به شاخه‌ی تشخیص الگو می‌باشد که سعی شده با استفاده از آن کلیات عملکرد این تکنیک توضیح داده شود. ![استخراج ویژگی‌های هر الگو](http://upload7.ir/imgs/2014-12/52690727197622393380.png) در تصویر فوق سه الگو وجود دارد. برای هر الگو سه ویژگی در نظر گرفته شده است، شامل سه قطعه‌ی کوچک از تصویر. در واقع این سه قطعه bag-of-features الگوی مورد نظر را تشکیل می‌دهند. تصویر زیر مربوط به تشخیص هر الگو از روی bag-of-features است. همانطور که پیش‌تر گفته شد، نمودار همه‌ی قطعات برای هر نمونه ترسیم می‌شود و سپس از روی نمودار می‌توان تشخیص داد هر نمونه مربوط به کدام الگو بوده است. ![محاسبه نمودار قطعات bag-of-features برای نمونه‌ها](http://upload7.ir/imgs/2014-12/04257456580094244629.png) پژوهش دیگری که بیشتر روی تصاویر حاوی اشیاء کارایی دارد، روش LLC[^Locality-constrained Linear Coding] نام گرفته که با تاکید بر نیازمند بودن رویکرد bag-of-features از روش SPM به دسته بندهای غیر خطی، سعی در ارائه‌ی روشی دارد که در آن از دسته‌بندی خطی استفاده شود.[6] در روش LLC ویژگی‌های استخراج‌شده از تصویر در چند مرحله مورد نگاشت قرار می‌گیرند تا در نهایت در قالب برداری از ویژگی‌ها درآیند. تصویر زیر شمایی از تبدیل چندمرحله‌ای ویژگی‌های تصویر به بردار ویژگی‌هاست. ![توضیح تصویر](http://upload7.ir/imgs/2014-12/85085731412202984797.png) برای محاسبه تقریبی از روش LLC می‌توان از روش جستجوی k همسایه‌ی نزدیک استفاده نمود و با مرتبه‌ی پیچیدگی (O(M+K^2 به جواب رسید. # آزمایش‌ها # کارهای آینده # مراجع [1] Visual Object Recognition, Kristen Grauman and Bastian Leibe, Synthesis Lectures on Artificial Intelligence and Machine Learning, April 2011, Vol. 5, No. 2, Pages 1-181. [پیوند](http://bayanbox.ir/id/3567863871569365905?info) [2] Gabriella Csurka, et al, Visual Categorization with Bags of Keypoints, ECCV Wrokshops 2004" [پیوند](http://www.cs.berkeley.edu/~efros/courses/AP06/Papers/csurka-eccv-04.pdf) [3] Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories, Lazebnik, Schmid, and Ponce, CVPR 2006 [پیوند](http://www-cvr.ai.uiuc.edu/ponce_grp/publication/paper/cvpr06b.pdf) [4] Modeling the Shape of the Scene: a Holistic Representation of the Spatial Envelope, Oliva and Torralba, IJCV 2001. [پیوند](http://people.csail.mit.edu/torralba/courses/6.870/papers/IJCV01-Oliva-Torralba.pdf) [5] Perronnin, Florent, and Christopher Dance. "Fisher kernels on visual vocabularies for image categorization." Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on. IEEE, 2007. [پیوند](http://image.ntua.gr/iva/files/PerronninDance_CVPR2007%20-%20Fisher%20Kernels%20on%20Visual%20Vocabularies%20for%20Image%20categorization.pdf) [6] Locality-Constrained Linear Coding for Image Classification. J. Wang, J. Yang, K. Yu, and T. Huang CVPR 2010 [پیوند](http://www.ifp.illinois.edu/~jyang29/papers/CVPR10-LLC.pdf) [7] Chatfield, Ken, et al. "The devil is in the details: an evaluation of recent feature encoding methods." (2011). [پیوند](http://lucca.robots.ox.ac.uk/~vgg/publications/2011/Chatfield11/chatfield11.pdf) [8] A. Quattoni, and A.Torralba. Recognizing Indoor Scenes. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009. [پیوند](http://people.csail.mit.edu/torralba/publications/indoor.pdf) [9] Shape Matching and Object Recognition using Low Distortion Correspondences, A. Berg, T. Berg and J. Malik, Proc. of CVPR 2005, pages 26–33. [پیوند](http://acberg.com/papers/berg_correspondence_cvpr.pdf) [10] In Defense of Nearest-neighbor Based Image Classiﬁcation, O. Boiman, E. Shechtman and M. Irani, Proc. of CVPR 2008. [پیوند](http://grail.cs.washington.edu/pub/papers/boiman2008ido.pdf) [11] Introduction to the Bag-of-features Paradigm for Image Classification and Retrieval, Stephen O'Hara and Bruce A. Draper, arXiv 2011. [پیوند](http://arxiv.org/pdf/1101.3354) [12] Bag-of-features for Category Classification, Cordelia Schmid, CVML 2011. [پیوند](http://www.di.ens.fr/willow/events/cvml2011/materials/CVML2011_Cordelia_bof.pdf) [13] Linear Spatial Pyramid Matching using Sparse Coding for Image Classiﬁcation, J. Yang, K. Yu, Y. Gong and T. Huang, Proc. of CVPR 2009. [پیوند](http://www.ifp.illinois.edu/~jyang29/papers/CVPR09-ScSPM.pdf) # پیوندهای مفید + [PASCAL VOC CHALLENGE](http://pascallin.ecs.soton.ac.uk/challenges/VOC/) + [Indoor Scene Dataset](http://web.mit.edu/torralba/www/indoor.html) + [Caltech 256](http://www.vision.caltech.edu/Image_Datasets/Caltech256/)