در این پروژه شما باید هر تصویر را با توجه به محتوای[^Content] آن دستهبندی[^Classification] نمایید. برای مثال آیا شیئی[^Object] از یک دسته[^Class] خاص (مثل صفحه کلید) در تصویر وجود دارد یا خیر. یا اینکه تصویر متعلق به صحنه[^Scene] فرودگاه است یا خیابان. به مثال اول دستهبندی شیء و به مثال دوم دستهبندی صحنه گفته میشود.
در حالت کلی این سامانهها بر پایهی چارچوب یادگیری ماشین کار میکنند. بدین معنی که با داشتن تعدادی نمونهی مثبت:
![positive](http://bayanbox.ir/id/4413769390211746038?view)
و تعدادی نمونه منفی:
![negative](http://bayanbox.ir/id/1300467730143874044?view)
برای یک تصویر جدید بتواند دستهبندی را انجام دهد:
![query](http://bayanbox.ir/id/4811798205273713626?view)
برای ارزیابی این سیستمها پایگاه دادههای مختلفی وجود دارد که دستهها و روش ارزیابی را تعیین کردهاند.
# مقدمه
هدف از طرح مسئلهی دستهبندی تصاویر، تشخیص محتوای یک تصویر و تعیین دستهای است که تصویر بدان تعلق دارد. برای آنکه بتوان محتوای یک تصویر را شناسایی کرد، لازم است اطلاعاتی از تصویر استخراج شده و مورد پردازش قرار گیرد. برای پردازش این اطلاعات روشهای مختلفی ارائه شده است که هرکدام ویژگیهای خاص خود را دارند. منظور از دسته بندی تصویر، تشخیص موضوع اصلی تصویر و مفهومی است که به بیننده میرساند. در نتیجه میتوان تصویر را در یکی از دستههایی که از پیش تعریف شده است قرار داد. دستهبندی نیز به دو روش کلی باناظر و بیناظر انجام میگیرد.
یکی از موارد استفاده از مسئلهی دستهبندی تصاویر در هنگام کار با منابع تصویر حجیم است. به عنوان نمونه زمانی که بخواهیم در میان تعداد بسیار زیادی تصویر موجود، یک تصویر معین، و یا همهی تصاویر مربوط به یک موضوع خاص را بیابیم، بهترین راه استفاده از این تکنیک است. همچنین مورد دیگری که میتوان مثال زد تشخیص و تعیین نواحی در عکسهای ماهوارهای میباشد. عکسهای ماهواره ای مساحت بسیار زیادی را پوشش میدهند و از حجم بالایی از اطلاعات در تصویر برخوردارند. لذا برای بررسی این عکسها و استخراج اطلاعات از آنها، عکس را به تعداد زیادی قطعات کوچکتری از تصویر تقسیم میکنند و از تکنیک دستهبندی تصاویر کمک میگیرند.
# کارهای مرتبط
یک پژوهش انجامگرفته در همین زمینه، استفاده از تکنیک SPM برای شناسایی مناظر طبیعی است.[3]
پژوهش دیگری که بیشتر روی تصاویر حاوی اشیاء کارایی دارد، روش Locality-constrained Linear Coding نام گرفته که با تاکید بر نیازمند بودن رویکرد Bag-of-features از روش SPM به دسته بندهای غیر خطی، سعی در ارائهی روشی دارد که در آن از دستهبندی خطی استفاده شود.[6]
# آزمایشها
# کارهای آینده
# مراجع
[1] Visual Object Recognition, Kristen Grauman and Bastian Leibe, Synthesis Lectures on Artificial Intelligence and Machine Learning, April 2011, Vol. 5, No. 2, Pages 1-181. [لینک](http://bayanbox.ir/id/3567863871569365905?info)
[2] Gabriella Csurka, et al, Visual Categorization with Bags of Keypoints, ECCV Wrokshops 2004" [لینک](http://www.cs.berkeley.edu/~efros/courses/AP06/Papers/csurka-eccv-04.pdf)
[3] Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories, Lazebnik, Schmid, and Ponce, CVPR 2006 [لینک](http://www-cvr.ai.uiuc.edu/ponce_grp/publication/paper/cvpr06b.pdf)
[4] Modeling the Shape of the Scene: a Holistic Representation of the Spatial Envelope, Oliva and Torralba, IJCV 2001. [لینک](http://people.csail.mit.edu/torralba/courses/6.870/papers/IJCV01-Oliva-Torralba.pdf)
[5] Perronnin, Florent, and Christopher Dance. "Fisher kernels on visual vocabularies for image categorization." Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on. IEEE, 2007. [لینک](http://image.ntua.gr/iva/files/PerronninDance_CVPR2007%20-%20Fisher%20Kernels%20on%20Visual%20Vocabularies%20for%20Image%20categorization.pdf)
[6] Locality-Constrained Linear Coding for Image Classification. J. Wang, J. Yang, K. Yu, and T. Huang CVPR 2010 [لینک](http://www.ifp.illinois.edu/~jyang29/papers/CVPR10-LLC.pdf)
[7] Chatfield, Ken, et al. "The devil is in the details: an evaluation of recent feature encoding methods." (2011). [لینک](http://lucca.robots.ox.ac.uk/~vgg/publications/2011/Chatfield11/chatfield11.pdf)
[8] A. Quattoni, and A.Torralba. Recognizing Indoor Scenes. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009. [لینک](http://people.csail.mit.edu/torralba/publications/indoor.pdf)
[9] A. Berg, T. Berg, and J. Malik. Shape matching and object
recognition using low distortion correspondences. Proc. of
CVPR’05, pages 26–33.
[10] O. Boiman, E. Shechtman, and M. Irani. In defense
of nearest-neighbor based image classification. Proc. of
CVPR’08, 2008.
[11] G. Csurka, C. Dance, L. Fan, J. Willamowski, and C. Bray.
Visual categorization with bags of keypoints. Workshop on
Statistical Learning in Computer Vision, ECCV, pages 1–22,2004.
[12] P. Jain, B. Kullis, and K. Grauman. Fast image search for
learned metrics. Proc. of CVPR’08, 2008.
این زمینه، استفاده از تکنیک SPM[^Spatial Pyramid Matching] برای شناسایی مناظر طبیعی است.[3]
در این روش تصویر به تعداد زیادی قسمتهای کوچکتر تقسیم میشود. سپس برای هر قسمت نمودار ویژگیهای محلی آن قسمت محاسبه میگردد. با داشتن نمودار ویژگیهای تمامی قسمتهای تصویر میتوان محتوای تصویر اولیه را با دقت نسبتا بالایی تشخیص داد. این امر با تکنیکی تحت عنوان bag-of-features انجام میپذیرد.
اساس کار تکنیک bag-of-features بر مبنای تقسیمات نامنظم تصویر مورد بررسی، قرار گرفته است.[11] البته این تکنیک شاخههای دیگری همچون تشخیص الگو و یا تشخیص کلمات نیز دارد. تصاویر زیر[12] مربوط به شاخهی تشخیص الگو میباشد که سعی شده با استفاده از آن کلیات عملکرد این تکنیک توضیح داده شود.
![استخراج ویژگیهای هر الگو](http://upload7.ir/imgs/2014-12/52690727197622393380.png)
در تصویر فوق سه الگو وجود دارد. برای هر الگو سه ویژگی در نظر گرفته شده است، شامل سه قطعهی کوچک از تصویر. در واقع این سه قطعه bag-of-features الگوی مورد نظر را تشکیل میدهند.
تصویر زیر مربوط به تشخیص هر الگو از روی bag-of-features است. همانطور که پیشتر گفته شد، نمودار همهی قطعات برای هر نمونه ترسیم میشود و سپس از روی نمودار میتوان تشخیص داد هر نمونه مربوط به کدام الگو بوده است.
![محاسبه نمودار قطعات bag-of-features برای نمونهها](http://upload7.ir/imgs/2014-12/04257456580094244629.png)
پژوهش دیگری که بیشتر روی تصاویر حاوی اشیاء کارایی دارد، روش LLC[^Locality-constrained Linear Coding] نام گرفته که با تاکید بر نیازمند بودن رویکرد bag-of-features از روش SPM به دسته بندهای غیر خطی، سعی در ارائهی روشی دارد که در آن از دستهبندی خطی استفاده شود.[6]
در روش LLC ویژگیهای استخراجشده از تصویر در چند مرحله مورد نگاشت قرار میگیرند تا در نهایت در قالب برداری از ویژگیها درآیند. تصویر زیر شمایی از تبدیل چندمرحلهای ویژگیهای تصویر به بردار ویژگیهاست.
![توضیح تصویر](http://upload7.ir/imgs/2014-12/85085731412202984797.png)
برای محاسبه تقریبی از روش LLC میتوان از روش جستجوی k همسایهی نزدیک استفاده نمود و با مرتبهی پیچیدگی (O(M+K^2 به جواب رسید.
# آزمایشها
# کارهای آینده
# مراجع
[1] Visual Object Recognition, Kristen Grauman and Bastian Leibe, Synthesis Lectures on Artificial Intelligence and Machine Learning, April 2011, Vol. 5, No. 2, Pages 1-181. [پیوند](http://bayanbox.ir/id/3567863871569365905?info)
[2] Gabriella Csurka, et al, Visual Categorization with Bags of Keypoints, ECCV Wrokshops 2004" [پیوند](http://www.cs.berkeley.edu/~efros/courses/AP06/Papers/csurka-eccv-04.pdf)
[3] Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories, Lazebnik, Schmid, and Ponce, CVPR 2006 [پیوند](http://www-cvr.ai.uiuc.edu/ponce_grp/publication/paper/cvpr06b.pdf)
[4] Modeling the Shape of the Scene: a Holistic Representation of the Spatial Envelope, Oliva and Torralba, IJCV 2001. [پیوند](http://people.csail.mit.edu/torralba/courses/6.870/papers/IJCV01-Oliva-Torralba.pdf)
[5] Perronnin, Florent, and Christopher Dance. "Fisher kernels on visual vocabularies for image categorization." Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on. IEEE, 2007. [پیوند](http://image.ntua.gr/iva/files/PerronninDance_CVPR2007%20-%20Fisher%20Kernels%20on%20Visual%20Vocabularies%20for%20Image%20categorization.pdf)
[6] Locality-Constrained Linear Coding for Image Classification. J. Wang, J. Yang, K. Yu, and T. Huang CVPR 2010 [پیوند](http://www.ifp.illinois.edu/~jyang29/papers/CVPR10-LLC.pdf)
[7] Chatfield, Ken, et al. "The devil is in the details: an evaluation of recent feature encoding methods." (2011). [پیوند](http://lucca.robots.ox.ac.uk/~vgg/publications/2011/Chatfield11/chatfield11.pdf)
[8] A. Quattoni, and A.Torralba. Recognizing Indoor Scenes. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009. [پیوند](http://people.csail.mit.edu/torralba/publications/indoor.pdf)
[9] Shape Matching and Object Recognition using Low Distortion Correspondences, A. Berg, T. Berg and J. Malik, Proc. of CVPR 2005, pages 26–33. [پیوند](http://acberg.com/papers/berg_correspondence_cvpr.pdf)
[10] In Defense of Nearest-neighbor Based Image Classification, O. Boiman, E. Shechtman and M. Irani, Proc. of CVPR 2008. [پیوند](http://grail.cs.washington.edu/pub/papers/boiman2008ido.pdf)
[11] Introduction to the Bag-of-features Paradigm for Image Classification and Retrieval, Stephen O'Hara and Bruce A. Draper, arXiv 2011. [پیوند](http://arxiv.org/pdf/1101.3354)
[12] Bag-of-features for Category Classification, Cordelia Schmid, CVML 2011. [پیوند](http://www.di.ens.fr/willow/events/cvml2011/materials/CVML2011_Cordelia_bof.pdf)
[13] Linear Spatial Pyramid Matching using Sparse Coding for Image Classification, J. Yang, K. Yu, Y. Gong and T. Huang, Proc. of CVPR 2009. [پیوند](http://www.ifp.illinois.edu/~jyang29/papers/CVPR09-ScSPM.pdf)
# پیوندهای مفید
+ [PASCAL VOC CHALLENGE](http://pascallin.ecs.soton.ac.uk/challenges/VOC/)
+ [Indoor Scene Dataset](http://web.mit.edu/torralba/www/indoor.html)
+ [Caltech 256](http://www.vision.caltech.edu/Image_Datasets/Caltech256/)