در این پروژه شما باید هر تصویر را با توجه به محتوی1 آن دستهبندی2 نمایید. برای مثال آیا شیئی3 از یک دسته4 خاص (مثل صفحه کلید) در تصویر وجود دارد یا خیر. یا اینکه تصویر متعلق به صحنه5 فرودگاه است یا خیابان. به مثال اول دستهبندی شیء و به مثال دوم دستهبندی صحنه گفته میشود.
در حالت کلی این سامانهها بر پایهی چارچوب یادگیری ماشین کار میکنند. بدین معنی که با داشتن تعدادی نمونهی مثبت:
و تعدادی نمونه منفی:
برای یک تصویر جدید بتواند دستهبندی را انجام دهد:
برای ارزیابی این سیستمها پایگاه دادههای مختلفی وجود دارد که دستهها و روش ارزیابی را تعیین کردهاند.
۱. مقدمه
هدف از طرح مسئلهی دستهبندی تصاویر، تشخیص محتوای یک تصویر و تعیین دستهای است که تصویر بدان تعلق دارد. برای آنکه بتوان محتوای یک تصویر را شناسایی کرد، لازم است اطلاعاتی از تصویر استخراج شده و مورد پردازش قرار گیرد. برای پردازش این اطلاعات روشهای مختلفی ارائه شده است که هرکدام ویژگیهای خاص خود را دارند. منظور از دسته بندی تصویر، تشخیص موضوع اصلی تصویر و مفهومی است که به بیننده میرساند. در نتیجه میتوان تصویر را در یکی از دستههایی که از پیش تعریف شده است قرار داد. دستهبندی نیز به دو روش کلی باناظر و بیناظر انجام میگیرد.
یکی از موارد استفاده از مسئلهی دستهبندی تصاویر در هنگام کار با منابع تصویر حجیم است. به عنوان نمونه زمانی که بخواهیم در میان تعداد بسیار زیادی تصویر موجود، یک تصویر معین، و یا همهی تصاویر مربوط به یک موضوع خاص را بیابیم، بهترین راه استفاده از این تکنیک است. همچنین مورد دیگری که میتوان مثال زد تشخیص و تعیین نواحی در عکسهای ماهوارهای میباشد. عکسهای ماهواره ای مساحت بسیار زیادی را پوشش میدهند و از حجم بالایی از اطلاعات در تصویر برخوردارند. لذا برای بررسی این عکسها و استخراج اطلاعات از آنها، عکس را به تعداد زیادی قطعات کوچکتری از تصویر تقسیم میکنند و از تکنیک دستهبندی تصاویر کمک میگیرند.
۲. کارهای مرتبط
یک پژوهش انجامگرفته در همین زمینه، استفاده از تکنیک SPM برای شناسایی مناظر طبیعی است.[3]
پژوهش دیگری که بیشتر روی تصاویر حاوی اشیاء کارایی دارد، روش Locality-constrained Linear Coding نام گرفته که با تاکید بر نیازمند بودن رویکرد Bag-of-features از روش SPM به دسته بندهای غیر خطی، سعی در ارائهی روشی دارد که در آن از دستهبندی خطی استفاده شود.[6]
۳. آزمایشها
۴. کارهای آینده
۵. مراجع
[1] Visual Object Recognition, Kristen Grauman and Bastian Leibe, Synthesis Lectures on Artificial Intelligence and Machine Learning, April 2011, Vol. 5, No. 2, Pages 1-181. لینک
[2] Gabriella Csurka, et al, Visual Categorization with Bags of Keypoints, ECCV Wrokshops 2004" لینک
[3] Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories, Lazebnik, Schmid, and Ponce, CVPR 2006 لینک
[4] Modeling the Shape of the Scene: a Holistic Representation of the Spatial Envelope, Oliva and Torralba, IJCV 2001. لینک
[5] Perronnin, Florent, and Christopher Dance. "Fisher kernels on visual vocabularies for image categorization." Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on. IEEE, 2007. لینک
[6] Locality-Constrained Linear Coding for Image Classification. J. Wang, J. Yang, K. Yu, and T. Huang CVPR 2010 لینک
[7] Chatfield, Ken, et al. "The devil is in the details: an evaluation of recent feature encoding methods." (2011). لینک
[8] A. Quattoni, and A.Torralba. Recognizing Indoor Scenes. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009. لینک
[9] A. Berg, T. Berg, and J. Malik. Shape matching and object
recognition using low distortion correspondences. Proc. of
CVPR’05, pages 26–33.
[10] O. Boiman, E. Shechtman, and M. Irani. In defense
of nearest-neighbor based image classification. Proc. of
CVPR’08, 2008.
[11] G. Csurka, C. Dance, L. Fan, J. Willamowski, and C. Bray.
Visual categorization with bags of keypoints. Workshop on
Statistical Learning in Computer Vision, ECCV, pages 1–22,2004.
[12] P. Jain, B. Kullis, and K. Grauman. Fast image search for
learned metrics. Proc. of CVPR’08, 2008.
۶. پیوندهای مفید
Content
Classification
Object
Class
Scene