در این پروژه شما باید هر تصویر را با توجه به محتوای1 آن دستهبندی2 نمایید. برای مثال آیا شیئی3 از یک دسته4 خاص (مثل صفحه کلید) در تصویر وجود دارد یا خیر. یا اینکه تصویر متعلق به صحنه5 فرودگاه است یا خیابان. به مثال اول دستهبندی شیء و به مثال دوم دستهبندی صحنه گفته میشود.
در حالت کلی این سامانهها بر پایهی چارچوب یادگیری ماشین کار میکنند. بدین معنی که با داشتن تعدادی نمونهی مثبت:
و تعدادی نمونه منفی:
برای یک تصویر جدید بتواند دستهبندی را انجام دهد:
برای ارزیابی این سیستمها پایگاه دادههای مختلفی وجود دارد که دستهها و روش ارزیابی را تعیین کردهاند.
۱. مقدمه
هدف از طرح مسئلهی دستهبندی تصاویر، تشخیص محتوای یک تصویر و تعیین دستهای است که تصویر بدان تعلق دارد. برای آنکه بتوان محتوای یک تصویر را شناسایی کرد، لازم است اطلاعاتی از تصویر استخراج شده و مورد پردازش قرار گیرد. برای پردازش این اطلاعات روشهای مختلفی ارائه شده است که هرکدام ویژگیهای خاص خود را دارند. منظور از دسته بندی تصویر، تشخیص موضوع اصلی تصویر و مفهومی است که به بیننده میرساند. در نتیجه میتوان تصویر را در یکی از دستههایی که از پیش تعریف شده است قرار داد.
یکی از موارد استفاده از مسئلهی دستهبندی تصاویر در هنگام کار با منابع تصویر حجیم است. به عنوان نمونه زمانی که بخواهیم در میان تعداد بسیار زیادی تصویر موجود، یک تصویر معین، و یا همهی تصاویر مربوط به یک موضوع خاص را بیابیم، بهترین راه استفاده از این تکنیک است. همچنین مورد دیگری که میتوان مثال زد تشخیص و تعیین نواحی در عکسهای ماهوارهای میباشد. عکسهای ماهواره ای مساحت بسیار زیادی را پوشش میدهند و از حجم بالایی از اطلاعات در تصویر برخوردارند. لذا برای بررسی این عکسها و استخراج اطلاعات از آنها، عکس را به تعداد زیادی قطعات کوچکتری از تصویر تقسیم میکنند و از تکنیک دستهبندی تصاویر کمک میگیرند.
۲. کارهای مرتبط
یک پژوهش انجامگرفته در این زمینه، استفاده از تکنیک SPM6 برای شناسایی مناظر طبیعی است.[3]
در این روش تصویر به تعداد زیادی قسمتهای کوچکتر تقسیم میشود. سپس برای هر قسمت نمودار ویژگیهای محلی آن قسمت محاسبه میگردد. با داشتن نمودار ویژگیهای تمامی قسمتهای تصویر میتوان محتوای تصویر اولیه را با دقت نسبتا بالایی تشخیص داد. این امر با تکنیکی تحت عنوان bag-of-features انجام میپذیرد.
اساس کار تکنیک bag-of-features بر مبنای تقسیمات نامنظم تصویر مورد بررسی، قرار گرفته است.[11] البته این تکنیک شاخههای دیگری همچون تشخیص الگو و یا تشخیص کلمات نیز دارد. تصاویر زیر[12] مربوط به شاخهی تشخیص الگو میباشد که سعی شده با استفاده از آن کلیات عملکرد این تکنیک توضیح داده شود.
در تصویر فوق سه الگو وجود دارد. برای هر الگو سه ویژگی در نظر گرفته شده است، شامل سه قطعهی کوچک از تصویر. در واقع این سه قطعه bag-of-features الگوی مورد نظر را تشکیل میدهند.
تصویر زیر مربوط به تشخیص هر الگو از روی bag-of-features است. همانطور که پیشتر گفته شد، نمودار همهی قطعات برای هر نمونه ترسیم میشود و سپس از روی نمودار میتوان تشخیص داد هر نمونه مربوط به کدام الگو بوده است.
پژوهش دیگری که بیشتر روی تصاویر حاوی اشیاء کارایی دارد، روش LLC7 نام گرفته که با تاکید بر نیازمند بودن رویکرد bag-of-features از روش SPM به دسته بندهای غیر خطی، سعی در ارائهی روشی دارد که در آن از دستهبندی خطی استفاده شود.[6]
در روش LLC ویژگیهای استخراجشده از تصویر در چند مرحله مورد نگاشت قرار میگیرند تا در نهایت در قالب برداری از ویژگیها درآیند. تصویر زیر شمایی از تبدیل چندمرحلهای ویژگیهای تصویر به بردار ویژگیهاست.
برای محاسبه تقریبی از روش LLC میتوان از روش جستجوی k همسایهی نزدیک استفاده نمود و با مرتبهی پیچیدگی (O(M+K^2 به جواب رسید.
۳. آزمایشها
۴. کارهای آینده
۵. مراجع
[1] Visual Object Recognition, Kristen Grauman and Bastian Leibe, Synthesis Lectures on Artificial Intelligence and Machine Learning, April 2011, Vol. 5, No. 2, Pages 1-181. پیوند
[2] Gabriella Csurka, et al, Visual Categorization with Bags of Keypoints, ECCV Wrokshops 2004" پیوند
[3] Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories, Lazebnik, Schmid, and Ponce, CVPR 2006 پیوند
[4] Modeling the Shape of the Scene: a Holistic Representation of the Spatial Envelope, Oliva and Torralba, IJCV 2001. پیوند
[5] Perronnin, Florent, and Christopher Dance. "Fisher kernels on visual vocabularies for image categorization." Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on. IEEE, 2007. پیوند
[6] Locality-Constrained Linear Coding for Image Classification. J. Wang, J. Yang, K. Yu, and T. Huang CVPR 2010 پیوند
[7] Chatfield, Ken, et al. "The devil is in the details: an evaluation of recent feature encoding methods." (2011). پیوند
[8] A. Quattoni, and A.Torralba. Recognizing Indoor Scenes. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009. پیوند
[9] Shape Matching and Object Recognition using Low Distortion Correspondences, A. Berg, T. Berg and J. Malik, Proc. of CVPR 2005, pages 26–33. پیوند
[10] In Defense of Nearest-neighbor Based Image Classification, O. Boiman, E. Shechtman and M. Irani, Proc. of CVPR 2008. پیوند
[11] Introduction to the Bag-of-features Paradigm for Image Classification and Retrieval, Stephen O'Hara and Bruce A. Draper, arXiv 2011. پیوند
[12] Bag-of-features for Category Classification, Cordelia Schmid, CVML 2011. پیوند
[13] Linear Spatial Pyramid Matching using Sparse Coding for Image Classification, J. Yang, K. Yu, Y. Gong and T. Huang, Proc. of CVPR 2009. پیوند
۶. پیوندهای مفید
Content
Classification
Object
Class
Scene
Spatial Pyramid Matching
Locality-constrained Linear Coding