در بازشناسی شیء1 هدف این است که یک مورد2 خاص از شیء را بتوانیم بازشناسی کنیم. بدین معنا که بفهمیم این مورد در کدام یک از تصاویری که قبلاً به سامانه داده شده است وجود دارد.

instance recognition

جزئیات کاری که باید انجام شود بسته به پایگاه داده متفاوت است. باید دید که در هر پایگاه داده مسئله به صورت دقیق به چه صورتی تعریف شده است یعنی ورودی چیست و چه خروجی مورد نظر است.

  • این پروژه توسط یک بنگاه تجاری تعریف شده است.

۱. مقدمه

در بازشناسی شیء، ابتدا باید با استفاده از تصاویری که به سامانه داده شده، به یادگیری برای بازشناسی یک شی پرداخت. سپس باید در تصاویر جدید تشخیص داد که شی مورد نظر در آن وجود دارد یا نه.
بازشناسی شی در تصویر به دو دسته عمومی3 و اختصاصی4 تقسیم می شود. در بازشناسی به صورت عمومی، هدف ما شناخت تصاویر مربوط به یک دسته از اشیا می باشد، مانند تشخیص ساختمان، ماشین و یا دوچرخه در تصویرهای مختلف ولی در حالی که در بازشناسی به صورت اختصاصی، شناسایی یک شی خاص مورد نظر است. برای مثال بازشناسی تصویر چهره کارل گاوس و یا برج ایفل. موضوعی که در هر دو دسته مشترک است، وجود تفاوت بین نمونه های مختلف از تصاویر یک شی و یا یک دسته است. [1]

توضیح تصویر

توضیح تصویر

در حال حاضر برای بازشناسی اشیا خاص، بیشتر تطابق5 و همسان بودن هندسی6 تصاویر بررسی می شود. ولی برای بازشناسی اشیا به صورت عمومی از مدل آماری7 مربوط به شکل که با یادگیری از مثال ها به دست آمده، استفاده می شود. برای یادگیری در بازشناسی به صورت عمومی، تصاویری مربوط به یک دسته مشخص جمع آوری می شود و از آن ها مدلی برای پیش بینی8 وجود یا مشخص کردن محل9 شی در تصاویر جدید ایجاد می شود.[1]
بازشناسی اشیا خاص نسبت به بازشناسی اشیا به صورت عمومی ، کامل تر بوده و جنبه تجاری نیز پیدا کرده است، ولی فعلا مسئله بازشناسی عمومی تا حد زیادی حل نشده است.[9]

با توجه به سطح دقتی که نیاز داریم، یک سیستم بازشناسی اشیا می تواند وظایف متفاوتی داشته باشد، برای مثال در تصویر زیر سطوح متفاوتی از دقت در بازشناسی مشخص شده است:

توضیح تصویر

چالش ها[1]
نمونه های یک شی در تصاویر مختلف، بسته به شرایط می توانند بسیار متفاوت از هم باشند، که باعث دشوار شدن فرآیند بازشناسی و دسته بندی می شود. عوامل تاثیرگذار در این زمینه عبارتند از:

  • وضعیت روشنایی10

  • وضعیت شی11

  • زاویه دید دوربین

  • قرار گرفتن قسمتی از شی مورد نظر ما پشت اشیا دیگر 12

  • به هم ریختگی13 پس زمینه تصویر و ... .

  • در تصویر زیر به این عوامل اشاره شده است:

    توضیح تصویر

به جز موارد اشاره شده در فوق که مربوط به تحمل پذیری خطا14 بودند، چالش جدی دیگر در این زمینه مربوط به پیچیدگی محاسباتی15 و مقیاس پذیری16 است. یعنی باید از الگوریتم هایی کارا و بهینه برای بدست آوردن ویژگی های مختلف تصاویر استفاده کنیم تا بتوان از آن ها در جستجوی پایگاه های داده بزرگ از تصاویر، استفاده کرد.

۲. کارهای مرتبط

در مرجع [2] روشی برای استخراج ویژگی های نامتغیر و متمایز کننده از تصاویر ارائه شده است که می توان با اطمینان بالایی از آن برای تطابق نماهای مختلفی از یک شی استفاده کرد. این ویژگی ها نسبت به مقیاس و نیز دوران تصویر نامتغیر هستند. این مقاله همچنین دیدگاهی برای استفاده از این ویژگی ها در بازشناسی اشیا ارائه می دهد.
در بازشناسی اشیا به صورت عمومی یکی از ساده ترین الگوریتم ها برای مشخص کردن یک دسته خاص از اشیا روش مجموعه کلمات17 می باشد که تصاویر و اشیا را به صورت مجموعه ای غیر ترتیبی از توصیف کننده های ویژگی ها در نظر می گیرد. (بخش هایی از کتاب های [1] و [9])

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

  1. Visual Object Recognition, Kristen Grauman and Bastian Leibe, Synthesis Lectures on Artificial Intelligence and Machine
    Learning, April 2011, Vol. 5, No. 2, Pages 1-181. لینک

  2. David G. Lowe, "Distinctive image features from scale-invariant keypoints," International Journal of Computer Vision, 60, 2 (2004), pp. 91-110 لینک

  3. Fischler, Martin A., and Robert C. Bolles. "Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography." Communications of the ACM 24.6 (1981): 381-395.

  4. Philbin, James, et al. "Object retrieval with large vocabularies and fast spatial matching." Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on. IEEE, 2007. لینک

  5. Arandjelovic, Relja, and Andrew Zisserman. "Smooth object retrieval using a bag of boundaries." Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011. لینک

  6. D. Nistér and H. Stewénius. Scalable recognition with a vocabulary tree. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), volume 2, pages 2161-2168, June 2006 لینک

  7. Arandjelovic, Relja, and Andrew Zisserman. "All about VLAD." Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on. IEEE, 2013. لینک

  8. Erik B.Sudderth .”Graphical Models for Visual Object Recognition and Tracking.” Dept. EECS. MIT, May 2006.

  9. R.Szeliski, Computer Vision: Algorithms and Applications, Springer, September 2010.

  10. D.Koller and N.Friedman, Probabilistic Graphical Models: Principles and Techniques, MIT Press, 2010.

  11. David G.Lowe, “Object Recognition from Local Scale-Invariant Features.” International Conference on Computer Vision(ICCV), September 1999.

  12. David G.Lowe, “Distictive Image Features from Scale-Invariant Keypoints.” International Journal of Computer Vision, pages 91-110, 2004.

  13. E.Nowak, F.Jurie, B.Triggs, “Sampling strategies for bag-of-features image classification.” Proceedings of the European Conference on Computer Vision.

  14. Philbin, J., Chum, O., Isard, M., Sivic, J. & Zisserman, A. (2007), Object retrieval with large vocabularies and fast spatial matching, in ‘Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition’.

  15. Bay, H., Ess, A., Tuytelaars, T. & Van Gool, L. (2008), ‘SURF: Speeded-Up Robust Features’, Computer Vision and Image Understanding 110(3), 346–359.

۶. پیوندهای مفید


  1. Object Recognition

  2. Instance

  3. Generic

  4. Specific

  5. Matching

  6. Geometric Verification

  7. Statistical Model

  8. Prediction

  9. Localization

  10. Illumination Condition

  11. Object Pose

  12. Partial Occlusion

  13. Clutter

  14. Robustness

  15. Computational Complexity

  16. Scalability

  17. Bag of Words

حسین فرقانی

هدف این فاز که شناخت کلی نسبت به موضوع و بررسی کارهای پیشین بود به خوبی انجام داده اید. فقط چند ایراد وجود دارد که لازم است در ادامه اصلاح شود:

  1. در مقدمه گفته شده باید ابتدا به یادگیری بازشناسی شیء پرداخت، در حالی که همان طور که خودتان در ادامه اشاره فرموده اید یکی از روش های بازشناسی، تطابق (matching) است که یادگیری نیست. لازم است اصلاح شود.

  2. در چکیده گفته شده بازشناسی شیء یعنی نمونه خاص از شیء. ولی در مقدمه گفته شده شامل دو دسته عمومی و اختصاصی می شود که دسته عمومی محدود به یک نمونه خاص از شیء نیست. لازم است چکیده را اصلاح کنید.

  3. ترجمه geometric verification «همسان سازی» هندسی نیست. بهتر است به جای «همسان سازی» از کلمه دیگری استفاده کنید.

  4. برای سادگی میتوانید برای occlusion از معادل «انسداد» استفاده کنید. برای instance و clutter و bag of words هم بهتر است به ترتیب از «نمونه»، «شلوغی» و «سبد کلمات» استفاده کنید.

  5. بعضی citationها استاندارد نیستند. مثلا در [1] اول اسم کتاب آمده، بعد نویسنده ها در حالی که باید برعکس باشد.