...در سامانه‌های شناسایی1 تصویر معمولاً سامانه باید عنوانی برای آن پیدا کند. مثلاً با دیدن تصویر زیر بگوید «هواپیما» یا «فرودگاه»:

airplane

در واقع اکثر سامانه‌ها می‌خواهند اسم را شناسایی کنند. اخیراً سامانه‌هایی هم به وجود آمده است که به جای اسم، شناسایی صفت2 را انجام می‌دهند. برای مثال با دیدن تصویر زیر سامانه تشخیص می‌دهد که «شاخ دارد»، «پا دارد»، «سر دارد» و ...

wild goat

از دیگر کاربردهای سامانه‌های تشخیص صفت می‌توان به مورد مهم صفت‌های انسان اشاره کرد. برای نمونه آیا انسان موجود در تصویر زن است یا مرد، پیر است یا جوان، عینک دارد یا خیر، لباس آستین بلند دارد یا خیر و ...

مزایای بسیاری برای این چنین سامانه‌ای می‌توان در نظر گرفت که بررسی آن‌ها را به شما واگذار می‌کنیم.

  • این پروژه توسط یک بنگاه تجاری تعریف شده است.

۱. مقدمه

تشخیص شیء یک قسمت مهم در بینایی کامپیوتر است. تکنولوژی تشخیص تصویر تلاش می کند که اشیاء، مردم، ساختمان‌ها، مکان‌ها و هرچیز دیگری که برای مصرف‌کنندگان و سرمایه‌گذاران مهم است را تشخیص دهد. گوشی‌های هوشمند و تبلت‌های مجهز به دوربین، این تکنولوژی را از کاربردهای صنعتی (مثل دسته‌بندی میوه‌ها) به سمت کاربردهای مصرفی برده‌اند. برای مثال، گوشی‌های هوشمند می‌توانند آدم‌ها، ماشین‌ها، برچسب بطری‌هاٰ، جلد کتاب‌ها و آلبوم‌ها و بسیاری از اشیاء دیگر را با استفاده از یک نرم‌افزار تلفن همراه که به نرم‌افزار تشخیص عکس دسترسی دارد، شناسایی کنند. تشخیص عکس کاربردهایی در امنیت، مدیریت محتوا وحتی موتورهای جستجو دارد.
در تشخیص اشیاء در تصویر بهتر است که به جای نامگذاری اشیاء به توصیف آن‌ها بپردازیم. قابلیت پی بردن به صفات به ما اجازه می‌دهد اشیاء را توضیح دهیم، مقایسه کنیم و حتی آسان‌تر طبقه‌بندی کنیم. مهم‌تر اینکه زمانی که با یک شیء جدید مواجه می شویم، حتی اگر نتوانیم آن را شناسایی کنیم، بازهم می‌توانیم در مورد آن چیزهایی بگوئیم (بعنوان مثال "خزدار با چهارپا" نه فقط "ناشناخته"). ما همچنین می‌توانیم بگوئیم در مورد یک شیء خاص چه چیزی غیرمعمول است (مثلا "سگ با خال‌هایی روی بدنش") و یاد بگیریم که اشیاء را فقط از روی توصیف تشخیص بدهیم. همچنین می‌توانیم اشیاء جدید را با مثال‌های دیداری کم یا بدون مثال تشخیص بدهیم.
تشخیص صفات، همچنین درجه درک ماشین‌ها از اشیاء دیداری را بهبود می‌بخشد. قابلیت ماشین‌‌ها برای "توصیف" اشیاء،کاربردهای مفیدی از قبیل موتورهای جستجوی تصویر را ارائه می‌دهد که در جستجوهای خاص به خوبی عمل می کند. بعلاوه،ویژگی‌‌ها اغلب توسط اشیاء مختلف به اشتراک گذاشته می‌شوند. بنابراین، ویژگی‌‌ها اطلاعات مفیدی برای سازماندهی مجموعه تصاویر ارائه می‌دهند. علاوه‌براین، در کار‌های تشخیص، دانش درباره‌ی صفات اجازه می‌دهد بخشی از وظیفه‌ی یادگیری بین دسته3 ها به اشتراک گذاشته شود.
درکل، نشان داده‌شده که روش صفت محور برای تشخیص شیء بهتر از نامگذاری سنتی عمل می‌کند و قابلیت‌های بسیاری ارائه میدهد[1].

۲. کارهای مرتبط

در ادامه به معرفی اجمالی چند روش تشخیص صفت میپردازیم:
1. روش مبتنی بر Poselet برای دسته بندی صفات:
فرض کنید میخواهیم صفاتی همانند جنسیت، مدل مو و انواع لباس افراد را تشخیص بدهیم که تنوع بسیار زیادی در زاویه دید و حالت(ژست)4 دارند. دسته بندی کننده‌های قوی صفات، تحت چنین شرایطی بایستی مستقل ازحالت باشند اما حدس زدن حالت،خودش یک مسئله ی چالش انگیز است. ما از یک روش مبتنی بر جزء، بر اساس poselet استفاده میکنیم. بخش‌های ما به طور ضمنی، نمود 5(حالت و زاویه دید) راتجزیه می کنند. ما دسته بندی کننده‌ها را برای هر یک از این نمودها آموزش می دهیم و آن‌ها را در یک مدل افتراقی6با یکدیگر ترکیب می کنیم؛ زیرا تغییرات زیادی که بوسیله تغییر حالت در ظاهر ایجاد می شوند ما را از آموزش یک یابنده7عمومی باز میدارد.
ما مسائل کلاسیک را با تشخیص و تقسیم بندی توسط یک یابنده‌ی مبتنی بر جزء، حل میکنیم. این یابنده روی یک جزءاصلی کار میکند و poselet نام دارد. Poselet برای پاسخ دادن به یک قسمت از شیء – با حالت و زاویه ی داده شده- آموزش داده میشود.
2. مدل نهفته8 ی تشخیصی:
هدف نهایی این روش ساخت سیستم‌های تشخیصی است که به طور مشترک کلاس‌های شیء و صفات را در یک چارچوب9 یادمیگیرند. این مدل در چارچوب SVM نهفته آموزش دیده است. در طول آموزش،صفات را بعنوان متغیرهای نهفته در نظر میگیریم و تلاش میکنیم که برچسب کلاس یک عکس را استنتاج کنیم.
3.روش نمایش های اسپارس و آموزش از راه دور:
دراین روش "پیش‌بینی صفت" و "نگاشت صفت به کلاس" را جدا می کنیم؛ سپس بوسیله‌ی معرفی شیوه‌های جایگزین در پیش‌بینی صفت و نگاشت صفت به کلاس، دو الحاق10بر روی الگوی طبقه‌بندی مبتنی بر صفت ارائه میدهیم.
برای پیش‌بینی صفت، از طرح طبقه‌بندی کننده‌ی نمایش‌های اسپارس استفاده میکنیم که مزیت‌های مهمی در مقایسه با شیوه‌های مبتنی بر SVM ارائه می‌دهد. این مزیت‌ها عبارتند از :افزایش دقت و حذف مرحله‌ی آموزش.
برای نگاشت صفت به کلاس، از یک الگوریتم آموزش از راه دور استفاده میکنیم؛ این الگوریتم به جای آنکه اهمیت یکسانی برای صفات در نظر بگیرد به طور خودکار اهمیت هرصفت را استنباط میکند.

4. یادگیری صفات تصویر با استفاده از IBP:
تقریبا در اکثر الگوریتم‌های یادگیری صفت و چارچوب‌های تشخیص شیء مبتنی بر صفت، صفات باید از قبل تعریف شده‌باشند. در این روش، ما تلاش میکنیم که صفات را به یک روش کاملا بی‌ناظر11 از مجموعه عکس‌های داده‌شده یادبگیریم. ما از یک متد آماری Baysian که غیرپارامتری و Data-Deriven است استفاده میکنیم که Infinite Sparse FactorAnalysis نامیده می‌شود و یک روش تبدیل خطی است که نمایش مورد نظر داده‌های چند متغیره یکی است که وابستگی آماری اجزای نمایش را به حداقل می رساند. در یک پیاده سازی اسپارس ما این انتخاب را آزاد میگذاریم که آیا یک کامپوننت برای یک data point فعال باشد؟بعلاوه، برای داشتن یک تعداد نامحدود از اجزاءکامپوننت‌ها، یک تقدم برای یک ماتریکس دودویی از صفات پنهان که از یک تقدم غیرپارامتری به نام (IBP) Indian Buffet Process استفاده می کند قرار می دهیم .IBP یک توزیع روی کلاس‌های هم‌ارزی ماتریس دودویی با تعداد محدودی از سطر و تعداد نامحدود از ستون است و می‌تواند برای مدل سازی خصوصیات پنهان غیرپارامتری استفاده شود که در آن ردیف‌ها متناظر باdata pointها و ستون‌ها متناظر با خصوصیات پنهان هستند.


به‌طور کلی تحقیقات روی صفات به دو دسته تقسیم می شوند؛ دسته‌ی اول، از صفات به‌عنوان لایه نمایش میانی با هدف توصیف خواص اشیاء یا تشخیص کلاس آن‌ها و همچنین انتقال یادگیری بین کلاس‌ها استفاده می‌کنند.
Lampert و همکارانش در [9] نشان دادند که صفات برای تشخیص اشیاء جدید که تابحال دیده نشده اند مفید هستند، به شکل مشابهی، Farhadi و همکارانش در[1]اشیاء را با صفاتشان توصیف می کنند و نشان می دهند که روش‌های مبتنی بر صفت12 به‌خوبی در دسته‌های اشیاء تعمیم می‌یابند. آن‌ها یک طرح تشخیص دسته‌ی شیء ارائه داده‌اند که classifierهای صفت با استفاده از ویژگی13های منتخب آموزش داده شده بودند (برای هر صفت، یک classifier) و دسته‌ی شیء توسط اعمال classifierهای تک صفته روی تصاویر، تشخیص داده می‌شوند.
Wang و Mori در [3]یک مدل نهفته آموزش دیده به صورت افتراقی برای اتصال مدلینگ کلاس‌های شیء و صفات دیداری آن‌ها ارائه کردند. در این روش، صفات یک شیء به عنوان متغیر‌های نهفته تلقی می‌شود و ارتباطات(همبستگی‌های) میان صفات را بدست می‌آورند.
Farhadi و همکارانش در[12] یک روش برای بومی کردن صفات مبتنی بر جزء 14 ارائه می‌کنند؛ مثل سر، یا یک چرخ. آن‌ها آشکار‌سازهایی را برای بخش ها و دسته‌های فرعی15 آموزش دادند و خروجی classifierها را برای رأی دادن به یک شیء استفاده کردند؛ برای مثال، یابنده‌های "پا"، "سر" و "سگ" تمایل دارند که به شیء "چهارپا" رأی بدهند. در کار آن‌ها صفات استفاده شده برای رأی گیری باید معنایی باشند و به خوبی به دیگر تصاویر از دسته های مشابه تعمیم داده شوند.
Ferrari و همکارانش در[15]کار تشخیص و بومی‌کردن صفات سطح پایین16 در یک چارچوب مولد17 (تولیدی) را انجام دادند. آن‌ها توانستند رنگ و بافت اشیاء را تشخیص بدهند.کشف خودکار ویژگی‌ها از متن و تصاویر مربوط هم در[16,17,18] انجام شده‌است.
Duan و همکارانش در [7] نشان داده‌اند که صفات، تشخیص کلاس شیء ریزدانه را بهبود می‌بخشند؛ مانند گونه‌های پرنده‌ها. Sun و همکارانش در[6] بررسی می‌کنند که چگونه صفات برای شناسایی اشیاء خاص از میان مجموعه‌ای از اشیاء استفاده می‌شوند.این تنظیمات، بیشتر مربوط به رباتیک است که در آن، مردم می‌خواهند از زبان برای دستور به یک ربات استفاده کنند؛ برای مثال، اینکه:"این شیء" را بردار.
Tsagkatakis و Savakis در[4] برای پیش‌‌بینی صفات به جای استفاده از روش SVM از SRC(Sparse Representation Classifier) استفاده می‌کنند.آن‌ها، روش SRC را برای پیش‌بینی صفت و بررسی مزایای آن برای تعمیمacross-category به کار می‌برند.
Wang و Forsyth در [19]از صفات برای یافتن یک شیء استفاده کرده اند.
دسته‌ی دوم روی صفات مردم تمرکز می‌کنند.روش های تشخیص جنسیت که از شبکه‌های عصبی استفاده می‌کنند به اوایل 1990 برمی‌گردند[20,21].Vequero و همکارانش در [22] توانستند تصویر مردم را در محیط‌های بسته جستجو کنند.
Joo و همکارانش در [10]یک روش مبتنی بر جزء برای شناسایی انسان با یک عکس تک از بدن شخص ارائه می‌دهند.آن‌ها یادگیری یک بانک تصویر غنی از قسمت های بدن با نظارت کمتر را پیشنهاد می دهند. آن‌ها این کار را توسط تجزیه‌ی شبکه تصویر به پنجره‌هایی که همپوشانی دارند (در چند مقیاس و با تکرار پالایش قالب‌های ظاهر محلی) انجام می‌دهند.
Kumar و همکارانش در [14] برای تشخیص چهره، استفاده از صفات صورت را پیشنهاد می دهند. آن‌هاclassifier را برای دو نوع از صفات آموزش داده‌اند، یکی مربوط به ظاهر بصری، مثل "سفید" یا "چاق" و دیگری مربوط است به شباهت چهره‌ها یا نواحی چهره. این صفات بعدا برای تشخیص چهره استفاده می‌شوند. Kumar و همکارانش همچنین در [23] جستجوی بصری را ارائه داده اند.
Gallagher و Chen در[24] استنتاج جنسیت و سن از ویژگی‌های بصری ترکیب شده با نام‌ها را بررسی کرده‌اند. همچنین Sigal و همکارانش در[25] استخراج صفات جنسیت، سن و وزن از داده های سه بعدی را بررسی کرده‌اند.

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

[1] A. Farhadi, I. Endres, D. Hoiem, and D.A. Forsyth, “Describing Objects by their Attributes”, CVPR 2009
[2] L.Bourdev, S.Maji, J.Malik," Describing People: Poselet-Based Approach to Attribute Classification", ICCV 2011.
[3] W.Yang, and G.Mori. "A discriminative latent model of object classes and attributes." Computer Vision–ECCV 2010. Springer Berlin Heidelberg, 2010. 155-168.
[4]G.Tsagkatakis, and A.Savakis. "Sparse representations and distance learning for attribute based category recognition." Trends and Topics in Computer Vision. Springer Berlin Heidelberg, 2012. 29-42.
[5] N.Zhang,R.Farrell,F.Iandola,T.Darrell, "Deformable part descriptors for fine-grained recognition and attribute prediction." Computer Vision (ICCV), 2013 IEEE International Conference on. IEEE, 2013.
[6]Y.Sun, "Attribute Based Object Identification",Liefeng Bo and Dieter Fox,Robotics and Automation (ICRA), 2013 IEEE International Conference on .
[7]K.Duan,D.Parikh,D.Crandall,and K.Grauman,"Discovering Localized Attributes for Fine-grained Recognition", In CVPR, 2012.
[8]S.Changpinyo,E.B. Sudderth,"Learning Image Attributes using the Indian Buffet Process."BS. thesis,2012
[9]C.H. Lampert, H.Nickisch,and S.Harmeling,"Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer.",In CVPR, pages 951–958, 2009.
[10]J.Joo,S.Wang,and S. Zhu,"Human Attribute Recognition by Rich Appearance Dictionary", International Conference on Computer Vision (ICCV), 2013.
[11]K.Duan,L.Marchesotti,and D.J. Crandall,"Attribute-based Vehicle Recognition using Viewpoint-aware
Multiple Instance SVMs.",IEEE Winter Conference on Applications of Computer Vision. 2014.
[12]A.Farhadi,I.Endres,and D.Hoiem,"Attribute-Centric Recognition for Cross-category Generalization.",CVPR 2010.
[13]L.Bourdev,"Poselets and Their Applications in High-Level Computer Vision".",UC Berkeley Electronic Theses and Dissertations,2011.
[14]N.Kumar,A.C. Berg,P.N. Belhumeur,and S.K. Nayar,"Attribute and Simile Classifiers for Face Verification", ICCV 2009.
[15]V. Ferrari, M. Marin-Jimenez, and A. Zisserman," Progressive search space reduction for human pose estimation.", In CVPR, 2008.
[16]V. Ferrari and A. Zisserman ,"Learning visual attributes." In NIPS,2007.
[17]T. L. Berg, A. C. Berg, and J. Shih,"Automatic attribute discovery and characterization from noisy web data.", In ECCV, 2010.
[18]J. Wang, K. Markert, and M. Everingham," Learning models for object recognition from natural language descriptions.",In BMVC09.
[19]G.Wang , D.Forsyth," Joint learning of visual attributes, object classes and visual saliency".In: ICCV ,2009.
[20]G. W. Cottrell and J. Metcalfe. Empath," face, emotion, and gender recognition using holons. ",In NIPS, 1990.
[21]B. A. Golomb, D. T. Lawrence, and T. J. Sejnowski. Sexnet,"A neural network identifies sex from human faces.", In NIPS, 1990.
[22]D.A.Vaquero , R.S.Feris, D.Tran, L.Brown, A.Hampapur,M.Turk,"Attribute-Based People Search in Surveillance Environments", In: IEEE WACV,2009.
[23]N. Kumar, P. N. Belhumeur, and S. K. Nayar," FaceTracer: A Search Engine for Large Collections of Images with Faces.",In ECCV08.
[24]A. Gallagher and T. Chen," Estimating age, gender and identity using first name priors.", In CVPR, 2008.
[25]L. Sigal, D. J. Fleet, N. F. Troje, and M. Livne." Human attributes from 3d pose tracking." In ECCV, 2010.
[26]C.Lampert,"Semantic Attributes for Object Categorization.",IST Austria (Institute of Science and Technology Austria),Klosterneuburg, Austria,82pages.
[27]http://www.eecs.berkeley.edu/~lbourdev/poselets

۶. پیوندهای مفید


  1. Recognition

  2. Attribute

  3. Category

  4. Pose

  5. Aspect

  6. Discriminative

  7. Detector

  8. Latent

  9. framework

  10. Extension

  11. Unsupervised

  12. attribute-based

  13. feature

  14. part-based

  15. subordinate categories

  16. low-level

  17. generative

تایید شده

مقدمه به خوبی نگارش شده بود.به نظر می آید که بخش "در ادامه به معرفی اجمالی چند روش تشخیص صفت میپردازیم" نیز جزو مقده باشد و نه کارهای مرتبط. بخش کارهای مرتبط به نظر می رسد از ترجمه کارهای مرتبط مقاله ها استفاده شده است و متوسط است.در کل تلاش کافی تا این مرحله پروژه انجام شده است.
با تشکر از شما

رد شده

با سلام
به نظر بنده ارائه روشها که در بخش کارهای مرتبط آورده شده است را بهتر بود در فاز قبلی در بخش مقدمه ذکر می کردند.
تقسیم کردن کارهای مرتبط به دو بخش و استفاده از روشهای متنوع و بیان خلاصه وار این روشها به میزانی که خواننده با روش آشنا شود از نقاط قوت این پروژه محسوب می شود.
با تشکر

تایید شده

به نظر من پژوهش شما کامل هست و می توان برای آن نمره کامل در نظر گرفت. فقط چند نکته کوچک به نظرم رسید که برای بهبود کارتان پیشنهاد می کنم:
بخش یادگیری صفات تصویر با استفاده از IBP برای من مبهم بود و چیز خاصی از آن متوجه نشدم.
بعضی جاها معادل مناسب به کار نرفته است. مثلا به جای classifier می توانید از معادل رده بند استفاده کنید. البته بعضی جاها معادل خیلی خوب به کار رفته مثلا افتراقی برای discriminative یا یابنده برای detector معادل های خیلی خوبی هستند.
معمولا مراجع با ترتیب و تقدم استفاده آن ها در متن ذکر می شوند. این موضوع در نوشته شما رعایت نشده است.
این موارد نکات ریزی هستند که فقط برای بهتر شدن کار بیان کردم. امیدوارم کمکی کرده باشم

یاسر سوری

چند نکته:

  • هنوز ایرادات نگارشی مثل عدم وجود فاصله پس از ویرگول و املایی مثل «می کند» (بدون نیم‌فاصله) در متن شما وجود دارد که شایسته است با کمی دقت و صرف وقت این ایرادات را برطرف نمایید. حتی ابزارهای خودکاری نیز هستند که می‌توانند در این زمینه به شما کمک کنند.

  • به نظرم وقتش رسیده که بخش قبل از مقدمه را (منظور تعریف پروژه است) حذف کنید. اگر این کار را کردید برای بخش مقدمه خود چند تصویر با توضیح‌های مناسب قرار دهید که منظور شما را به خوبی برساند.

  • به نظر من این نتیجه گیری از مرجع یک برنمی‌آید. «درکل، نشان داده‌شده که روش صفت محور برای تشخیص شیء بهتر از نامگذاری سنتی عمل می‌کند و قابلیت‌های بسیاری ارائه میدهد[1].» به عبارت دیگر این حرف از نظر علمی دقیق نیست.

چند نکته‌ی مهم‌تر:

  • در بخش کارهای مرتبط قسمت اول، (آنجایی که موارد را شماره گذاری کرده‌اید) هیچ کدام را ارجاع نداده‌اید که ایراد بزرگی به حساب می‌آید و باعث کم شدن نمره‌ی شما خواهد شد.

  • به این جمله توجه کنید: «صورت افتراقی برای اتصال مدلینگ کلاس‌های شیء» بهتر است که افتراقی را در پاورقی بنویسید ترجمه‌ی چه کلمه‌ایست. همچنین بهتر است از «مدلینگ» استفاده نکنید. پیشنهاد می‌کنم از «مدل‌سازی» به جای آن استفاده کنید.

  • «Kumar و همکارانش همچنین در [23] جستجوی بصری را ارائه داده اند.» این گونه نوشته‌ها که در متن شما موجود است، انسان را به شک می‌اندازد که آیا شما مقالات را به اندازه کافی عمیق مطالعه کرده‌اید یا خیر. این عبارت توضیحات کافی را ندارد و دقیق نیست. در بخش کارهای مرتبط خیلی ترجمه‌ای نوشته‌اید.

  • در دسته‌بندی که انجام داده‌اید در واقع دسته‌ی دوم زیر مجموعه‌ی دسته‌ی اول است.

  • بهتر بود این قسمت دسته‌بندی را با قسمتی که در فاز قبل نوشته‌ بودید به نحوی ترکیب می‌کردید تا اینگونه گسسته نباشد. در حال حاضر متنتان پیوستگی لازم را ندارد که ایراد بزرگی است.

موفق باشید.