پیدا کردن متن در تصویر

تغییرات پروژه از تاریخ 1393/08/17 تا تاریخ 1393/09/15
در سامانه‌های پیدا کردن متن در تصویر، هدف آن است که مکان متن موجود در تصویر را مشخص کنیم. برای مثال به تصاویر زیر توجه کنید که چگونه مکان متون موجود در آن‌ها مشخص شده است:
![نمونۀ تصاویر با مشخص شدن مکان متن](http://www.iapr-tc11.org/mediawiki/images/MSRA-TD500_Example.jpg)

کاربرد اصلی این مسئله به عنوان یک پیش پردازش قبل از تبدیل تصویر به نوشتار یا همان OCR است.
* این پروژه توسط یک بنگاه تجاری تعریف شده است.

# مقدمه
امروزه دسترسی همگان به دوربین‌های دیجیتال ارزان قیمت، سبب ایجاد حجم عظیمی از تصاویر شده‌ است. دستیابی به اطلاعات سودمند از این حجم عظیم داده، نیازمند پردازش‌های دقیق و با کارایی مناسب است. یکی از این پردازش‌ها، تشخیص متن در تصویر است. پیدا کردن محل متن در تصویر یکی از مراحل اصلی فرآیند تبدیل تصویر به نوشتار است.
تبدیل تصویر به نوشتار سابقه‌ای طولانی دارد. در این روش به شکل سنتی، صفحات پویش[^scan]شده بررسی و متن از آن‌ها استخراج می‌شود. تقریباً در تمام موارد، متون به صورت افقی بوده و پس‌زمینۀ آن‌ها سفید است.
آنچه که در تبدیل تصویر به نوشتار رخ می‌دهد؛ با پیدا کردن متن در تصویر تفاوت دارد. در تبدیل تصویر به نوشتار هدف یافتن نویسه‌های[^characters] استفاده شده در متن است؛ اما در پیدا کردن متن هدف یافتن محل متن در تصویر است.
همان‌گونه که مشخص است، امروزه پیدا کردن محل متن به عنوان پیش‌پردازش اصلی تبدیل تصویر به نوشتار، مورد استفاده قرار می‌گیرد. بررسی‌ها بیانگر آن است که کارایی تبدیل تصویر به نوشتار وابستگی بسیاری به کارایی روش پیدا کردن متن در تصویر دارد[41]. این موضوع در بررسی تصاویر مناظر طبیعی[^images of natural scenes] بسیار محسوس‌تر است.
در روش‌های سنتی محل متن توسط کاربر به صورت دستی مشخص می‌شود. امروزه به دلیل حجم عظیم داده‌ای که برای داده کاوی مورد استفاده قرار می‌گیرند؛ این روش کارایی خود را از دست داده است.
در گذشته مشکلات کمتری برای پیدا کردن متن وجود داشت. در اکثر موارد تصاویر مورد بررسی، پس‌زمینۀ سفید داشتند. جهت متن[^text orientation] نیز تقریبا افقی بود. این موارد از پیچیدگی مسئله کاسته و کار را بسیار ساده‌تر می‌کند. ابزارهای امروزی برای بررسی این قسم متون کارایی مناسبی دارند و تقریبا اشتباهات آن‌ها بسیار کم و قابل چشم‌پوشی است. پیش‌فرض اکثر این ابزارها استفاده از تصاویر با کیفیتتفکیک‌پذیری بالا[^high resolution] و تقریباً سیاه و سفید (متون سیاه و پس‌زمینه سفید) است. البته برخی از آن‌ها وجود عکس، نمودار و سایر خطوط را نیز تشخیص می‌دهند.
تصاویری که افراد از مناظر، اماکن و متون تهیه می‌کنند؛ این پیش‌فرض‌ها را ندارد. در ادامه به برخی از مشکلات پیدا کردن متن‌ در این قسم تصاویر اشاره شده است[12].

**مشکلات اصلی تصاویر مورد بررسی:**
+ **کیفیت پایین**: یکی از اصلی‌ترین مشکلاتی که برای پیدا کردن متن در تصویر با آن‌ روبرو هستیم. تصاویری که با دوربین‌های معمولی ثبت می‌گردند؛ قطعاً کیفیت پویشگر‌ها[^scanner] را نخواهند داشت.
+ **نورپردازی نامناسبهموار**[^uneven lighting] : میزان نور ممکن است بسیار کم یا بسیار زیاد باشد. امکان تفاوت میزان نور در بخش‌های مختلف یک تصویر به دلیل وجود سایه و بازتاب نور نیز وجود دارد. در صورت استفاده از نور مصنوعی مانند فلاش بخش‌هایی از تصویر روشن و سایر بخش‌ها دارای روشنایی کم‌تر هستند.
+ **سطوح غیرمسطح**[^nonplaner surfaces] : امکان دارد متن مسطح نبوده و دارای عمق باشد. همچنین ممکن است بخشی از متن در یک سطح و بخشی از آن در سطح دیگری باشد. حالت‌های دیگری نیز می‌توان برای متن ذکر نمود. به شکل کلی نمی‌توان پیش‌فرض مشخصی را مدنظر گرفت.
+ **پس‌زمینه‌های پیچیده**[^complex backgrounds] : وجود پس‌زمینۀ پیچیده از دو جهت می‌تواند ایجاد مشکل نماید. اول آنکه برخی از اشیا که دارای ساختار منظم و یا بافت خاصی هستند (مانند درها، پنجره‌ها، خطوط خیابان، برگ درختان و غیره [3]) به اشتباه متن شناسایی می‌گردند. دوم آنکه زمانی که پس‌زمینۀ متن تصویری پیچیده است نمی‌توان مرزلبه‌های[^edges] متن را به درستی مشخص نمود.
+ **جهت متن**: یکی دیگر از مشکلات، جهت متن در تصویر است. هیچ دلیلی برای افقی بودن متن در تصاویر وجود ندارد. این موضوع با مسطح نبودن متن متفاوت است. با فرض مسطح بودن متن، امکان دارد متن جهت افقی نداشته و نسبت به افق دارای زاویه باشد.

در شکل زیر برخی از مشکلات ذکرشده را می‌توانید مشاهده کنید[24]:
![مشکلات پیدا کردن و تشخیص متن در تصویر](http://upload7.ir/imgs/2014-11/36495420711014775178.jpg)

موارد ذکر شده در بالا مشکلات اصلی برای پیدا کردن متن در تصاویر است. مشکلات دیگری مانند تنوع در رسم‌الخط‌، فونت، رنگ و اندازه متون وجود دارد.
حال به بررسی اهمیت پیدا کردن و تشخیص متن در تصویر می‌پردازیم. می‌توان این موضوع را با طرح سوالی مورد بررسی قرار داد. چرا با این سطح از پیچیدگی به دنبال پیدا کردن و تشخیص متن در تصویر هستیم؟ این کار می‌تواند سببب بهبود روش‌های مورد استفاده در ابزارهای نویسه‌خوان نوری[^optical character recognition] شود. با استفاده از بهبود روش‌ها می‌توان عکس‌های تهیه شده با دوربین‌های معمولی را نیز به نوشته‌های مناسب تبدیل نمود.
دلیل دیگر این کار استفاده از متن تصویر برای نمایه‌[^index]کردن آن است[2]. فرض کنید در تصویری عبارت bank به چشم می‌خورد. می‌توان حدس زد که این تصویر مربوط به ورودی یک بانک است. بررسی این مورد از حوزۀ این تحقیق خارج بوده و تنها برای بیان انگیزه‌های مطرح برای تشخیص متن ذکر شده‌است.

# کارهای مرتبط
یائو و همکارانش [3] رویکرد جدیدی را برای پیدا کردن متن ارائه کرده‌اند. این رویکرد برای پیدا کردن متن با جهت‌های دلخواه مناسب است. چهار مرحلۀ اصلی آن را همراه با جزئیات در شکل زیر مشاهده می‌کنید:
![مراحل رویکرد پیشنهادی](http://upload7.ir/imgs/2014-11/11935976296473882706.jpg)

رویکرد بالا برگرفته از الگوی لوله و فیلتر[^pipe and filter pattern] است. می‌توان دریافت که هر بخش وظیفه مخصوص به خودش را دارد. خروجی هر قسمت نیز به عنوان ورودی قسمت بعدی مورد استفاده قرار می‌گیرد. در شکل زیر برخی از نتایج رویکرد پیشنهادی نمایش داده شده‌اند:
![متن‌های پیدا شده](http://upload7.ir/imgs/2014-11/36232962824142593289.jpg)

# آزمایش‌ها

# کارهای آینده

# مراجع
[1] J. Liang, D. Doermann, H. Li, "Camera-based Analysis of Text and Documents: a Survey," *International Journal of Document Analysis and Recognition (IJDAR)*, vol. 7, no. 2-3, pp. 84-104, 2005.
[2] K. Jung,  K. I. Kim,  A. K. Jain, "Text Information Extraction in Images and Video: a Survey," *Pattern Recognition, Elsevier*, vol. 37, no.5, pp. 977–997, 2004.
[3] C. Yao, X. Bai, W. Liu, Y. Ma and Z. Tu. "Detecting Texts of Arbitrary Orientations in Natural Images," *IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012*, Providence, RI, pp. 1083-1090.
[4] B. Epshtein, E. Ofek, Y. Wexler, "Detecting Text in Natural Scenes with Stroke Width Transform," *IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010*, San Francisco, CA, pp. 2963-2970.
[5] S. M. Lucas et al., "ICDAR 2003 Robust Reading Competitions: Entries, Results, and Future Directions," *International Journal of Document Analysis and Recognition (IJDAR)*, vol. 7, no. 2-3, pp. 105-122, 2005.
[6] S. M. Lucas, A. Panaretos, L. Sosa, A. Tang, S. Wong, R. Young, "ICDAR 2003 Robust Reading Competitions", * Proceedings of 7th International Conference on Document Analysis and Recognition (ICDAR), 2003*, Edinburgh, UK, pp. 682.
[7] S. M. Lucas, "ICDAR 2005 Text Locating Competition Results," *Proceedings of 8th International Conference on Document Analysis and Recognition (ICDAR), 2005*, vol. 1, pp. 80-84.
[8] D. Karatzas, S. R. Mestre, J. Mas, F. Nourbakhsh, P.P Roy, "ICDAR 2011 Robust Reading Competition Challenge 1: Reading Text in Born-Digital Images (Web and Email)," *International Conference on Document Analysis and Recognition (ICDAR), 2011*, Beijing, pp. 1485-1490.
[9] A. Shahab, F. Shafait, A. Dengel, "ICDAR 2011 Robust Reading Competition Challenge 2: Reading Text in Scene Images," *International Conference on Document Analysis and Recognition (ICDAR), 2011*, Beijing, pp. 1491-1496.
[10] D.  Karatzas et al.,  "ICDAR 2013 Robust Reading Competition," *12th International Conference on Document Analysis and Recognition (ICDAR), 2013*, Washington, DC, pp. 1484-1493.	
[11] YF. Pan, X. Hou, CL. Liu, "A Hybrid Approach to Detect and Localize Texts in Natural Scene Images," *IEEE Transactions on Image Processing*, vol. 20, no. 3, pp. 800-813, 2011.
[12] C. Jung,  Q. Liub,  J. Kim, "A Stroke Filter and Its Application to Text Localization," *Pattern Recognition Letters, Elsevier*, vol. 30, no. 2, pp. 114–122, 2009.4]. فرض کنید در تصویری عبارت bank به چشم می‌خورد. می‌توان حدس زد که این تصویر مربوط به ورودی یک بانک است. بررسی این مورد از حوزۀ این تحقیق خارج بوده و تنها برای بیان انگیزه‌های مطرح برای تشخیص متن ذکر شده‌است.

# کارهای مرتبط
جانگ و همکارانش [4]، معماری کلی برای سامانه‌های استخراج اطلاعات متن[^text information extraction] به اختصار TIE ارائه کرده‌اند. این سامانه در شکل زیر [4-5] نمایش داده شده است:
![معماری پیشنهادی برای TIE](http://upload7.ir/imgs/2014-12/16004009802838237574.jpg)

به طور کلی این معماری برگرفته از الگوی لوله و فیلتر[^pipe and filter pattern] است. چهار مرحله اصلی آن عبارتند از:

+ تشخیص موجود بودن متن[^text detection] در تصویر
+ پیدا کردن مکان متن[^ text localization] در تصویر
+ استخراج متن و بهبود کیفیت آن[^text extraction and enhancement]
+ بازشناسی نویسه‌های[^characters recognition] متن

از میان مراحل بالا، دو مرحلۀ مرزبندی شده در شکل بالا یعنی تشخیص موجود بودن متن و پیدا کردن مکان آن در تصویر، در کارایی سامانه‌های TIE تاثیر بسزایی دارند[5]. لازم به ذکر است در این پژوهش هدف پیدا کردن مکان متن در تصویر است. در ادامه به اختصار به معرفی این دو مرحله می‌پردازیم. همچنین کارهای مرتبط با این پژوهش در بررسی مرحلۀ دوم ذکر خواهند شد.

**تشخیص متن**: در این مرحله، اطلاعات قبلی[^prior information] در مورد وجود داشتن متن در تصویر در اختیار نیست. در واقع وجود داشتن یا نداشتن متن در تصویر باید تشخیص داده شود[4]. این مرحله از حیطۀ کار این پژوهش خارج فرض می‌شود. فرض ما بر این است که تمامی تصاویر مجموعه دادگان دارای متن هستند. 
به نظر جانگ و همکارانش [4] محققان توجه زیادی به این مرحله نداشته‌اند. دلیل آن را می‌توان در حوزۀ کاربرد سامانه‌های TIE یافت. معمولا از این سامانه‌ها برای بازشناسی متن در تصاویری استفاده می‌کنیم که از وجود داشتن متن در آن‌ها اطمینان داریم. البته زمانی که هدف بازشناسی متن در ویدئو است، این مرحله اهمیت بسیاری پیدا می‌کند.

**پیدا کردن مکان متن**: روش‌های موجود پیدا کردن متن را می‌توان تقریبا به دو گروه اصلی کرد[3-4]. مبتنی بر بافت[^texture-based] و مبتنی بر ناحیه[^region-based].

+ روش‌ مبتنی بر بافت: این روش‌ها با تحلیل بافت عکس، متن موجود در آن را پیدا می‌کنند. در اینجا متن به صورت یک بافت خاص مدنظر قرار می‌گیرد و از ویژگی‌های آن استفاده می‌شود. به طور کلی با استفاده از فیلترها و برخی تبدیل‌ها مانند تبدیل موجک[^wavelet]، بردارهای ویژگی از عکس بدست می‌آیند. این بردارها ممکن است به ماشین یادگیری یا رده‌بند ارائه شوند و یا از روش‌های دیگری برای پیدا کردن مکان متن استفاده شود.
+ روش  مبتنی بر ناحیه: در این روش‌ها با استفاده از  تشخیص لبه و خوشه‌بندی رنگی[^color clustering] مکان‌های کاندید برای حضور متن پیدا می‌شوند. برای پیدا کردن نویسه‌ها از روش مولفه‌های همبند[^connected component] استفاده می‌شود. نواحی بدون متن با استفاده از قواعد ابتکاری[^heuristic rules] حذف می‌شوند.

دو گروه بالا تقسیم‌بندی کلی برای روش‌های پیدا کردن متن ارائه می‌دهند. بسیاری از روش‌ها ترکیبی[^hybrid] از دو روش بالا هستند. همچنین محققان به این نتیجه رسیده‌اند که استفاده از برخی از تبدیل‌های مورد استفاده در سیگنال‌های گسسته در زمان می‌تواند به فرآیند تشخیص متن بسیار کمک کند. برخی از این تبدیل‌ها برای ایجاد بردار ویژگی‌ها استفاده می‌شوند و برخی از آن‌ها نیز برای حذف محتوای بدون متن کاربرد دارند.

اپشتاین و همکارانش [1] از SWT [^stroke width transform] برای استخراج ویژگی‌ از عکس استفاده کرده‌اند. ویژگی‌های استخراج شده با این تبدیل با استفاده از روشی مبتنی بر مولفه‌های همبند (CC)، تبدیل به حروف شده‌اند. سپس حروف تبدیل به خطوط شده و از آن‌ها کلمات بدست آمده‌اند. فلوچارت مراحل بیان شده را به صورت کامل در شکل زیر مشاهده می‌کنید[1]:
![فلوچارت الگوریتم پیشنهادی اپشتاین](http://upload7.ir/imgs/2014-12/49052051722599089459.jpg)

یائو و همکارانش [3] رویکرد جدیدی را برای پیدا کردن متن ارائه کرده‌اند. این رویکرد برای پیدا کردن متن با جهت‌های دلخواه مناسب است. چهار مرحلۀ اصلی آن را همراه با جزئیات در شکل زیر مشاهده می‌کنید:
![مراحل رویکرد پیشنهادی](http://upload7.ir/imgs/2014-11/11935976296473882706.jpg)

رویکرد بالا برگرفته از الگوی لوله و فیلتر است. می‌توان دریافت که هر بخش وظیفه مخصوص به خودش را دارد. خروجی هر قسمت نیز به عنوان ورودی قسمت بعدی مورد استفاده قرار می‌گیرد. در شکل زیر برخی از نتایج رویکرد پیشنهادی نمایش داده شده‌اند:
![متن‌های پیدا شده](http://upload7.ir/imgs/2014-11/36232962824142593289.jpg)

پان و همکارانش [5] روشی ترکیبی را ارائه کرده‌اند. این روش دارای سه مرحله اصلی پیش‌پردازش، تحلیل مولفه همبند و گروه‌بندی متن است. در اینجا استخراج ویژگی‌ها با در نظر گرفتن بافت تصویر صورت می‌گیرد. سپس با بدست آوردن مولفه‌های همبند و استفاده از روش‌های ابتکاری متن بدست می‌آید. در فلوچارت زیر مراحل سامانه پیشنهادی را مشاهده می‌کنید[5]:
![فلوچارت سیستم پیشنهادی پان](http://upload7.ir/imgs/2014-12/25407509101622661269.jpg)

چن و همکارانش [6] روشی را بر اساس استخراج نواحی کاندید، هرس آن‌ها و گروه‌بندی ارائه کرده‌اند. در این روش ابتدا نواحی کاندید برای وجود داشتن متن بدست می‌آیند. سپس با اعمال دو فیلتر مختلف (فیلتر بر اساس مولفه‌های همبند و فیلتر بر اساس SWT) نواحی بدون متن هرس شده و در انتها با تشکیل خطوط، کلمات بدست می‌آیند. در فلوچارت زیر مراحل به شکل کامل ذکر شده‌اند:
![مراحل سیستم پیشنهادی چن](http://upload7.ir/imgs/2014-12/95209902842303359159.jpg)

# آزمایش‌ها

# کارهای آینده

# مراجع
[1] B. Epshtein, E. Ofek, Y. Wexler, "Detecting Text in Natural Scenes with Stroke Width Transform," *IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010*, San Francisco, CA, pp. 2963-2970.
[2] J. Liang, D. Doermann, H. Li, "Camera-based Analysis of Text and Documents: a Survey," *International Journal of Document Analysis and Recognition (IJDAR)*, vol. 7, no. 2-3, pp. 84-104, 2005.
[3] C. Yao, X. Bai, W. Liu, Y. Ma and Z. Tu. "Detecting Texts of Arbitrary Orientations in Natural Images," *IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012*, Providence, RI, pp. 1083-1090.
[4] K. Jung,  K. I. Kim,  A. K. Jain, "Text Information Extraction in Images and Video: a Survey," *Pattern Recognition, Elsevier*, vol. 37, no.5, pp. 977–997, 2004.
[5] YF. Pan, X. Hou, CL. Liu, "A Hybrid Approach to Detect and Localize Texts in Natural Scene Images," *IEEE Transactions on Image Processing*, vol. 20, no. 3, pp. 800-813, 2011.
[6] H.Chen et al., "Robust text detection in natural images with edge-enhanced Maximally Stable Extremal Regions," *18th IEEE International Conference on Image Processing (ICIP), 2011*, Brussels, pp. 2609-2612.
[7] S. M. Lucas et al., "ICDAR 2003 Robust Reading Competitions: Entries, Results, and Future Directions," *International Journal of Document Analysis and Recognition (IJDAR)*, vol. 7, no. 2-3, pp. 105-122, 2005.
[8] S. M. Lucas, A. Panaretos, L. Sosa, A. Tang, S. Wong, R. Young, "ICDAR 2003 Robust Reading Competitions", * Proceedings of 7th International Conference on Document Analysis and Recognition (ICDAR), 2003*, Edinburgh, UK, pp. 682.
[9] S. M. Lucas, "ICDAR 2005 Text Locating Competition Results," *Proceedings of 8th International Conference on Document Analysis and Recognition (ICDAR), 2005*, vol. 1, pp. 80-84.
[10] D. Karatzas, S. R. Mestre, J. Mas, F. Nourbakhsh, P.P Roy, "ICDAR 2011 Robust Reading Competition Challenge 1: Reading Text in Born-Digital Images (Web and Email)," *International Conference on Document Analysis and Recognition (ICDAR), 2011*, Beijing, pp. 1485-1490.
[11] A. Shahab, F. Shafait, A. Dengel, "ICDAR 2011 Robust Reading Competition Challenge 2: Reading Text in Scene Images," *International Conference on Document Analysis and Recognition (ICDAR), 2011*, Beijing, pp. 1491-1496.
[12] D.  Karatzas et al.,  "ICDAR 2013 Robust Reading Competition," *12th International Conference on Document Analysis and Recognition (ICDAR), 2013*, Washington, DC, pp. 1484-1493.	

# پیوندهای مفید
+ [Stroke Width Transform, Implementation](http://libccv.org/doc/doc-swt/)
+ [Dataset: MSRA-TD500][TD500]
+ [The Street View Text Dataset](http://www.iapr-tc11.org/mediawiki/index.php/The_Street_View_Text_Dataset)
+ [ICDAR 2003 Robust Reading Competitions](http://www.iapr-tc11.org/mediawiki/index.php/ICDAR_2003_Robust_Reading_Competitions)

[TD500]:http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_(MSRA-TD500)