در سامانه‌های پیدا کردن متن در تصویر، هدف آن است که مکان متن موجود در تصویر را مشخص کنیم. برای مثال به تصاویر زیر توجه کنید که چگونه مکان متون موجود در آن‌ها مشخص شده است:

نمونۀ تصاویر با مشخص شدن مکان متن

کاربرد اصلی این مسئله به عنوان یک پیش پردازش قبل از تبدیل تصویر به نوشتار یا همان OCR است.

  • این پروژه توسط یک بنگاه تجاری تعریف شده است.

۱. مقدمه

امروزه دسترسی همگان به دوربین‌های دیجیتال ارزان قیمت، سبب ایجاد حجم عظیمی از تصاویر شده‌ است. دستیابی به اطلاعات سودمند از این حجم عظیم داده، نیازمند پردازش‌های دقیق و با کارایی مناسب است. یکی از این پردازش‌ها، تشخیص متن در تصویر است. پیدا کردن محل متن در تصویر یکی از مراحل اصلی فرآیند تبدیل تصویر به نوشتار است.
تبدیل تصویر به نوشتار سابقه‌ای طولانی دارد. در این روش به شکل سنتی، صفحات پویش1شده بررسی و متن از آن‌ها استخراج می‌شود. تقریباً در تمام موارد، متون به صورت افقی بوده و پس‌زمینۀ آن‌ها سفید است.
آنچه که در تبدیل تصویر به نوشتار رخ می‌دهد؛ با پیدا کردن متن در تصویر تفاوت دارد. در تبدیل تصویر به نوشتار هدف یافتن نویسه‌های2 استفاده شده در متن است؛ اما در پیدا کردن متن هدف یافتن محل متن در تصویر است.
همان‌گونه که مشخص است، امروزه پیدا کردن محل متن به عنوان پیش‌پردازش اصلی تبدیل تصویر به نوشتار، مورد استفاده قرار می‌گیرد. بررسی‌ها بیانگر آن است که کارایی تبدیل تصویر به نوشتار وابستگی بسیاری به کارایی روش پیدا کردن متن در تصویر دارد[4]. این موضوع در بررسی تصاویر مناظر طبیعی3 بسیار محسوس‌تر است.
در روش‌های سنتی محل متن توسط کاربر به صورت دستی مشخص می‌شود. امروزه به دلیل حجم عظیم داده‌ای که برای داده کاوی مورد استفاده قرار می‌گیرند؛ این روش کارایی خود را از دست داده است.
در گذشته مشکلات کمتری برای پیدا کردن متن وجود داشت. در اکثر موارد تصاویر مورد بررسی، پس‌زمینۀ سفید داشتند. جهت متن4 نیز تقریبا افقی بود. این موارد از پیچیدگی مسئله کاسته و کار را بسیار ساده‌تر می‌کند. ابزارهای امروزی برای بررسی این قسم متون کارایی مناسبی دارند و تقریبا اشتباهات آن‌ها بسیار کم و قابل چشم‌پوشی است. پیش‌فرض اکثر این ابزارها استفاده از تصاویر با کیفیت بالا5 و تقریباً سیاه و سفید (متون سیاه و پس‌زمینه سفید) است. البته برخی از آن‌ها وجود عکس، نمودار و سایر خطوط را نیز تشخیص می‌دهند.
تصاویری که افراد از مناظر، اماکن و متون تهیه می‌کنند؛ این پیش‌فرض‌ها را ندارد. در ادامه به برخی از مشکلات پیدا کردن متن‌ در این قسم تصاویر اشاره شده است[1].

مشکلات اصلی تصاویر مورد بررسی:

  • کیفیت پایین: یکی از اصلی‌ترین مشکلاتی که برای پیدا کردن متن در تصویر با آن‌ روبرو هستیم. تصاویری که با دوربین‌های معمولی ثبت می‌گردند؛ قطعاً کیفیت پویشگر‌ها6 را نخواهند داشت.

  • نورپردازی نامناسب7 : میزان نور ممکن است بسیار کم یا بسیار زیاد باشد. امکان تفاوت میزان نور در بخش‌های مختلف یک تصویر به دلیل وجود سایه و بازتاب نور نیز وجود دارد. در صورت استفاده از نور مصنوعی مانند فلاش بخش‌هایی از تصویر روشن و سایر بخش‌ها دارای روشنایی کم‌تر هستند.

  • سطوح غیرمسطح8 : امکان دارد متن مسطح نبوده و دارای عمق باشد. همچنین ممکن است بخشی از متن در یک سطح و بخشی از آن در سطح دیگری باشد. حالت‌های دیگری نیز می‌توان برای متن ذکر نمود. به شکل کلی نمی‌توان پیش‌فرض مشخصی را مدنظر گرفت.

  • پس‌زمینه‌های پیچیده9 : وجود پس‌زمینۀ پیچیده از دو جهت می‌تواند ایجاد مشکل نماید. اول آنکه برخی از اشیا که دارای ساختار منظم و یا بافت خاصی هستند (مانند درها، پنجره‌ها، خطوط خیابان، برگ درختان و غیره [3]) به اشتباه متن شناسایی می‌گردند. دوم آنکه زمانی که پس‌زمینۀ متن تصویری پیچیده است نمی‌توان مرزهای10 متن را به درستی مشخص نمود.

  • جهت متن: یکی دیگر از مشکلات، جهت متن در تصویر است. هیچ دلیلی برای افقی بودن متن در تصاویر وجود ندارد. این موضوع با مسطح نبودن متن متفاوت است. با فرض مسطح بودن متن، امکان دارد متن جهت افقی نداشته و نسبت به افق دارای زاویه باشد.

در شکل زیر برخی از مشکلات ذکرشده را می‌توانید مشاهده کنید[2]:

مشکلات پیدا کردن و تشخیص متن در تصویر

موارد ذکر شده در بالا مشکلات اصلی برای پیدا کردن متن در تصاویر است. مشکلات دیگری مانند تنوع در رسم‌الخط‌، فونت، رنگ و اندازه متون وجود دارد.
حال به بررسی اهمیت پیدا کردن و تشخیص متن در تصویر می‌پردازیم. می‌توان این موضوع را با طرح سوالی مورد بررسی قرار داد. چرا با این سطح از پیچیدگی به دنبال پیدا کردن و تشخیص متن در تصویر هستیم؟ این کار می‌تواند سببب بهبود روش‌های مورد استفاده در ابزارهای نویسه‌خوان نوری11 شود. با استفاده از بهبود روش‌ها می‌توان عکس‌های تهیه شده با دوربین‌های معمولی را نیز به نوشته‌های مناسب تبدیل نمود.
دلیل دیگر این کار استفاده از متن تصویر برای نمایه‌12کردن آن است[2]. فرض کنید در تصویری عبارت bank به چشم می‌خورد. می‌توان حدس زد که این تصویر مربوط به ورودی یک بانک است. بررسی این مورد از حوزۀ این تحقیق خارج بوده و تنها برای بیان انگیزه‌های مطرح برای تشخیص متن ذکر شده‌است.

۲. کارهای مرتبط

یائو و همکارانش [3] رویکرد جدیدی را برای پیدا کردن متن ارائه کرده‌اند. این رویکرد برای پیدا کردن متن با جهت‌های دلخواه مناسب است. چهار مرحلۀ اصلی آن را همراه با جزئیات در شکل زیر مشاهده می‌کنید:

مراحل رویکرد پیشنهادی

رویکرد بالا برگرفته از الگوی لوله و فیلتر13 است. می‌توان دریافت که هر بخش وظیفه مخصوص به خودش را دارد. خروجی هر قسمت نیز به عنوان ورودی قسمت بعدی مورد استفاده قرار می‌گیرد. در شکل زیر برخی از نتایج رویکرد پیشنهادی نمایش داده شده‌اند:

متن‌های پیدا شده

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

[1] J. Liang, D. Doermann, H. Li, "Camera-based Analysis of Text and Documents: a Survey," International Journal of Document Analysis and Recognition (IJDAR), vol. 7, no. 2-3, pp. 84-104, 2005.
[2] K. Jung, K. I. Kim, A. K. Jain, "Text Information Extraction in Images and Video: a Survey," Pattern Recognition, Elsevier, vol. 37, no.5, pp. 977–997, 2004.
[3] C. Yao, X. Bai, W. Liu, Y. Ma and Z. Tu. "Detecting Texts of Arbitrary Orientations in Natural Images," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012, Providence, RI, pp. 1083-1090.
[4] B. Epshtein, E. Ofek, Y. Wexler, "Detecting Text in Natural Scenes with Stroke Width Transform," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010, San Francisco, CA, pp. 2963-2970.
[5] S. M. Lucas et al., "ICDAR 2003 Robust Reading Competitions: Entries, Results, and Future Directions," International Journal of Document Analysis and Recognition (IJDAR), vol. 7, no. 2-3, pp. 105-122, 2005.
[6] S. M. Lucas, A. Panaretos, L. Sosa, A. Tang, S. Wong, R. Young, "ICDAR 2003 Robust Reading Competitions", Proceedings of 7th International Conference on Document Analysis and Recognition (ICDAR), 2003, Edinburgh, UK, pp. 682.
[7] S. M. Lucas, "ICDAR 2005 Text Locating Competition Results," Proceedings of 8th International Conference on Document Analysis and Recognition (ICDAR), 2005, vol. 1, pp. 80-84.
[8] D. Karatzas, S. R. Mestre, J. Mas, F. Nourbakhsh, P.P Roy, "ICDAR 2011 Robust Reading Competition Challenge 1: Reading Text in Born-Digital Images (Web and Email)," International Conference on Document Analysis and Recognition (ICDAR), 2011, Beijing, pp. 1485-1490.
[9] A. Shahab, F. Shafait, A. Dengel, "ICDAR 2011 Robust Reading Competition Challenge 2: Reading Text in Scene Images," International Conference on Document Analysis and Recognition (ICDAR), 2011, Beijing, pp. 1491-1496.
[10] D. Karatzas et al., "ICDAR 2013 Robust Reading Competition," 12th International Conference on Document Analysis and Recognition (ICDAR), 2013, Washington, DC, pp. 1484-1493.
[11] YF. Pan, X. Hou, CL. Liu, "A Hybrid Approach to Detect and Localize Texts in Natural Scene Images," IEEE Transactions on Image Processing, vol. 20, no. 3, pp. 800-813, 2011.
[12] C. Jung, Q. Liub, J. Kim, "A Stroke Filter and Its Application to Text Localization," Pattern Recognition Letters, Elsevier, vol. 30, no. 2, pp. 114–122, 2009.

۶. پیوندهای مفید


  1. scan

  2. characters

  3. images of natural scenes

  4. text orientation

  5. high resolution

  6. scanner

  7. uneven lighting

  8. nonplaner surfaces

  9. complex backgrounds

  10. edges

  11. optical character recognition

  12. index

  13. pipe and filter pattern

حسین فرقانی

هدف این فاز که شناخت کلی نسبت به موضوع و بررسی کارهای پیشین بود به خوبی انجام داده اید. فقط لازم است این مورد در ادامه اصلاح شود:
بهتر است برای resolution و uneven و edge به ترتیب معادل های تفکیک پذیری، ناهموار، و لبه به کار گرفته شود (مرز معادل boundary است).