در سامانههای پیدا کردن متن در تصویر، هدف آن است که مکان متن موجود در تصویر را مشخص کنیم. برای مثال به تصاویر زیر توجه کنید که چگونه مکان متون موجود در آنها مشخص شده است:
کاربرد اصلی این مسئله به عنوان یک پیش پردازش قبل از تبدیل تصویر به نوشتار یا همان OCR است.
این پروژه توسط یک بنگاه تجاری تعریف شده است.
۱. مقدمه
امروزه دسترسی همگان به دوربینهای دیجیتال ارزان قیمت، سبب ایجاد حجم عظیمی از تصاویر شده است. دستیابی به اطلاعات سودمند از این حجم عظیم داده، نیازمند پردازشهای دقیق و با کارایی مناسب است. یکی از این پردازشها، تشخیص متن در تصویر است. پیدا کردن محل متن در تصویر یکی از مراحل اصلی فرآیند تبدیل تصویر به نوشتار است.
تبدیل تصویر به نوشتار سابقهای طولانی دارد. در این روش به شکل سنتی، صفحات پویش1شده بررسی و متن از آنها استخراج میشود. تقریباً در تمام موارد، متون به صورت افقی بوده و پسزمینۀ آنها سفید است.
آنچه که در تبدیل تصویر به نوشتار رخ میدهد؛ با پیدا کردن متن در تصویر تفاوت دارد. در تبدیل تصویر به نوشتار هدف یافتن نویسههای2 استفاده شده در متن است؛ اما در پیدا کردن متن هدف یافتن محل متن در تصویر است.
همانگونه که مشخص است، امروزه پیدا کردن محل متن به عنوان پیشپردازش اصلی تبدیل تصویر به نوشتار، مورد استفاده قرار میگیرد. بررسیها بیانگر آن است که کارایی تبدیل تصویر به نوشتار وابستگی بسیاری به کارایی روش پیدا کردن متن در تصویر دارد[4]. این موضوع در بررسی تصاویر مناظر طبیعی3 بسیار محسوستر است.
در روشهای سنتی محل متن توسط کاربر به صورت دستی مشخص میشود. امروزه به دلیل حجم عظیم دادهای که برای داده کاوی مورد استفاده قرار میگیرند؛ این روش کارایی خود را از دست داده است.
در گذشته مشکلات کمتری برای پیدا کردن متن وجود داشت. در اکثر موارد تصاویر مورد بررسی، پسزمینۀ سفید داشتند. جهت متن4 نیز تقریبا افقی بود. این موارد از پیچیدگی مسئله کاسته و کار را بسیار سادهتر میکند. ابزارهای امروزی برای بررسی این قسم متون کارایی مناسبی دارند و تقریبا اشتباهات آنها بسیار کم و قابل چشمپوشی است. پیشفرض اکثر این ابزارها استفاده از تصاویر با کیفیت بالا5 و تقریباً سیاه و سفید (متون سیاه و پسزمینه سفید) است. البته برخی از آنها وجود عکس، نمودار و سایر خطوط را نیز تشخیص میدهند.
تصاویری که افراد از مناظر، اماکن و متون تهیه میکنند؛ این پیشفرضها را ندارد. در ادامه به برخی از مشکلات پیدا کردن متن در این قسم تصاویر اشاره شده است[1].
مشکلات اصلی تصاویر مورد بررسی:
کیفیت پایین: یکی از اصلیترین مشکلاتی که برای پیدا کردن متن در تصویر با آن روبرو هستیم. تصاویری که با دوربینهای معمولی ثبت میگردند؛ قطعاً کیفیت پویشگرها6 را نخواهند داشت.
نورپردازی نامناسب7 : میزان نور ممکن است بسیار کم یا بسیار زیاد باشد. امکان تفاوت میزان نور در بخشهای مختلف یک تصویر به دلیل وجود سایه و بازتاب نور نیز وجود دارد. در صورت استفاده از نور مصنوعی مانند فلاش بخشهایی از تصویر روشن و سایر بخشها دارای روشنایی کمتر هستند.
سطوح غیرمسطح8 : امکان دارد متن مسطح نبوده و دارای عمق باشد. همچنین ممکن است بخشی از متن در یک سطح و بخشی از آن در سطح دیگری باشد. حالتهای دیگری نیز میتوان برای متن ذکر نمود. به شکل کلی نمیتوان پیشفرض مشخصی را مدنظر گرفت.
پسزمینههای پیچیده9 : وجود پسزمینۀ پیچیده از دو جهت میتواند ایجاد مشکل نماید. اول آنکه برخی از اشیا که دارای ساختار منظم و یا بافت خاصی هستند (مانند درها، پنجرهها، خطوط خیابان، برگ درختان و غیره [3]) به اشتباه متن شناسایی میگردند. دوم آنکه زمانی که پسزمینۀ متن تصویری پیچیده است نمیتوان مرزهای10 متن را به درستی مشخص نمود.
جهت متن: یکی دیگر از مشکلات، جهت متن در تصویر است. هیچ دلیلی برای افقی بودن متن در تصاویر وجود ندارد. این موضوع با مسطح نبودن متن متفاوت است. با فرض مسطح بودن متن، امکان دارد متن جهت افقی نداشته و نسبت به افق دارای زاویه باشد.
در شکل زیر برخی از مشکلات ذکرشده را میتوانید مشاهده کنید[2]:
موارد ذکر شده در بالا مشکلات اصلی برای پیدا کردن متن در تصاویر است. مشکلات دیگری مانند تنوع در رسمالخط، فونت، رنگ و اندازه متون وجود دارد.
حال به بررسی اهمیت پیدا کردن و تشخیص متن در تصویر میپردازیم. میتوان این موضوع را با طرح سوالی مورد بررسی قرار داد. چرا با این سطح از پیچیدگی به دنبال پیدا کردن و تشخیص متن در تصویر هستیم؟ این کار میتواند سببب بهبود روشهای مورد استفاده در ابزارهای نویسهخوان نوری11 شود. با استفاده از بهبود روشها میتوان عکسهای تهیه شده با دوربینهای معمولی را نیز به نوشتههای مناسب تبدیل نمود.
دلیل دیگر این کار استفاده از متن تصویر برای نمایه12کردن آن است[2]. فرض کنید در تصویری عبارت bank به چشم میخورد. میتوان حدس زد که این تصویر مربوط به ورودی یک بانک است. بررسی این مورد از حوزۀ این تحقیق خارج بوده و تنها برای بیان انگیزههای مطرح برای تشخیص متن ذکر شدهاست.
۲. کارهای مرتبط
یائو و همکارانش [3] رویکرد جدیدی را برای پیدا کردن متن ارائه کردهاند. این رویکرد برای پیدا کردن متن با جهتهای دلخواه مناسب است. چهار مرحلۀ اصلی آن را همراه با جزئیات در شکل زیر مشاهده میکنید:
رویکرد بالا برگرفته از الگوی لوله و فیلتر13 است. میتوان دریافت که هر بخش وظیفه مخصوص به خودش را دارد. خروجی هر قسمت نیز به عنوان ورودی قسمت بعدی مورد استفاده قرار میگیرد. در شکل زیر برخی از نتایج رویکرد پیشنهادی نمایش داده شدهاند:
۳. آزمایشها
۴. کارهای آینده
۵. مراجع
[1] J. Liang, D. Doermann, H. Li, "Camera-based Analysis of Text and Documents: a Survey," International Journal of Document Analysis and Recognition (IJDAR), vol. 7, no. 2-3, pp. 84-104, 2005.
[2] K. Jung, K. I. Kim, A. K. Jain, "Text Information Extraction in Images and Video: a Survey," Pattern Recognition, Elsevier, vol. 37, no.5, pp. 977–997, 2004.
[3] C. Yao, X. Bai, W. Liu, Y. Ma and Z. Tu. "Detecting Texts of Arbitrary Orientations in Natural Images," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012, Providence, RI, pp. 1083-1090.
[4] B. Epshtein, E. Ofek, Y. Wexler, "Detecting Text in Natural Scenes with Stroke Width Transform," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010, San Francisco, CA, pp. 2963-2970.
[5] S. M. Lucas et al., "ICDAR 2003 Robust Reading Competitions: Entries, Results, and Future Directions," International Journal of Document Analysis and Recognition (IJDAR), vol. 7, no. 2-3, pp. 105-122, 2005.
[6] S. M. Lucas, A. Panaretos, L. Sosa, A. Tang, S. Wong, R. Young, "ICDAR 2003 Robust Reading Competitions", Proceedings of 7th International Conference on Document Analysis and Recognition (ICDAR), 2003, Edinburgh, UK, pp. 682.
[7] S. M. Lucas, "ICDAR 2005 Text Locating Competition Results," Proceedings of 8th International Conference on Document Analysis and Recognition (ICDAR), 2005, vol. 1, pp. 80-84.
[8] D. Karatzas, S. R. Mestre, J. Mas, F. Nourbakhsh, P.P Roy, "ICDAR 2011 Robust Reading Competition Challenge 1: Reading Text in Born-Digital Images (Web and Email)," International Conference on Document Analysis and Recognition (ICDAR), 2011, Beijing, pp. 1485-1490.
[9] A. Shahab, F. Shafait, A. Dengel, "ICDAR 2011 Robust Reading Competition Challenge 2: Reading Text in Scene Images," International Conference on Document Analysis and Recognition (ICDAR), 2011, Beijing, pp. 1491-1496.
[10] D. Karatzas et al., "ICDAR 2013 Robust Reading Competition," 12th International Conference on Document Analysis and Recognition (ICDAR), 2013, Washington, DC, pp. 1484-1493.
[11] YF. Pan, X. Hou, CL. Liu, "A Hybrid Approach to Detect and Localize Texts in Natural Scene Images," IEEE Transactions on Image Processing, vol. 20, no. 3, pp. 800-813, 2011.
[12] C. Jung, Q. Liub, J. Kim, "A Stroke Filter and Its Application to Text Localization," Pattern Recognition Letters, Elsevier, vol. 30, no. 2, pp. 114–122, 2009.
۶. پیوندهای مفید
scan
characters
images of natural scenes
text orientation
high resolution
scanner
uneven lighting
nonplaner surfaces
complex backgrounds
edges
optical character recognition
index
pipe and filter pattern