در سامانههای پیدا کردن متن در تصویر، هدف آن است که مکان متن موجود در تصویر را مشخص کنیم. برای مثال به تصاویر زیر توجه کنید که چگونه مکان متون موجود در آنها مشخص شده است:

کاربرد اصلی این مسئله به عنوان یک پیش پردازش قبل از تبدیل تصویر به نوشتار یا همان OCR است.
این پروژه توسط یک بنگاه تجاری تعریف شده است.
۱. مقدمه
امروزه دسترسی همگان به دوربینهای دیجیتال ارزان قیمت، سبب ایجاد حجم عظیمی از تصاویر شده است. دستیابی به اطلاعات سودمند از این حجم عظیم داده، نیازمند پردازشهای دقیق و با کارایی مناسب است. یکی از این پردازشها، تشخیص متن در تصویر است. پیدا کردن محل متن در تصویر یکی از مراحل اصلی فرآیند تبدیل تصویر به نوشتار است.
تبدیل تصویر به نوشتار سابقهای طولانی دارد. در این روش به شکل سنتی، صفحات پویش1شده بررسی و متن از آنها استخراج میشود. تقریباً در تمام موارد، متون به صورت افقی بوده و پسزمینۀ آنها سفید است.
آنچه که در تبدیل تصویر به نوشتار رخ میدهد؛ با پیدا کردن متن در تصویر تفاوت دارد. در تبدیل تصویر به نوشتار هدف یافتن نویسههای2 استفاده شده در متن است؛ اما در پیدا کردن متن هدف یافتن محل متن در تصویر است.
همانگونه که مشخص است، امروزه پیدا کردن محل متن به عنوان پیشپردازش اصلی تبدیل تصویر به نوشتار، مورد استفاده قرار میگیرد. بررسیها بیانگر آن است که کارایی تبدیل تصویر به نوشتار وابستگی بسیاری به کارایی روش پیدا کردن متن در تصویر دارد[1]. این موضوع در بررسی تصاویر مناظر طبیعی3 بسیار محسوستر است.
در روشهای سنتی محل متن توسط کاربر به صورت دستی مشخص میشود. امروزه به دلیل حجم عظیم دادهای که برای داده کاوی مورد استفاده قرار میگیرند؛ این روش کارایی خود را از دست داده است.
در گذشته مشکلات کمتری برای پیدا کردن متن وجود داشت. در اکثر موارد تصاویر مورد بررسی، پسزمینۀ سفید داشتند. جهت متن4 نیز تقریبا افقی بود. این موارد از پیچیدگی مسئله کاسته و کار را بسیار سادهتر میکند. ابزارهای امروزی برای بررسی این قسم متون کارایی مناسبی دارند و تقریبا اشتباهات آنها بسیار کم و قابل چشمپوشی است. پیشفرض اکثر این ابزارها استفاده از تصاویر با تفکیکپذیری بالا5 و تقریباً سیاه و سفید (متون سیاه و پسزمینه سفید) است. البته برخی از آنها وجود عکس، نمودار و سایر خطوط را نیز تشخیص میدهند.
تصاویری که افراد از مناظر، اماکن و متون تهیه میکنند؛ این پیشفرضها را ندارد. در ادامه به برخی از مشکلات پیدا کردن متن در این قسم تصاویر اشاره شده است[2].
مشکلات اصلی تصاویر مورد بررسی:
کیفیت پایین: یکی از اصلیترین مشکلاتی که برای پیدا کردن متن در تصویر با آن روبرو هستیم. تصاویری که با دوربینهای معمولی ثبت میگردند؛ قطعاً کیفیت پویشگرها6 را نخواهند داشت.
نورپردازی ناهموار7 : میزان نور ممکن است بسیار کم یا بسیار زیاد باشد. امکان تفاوت میزان نور در بخشهای مختلف یک تصویر به دلیل وجود سایه و بازتاب نور نیز وجود دارد. در صورت استفاده از نور مصنوعی مانند فلاش بخشهایی از تصویر روشن و سایر بخشها دارای روشنایی کمتر هستند.
سطوح غیرمسطح8 : امکان دارد متن مسطح نبوده و دارای عمق باشد. همچنین ممکن است بخشی از متن در یک سطح و بخشی از آن در سطح دیگری باشد. حالتهای دیگری نیز میتوان برای متن ذکر نمود. به شکل کلی نمیتوان پیشفرض مشخصی را مدنظر گرفت.
پسزمینههای پیچیده9 : وجود پسزمینۀ پیچیده از دو جهت میتواند ایجاد مشکل نماید. اول آنکه برخی از اشیا که دارای ساختار منظم و یا بافت خاصی هستند (مانند درها، پنجرهها، خطوط خیابان، برگ درختان و غیره [3]) به اشتباه متن شناسایی میگردند. دوم آنکه زمانی که پسزمینۀ متن تصویری پیچیده است نمیتوان لبههای10 متن را به درستی مشخص نمود.
جهت متن: یکی دیگر از مشکلات، جهت متن در تصویر است. هیچ دلیلی برای افقی بودن متن در تصاویر وجود ندارد. این موضوع با مسطح نبودن متن متفاوت است. با فرض مسطح بودن متن، امکان دارد متن جهت افقی نداشته و نسبت به افق دارای زاویه باشد.
در شکل زیر برخی از مشکلات ذکرشده را میتوانید مشاهده کنید[4]:

موارد ذکر شده در بالا مشکلات اصلی برای پیدا کردن متن در تصاویر است. مشکلات دیگری مانند تنوع در رسمالخط، فونت، رنگ و اندازه متون وجود دارد.
حال به بررسی اهمیت پیدا کردن و تشخیص متن در تصویر میپردازیم. میتوان این موضوع را با طرح سوالی مورد بررسی قرار داد. چرا با این سطح از پیچیدگی به دنبال پیدا کردن و تشخیص متن در تصویر هستیم؟ این کار میتواند سببب بهبود روشهای مورد استفاده در ابزارهای نویسهخوان نوری11 شود. با استفاده از بهبود روشها میتوان عکسهای تهیه شده با دوربینهای معمولی را نیز به نوشتههای مناسب تبدیل نمود.
دلیل دیگر این کار استفاده از متن تصویر برای نمایه12کردن آن است[4]. فرض کنید در تصویری عبارت bank به چشم میخورد. میتوان حدس زد که این تصویر مربوط به ورودی یک بانک است. بررسی این مورد از حوزۀ این تحقیق خارج بوده و تنها برای بیان انگیزههای مطرح برای تشخیص متن ذکر شدهاست.
۲. کارهای مرتبط
جانگ و همکارانش [4]، معماری کلی برای سامانههای استخراج اطلاعات متن13 به اختصار TIE ارائه کردهاند. این سامانه در شکل زیر [4-5] نمایش داده شده است:

به طور کلی این معماری برگرفته از الگوی لوله و فیلتر14 است. چهار مرحله اصلی آن عبارتند از:
تشخیص موجود بودن متن15 در تصویر
پیدا کردن مکان متن16 در تصویر
استخراج متن و بهبود کیفیت آن17
بازشناسی نویسههای18 متن
از میان مراحل بالا، دو مرحلۀ مرزبندی شده در شکل بالا یعنی تشخیص موجود بودن متن و پیدا کردن مکان آن در تصویر، در کارایی سامانههای TIE تاثیر بسزایی دارند[5]. لازم به ذکر است در این پژوهش هدف پیدا کردن مکان متن در تصویر است. در ادامه به اختصار به معرفی این دو مرحله میپردازیم. همچنین کارهای مرتبط با این پژوهش در بررسی مرحلۀ دوم ذکر خواهند شد.
تشخیص متن: در این مرحله، اطلاعات قبلی19 در مورد وجود داشتن متن در تصویر در اختیار نیست. در واقع وجود داشتن یا نداشتن متن در تصویر باید تشخیص داده شود[4]. این مرحله از حیطۀ کار این پژوهش خارج فرض میشود. فرض ما بر این است که تمامی تصاویر مجموعه دادگان دارای متن هستند.
به نظر جانگ و همکارانش [4] محققان توجه زیادی به این مرحله نداشتهاند. دلیل آن را میتوان در حوزۀ کاربرد سامانههای TIE یافت. معمولا از این سامانهها برای بازشناسی متن در تصاویری استفاده میکنیم که از وجود داشتن متن در آنها اطمینان داریم. البته زمانی که هدف بازشناسی متن در ویدئو است، این مرحله اهمیت بسیاری پیدا میکند.
پیدا کردن مکان متن: روشهای موجود پیدا کردن متن را میتوان تقریبا به دو گروه اصلی کرد[3-4]. مبتنی بر بافت20 و مبتنی بر ناحیه21.
روش مبتنی بر بافت: این روشها با تحلیل بافت عکس، متن موجود در آن را پیدا میکنند. در اینجا متن به صورت یک بافت خاص مدنظر قرار میگیرد و از ویژگیهای آن استفاده میشود. به طور کلی با استفاده از فیلترها و برخی تبدیلها مانند تبدیل موجک22، بردارهای ویژگی از عکس بدست میآیند. این بردارها ممکن است به ماشین یادگیری یا ردهبند ارائه شوند و یا از روشهای دیگری برای پیدا کردن مکان متن استفاده شود.
روش مبتنی بر ناحیه: در این روشها با استفاده از تشخیص لبه و خوشهبندی رنگی23 مکانهای کاندید برای حضور متن پیدا میشوند. برای پیدا کردن نویسهها از روش مولفههای همبند24 استفاده میشود. نواحی بدون متن با استفاده از قواعد ابتکاری25 حذف میشوند.
دو گروه بالا تقسیمبندی کلی برای روشهای پیدا کردن متن ارائه میدهند. بسیاری از روشها ترکیبی26 از دو روش بالا هستند. همچنین محققان به این نتیجه رسیدهاند که استفاده از برخی از تبدیلهای مورد استفاده در سیگنالهای گسسته در زمان میتواند به فرآیند تشخیص متن بسیار کمک کند. برخی از این تبدیلها برای ایجاد بردار ویژگیها استفاده میشوند و برخی از آنها نیز برای حذف محتوای بدون متن کاربرد دارند.
اپشتاین و همکارانش [1] از SWT 27 برای استخراج ویژگی از عکس استفاده کردهاند. ویژگیهای استخراج شده با این تبدیل با استفاده از روشی مبتنی بر مولفههای همبند (CC)، تبدیل به حروف شدهاند. سپس حروف تبدیل به خطوط شده و از آنها کلمات بدست آمدهاند. فلوچارت مراحل بیان شده را به صورت کامل در شکل زیر مشاهده میکنید[1]:

یائو و همکارانش [3] رویکرد جدیدی را برای پیدا کردن متن ارائه کردهاند. این رویکرد برای پیدا کردن متن با جهتهای دلخواه مناسب است. چهار مرحلۀ اصلی آن را همراه با جزئیات در شکل زیر مشاهده میکنید:

رویکرد بالا برگرفته از الگوی لوله و فیلتر است. میتوان دریافت که هر بخش وظیفه مخصوص به خودش را دارد. خروجی هر قسمت نیز به عنوان ورودی قسمت بعدی مورد استفاده قرار میگیرد. در شکل زیر برخی از نتایج رویکرد پیشنهادی نمایش داده شدهاند:

پان و همکارانش [5] روشی ترکیبی را ارائه کردهاند. این روش دارای سه مرحله اصلی پیشپردازش، تحلیل مولفه همبند و گروهبندی متن است. در اینجا استخراج ویژگیها با در نظر گرفتن بافت تصویر صورت میگیرد. سپس با بدست آوردن مولفههای همبند و استفاده از روشهای ابتکاری متن بدست میآید. در فلوچارت زیر مراحل سامانه پیشنهادی را مشاهده میکنید[5]:

چن و همکارانش [6] روشی را بر اساس استخراج نواحی کاندید، هرس آنها و گروهبندی ارائه کردهاند. در این روش ابتدا نواحی کاندید برای وجود داشتن متن بدست میآیند. سپس با اعمال دو فیلتر مختلف (فیلتر بر اساس مولفههای همبند و فیلتر بر اساس SWT) نواحی بدون متن هرس شده و در انتها با تشکیل خطوط، کلمات بدست میآیند. در فلوچارت زیر مراحل به شکل کامل ذکر شدهاند:

۳. آزمایشها
۴. کارهای آینده
۵. مراجع
[1] B. Epshtein, E. Ofek, Y. Wexler, "Detecting Text in Natural Scenes with Stroke Width Transform," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010, San Francisco, CA, pp. 2963-2970.
[2] J. Liang, D. Doermann, H. Li, "Camera-based Analysis of Text and Documents: a Survey," International Journal of Document Analysis and Recognition (IJDAR), vol. 7, no. 2-3, pp. 84-104, 2005.
[3] C. Yao, X. Bai, W. Liu, Y. Ma and Z. Tu. "Detecting Texts of Arbitrary Orientations in Natural Images," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012, Providence, RI, pp. 1083-1090.
[4] K. Jung, K. I. Kim, A. K. Jain, "Text Information Extraction in Images and Video: a Survey," Pattern Recognition, Elsevier, vol. 37, no.5, pp. 977–997, 2004.
[5] YF. Pan, X. Hou, CL. Liu, "A Hybrid Approach to Detect and Localize Texts in Natural Scene Images," IEEE Transactions on Image Processing, vol. 20, no. 3, pp. 800-813, 2011.
[6] H.Chen et al., "Robust text detection in natural images with edge-enhanced Maximally Stable Extremal Regions," 18th IEEE International Conference on Image Processing (ICIP), 2011, Brussels, pp. 2609-2612.
[7] S. M. Lucas et al., "ICDAR 2003 Robust Reading Competitions: Entries, Results, and Future Directions," International Journal of Document Analysis and Recognition (IJDAR), vol. 7, no. 2-3, pp. 105-122, 2005.
[8] S. M. Lucas, A. Panaretos, L. Sosa, A. Tang, S. Wong, R. Young, "ICDAR 2003 Robust Reading Competitions", Proceedings of 7th International Conference on Document Analysis and Recognition (ICDAR), 2003, Edinburgh, UK, pp. 682.
[9] S. M. Lucas, "ICDAR 2005 Text Locating Competition Results," Proceedings of 8th International Conference on Document Analysis and Recognition (ICDAR), 2005, vol. 1, pp. 80-84.
[10] D. Karatzas, S. R. Mestre, J. Mas, F. Nourbakhsh, P.P Roy, "ICDAR 2011 Robust Reading Competition Challenge 1: Reading Text in Born-Digital Images (Web and Email)," International Conference on Document Analysis and Recognition (ICDAR), 2011, Beijing, pp. 1485-1490.
[11] A. Shahab, F. Shafait, A. Dengel, "ICDAR 2011 Robust Reading Competition Challenge 2: Reading Text in Scene Images," International Conference on Document Analysis and Recognition (ICDAR), 2011, Beijing, pp. 1491-1496.
[12] D. Karatzas et al., "ICDAR 2013 Robust Reading Competition," 12th International Conference on Document Analysis and Recognition (ICDAR), 2013, Washington, DC, pp. 1484-1493.
۶. پیوندهای مفید
scan
characters
images of natural scenes
text orientation
high resolution
scanner
uneven lighting
nonplaner surfaces
complex backgrounds
edges
optical character recognition
index
text information extraction
pipe and filter pattern
text detection
text localization
text extraction and enhancement
characters recognition
prior information
texture-based
region-based
wavelet
color clustering
connected component
heuristic rules
hybrid
stroke width transform