در سامانه‌های پیدا کردن متن در تصویر، هدف آن است که مکان متن موجود در تصویر را مشخص کنیم. برای مثال به تصاویر زیر توجه کنید که چگونه مکان متون موجود در آن‌ها مشخص شده است:

کاربرد اصلی این مسئله به عنوان یک پیش پردازش قبل از تبدیل تصویر به نوشتار یا همان OCR است.

این پروژه توسط یک بنگاه تجاری تعریف شده است.

۱. مقدمه

امروزه دسترسی همگان به دوربین‌های دیجیتال ارزان قیمت، سبب ایجاد حجم عظیمی از تصاویر شده‌ است. دستیابی به اطلاعات سودمند از این حجم عظیم داده، نیازمند پردازش‌های دقیق و با کارایی مناسب است. یکی از این پردازش‌ها، تشخیص متن در تصویر است. پیدا کردن محل متن در تصویر یکی از مراحل اصلی فرآیند تبدیل تصویر به نوشتار است.
تبدیل تصویر به نوشتار سابقه‌ای طولانی دارد. در این روش به شکل سنتی، صفحات پویش¹شده بررسی و متن از آن‌ها استخراج می‌شود. تقریباً در تمام موارد، متون به صورت افقی بوده و پس‌زمینۀ آن‌ها سفید است.
آنچه که در تبدیل تصویر به نوشتار رخ می‌دهد؛ با پیدا کردن متن در تصویر تفاوت دارد. در تبدیل تصویر به نوشتار هدف یافتن نویسه‌های² استفاده شده در متن است؛ اما در پیدا کردن متن هدف یافتن محل متن در تصویر است.
همان‌گونه که مشخص است، امروزه پیدا کردن محل متن به عنوان پیش‌پردازش اصلی تبدیل تصویر به نوشتار، مورد استفاده قرار می‌گیرد. بررسی‌ها بیانگر آن است که کارایی تبدیل تصویر به نوشتار وابستگی بسیاری به کارایی روش پیدا کردن متن در تصویر دارد[1]. این موضوع در بررسی تصاویر مناظر طبیعی³ بسیار محسوس‌تر است.
در روش‌های سنتی محل متن توسط کاربر به صورت دستی مشخص می‌شود. امروزه به دلیل حجم عظیم داده‌ای که برای داده کاوی مورد استفاده قرار می‌گیرند؛ این روش کارایی خود را از دست داده است.
در گذشته مشکلات کمتری برای پیدا کردن متن وجود داشت. در اکثر موارد تصاویر مورد بررسی، پس‌زمینۀ سفید داشتند. جهت متن⁴ نیز تقریبا افقی بود. این موارد از پیچیدگی مسئله کاسته و کار را بسیار ساده‌تر می‌کند. ابزارهای امروزی برای بررسی این قسم متون کارایی مناسبی دارند و تقریبا اشتباهات آن‌ها بسیار کم و قابل چشم‌پوشی است. پیش‌فرض اکثر این ابزارها استفاده از تصاویر با تفکیک‌پذیری بالا⁵ و تقریباً سیاه و سفید (متون سیاه و پس‌زمینه سفید) است. البته برخی از آن‌ها وجود عکس، نمودار و سایر خطوط را نیز تشخیص می‌دهند.
تصاویری که افراد از مناظر، اماکن و متون تهیه می‌کنند؛ این پیش‌فرض‌ها را ندارد. در ادامه به برخی از مشکلات پیدا کردن متن‌ در این قسم تصاویر اشاره شده است[2].

مشکلات اصلی تصاویر مورد بررسی:

کیفیت پایین: یکی از اصلی‌ترین مشکلاتی که برای پیدا کردن متن در تصویر با آن‌ روبرو هستیم. تصاویری که با دوربین‌های معمولی ثبت می‌گردند؛ قطعاً کیفیت پویشگر‌ها⁶ را نخواهند داشت.
نورپردازی ناهموار⁷ : میزان نور ممکن است بسیار کم یا بسیار زیاد باشد. امکان تفاوت میزان نور در بخش‌های مختلف یک تصویر به دلیل وجود سایه و بازتاب نور نیز وجود دارد. در صورت استفاده از نور مصنوعی مانند فلاش بخش‌هایی از تصویر روشن و سایر بخش‌ها دارای روشنایی کم‌تر هستند.
سطوح غیرمسطح⁸ : امکان دارد متن مسطح نبوده و دارای عمق باشد. همچنین ممکن است بخشی از متن در یک سطح و بخشی از آن در سطح دیگری باشد. حالت‌های دیگری نیز می‌توان برای متن ذکر نمود. به شکل کلی نمی‌توان پیش‌فرض مشخصی را مدنظر گرفت.
پس‌زمینه‌های پیچیده⁹ : وجود پس‌زمینۀ پیچیده از دو جهت می‌تواند ایجاد مشکل نماید. اول آنکه برخی از اشیا که دارای ساختار منظم و یا بافت خاصی هستند (مانند درها، پنجره‌ها، خطوط خیابان، برگ درختان و غیره [3]) به اشتباه متن شناسایی می‌گردند. دوم آنکه زمانی که پس‌زمینۀ متن تصویری پیچیده است نمی‌توان لبه‌های¹⁰ متن را به درستی مشخص نمود.
جهت متن: یکی دیگر از مشکلات، جهت متن در تصویر است. هیچ دلیلی برای افقی بودن متن در تصاویر وجود ندارد. این موضوع با مسطح نبودن متن متفاوت است. با فرض مسطح بودن متن، امکان دارد متن جهت افقی نداشته و نسبت به افق دارای زاویه باشد.

در شکل زیر برخی از مشکلات ذکرشده را می‌توانید مشاهده کنید[4]:

موارد ذکر شده در بالا مشکلات اصلی برای پیدا کردن متن در تصاویر است. مشکلات دیگری مانند تنوع در رسم‌الخط‌، فونت، رنگ و اندازه متون وجود دارد.
حال به بررسی اهمیت پیدا کردن و تشخیص متن در تصویر می‌پردازیم. می‌توان این موضوع را با طرح سوالی مورد بررسی قرار داد. چرا با این سطح از پیچیدگی به دنبال پیدا کردن و تشخیص متن در تصویر هستیم؟ این کار می‌تواند سببب بهبود روش‌های مورد استفاده در ابزارهای نویسه‌خوان نوری¹¹ شود. با استفاده از بهبود روش‌ها می‌توان عکس‌های تهیه شده با دوربین‌های معمولی را نیز به نوشته‌های مناسب تبدیل نمود.
دلیل دیگر این کار استفاده از متن تصویر برای نمایه‌¹²کردن آن است[4]. فرض کنید در تصویری عبارت bank به چشم می‌خورد. می‌توان حدس زد که این تصویر مربوط به ورودی یک بانک است. بررسی این مورد از حوزۀ این تحقیق خارج بوده و تنها برای بیان انگیزه‌های مطرح برای تشخیص متن ذکر شده‌است.

۲. کارهای مرتبط

جانگ و همکارانش [4]، معماری کلی برای سامانه‌های استخراج اطلاعات متن¹³ به اختصار TIE ارائه کرده‌اند. این سامانه در شکل زیر [4-5] نمایش داده شده است:

به طور کلی این معماری برگرفته از الگوی لوله و فیلتر¹⁴ است. چهار مرحله اصلی آن عبارتند از:

تشخیص موجود بودن متن¹⁵ در تصویر
پیدا کردن مکان متن¹⁶ در تصویر
استخراج متن و بهبود کیفیت آن¹⁷
بازشناسی نویسه‌های¹⁸ متن

از میان مراحل بالا، دو مرحلۀ مرزبندی شده در شکل بالا یعنی تشخیص موجود بودن متن و پیدا کردن مکان آن در تصویر، در کارایی سامانه‌های TIE تاثیر بسزایی دارند[5]. لازم به ذکر است در این پژوهش هدف پیدا کردن مکان متن در تصویر است. در ادامه به اختصار به معرفی این دو مرحله می‌پردازیم. همچنین کارهای مرتبط با این پژوهش در بررسی مرحلۀ دوم ذکر خواهند شد.

تشخیص متن: در این مرحله، اطلاعات قبلی¹⁹ در مورد وجود داشتن متن در تصویر در اختیار نیست. در واقع وجود داشتن یا نداشتن متن در تصویر باید تشخیص داده شود[4]. این مرحله از حیطۀ کار این پژوهش خارج فرض می‌شود. فرض ما بر این است که تمامی تصاویر مجموعه دادگان دارای متن هستند.
به نظر جانگ و همکارانش [4] محققان توجه زیادی به این مرحله نداشته‌اند. دلیل آن را می‌توان در حوزۀ کاربرد سامانه‌های TIE یافت. معمولا از این سامانه‌ها برای بازشناسی متن در تصاویری استفاده می‌کنیم که از وجود داشتن متن در آن‌ها اطمینان داریم. البته زمانی که هدف بازشناسی متن در ویدئو است، این مرحله اهمیت بسیاری پیدا می‌کند.

پیدا کردن مکان متن: روش‌های موجود پیدا کردن متن را می‌توان تقریبا به دو گروه اصلی کرد[3-4]. مبتنی بر بافت²⁰ و مبتنی بر ناحیه²¹.

روش‌ مبتنی بر بافت: این روش‌ها با تحلیل بافت عکس، متن موجود در آن را پیدا می‌کنند. در اینجا متن به صورت یک بافت خاص مدنظر قرار می‌گیرد و از ویژگی‌های آن استفاده می‌شود. به طور کلی با استفاده از فیلترها و برخی تبدیل‌ها مانند تبدیل موجک²²، بردارهای ویژگی از عکس بدست می‌آیند. این بردارها ممکن است به ماشین یادگیری یا رده‌بند ارائه شوند و یا از روش‌های دیگری برای پیدا کردن مکان متن استفاده شود.
روش مبتنی بر ناحیه: در این روش‌ها با استفاده از تشخیص لبه و خوشه‌بندی رنگی²³ مکان‌های کاندید برای حضور متن پیدا می‌شوند. برای پیدا کردن نویسه‌ها از روش مولفه‌های همبند²⁴ استفاده می‌شود. نواحی بدون متن با استفاده از قواعد ابتکاری²⁵ حذف می‌شوند.

دو گروه بالا تقسیم‌بندی کلی برای روش‌های پیدا کردن متن ارائه می‌دهند. بسیاری از روش‌ها ترکیبی²⁶ از دو روش بالا هستند. همچنین محققان به این نتیجه رسیده‌اند که استفاده از برخی از تبدیل‌های مورد استفاده در سیگنال‌های گسسته در زمان می‌تواند به فرآیند تشخیص متن بسیار کمک کند. برخی از این تبدیل‌ها برای ایجاد بردار ویژگی‌ها استفاده می‌شوند و برخی از آن‌ها نیز برای حذف محتوای بدون متن کاربرد دارند.

اپشتاین و همکارانش [1] از SWT ²⁷ برای استخراج ویژگی‌ از عکس استفاده کرده‌اند. ویژگی‌های استخراج شده با این تبدیل با استفاده از روشی مبتنی بر مولفه‌های همبند (CC)، تبدیل به حروف شده‌اند. سپس حروف تبدیل به خطوط شده و از آن‌ها کلمات بدست آمده‌اند. فلوچارت مراحل بیان شده را به صورت کامل در شکل زیر مشاهده می‌کنید[1]:

یائو و همکارانش [3] رویکرد جدیدی را برای پیدا کردن متن ارائه کرده‌اند. این رویکرد برای پیدا کردن متن با جهت‌های دلخواه مناسب است. چهار مرحلۀ اصلی آن را همراه با جزئیات در شکل زیر مشاهده می‌کنید:

رویکرد بالا برگرفته از الگوی لوله و فیلتر است. می‌توان دریافت که هر بخش وظیفه مخصوص به خودش را دارد. خروجی هر قسمت نیز به عنوان ورودی قسمت بعدی مورد استفاده قرار می‌گیرد. در شکل زیر برخی از نتایج رویکرد پیشنهادی نمایش داده شده‌اند:

پان و همکارانش [5] روشی ترکیبی را ارائه کرده‌اند. این روش دارای سه مرحله اصلی پیش‌پردازش، تحلیل مولفه همبند و گروه‌بندی متن است. در اینجا استخراج ویژگی‌ها با در نظر گرفتن بافت تصویر صورت می‌گیرد. سپس با بدست آوردن مولفه‌های همبند و استفاده از روش‌های ابتکاری متن بدست می‌آید. در فلوچارت زیر مراحل سامانه پیشنهادی را مشاهده می‌کنید[5]:

چن و همکارانش [6] روشی را بر اساس استخراج نواحی کاندید، هرس آن‌ها و گروه‌بندی ارائه کرده‌اند. در این روش ابتدا نواحی کاندید برای وجود داشتن متن بدست می‌آیند. سپس با اعمال دو فیلتر مختلف (فیلتر بر اساس مولفه‌های همبند و فیلتر بر اساس SWT) نواحی بدون متن هرس شده و در انتها با تشکیل خطوط، کلمات بدست می‌آیند. در فلوچارت زیر مراحل به شکل کامل ذکر شده‌اند:

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

[1] B. Epshtein, E. Ofek, Y. Wexler, "Detecting Text in Natural Scenes with Stroke Width Transform," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010, San Francisco, CA, pp. 2963-2970.
[2] J. Liang, D. Doermann, H. Li, "Camera-based Analysis of Text and Documents: a Survey," International Journal of Document Analysis and Recognition (IJDAR), vol. 7, no. 2-3, pp. 84-104, 2005.
[3] C. Yao, X. Bai, W. Liu, Y. Ma and Z. Tu. "Detecting Texts of Arbitrary Orientations in Natural Images," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012, Providence, RI, pp. 1083-1090.
[4] K. Jung, K. I. Kim, A. K. Jain, "Text Information Extraction in Images and Video: a Survey," Pattern Recognition, Elsevier, vol. 37, no.5, pp. 977–997, 2004.
[5] YF. Pan, X. Hou, CL. Liu, "A Hybrid Approach to Detect and Localize Texts in Natural Scene Images," IEEE Transactions on Image Processing, vol. 20, no. 3, pp. 800-813, 2011.
[6] H.Chen et al., "Robust text detection in natural images with edge-enhanced Maximally Stable Extremal Regions," 18th IEEE International Conference on Image Processing (ICIP), 2011, Brussels, pp. 2609-2612.
[7] S. M. Lucas et al., "ICDAR 2003 Robust Reading Competitions: Entries, Results, and Future Directions," International Journal of Document Analysis and Recognition (IJDAR), vol. 7, no. 2-3, pp. 105-122, 2005.
[8] S. M. Lucas, A. Panaretos, L. Sosa, A. Tang, S. Wong, R. Young, "ICDAR 2003 Robust Reading Competitions", Proceedings of 7th International Conference on Document Analysis and Recognition (ICDAR), 2003, Edinburgh, UK, pp. 682.
[9] S. M. Lucas, "ICDAR 2005 Text Locating Competition Results," Proceedings of 8th International Conference on Document Analysis and Recognition (ICDAR), 2005, vol. 1, pp. 80-84.
[10] D. Karatzas, S. R. Mestre, J. Mas, F. Nourbakhsh, P.P Roy, "ICDAR 2011 Robust Reading Competition Challenge 1: Reading Text in Born-Digital Images (Web and Email)," International Conference on Document Analysis and Recognition (ICDAR), 2011, Beijing, pp. 1485-1490.
[11] A. Shahab, F. Shafait, A. Dengel, "ICDAR 2011 Robust Reading Competition Challenge 2: Reading Text in Scene Images," International Conference on Document Analysis and Recognition (ICDAR), 2011, Beijing, pp. 1491-1496.
[12] D. Karatzas et al., "ICDAR 2013 Robust Reading Competition," 12th International Conference on Document Analysis and Recognition (ICDAR), 2013, Washington, DC, pp. 1484-1493.

۶. پیوندهای مفید

scan
characters
images of natural scenes
text orientation
high resolution
scanner
uneven lighting
nonplaner surfaces
complex backgrounds
edges
optical character recognition
index
text information extraction
pipe and filter pattern
text detection
text localization
text extraction and enhancement
characters recognition
prior information
texture-based
region-based
wavelet
color clustering
connected component
heuristic rules
hybrid
stroke width transform

تایید شده

در مقدمه به خوبی به تعریف صورت مسئله پرداخته شده است و شکل های استفاده شده در این قسمت نیز گویای توضیحات ارائه شده است ، مثلا مشکلات اصلی در بررسی تصاویر.
در توضیحات اشاره کرده اید که بعضی قسمت ها خارج از حوزه این تحقیق است، می توانید در این موارد در قسمت پیوندهای مفید منبعی مناسب برای آن معرفی کنید، مانند لینکی که برای معرفی و پیاده سازی SWT داده اید.
در قسمت کارهای مرتبط، توضیحات مربوط به مرجع [3] ایده اصلی مقاله را بیان کرده ، ولی بهتر بود حال که از شکل استفاده شده، در مورد بعضی از قسمت های شکل توضیحاتی ارائه می شد، مثلا در مورد قسمت Chain Verification که خواننده متن شما از قبل دیدی نسبت به آن ندارد، می توانستید از توضیحاتی که در ابتدای مقاله اصلی آمده، برای توصیف هر کدام از قسمت ها به صورت مختصر استفاده کنید.
به نظر من توضیحات خیلی خوبی ارائه شده بود و در اکثر موارد دقت لازم را داشت.

حسین فرقانی

نوشتار بسیار خوبی است. به ویژه موارد زیر از مزایای آن محسوب می شود:

تعداد خوب و مناسبی از مقالات راجع به موضوع پروژه مطالعه و توضیح داده شده است.
از شکل های مناسبی برای توضیح موضوع استفاده شده است.
اما ایرادهای زیر نیز وجود دارد که با رفع آن ها در ادامه نوشتار بهتر نیز می شود:
از آن جا که نوشتار فارسی است، بهتر است از نوشته های فارسی نیز در عکس نمودارها استفاده کنید. به همین دلیل بهتر بود نوشته های عکس ترجمه و عکس دیگری ایجاد می شد.
«پیشین» ترجمه بهتری برای prior است که معمولاً به کار می رود.
برای ترجمه heuristic rules از «قواعد اکتشافی» به جای «ابتکاری» استفاده کنید.
بهتر است در مورد برخی مفاهیم مانند «stroke width transform» و «الگوی لوله و فیلتر» که برای خواننده احتمالاً ناآشنا هستند در متن توضیح کوتاهی داده شود.