به تصاویری که هر روز در محیط اطرافتان می بینید توجه کرده اید؟ این تصاویر در بردارنده اطلاعات مختلفی است. از گیاه و پرنده و درنده تا خویشاوندان و دوستان، لوگوی شرکت ها، محصولات تجاری و صد البته متن! اطلاعات متنی موجود در تصویر ازجمله داده هایی است که برای فردی مسلط به آن زبان به آسانی قابل فهم است و می تواند دربردارنده اطلاعات مهمی درباره محتوای تصویر باشد.
۱. مقدمه
در میان اطلاعات مختلفی که در تصویر موجود است، اطلاعات متنی از اهمیت ویژ ه ای برخوردار است، چراکه به آسانی از سوی انسان یا حتی رایانه قابل فهم بوده و امکان توصیف محتوای یک تصویر را فراهم می کند. علاوه بر این، از داده های استخراج شده براساس تحلیل اطلاعات متنی موجود در تصاویر می توان کاربردهای متنوعی نام برد که به انسان در تعامل با طبیعت و صنعت کمک می کند.
۲. اصطلاحات پایه ای OCR
در دنیای بازشناسی متون اصطلاحات مختلفی استفاده می شود که هرچند برای اهل فن آشناست، لیکن اکثریت مردم از تعریف دقیق آنها بی اطلاعند. در این مقاله به تعریف سه اصطلاح متداول OMR، ICR و OCR می پردازیم.
٫ OMR چیست؟
مخفف کلمات Optical Mark Reader/Recognition است به معنی خواندن نوری مارک بوده و عمدتا در آزمونهای چند گزینه ای استفاده می شود. به این ترتیب که فرمهای خاصی طراحی شده و آزمون دهندگان مارکهای (غالبا بیضی شکل یا مستطیل) مورد نظر را با قلمهای نرم پر می کنند. برای خواندن خودکار این فرمها، می توان از دستگاههای مارک خوان استفاده کرد یا از نرم افزارهای مارک خوان کمک گرفت. دستگاههای مارک خوان (OMR Scanner) نوعی روبشگر (اسکنر) ویژه اند که قادرند با استفاده از تاباندن نور به سطرهای مختلف برگه امتحان، موقعیت مارکهای پرشده را تشخیص دهند. این دستگاهها مقادیر آستانه ای برای یافتن مواردی که چند گزینه پر شده است و یا هیچ گزینه ای پر نشده است، دارند.
نرم افزارهای OMR در واقع کار دستگاهها را شبیه سازی می کنند؛ به این ترتیب که تصویر اسکن شده را دریافت کرده و با پردازش آن موقعیت مارکهای مختلف را در می یابند. به دلیل سهولت پردازش اطلاعات، این تکنولوژی همچنان در بسیاری از آزمونهای روز دنیا مورد استفاده است و در کشور ما نیز شرکتهای زیادی در این زمینه کار می کنند.
۲٫ ICR چیست؟
مخفف Intelligent Character Recognition است. این اصطلاح که بیشتر توسط بخش تجاری جا افتاده است، شاخه ای از بازشناسی متن است که به طور خاص به بازشناسی حروف و ارقام دستنویس می پردازد. به این صورت که اطلاعات درخواستی کاربر روی فرمهای کاغذی و در کادرهای مجزا وارد می شود (مثلا برای نوشتن نام محمد حروف م ح م د در چهار خانه مربع شکل جداگانه وارد می شود)، برای داده آمایی خودکار این اطلاعات، از فن آوری ICR استفاده می شود.
۳٫ OCR چیست؟
تشخیص نوری نویسهها (Optical Character Recognition) که با سرواژهی OCR شناخته میشود، از مهمترین شاخه های بازشناسی متن است. OCR عبارت است از بازشناسی خودکار متون موجود در تصاویر اسناد و تبدیل آنها به متون قابل جستجو و ویرایش توسط رایانه. تصویر سند غالبا توسط روبشگر (اسکنر) و یا دوربین دیجیتال تولید میشود و شامل تعدادی پیکسل با رنگهای مختلف و سطوح روشنایی گوناگون است. از دید انسان، یک سند ممکن است ارزش اطلاعاتی زیادی داشته باشد، لیکن از دید رایانه تصویر یک سند با تصویر یک منظره تفاوتی ندارد، چرا که هر دوی آنها مجموعهای از پیکسلها هستند. برای اینکه بتوان از اطلاعات نوشتاری تصویر سند استفاده کرد، باید به نحوی نوشتههای موجود در سند را بازشناسی کرد. چنین کاری توسط نرم افزارهای نویسهخوان نوری انجام میشود.
واژهٔ OCR ابتدا تنها در مورد بازشناسی ارقام و حروف چاپی بکار گرفته میشد. پسوند نوری در این عبارت در مقابل عبارت مرکب مغناطیسی (Magnetic Ink) قرار داده شد تا این روش را از روش قدیمیتر بازشناسی نویسهها با مرکب مغناطیسی ،MICR، متمایز کند. با گذشت زمان و پیشرفت قابل توجه در این زمینه، روشهای بازشناسی دستنوشته و متون چاپی مطرح شدند که دامنهٔ کار را به کلمات و عبارات رساندند. با وجود عدم تطبیق دقیق OCR با این موارد، این نام برای این روشها هم استفاده شد و رواج پیدا کرد. هماکنون OCR را بیشتر برای بازشناسی مستندات چاپی مثل صفحات کتابها، مجلهها و نامههای چاپی به کار میبرند.
۳. عملکرد سامانه نویسه خوان
سامانهٔ نویسهخوان مثل یک نفر ماشین نویس یا تایپیست، متن سند را میخواند و آن را به قالب مناسب برای ذخیره در رایانه تبدیل میکند. معمولاً یک روبشگر، تصویر سند را برای OCR فراهم میکند. سامانهٔ نویسهخوان، اشیاء موجود در تصویر سند را که ارقام، حروف، علائم و کلمات هستند، بازشناسی کرده و رشتهی متناظر با آنها را در قالب مناسب ذخیره میکند. یک فایل تصویری، حجم زیادی دارد و جستجوی متنی در آن ممکن نیست. این در حالی است که فایل خروجی سامانهٔ نویسهخوان بسیار کم حجم و قابل جستجو است. ضمن اینکه اطلاعات فایل متنی را به راحتی می توان ویرایش کرد و در جای دیگر استفاده کرد در حالی که اطلاعات موجود در تصویر سند قابل ویرایش نیست.
سامانههای نویسهخوان مثل بسیاری از سامانه های هوشمند دیگر، پیچیدگی زیادی دارد. پردازش تصویر و بازشناسی الگو دو پایهٔ اصلی این سامانهها هستند. پیچیدگی این سامانهها برای زبانهای گوناگون، متفاوت است. به عنوان مثال نوشتن OCR برای زبانهای لاتین به دلیل اینکه حروف آنها به طور مجزا نوشته میشود آسانتر است از زبانهایی مثل فارسی و عربی که حروف یک کلمه به یکدیگر میچسبند. این موضوع به علاوهٔ جمعیت کم کاربران زبان فارسی، سبب شده سامانههای نویسهخوان کمی برای زبان فارسی داشته باشیم.
یک سیستم OCR از بخشهای متعددی تشکیل شده است. ابتدا باید تصویر ورودی آنالیز شده و اگر متن آن دارای چرخش است، اصلاح شود. پس از اصلاح چرخش باید موقعیت بلوکهای متنی، شکل و جدول در تصویر سند مشخص شود. پس از تعیین موقعیت بلوکهای مختلف (ناحیه بندی یا آنالیز ساختار سند)،باید بلوکهای متنی بازشناسی شوند؛ یعنی خطوط متنی یافت شده و سپس موقعیت کلمات مشخص شود و در مرحله بعد، موقعیت حروف در کلمه مشخص شود، در نهایت تک تک حروف باید شناخته شده و با یکدیگر ترکیب شوند تا کلمهی معادل آنها مشخص شود. این کل فرایند تشخیص خودکار متن بود که به صورت بسیار ساده بیان شد
۴. کارهای مرتبط
با استفاده از تحلیل اطلاعات متنی انجام فعالیت هایی نظیر شناسایی پلاک خودروها، تشخیص و ترجمه علائم، جستجوی محتوای تصاویر، واقعه نگاری در دنباله های ویدئویی و شاخص گذاری مبتنی بر متن تصاویر به صورت خودکار امکان پذیر است.
۵. آزمایشها
۶. کارهای آینده
۷. مراجع
[1] Robust Text Detection in Natural Scene Images. لینک
[2] K. Wang and S. Belongie, “Word spotting in the wild,” in Computer Vision – ECCV 2010, ser. Lecture Notes in Computer Science, K. Daniilidis, P. Maragos, and N. Paragios, Eds. Springer Berlin / Heidelberg, 2010, vol. 6311, pp. 591–604. [لینک]
(http://cs229.stanford.edu/proj2012/Bell-TextDetectionAndRecognition.pdf)
[3] Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning. لینک
[4] Review on Text Detection Methodology from Images لینک
[5] Review on Text String Detection from Natural Scenes
(http://www.ijeit.com/vol%202/Issue%204/IJEIT1412201210_42.pdf)
[6] IMPROVING TEXT RECOGNITION IN IMAGES OF NATURAL SCENES . [لینک]
(https://web.cs.umass.edu/publication/docs/2014/UM-CS-PhD-2014-003.pdf)