نویسه‌خوانی به عملیات تشخیص متن در عکس و تبدیل آن می‌باشد. در این پروژه از شما انتظار می‌رود تا متن انگلیسی را در تصاویر حاوی متون تایپ شده انگلیسی تشخیص دهید.

۱. مقدمه

امروزه از هوش مصنوعی در زمینه‌ی پردازش تصویر بسیار استفاده می‌شود. یک عکس می‌تواند شامل هرچیزی باشد. عکس از یک موجود زنده، عکس از طبیعت یا منظره، عکس از یک مکان و بسیاری دسته بندی‌های دیگر. پس پردازش تصویر کار آسانی نیست که بتوان یک سیستم هوشمند جامع داشته باشیم و تمام کارهای پردازشی را به عهده‌ی آن بسپاریم.
در این پژوهش قرار است به طور خاص در زمینه پردازش تصویر شامل کلمات یا جملات (متون)‌ انگلیسی صحبت کنیم. پس داده‌ای که به عنوان ورودی مساله وجود دارد یک عکس حاوی متون یا کلمات انگلیسی است. هدف این است که متن یا کلمات موجود در این عکس را شناسایی کند (شکل ۱)

شکل ۱

۱.۱. کاربرد‌ها

از اولین کاربرد‌های نویسه خوان‌ها میتوان به تبدیل نسخه‌های قدیمی یک کتاب به فایل دیجیتال اشاره کرد. به عنوان مثال در کتابخانه‌هایی که از یک کتاب تعداد محدودی نسخه دارند و برای امانت دادن کتاب به افراد دچار محدودیت هستند، می‌توانند با چنین ابزاری از هوش مصنوعی -که متون کتاب را به نسخه دیجیتال تبدیل می‌کند- استفاده کنند (شکل ۲)

شکل ۲

نابینایان در دنیای امروزی که دنیای تولید علم و کتاب است شاید بیش از هر انسان دیگری علاقه‌مند به خواندن کتاب‌ باشند. دسترسی این افراد به کتاب‌های جدید ممکن است آسان نباشد و بسیاری از کتاب‌ها نسخه خط بریل ندارند. لذا می‌توان ابزاری تولید کرد که کتاب را برای این افراد بخواند یا با سیستمی که خط بریل چاپ می‌کند تعامل داشته باشد و کمک کند تا این افراد از خواندن کتاب‌‌های جدید محروم نشوند.
تصور کنید می‌خواهید یک کلمه یا جمله‌ای را در یک کتاب جست‌و‌جو کنید. باید سطر به سطر کتاب را بخوانید تا بتوانید کلمه‌‌ یا جمله را پیدا کنید. در این حالت وقت و انرژی بسیاری صرف این کار کردید. در حالی که اگر از ابزار نویسه‌خوان استفاده می‌کردید می‌توانستید به راحتی کلمه یا جمله‌ی مورد نظر را بیابید.
از دیگر کاربرد‌های نویسه‌خوان این است که یک کتاب را می‌توان به صورت دیجیتال نگه‌داری کرد. البته این کار را می‌توان با نگه‌داری عکس از کتاب نیز انجام داد. ولی همواره یک فایل متن فضای کمتری از یک فایل تصویری اشغال می‌کند.
عبور از کپچا‌‌های امنیتی که امروزه اکثر سایت‌ها برای جلوگیری از حملات اینترنتی هکر‌ها قرار داده اند، نیز می‌تواند از دیگر استفاده‌های نویسه‌خوان باشد.

۲. کارهای مرتبط

اولین کاربرد خواندن متن در تصویر برمی‌گردد به زمانی که در اداره‌ی پست برای کلاسه بندی اعداد روی نامه‌های پستی از اسکنر‌هایی استفاده می‌کردند. در سال ۱۹۷۴ Ray Kurzweil`یک نرم افزار برای تشخیص متن در هر شکلی ارائه کرد. این نرم افزار در واقع از روش تطبیق الگو (Pattern Matching) استفاده می‌کرد.[۱]

۲.۱. روش‌ها

چیزی که کاملا مشخص است در ابتدا باید محدوده‌های کاراکتر و متن را در عکس با پردازش تصویر مشخص کرد و به شکل ثابت و یک‌پارچه به صورت مرتب درآورد. در واقع قطعه‌های عکس و متن را باید تشخیص داد و یک پیش پردازش بر روی این قطعه‌ها انجام داد.‌‌‌‌‌[۲]

۲.۱.۱. تطبیق الگو

در این روش هر حرف یا کاراکتر موجود در متن با تمام کاراکتر‌‌هایی که از قبل به عنوان داده‌ی آماده وجود داشته مقایسه می‌شود. نزدیک‌ترین کاراکتری که با کاراکتر ورودی مطابقت کند، انتخاب می‌شود. به این ترتیب یک به یک کاراکتر‌‌های موجود در متن اصلی با داده‌ی از پیش داده شده مطابقت قرار میگیرند تا کل متن تمام شود.

۲.۱.۲. یادگیری ماشینی

طراحی و پیاده سازی شبکه عصبی برای پیدا کردن یک کاراکتر یا یک کلمه در یک متن که از الگوریتم Naive Bayes استفاده می‌شود. [۱]

۲.۱.۳. یادگیری عمیق

در این روش یک مجموعه داده از قبل برای سیستم تهیه شده است. داده ورودی که شامل تصویر متن است پس از گذراندن قسمت‌‌های قطعه بندی کردن متن و مرتب شدن یا به طور کلی پیش پردازش به عنوان ورودی به سیستم داده می‌شود و سیستم خروجی آن را که شامل یک متن است نمایش می‌دهد. (در شکل ۳ یک مفهوم کلی از یادگیری عمیق به نمایش گذاشته شده است.)

شکل ۳

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

[۱]Handwritten Text Recognition using Deep Learning Stanford University
[۲]Optical Character Recognition Systems for different languages with soft computing chapter 2

۶. لینک‌های مفید

علیرضا نوریان

خیلی فرصت بیشتری برای مطالعه و بررسی کارهای مرتبط داشتید و به نظر می‌رسه که برای مرحله بعد باید خوندن کارهای دیگران رو هم علاوه بر پیاده‌سازی انجام بدید.