نویسهخوانی به عملیات تشخیص متن از داخل عکس گفته میشود. در این پروژه از شما انتظار میرود تا بتوانید عکسهایی از متون تایپ شده زبان فارسی، را به متن تبدیل نمایید.
# مقدمه
در این بخش برای توصیف پروژه و ایجاد درک صحیح از آن برای خواننده به پاسخ دادن به چند سوال میپردازیم
## نویسه خوان [^Optical Character recognition] چیست ؟
به طور کلی به نرم افزاری که قابلیت تبدیل تصویری شامل نوشته به متن قابل پردازش را داشته باشد نویسه خوان میگویند .
## چگونه به یک ماشین خواندن متن را بیاموزیم , ارتباط نویسه خوانی و هوش مصنوعی ؟
معقوله فراگیری نویسه خوانی در ماشین آغاز گر طرز فکر بسیار جالبی در باره دنیای کامپیوتر میباشد ( یا حداقل برای شخص من بوده :) ) .
اگر یک تصویر از حرف فارسی " گ " را - فارغ از خوش خط یا بد خط بودن نویسنده - درمقابل ما بگیرند و از ما بخواهد که تشخیص دهیم که این حرف کدامیک از حروف مجموعه الفبای فارسی است , پاسخ به آن برای ما - انسان ها - بسیار آسان خواهد بود ُ اما ُ
اگر عبارت ۲۳۷۴ × ۷۴۵ را در مقابل ما قرار دهند و پاسخ آن را از ما بخواهند - با فرض اینکه یک نابغه ذاتی نیستیم - برای محاسبه آن احتمالا به زمان قابل توجهی و یک قلم و کاعذ نیاز خواهید داشت .
فرض کنیم یک ماشین در مقابل همین ۲ پرسش قرار گیرد . محاسبه ۲۳۷۴ × ۷۴۵ برای یک ماشین یک سوال بسیار آسان است در حالی که برای یک انسان بسیار زمان بر است . و در عین حال فهمیدن و تشخیص حرف " گ " برای یک ماشین ( موجودیتی که تنها صفر و یک میفهمد ! ) و تنها میتواند یک درک داده ای سطح پایین از یک تصویر بر اساس رنگ های پیکسل هایش داشته باشد یک کار بسیار بسیار دشوار است !
تفاوت اصلی در **نوع حل مساله** در انسان ها و ماشین ها است . ماشین ها توانایی بسیار زیادی در **محاسبه** دارند اما انسان ها توانایی بسیار بالایی در **یادگیری** .
نکته دیگری که از این مقایسه قابل برداشت است این است که یک انسان در نهایت میتواند حاصل ۲۳۷۴ × ۷۴۵ را محاسبه کند اما آیا یک مایشن هم تنها با تکیه بر قابلیت های محاسبه ای خود میتواند یک نوشته را بخواند ؟ جواب این سوال بله است , اما نه آن دست بله هایی که بتوانیم به تحقق آن امیدوار باشیم !
واقعیت این است نوشتن یک الگوریتم برای انجام عمل خواندن متن و تشخیص صحیح تک تک کاراکتر های آن , حداقل تا به امروز برای ما به عنوان برنامه ریز های ماشین ها امکان پذیر نبوده .
علاوه بر این موضوع , باید توجه داشت که توانایی یاد گرفتن عامل اصلی برتری انسان بر ماشین - حداقل تا زمان معاصر - میباشد و همین موضوع , یعنی قابلیت یادگیری انسان موجب شده که بتواند یک ضرب بسیار سخت را - شاید در زمان بیشتر - انجام دهد ُ اما یک کامپیوتر در یک زمان معقول نتواند به تنهایی یک حرف را تشخیص دهد .
و در نهایت بحث بهبود نتیجه نیز ارزش تفکر کردن را دارد ! انسان میتواند با تمرین و یادگیری زمان محاسبه ضرب را کاهش دهد و دقت خود را بالا ببرد اما یک ماشین ُ مانند ساختار صفر و یکی اش , نهایتا یا میتواند یک حرف را در یک زمان عملی [^Feasable] تشخیص دهد یا نمیتواند !
نتیجه کلی مقایسه بالا این کلیّت را در بر دارد که برای حل برخی دسته ای از مسایل پیچیده از کامپیوتر باید به دنبال دسته ای کلی از الگوریتم ها باشیم که **به کامپیوتر توانایی یادگیری آن مساله را ببخشد** , نه توانایی صرفا **حل** آنرا , دقیقا مشابه مغز انسان .
این دسته از الگوریتم ها به الگوریتم های هوش مصنویی معروف هستند .
## کاربرد های نویسه خوان چیست ؟
نویسه خوان میتواند کاربرد های بسیاری داشته باشد ,
تصور کنید متن جالبی را در یک روزنامه مشاهده میکنید و میخواهید آنرا برای دوستتان بفرستید , معمولا همه ما با عکس برداری از آن صفحه این کار را انجام میدهیم , اما آیا بهتر نبود اگر میتوانستیم با تلفن هوشمند خود از آن عکس بگیریم و نرم افزاری متن آنرا تشخیص میداد و برای ما تولید میکرد ؟ قطعا در این صورت دست ما باز تر میبود :)
یا فرض کنید مقدار زیادی کار تحقیقاتی و محاسبه در کاغذ انجام داده اید و میخواهید آنرا تبدیل به یک سند معتبر کنید , قطعا ناچار هستید زمان زیادی را برای تایپ دوباره آن صرف کنید !
علاوه بر آن در زمینه های مهم تری نیز نویسه خوان کاربر دارد , خواندن شماره پلاک خودرو ها در دوربین های کنترل سرعت , امکان پردازش چک بانکی در دستگاه های خودپرداز , یا تولید نسخه بک آپ از اسناد مهم کتابخانه ها و ادارات به صورت دیجیتال , همه میتوانند کاربرد های بسیار مهم یک نویسه خوان دقیق باشند .
امروزه در بسیاری از ادارات و سازمان های دولتی , افراد زیادی ساعت های زیادی را به وارد کردن اطلاعات فرم هایی که با دست پر شده اند به کامپیوتر صرف میکنند و با در اختیار داشتن یک نرم افزار نویسه خوان میتوانن در زمان و نیروی انسانی بسیاری صرفه جویی نمود .
## مقایسه نویسه خوان در زبان فارسی با دیگر زبان ها
این واقعیت بسیار سخت وجود دارد که فرآیند ایجاد یک سیستم هوشمند برای تشخیص زبان فارسی بسیار دشوار تر از زبانی مثل انگلیسی میباشد ( باید با این موضوع کنار بیاییم ! ) . این سختی فقط مختص زبان فارسی نیست , تمام زبان های سرهم نوشته شده [^Curved script language] درجه سختی بسیار بیشتری نسبت به زبان هایی که خطوط آنها گسسته و جدا از هم است دارد .
دلیل این سختی مضاعف در قسمت های بعدی به طور کامل تر شرح خواهد داده شد , اما با یک نگاه ساده هم میتوان تصور کرد یک ماشین برای فهم حرف ' ه ' فارسی نیاز به یادگیری چندین شکل مختلف ان ( ابتدا , میانه و انتها ) دارد , علاوه بر آن با مشاهده یک کلمه انگلیسی , فرآیند قطعه قطعه سازی [^ Segmentation] **که دلیل بسیاری از اشتباهات در سیستم های نویسه خوان است** , در آن آسان تر صورت میگیرد آما در یک کلمه فارسی جایگاه هر حرف و تشخیص آن خود یک مساله بسیار پیچیده است.
## ابزار های موجود متن باز
1. موتور Tesseract
موتور نویسه خوان Tessearct اولین نویسه خوان موجود در دنیای متن باز بوده . هم اکنون هم تمام سورس کد آن در گیتهاب قابل مشاهده است . توسعه آن از دهه ۸۰ میلادی آغاز شده و تا امروز نیز ادامه داشته است . این موتور قابلیت یادگیری بیش از ۴۰ زبان دنیا از جمله عربی را دارد و علاوه بر آن هسته اصلی بسیاری از ابزار های وابسته نیز مباشد.
2. موتور OCRopy
+ این موتور جدید تر از Tesseract میباشد و محوه پیاده سازی آن نیز کمتر از Tesseract وابسته به زبان است . علاوه بر آن ساختار آن نیز تنها وابسته به تصویر یک نوشته نیست و در پیاده سازی آن از علاوه بر تحلیل شکل کلمه , به بررسی لغوی آن نیز پرداخته میشود.
> OCRopus is an OCR system that combines pluggable layout analysis, pluggable character recognition, and pluggable language modeling. It aims primarily for high-volume document conversion, namely for Google Book Search, but also for desktop and office use or for vision impaired people.
با رجوع به صفحات ویکی این پروژه در مخزن گیتهاب در میبابیم که بخش تشخصی حرف ها [^Charachter Recognition] در این موتور بر پایه موتور Tesseract نوشته شده است و مدل زبان و تحلیلگر قالب دو بعد جدید پردازش در این موتور میباشند که موجب بهبود نتایج آن برای داده های نا منظم تر و زبان های سر هم شده است.
توضیحات بیشتر در باره بازخورد ها و بازدهی این موتور های چند زبانه برای زبان فارسی در بخش های بعدی گفته خواهد شد.
## ابزار های فارسی
با جستوجوی صفحات وب , میتوان بلافاصله دریافت که نویسه خوانی به زبان فارسی از نظر پیشرفت , فاصله زیادی با معادل های خود در زبان های دیگر دارد .
واضح است که این فرآیند برای تنها تشخیص اعداد و حروف یکه فارسی در سامانه دوربین های کنترل ترافیک با موفقیت پیاده سازی شده است اما فقدان یک ابزار متن باز برای گسترش استفاده های نویسه خوان در ابعاد مختلف احساس میشود.
همچنین ابزار های فارسی نویسه خوان با استفاده محدود و به صورت تجاری در حال حاضر وجود دارند اما علاوه بر گرانی بسیار با رجوع به صفحات وب و نوشته های درج شده در [توصیف نتایح کاربران](http://maryamalavi.persianblog.ir/tag/نویسه_خوان) این محصولات نمیتوان از صحت و جامعیت کاربرد های این محصولات اطمینان کامل داشت. برای مثال میتوان به مقاله سایت [یک پزشک](1pezeshk.com) در باره [نویسه خوان فارسی آراکس](http://1pezeshk.com/archives/2008/07/_ocr.html) شاره کرد .
یکی از ابزار های فارسی نویسه خوانی که نمیتوان از اشاره کردن به آن چشم پوشی نمود نیز رابط فارسی یادگیری موتور Tesseract میباشد که به عنوان یک پروژه متن باز در [گیتهاب](https://github.com/reza1615/PersianOcr) موجود میباشد و در بازه زمانی کوتاه در آن تلاش شد که با ایجاد یک محیط مخصوص زبان فارسی , موتور Tesseract آموزش داده شود . با وحود گذشتن مدت زیاد از پایان توسعه این پروژه کماکان میتوان از آن به عنوان جدی ترین تلاش ایجاد نویسه خوان فارسی متن باز نام برد.
----------
# کارهای مرتبط
میخواهیم به بررسی روش های مختلف ایجاد یک نویسه خوان بپردازیم و نتایج ثبت شده در مقالات را مقایسه کنیم . در این قسمت در تمامی مراجع ارجاعی اولویت با مقالاتیست که برای نویسه خوان های مستقل از زبان نگارش شده اند .
## نویسه خوانی بر پایه تشخیص مسیر [^Path Recognition]
موتور Tesseract یک نمونه از موتور هایی میباشد که بر این اساس ایجاد شده . در این رویه تاکید اصلی سیستم بر قطعه قطعه سازی نوشته و تشخیص کاراکتر ها بر اساس شکل آنها میباشد . این روش نیازمند آن است که رویه قطعه قطعه سازی برای هر زبان جدید صورت گیرد . علاوه بر این همانطور که در بخش مقدمه گفته شد غلبه بر چالش هاش زبان های سر هم نیز مانع بزرگی به شمار می آیند . ( با ذکر این نکته که این مشکل تنها در زبان های فارسی , عربی یا هندی که ساختار به هم پیوسته دارند رخ نمی دهد , در بسیاری از زبان ها مانند انگلیسی هم بسیاری از افراد کلمات خاصی را به صورا به هم پیوسته مینویسند . یا در بسیاری از اسناد چاپی به مرور زمان به دلیل پخش شدن جوهر در کاغذ کلمات به هم متصل میشوند و قطعه قطعه سازی آنها سخت تر میشود )
در یک نگاه اولیه میتوان به این موضوع فکر کرد که شاید بتوان با قدرت بخشیدن به الگوریتم های قطعه قطعه سازی میتوان بر این مشکل غلبه کرد اما به دلیل محدود بودن توان ما در این زمینه ( این واقعیت که عملا نمیتوان این فرایند را به صورت ایده آل انجام داد ) زمان یادگیری سیستم بسیار بالا میرود و در حالت بدتر شاید سیستم هرگز به درستی آموزش دیده نشود . در نتیجه طبیعتا به این فکر میکنیم اگر راهکاری متفاوت با وابستگی کمتر به قطعه قطعه سازی نوشته و زبان در دسترس است , آنرا نیز بررسی کنیم . این کار در بخش بعدی صورت میگیرد .
![نمونه ای از نحوه یادگیری کلمات به وسیله Tessearct پس از قطعه قطعه سازی ](http://vietocr.sourceforge.net/jTessBoxEditor.png)
## یک روش بهتر : شبیه سازی نویسه خوان مشابه سیستم تشخیص گفتار [^Speech recognition]
ایده اولیه این رویه از سیستم های تشخیص گفتار ناشی میشود . در یک سیستم تشخیص گفتار , برنامه باید بتواند صدای گوینده را دریافت کند و متنی که وی گفته را تولید کند . با وجود ظاهر متفاوت , میتوان نشان داد که این دو مساله در ظاهر بسیار شبیه به هم هستند [1] .
در یک سیستم تشخیص صدا , یک سیگنال صوتی وابسته به زمان ( نمودار آن شامل دو بردارد شدت صوت و زمان است ) ورودی سیستم است [5] . موضوع اصلی و مورد علاقه ما رابطه وابستگی زمانی بین سیگنال های ورودی سیستم میباشد ( به طور دقیق تر وابستگی هر ورودی به ورودی قبل ) . با فرض اینکه مدل کامل فرکانس های آوا ها را در اختیار داریم ( از نقطه نظر نویسه خوان به آن مدل کلمه گفته میشود - در بخش توضیخات مدل مارکوف توضیخات بیشتری در این زمینه ذکر شده است ) برای دریافت کلمه " سلام " ابتدای آوای " س " را پردازش میکنیم و سپس همین آوا به تدریح به " سَ " تبدیل میشود , سپس " ل " در ادامه آن تشخیص داده میشود و ... و علاوه بر **ترتیب** , **برآیند نهایی این آوا ها در کنار هم** سیستم را به سمت جواب میبرد !
دقت به این روند باعث میشود دریبایم که در تشخیص صدا , روند پردازش کاملا متفاوت از روش قبلی توضیح داده شده میباشد و ورودی ها در قالب یک دنباله در سیستم مورد پردازش قرار میگیرند , و این دقیقا اتفاقیست که اگر بتوانیم آنرا در نویسه خوان مدل کنیم , مشکل قطعه قطعه سازی دیگر بر سر راه ما نخواهد بود !
میتوان سیستمی را در نظر گرفت که در آن ورودی به جای یک سیگنال صوتی یک **بردارد از خصوصیت های مستقل از زبان** وابسته **به یک قاب** از یک **خط از نوشته** باشد . در مورد این بردار از خصوصیت های مستقل از زبان در بخش های بعد توضیحاتی ارایه خواهد شد .
![مقایسه یک سیگنال صوتی و یک قاب از یک خط دست نوشته در زمان پردازش](http://uupload.ir/files/24p7_screen_shot_2015-11-11_at_12.34.15_am.png)
با دانستن این اطلاعات نیاز به یک مدل ایده آل برای نمایش و انجام پردازش بر روی یک **دنباله تصادفی از رویداد ها** ( ورودی ها ) داریم . بدین منظور در بخش بعدی مدلی به نام **مدل پنهان مارکوف** [^Hidden Markov Model] را معرفی میکنیم
## مدل پنهان مارکوف
حال که فهمیدیم یک راه حل مناسب برای رهایی از مشکلات عدیده نویسه خوان های بر پایه مسیر , شبیه سازی آن با مدل های پیوسته ای است که در سیستم های تشخیص گفتار به کار میروند , باید توضیحات بیشتری در مورد نحوه کار آنها به دست آوریم .
[مدل های مارکوف](https://en.wikipedia.org/wiki/Markov_model) برای شبیه سازی اتفاقات تصادفی به کار میروند , با این شرط که سیستم داری نوعی خاصیت بی حافظگی میباشد و در هر لحظه وضعیت سیستم تنها به وضعیت اکنون سیستم بستگی دارد و نه وضعیت های قبلی . میتوان در قالب نظریه احتمال این مساله را اینگونه بیان کرد که احتمال هر رخداد در زمان t+1 تنها به احتمال رخداد آن در زمان t وابسطه است و از احتمال های زمان 0 تا t-1 **مستقل** است .
به این ساده سازی [فرض مارکوف](https://en.wikipedia.org/wiki/Markov_property) [^Markov Assumption] نیز گفته میشود .
زمانی که در یک سیستم احتمال رخداد یک پدیده در آینده را تنها به زمان حال ( یک واحد زمانی قبل ) وابسطه بدانیم به آن مدل مارکوف مرتبه یک گفته میشود , اگر پدیده ای را به n حالت قبل وابسته در نظر بگیریم به آن مدل مارکوف مرتبه n گفته میشود .
![مدل مارکوف در قالب نظریه احتمال ](https://upload.wikimedia.org/math/d/b/3/db347a236906b780af440816cd7918a8.png)
با در نظر گرفتن این ساده سازی میتوان هر دنباله از پدیده ها را به صورت یک گراف از احتمال های تغییر حالت بین وضعیت های سیستم نمایش داد که به آن نمایش گرافی یک مدل مارکوف میگویند .
![یک مدل مارکوف با ۵ وضعیت](http://uupload.ir/files/26pb_screen_shot_2015-11-21_at_1.23.40_am.png)
توضیحات بسیاری در باره مدل های مارکوف میتوان بیان کرد , در این بخش ما تنها در آن حدی از آن که مربوط به این پروژه میشود را توضیح میدهیم . لازم به ذکر است که کتابخانه هایی برای پیاده سازی این مدل موجود میباشند و در ظاهر به نظر آید که توضیح سطح پایین و ریاضی این مدل فایده چندانی نداشته باشد , اما تجربه شخصی من این بوده همیشه فهم یک سوال و یا سیستم از پایه , به مراتب بهتر است و نتایج دقیق تری را به همراه خواهد داشت .
## جزییات و مثالی از مدل پنهان مارکوف
برای فهم مدل های مارکوف به صورت کامل , این موضوع را با مثال مطرح میکنیم :
فرض کنید که در شهری خاص قرار داریم و در میانه هر روز وضعیت آب و هوا را مشاهده میکنیم و برا اساس آن یه وضعیت [^State] را به این روز نسبت میدهیم .
فرض میکنیم که وضعیت های آب و هوایی به صورت زیر مشخص میشوند :
$$S_1 = Rainy , S_2 = Cloudy , S_3 = Sunny$$
همچنین فرض کنید ماتریسی در اختیار داریم که در آن احتمال رفتن از یک حالت به حالت های دیگر مشخص شده است :
![یک نمونه از ماتریس تغییر حالت در مدل مارکوف ](http://uupload.ir/files/9rta_screen_shot_2015-11-20_at_10.08.03_pm.png)
این ماتریس از مولفه های اصلی این مدل میباشد که به آن ماتریس تغییر حالت [^State Transition Metrice] گفته میشود . توجه شود که این یک ماتریس توضیع احتمال است و جمع هر سطر و ستون آن باید ۱ باشد .
همچین وضعیت سیستم در زمان t را نیز با
$$ State at Time t = q_t$$
نمایش میدهیم .
با این فرض که به مجموعه اطلاعات ماتریس تغییر حالت و حالت کنونی یک **مدل** گفته میشود کi آن را با $\lambda$ نمایش میدهیم , برای تشریح بهتر کارکرد این مدل می.
## نویسهخوان [^Optical Character recognition] چیست؟
به طور کلی به نرمافزاری که قابلیت تبدیل یک تصویر شامل نوشته به متن قابل پردازش را داشته باشد نویسهخوان میگویند.
## چگونه به یک ماشین خواندن متن را بیاموزیم , ارتباط نویسهخوانی و هوشمصنوعی؟
موضوع فراگیری نویسهخوانی در ماشین آغاز گر طرز فکر بسیار جالبی در باره دنیای کامپیوتر میباشد (یا حداقل برای شخص من بوده).
اگر یک تصویر از حرف فارسی " گ " را - فارغ از خوش خط یا بد خط بودن نویسنده - درمقابل ما بگیرند و از ما بخواهد که تشخیص دهیم که این حرف کدام یک از حروف مجموعه الفبای فارسی است , پاسخ به این برای ما - انسان ها - بسیار آسان خواهد بود. اما اگر عبارت ۲۳۷۴ × ۷۴۵ را در مقابل ما قرار دهند و پاسخ آن را از ما بخواهند - با فرض اینکه یک نابغه ذاتی نیستیم - برای محاسبه آن احتمالا به زمان قابل توجهی و یک قلم و کاعذ نیاز خواهیم داشت.
حال فرض کنیم یک ماشین در مقابل همین ۲ پرسش قرار گیرد. محاسبه ۲۳۷۴ × ۷۴۵ برای یک ماشین یک سوال بسیار آسان است در حالی که برای یک انسان بسیار زمان بر است. و در عین حال فهمیدن و تشخیص حرف " گ " برای یک ماشین (موجودیتی که تنها صفر و یک میفهمد!) و تنها میتواند یک درک داده ای و سطح پایین از یک تصویر بر اساس رنگ ها و پیکسل هایش داشته باشد یک کار بسیار بسیار دشوار است!
تفاوت اصلی در **نوع حل مساله** در انسان ها و ماشین ها است. ماشین ها توانایی بسیار زیادی در **محاسبه** دارند اما انسان ها توانایی بسیار بالایی در **یادگیری**.
نکته دیگری که از این مقایسه قابل برداشت است این است که یک انسان در نهایت میتواند حاصل ۲۳۷۴ × ۷۴۵ را محاسبه کند اما آیا یک مایشن هم تنها با تکیه بر قابلیت های محاسبه ای خود میتواند یک نوشته را بخواند؟ جواب این سوال بله است, اما نه آن دست بله هایی که بتوانیم به تحقق آن امیدوار باشیم!
واقعیت این است نوشتن یک الگوریتم برای انجام عمل خواندن متن و تشخیص صحیح تک تک کاراکتر های آن, حداقل تا به امروز برای ما به عنوان برنامه ریز های ماشین ها امکان پذیر نبوده.
علاوه بر این موضوع , باید توجه داشت که توانایی یاد گرفتن عامل اصلی برتری انسان بر ماشین - حداقل تا زمان معاصر - میباشد و همین موضوع , یعنی قابلیت یادگیری انسان موجب شده که بتواند یک ضرب بسیار سخت را - شاید در زمان بیشتر - انجام دهد ُ اما یک کامپیوتر در یک زمان معقول نتواند به تنهایی یک حرف را تشخیص دهد.
و در نهایت بحث بهبود نتیجه نیز ارزش تفکر کردن را دارد ! انسان میتواند با تمرین و یادگیری زمان محاسبه ضرب را کاهش دهد و دقت خود را بالا ببرد اما یک ماشین ُ مانند ساختار صفر و یکی اش , نهایتا یا میتواند یک حرف را در یک زمان عملی [^Feasable] تشخیص دهد یا نمیتواند !
نتیجه کلی مقایسه بالا این کلیّت را در بر دارد که برای حل برخی دسته ای از مسایل پیچیده از کامپیوتر باید به دنبال دسته ای کلی از الگوریتم ها باشیم که **به کامپیوتر توانایی یادگیری آن مساله را ببخشد** , نه توانایی صرفا **حل** آنرا , دقیقا مشابه مغز انسان.
این دسته از الگوریتم ها به الگوریتم های **یادگیری ماشین** معروف هستند.
## کاربرد های نویسه خوان چیست ؟
نویسه خوان میتواند کاربرد های بسیاری داشته باشد ,
تصور کنید متن جالبی را در یک روزنامه مشاهده میکنید و میخواهید آنرا برای دوستتان بفرستید , معمولا همه ما با عکس برداری از آن صفحه این کار را انجام میدهیم , اما آیا بهتر نبود اگر میتوانستیم با تلفن هوشمند خود از آن عکس بگیریم و نرم افزاری متن آنرا تشخیص میداد و برای ما تولید میکرد ؟ قطعا در این صورت دست ما باز تر میبود.
یا فرض کنید مقدار زیادی کار تحقیقاتی و محاسبه در کاغذ انجام داده اید و میخواهید آنرا تبدیل به یک سند معتبر کنید , قطعا ناچار هستید زمان زیادی را برای تایپ دوباره آن صرف کنید!
علاوه بر آن در زمینه های مهم تری نیز نویسه خوان کاربر دارد , خواندن شماره پلاک خودرو ها در دوربین های کنترل سرعت , امکان پردازش چک بانکی در دستگاه های خودپرداز , یا تولید نسخه بک آپ از اسناد مهم کتابخانه ها و ادارات به صورت دیجیتال , همه میتوانند کاربرد های بسیار مهم یک نویسه خوان دقیق باشند.
امروزه در بسیاری از ادارات و سازمان های دولتی , افراد زیادی ساعت های زیادی را به وارد کردن اطلاعات فرم هایی که با دست پر شدهاند به کامپیوتر صرف میکنند و با در اختیار داشتن یک نرم افزار نویسهخوان میتوان در زمان و نیروی انسانی بسیاری صرفهجویی نمود.
## مقایسه نویسه خوان در زبان فارسی با دیگر زبان ها
این واقعیت بسیار سخت وجود دارد که فرآیند ایجاد یک سیستم هوشمند برای تشخیص زبان فارسی بسیار دشوار تر از زبانی مثل انگلیسی میباشد ( باید با این موضوع کنار بیاییم!). این سختی فقط مختصّ زبان فارسی نیست, تمام زبان های سرهم نوشته شده [^Curved script language] درجه سختی بسیار بیشتری نسبت به زبان هایی که خطوط آنها گسسته و جدا از هم است دارند.
دلیل این سختی مضاعف در قسمت های بعدی به طور کامل تر شرح داده خواهد شد, اما با یک نگاه ساده هم میتوان تصور کرد یک ماشین برای فهم حرف ' ه ' فارسی نیاز به یادگیری چندین شکل مختلف ان (ابتدا , میانه و انتها) دارد, علاوه بر آن با مشاهده یک کلمه انگلیسی, فرآیند قطعه قطعه سازی [^ Segmentation] **که دلیل بسیاری از اشتباهات در سیستم های نویسهخوان است**, در آن آسان تر صورت میگیرد آما در یک کلمه فارسی جایگاه هر حرف و تشخیص آن خود یک مساله بسیار پیچیده است.
## ابزار های موجود متن باز
1. موتور Tesseract
موتور نویسهخوان Tessearct اولین نویسهخوان موجود در دنیای متن باز بوده. هم اکنون هم تمام کد مرجع آن در مخزن گیتهاب قابل مشاهده است. توسعه آن از دهه ۸۰ میلادی آغاز شده و تا امروز نیز ادامه داشته است. این موتور قابلیت یادگیری بیش از ۴۰ زبان دنیا از جمله عربی را دارد و علاوه بر آن هسته اصلی بسیاری از ابزار های وابسته نیز ماشد.
2. موتور OCRopy
+ این موتور جدید تر از Tesseract میباشد و نحوه پیاده سازی آن نیز کمتر از Tesseract وابسته به زبان است. علاوه بر آن ساختار آن نیز تنها وابسته به تصویر یک نوشته نیست و در پیاده سازی آن از علاوه بر تحلیل شکل کلمه, به بررسی لغوی آن نیز پرداخته میشود.
> OCRopus is an OCR system that combines pluggable layout analysis, pluggable character recognition, and pluggable language modeling. It aims primarily for high-volume document conversion, namely for Google Book Search, but also for desktop and office use or for vision impaired people.
با رجوع به صفحات ویکی این پروژه در مخزن گیتهاب در مییابیم که بخش تشخصی حرف ها [^Charachter Recognition] در این موتور بر پایه موتور Tesseract نوشته شده است و مدل زبان و تحلیلگر قالب دو بُعد جدید پردازش در این موتور میباشند که موجب بهبود نتایج آن برای داده های نامنظم تر و زبان های سرهم شده است.
توضیحات بیشتر در باره بازخورد ها و بازدهی این موتور های چند زبانه برای زبان فارسی در بخش های بعدی گفته خواهد شد.
## ابزار های فارسی
با جستوجوی صفحات وب, میتوان بلافاصله دریافت که نویسه خوانی به زبان فارسی از نظر پیشرفت, فاصله زیادی با معادل های خود در زبان های دیگر دارد.
واضح است که این فرآیند برای تنها تشخیص اعداد و حروف یکه فارسی در سامانه دوربین های کنترل ترافیک با موفقیت پیاده سازی شده است اما فقدان یک ابزار متن باز برای گسترش استفاده های نویسهخوان در ابعاد مختلف احساس میشود.
همچنین ابزار های فارسی نویسه خوان با استفاده محدود و به صورت تجاری در حال حاضر وجود دارند اما علاوه بر گرانی بسیار با رجوع به صفحات وب و نوشته های درج شده در [توصیف نتایح کاربران](http://maryamalavi.persianblog.ir/tag/نویسه_خوان) این محصولات نمیتوان از صحت و جامعیت کاربرد های این محصولات اطمینان کامل داشت. برای مثال میتوان به مقاله سایت [یک پزشک](1pezeshk.com) در باره [نویسه خوان فارسی آراکس](http://1pezeshk.com/archives/2008/07/_ocr.html) شاره کرد.
یکی از ابزار های فارسی نویسهخوانی که نمیتوان از اشاره کردن به آن چشم پوشی نمود نیز رابط فارسی یادگیری موتور Tesseract میباشد که به عنوان یک پروژه متن باز در [گیتهاب](https://github.com/reza1615/PersianOcr) موجود است و در یک بازه زمانی کوتاه در آن تلاش شد که با ایجاد یک محیط مخصوص زبان فارسی, به موتور Tesseract آموزش داده شود. با وجود گذشتن مدت زیاد از پایان توسعه این پروژه کماکان میتوان از آن به عنوان جدی ترین تلاش ایجاد نویسهخوان فارسی متنباز نام برد.
----------
# کارهای مرتبط
میخواهیم به بررسی روش های مختلف ایجاد یک نویسه خوان بپردازیم و نتایج ثبت شده در مقالات را مقایسه کنیم. در این قسمت در تمامی مراجع ارجاعی اولویّت با مقالاتی که برای نویسهخوان های مستقل از زبان نگارش شده اند.
## نویسه خوانی بر پایه تشخیص مسیر [^Path Recognition]
موتور Tesseract یک نمونه از موتور هایی میباشد که بر این اساس ایجاد شده. در این رویه تاکید اصلی سیستم بر قطعه قطعه سازی نوشته و تشخیص کاراکترها بر اساس شکل آنها میباشد. این روش نیازمند آن است که رویه قطعه قطعه سازی برای هر زبان جدید صورت گیرد. علاوه بر این همانطور که در بخش مقدمه گفته شد غلبه بر چالش هاش زبان های سرهم نیز مانع بزرگی به شمار می آیند. (با ذکر این نکته که این مشکل تنها در زبان های فارسی , عربی یا هندی که ساختار به هم پیوسته دارند رخ نمی دهد, در بسیاری از زبان ها مانند انگلیسی هم بسیاری از افراد کلمات خاصی را به صورا به هم پیوسته مینویسند. یا در بسیاری از اسناد چاپی به مرور زمان به دلیل پخش شدن جوهر در کاغذ کلمات به هم متصل میشوند و قطعه قطعه سازی آنها سخت تر میشود)
در یک نگاه اولیه میتوان به این موضوع فکر کرد که شاید بتوان با قدرت بخشیدن به الگوریتم های قطعه قطعه سازی میتوان بر این مشکل غلبه کرد اما به دلیل محدود بودن توان ما در این زمینه (این واقعیت که عملا نمیتوان این فرایند را به صورت ایده آل انجام داد) زمان یادگیری سیستم بسیار بالا میرود و در حالت بدتر شاید سیستم هرگز به درستی آموزش داده نشود. در نتیجه طبیعتا به این فکر میکنیم اگر راهکاری متفاوت با وابستگی کمتر به قطعه قطعه سازی نوشته و زبان در دسترس است, آنرا نیز بررسی کنیم. این کار در بخش بعدی صورت میگیرد.
![نمونه ای از نحوه یادگیری کلمات به وسیله Tessearct پس از قطعه قطعه سازی ](http://vietocr.sourceforge.net/jTessBoxEditor.png)
## یک روش بهتر : شبیه سازی نویسهخوان مشابه سیستم تشخیص گفتار [^Speech recognition]
ایده اولیه این رویه از سیستم های تشخیص گفتار ناشی میشود. در یک سیستم تشخیص گفتار, برنامه باید بتواند صدای گوینده را دریافت کند و متنی که وی گفته را تولید کند. با وجود ظاهر متفاوت, میتوان نشان داد که این دو مساله در ظاهر بسیار شبیه به هم هستند [1].
در یک سیستم تشخیص صدا, یک سیگنال صوتی وابسته به زمان (نمودار آن شامل دو بردارد شدت صوت و زمان است) ورودی سیستم است [5]. موضوع اصلی و مورد علاقه ما رابطه وابستگی زمانی بین سیگنال های ورودی سیستم میباشد (به طور دقیق تر وابستگی هر ورودی به ورودی قبل). با فرض اینکه مدل کامل فرکانس های آوا ها را در اختیار داریم (از نقطه نظر نویسه خوان به آن **مدل کلمه** گفته میشود - در بخش توضیخات مدل مارکوف توضیخات بیشتری در این زمینه ذکر شده است) برای دریافت کلمه " سلام " ابتدای آوای " س " را پردازش میکنیم و سپس همین آوا به تدریح به " سَ " تبدیل میشود, سپس " ل " در ادامه آن تشخیص داده میشود و... علاوه بر **ترتیب** , **برآیند نهایی این آوا ها در کنار هم** سیستم را به سمت جواب میبرد.
دقت به این روند باعث میشود دریبایم که در تشخیص صدا , روند پردازش کاملا متفاوت از روش قبلی توضیح داده شده میباشد و ورودی ها در قالب یک دنباله در سیستم مورد پردازش قرار میگیرند , و این دقیقا اتفاقیست که اگر بتوانیم آنرا در نویسه خوان مدل کنیم, مشکل قطعه قطعه سازی دیگر بر سر راه ما نخواهد بود.
میتوان سیستمی را در نظر گرفت که در آن ورودی به جای یک سیگنال صوتی یک **بردارد از خصوصیت های مستقل از زبان** وابسته **به یک قاب** از یک **خط از نوشته** باشد. در مورد این بردار از خصوصیت های مستقل از زبان در بخش های بعد توضیحاتی ارایه خواهد شد.
![مقایسه یک سیگنال صوتی و یک قاب از یک خط دست نوشته در زمان پردازش](http://uupload.ir/files/24p7_screen_shot_2015-11-11_at_12.34.15_am.png)
با دانستن این اطلاعات نیاز به یک مدل ایده آل برای نمایش و انجام پردازش بر روی یک **دنباله تصادفی از رویداد ها** (ورودی ها) داریم. بدین منظور در بخش بعدی مدلی به نام **مدل پنهان مارکوف** [^Hidden Markov Model] را معرفی میکنیم.
## مدل پنهان مارکوف
حال که فهمیدیم یک راه حل مناسب برای رهایی از مشکلات عدیده نویسه خوان های بر پایه مسیر , شبیه سازی آن با مدل های پیوسته ای است که در سیستم های تشخیص گفتار به کار میروند, باید توضیحات بیشتری در مورد نحوه کار آنها به دست آوریم.
[مدل های مارکوف](https://en.wikipedia.org/wiki/Markov_model) برای شبیه سازی اتفاقات تصادفی به کار میروند. با این شرط که سیستم داری نوعی خاصیت بی حافظگی باشد و در هر لحظه وضعیت سیستم تنها به وضعیت اکنون سیستم بستگی دارد و نه وضعیت های قبلی. میتوان در قالب نظریه احتمال این مساله را اینگونه بیان کرد که احتمال هر رخداد در زمان t+1 تنها به احتمال رخداد آن در زمان t وابسطه است و از احتمال های زمان 0 تا t-1 **مستقل** است.
به این ساده سازی [فرض مارکوف](https://en.wikipedia.org/wiki/Markov_property) [^Markov Assumption] نیز گفته میشود.
زمانی که در یک سیستم احتمال رخداد یک پدیده در آینده را تنها به زمان حال ( یک واحد زمانی قبل ) وابسطه بدانیم به آن مدل مارکوف مرتبه یک گفته میشود, اگر پدیده ای را به n حالت قبل وابسته در نظر بگیریم به آن مدل مارکوف مرتبه n گفته میشود.
![مدل مارکوف در قالب نظریه احتمال ](https://upload.wikimedia.org/math/d/b/3/db347a236906b780af440816cd7918a8.png)
با در نظر گرفتن این ساده سازی میتوان هر دنباله از پدیده ها را به صورت یک گراف از احتمال های تغییر حالت بین وضعیت های سیستم نمایش داد که به آن نمایش گرافی یک مدل مارکوف میگویند.
![یک مدل مارکوف با ۵ وضعیت](http://uupload.ir/files/26pb_screen_shot_2015-11-21_at_1.23.40_am.png)
توضیحات بسیاری در باره مدل های مارکوف میتوان بیانکرد, در این بخش ما تنها در آن حدی از آن که مربوط به این پروژه میشود را توضیح میدهیم.
## جزییات و مثالی از مدل پنهان مارکوف
برای فهم مدل های مارکوف به صورت کامل , این موضوع را با مثال مطرح میکنیم:
فرض کنید که در شهری خاص قرار داریم و در میانه هر روز وضعیت آب و هوا را مشاهده میکنیم و برا اساس آن یه وضعیت [^State] را به این روز نسبت میدهیم.
فرض میکنیم که وضعیت های آب و هوایی به صورت زیر مشخص میشوند :
$$S_1 = Rainy , S_2 = Cloudy , S_3 = Sunny$$
همچنین فرض کنید ماتریسی در اختیار داریم که در آن احتمال رفتن از یک حالت به حالت های دیگر مشخص شدهاست :
![یک نمونه از ماتریس تغییر حالت در مدل مارکوف ](http://uupload.ir/files/9rta_screen_shot_2015-11-20_at_10.08.03_pm.png)
این ماتریس از مولفه های اصلی این مدل میباشد که به آن ماتریس **تغییر حالت** [^State Transition Metrice] گفته میشود. توجه شود که این یک ماتریس توضیع احتمال است و جمع هر سطر و ستون آن باید ۱ باشد.
همچین وضعیت سیستم در زمان t را نیز با
$$ State at Time t = q_t$$
نمایش میدهیم.
به مجموعه اطلاعات ماتریس تغییر حالت و حالت کنونی یک **مدل** گفته میشود که آن را با $\lambda$ نمایش میدهیم , برای تشریح بهتر کارکرد این مدل میخواهیم به پاسخ پرسش زیر بپردازیم :
+ چه احتمالی وجود دارد که با دانستن یک مدل $$\lambda = { A , q_0 } $$
وضعیت های آینده به شرح زیر باشند :
$$O = { S_1 , S_1 , S_1 , S_2 , S_3 , S_2 , S_1 }$$
به دنباله نشان داده شده با $O$ دنباله مشاهدات [^Observation] گفته میشود .
این مساله را در قالب ریاضی زیر میتوان شرح داد :
$$P( O | \lambda ) = \pi_{1} + a_{11} + a_{11} + a_{12} + a_{23} + a_{32} + a_{21}$$
نماد $\pi$ به معنی وضعیت آغازین سیستم است و آنرا به صورا زیر تعریف میکنیم :
$$\pi_{i} = P(q_1 = S_i)$$
به طور مشابه میتوان به پرسش های جالب دیگری هم با استفاده از همین مدل پاسخ داد :
+ چه احتمالی وجود دارد که برای d روز پیاپی در یک وضعیت باقی بمانیم؟
+ چه احتمالی وجود دارد پس پس از یک روز آفتابی , ۳ روز پیاپی باران ببارد؟
+ چه احتمالی وجود دارد پس برای یک هفته بارش برف نداشته باشیم؟
ذکر این نکته مهم است که در انتخاب تعداد حالات این مدل مارکوف , ** حداقل حالات یا ساده ترین شکل ممکن در نظر گرفته شده است .** برای مثال در صورتی که این دانش را داشته باشیم که احتمال بارش باران پس از یک روز بارانی دیگر متفاوت از دیگر احتمال بارش باران پس از یک روز آفتابی است ( توجه کنید که در مدل های مارکوف مرتبه n وابستگی به n وضعیت قبلی مجاز است و در نظر گرفته میشود ) واضح است که تعداد حالت های مدل و ابعاد ماتریس تغییر حالت بیشتر خواهد شد .
برای تشریح کامل مدل پنهان مارکوف لازم است که اجزای [^Element] آنرا بشناسیم .
1. تعداد حالت ها که با $N$ نمایش داده میشود .
2. تعداد حالت های مشاهدات در هر وضعیت که دریافت میشود ( در مثال قبل ۳ حالت مشاهده در هر وضعیت داشتیم - برفی , بارانی و آفتابی ) . تعداد این مشاهدات با $M$ و دنباله آن با $V = { v_1 , v_2 , ... , V_M } $ نمایش داده میشود . توجه شود که این دنباله لزوما با تعداد حالات برابر نیست و در این مثال به دلیل توضیح داده شده در بخش قبلی ( یک حالت به ازای هر وضعیت آب و هوایی ) تعداد ها یکسان میباشد .
3. ماتریس احتمال تغییر حالت که با نماد $A , a_{i}$ نمایش داده میشود . هر عضو در سطر i و ستون j به معنی احتمال رفتن از وضعیت i به وضعیت j میباشد.
4. احتمال مشاهدات متفاوت در هر ورودی . احتمال اینکه در وضعیت i مشاهده k ام جزو مشاهدات دریافتی باشد با نماد زیر نمایش داده میشود :
$$B = b_i(k) = P( v_k | q_t = s_i )$$
5. وضعیت اولیه سیستم که در طی مثال نیز توضیح داده شد . احتمال اینکه سیستم با وضعیت i آغاز گردد به صورت زیر نمایش داده میشود : $$\pi_{i} = P(q_1 = S_i)$$
با داشتن این اطلاعات اولیه به بررسی سه چالش اصلی در یک مدل مارکوف میپردازیم :
+ به در اختیار داشتن یک مدل $\lambda = ( A , B , \pi ) $ ُ با مشاهده یک ورودی خاص $O = { o_1 , o_2 , .. , 0_m}$ چگونه به صورت بهینه احتمال رخداد این ورودی با فرض این مدل را محاسبه کنیم ؟
$$P ( O | \lambda ) = ?$$
+ با فرض یک دنباله ورودی $O = { o_1 , o_2 , .. , 0_m}$ و یک مدل $\lambda$ چگونه یک دنبال از وضعیت ها را ( $Q = { q_1 , 1_2 , .. }$ ) انتخاب بکنیم که به بهترین نحو ورودی سیستم رو توجیه کنند .
+ چگونه یک مدل با پارامتر های فوق را تشکیل دهیم .
قبل از فکر کردن و درگیر کردن ذهن با روش های حل هریک از چالش فوق ُ لازم است که برای واضح شدن اهمیت آنها , ربط هریک از مراحل با رویه تشخیص یک نوشته در این پروژه را توضیح دهیم [6] :
به مثال اصلی که مارا به مدل های پنهان مارکوف سوق داد بازمیگردیم ! یک سیستم تشخیص گفتار :
فرض کنید که به ازای هر کلمه w در الفبای سیستم W یک مدل با N وضعیت تشکیل میدهیم . سیگنال های ورودی سیستم به صورت بردار های فرکانسی برچسب گذاری شده بر اساس زمان نشان داده میشوند .
اولین قدم ایجاد مدل کلمات ُ و پیش بینی اولیه پارامتر های آن است . این کار دقیقا برابر با **چالش ۳** میباشد .
در مرحله بعد لازم است که به وسیله یک مجموعه اطلاعات صحیح اولیه برای آموزش سیستم , وضعیت های مدل را تغییر دهیم و پرامتر های آن را بهبود ببخشیم . این بخش باعث میشود که در میان وضعیت های یک مدل ( که خود نشان دهنده یک کلمه است ) **دنباله صحیح وضعیت را پیدا کنیم** . شاید لازم باشد یک بار دیگر تکرار بکنیم که تا این مرحله به چه چیزی رسیده ایم :
ما برای هریک از کلمات ورودی سیستم یک مدل با تعداد حالات مشابه در نظر گرفتیم . هر یک از این مدل ها ( که در واقع قبل از آموزش دیدن و اجرای این مرحله کاملا مشابه هم هستند ) در یک وضعیت آغازین قرار دارند و با مشاهده دنباله ای از بردار های ورودی به وضعیت های متقاوت میروند . پس لازم است که هر مدل برای شناسایی یک کلمه آموزش دیده شود یا به عبارت دیگر , با مشاهده دنباله حالت هایی که مدل به آن به ازای یک ورودی خاص میرود , پارامتر هایش را به گونه ای تغییر میدهد که برای حالت های نزدیک به این ورودی نیز بتواند آنرا تشخیص دهد . این کار با تکرار مکرر **چالش ۲** انجام میگیرد . سیستم با مشاهده یک ورودی آموزشی دنباله وضعیت هایی را که با این ورودی بیشترین **همخوانی** را دارند ( این ورودی را **توجیه** میکنند ) تشخیص داده و خود را با توجه به آن اصلاح میکند . این مرحله شامل رویه **استخراج ویژگی ها** [^Featur Extraction] که یکی از همه ترین بخش های این پروژه می باشد نیز هست که در فاز پیاده سازی با جزییات بیشتر در مورد آن توضیحاتی داده خواهد شد .
و بالاخره ! هدف نهایی ما : اینکه پس از آموزش دیدن یک مدل توسط ورودی های اولیه , با مشاهده یک ورودی بتوانیم احتمال وجود این ورودی در یک مدل را بدست آوریم و نهایتا تشخیص دهیم که کدامیک از مدل ها بیشترین شانس را برای توجیه این ورودی دارد . این کار در ** چالش ۱ ** انجام میگیرد .
بدست آورد روشی بهنیه برای رفع هریک از این چالش ها روش های مخصوصی دارد [6] که در بخش پیاده سازی بیشتر در مورد آنها بحث خواهد شد .
## ساختار یک نویسه خوان بر اساس مدل پنهان مارکوف
حال که بسیاری از فواید مدل های مارکوف , استفاده از آنها در سیستم های تشخیص گفتار و ربط آن با سیستم نویسه خوان را بررسی کردیم , میتوانیم به بررسی ساختار یک نویسه خوان بر پایه نظریات مطرح شده برسیم !
در این بخش چکیده ای از معماری یک نویسه خوان با الگو از سیستم تشخیص گفتار بیان میگردد . قبل از آغاز کار لازم به ذکر است که با توجه به گستردگی چالش های رَویه تشخیص یک نوشته در عکس , این پروژه تنها به بُعد **تشخیص** می پردازد و توضیخات این بخش و پیاده سازی نیز مربوط به همین بُعد خواهند بود .
برای درک بهتر این موضوع خط لوله اصلی رویه تبدیل یک نوشته به متن را میتوان در شکل زیر مشاهده کرد .
![مراحل تبدیل عکس به نوشته](http://www.danvk.org/images/ocropus/ocropus-pipeline.png)
+ یکپارچه سازی [^Binarization] : شامل تبدیل عکس رنگی به یک تصویر کاملا سیاه و سفید به منظور افزایش درک سیستم از هر پیکسل در عکس .
+ قطعه قطعه سازی :مطالب بسیاری در باره حذف این بخش در سیستم نویسه خوانی که آنرا در این مقاله شرح دادیم مطرح شد , اما نهایتا نباید فراموش کنیم که بخش تشخیص یک **خط در متن** کماکان یک چالش - قابل حل - در مسیر ما میباشد .
+ تشخیص : بخش اصلی سیستم که بر اساس آن بتواند متن نهایی را تولید کند .
### دیاگرام نویسه خوان نهایی
بدون مقدمه بیشتر , ابتدا سیستم نهایی رو مشاهده میکنیم و سپس اجزای آنرا بررسی میکنیم :
![دیاگرام بلوکی یک نویسه خوان](http://uupload.ir/files/lgu2_screen_shot_2015-11-21_at_2.42.54_am.png)
به طور خلاصه میتوان در شکل مشاهده کرد که سیستم به دو بخش اصلی آموزش و تشخیص تفکیک شده است . هسته اصلی سیستم آموزش ( مدل سازی کاراکتر ها[^Character Modeling] ) ابتدا توسط داده های آموزشی , پس از استخراج ویژگی ها , به بهبود پارامتر ها میپردازد . ( در مثال بخش قبل برای فهم بهتر و سادگی از یک **کلمه** به عنوان پایه مدل ها نام برده شد , در حالی که واضح است در این صورت میبایست بیشمار مدل برای کلمات ممکن داشت! )
همانطور که در بخش قبل به شباهت مدل ها قبل از آموزش دیدن اشاره شد , در این بخش هم این نکته قابل بیان شدن است که تجربه نشان داده متفاوت گرفتن تعداد حالات برای مدل های کاراکتر های مخالف ( مثلا کارکتر هایی که به نظر پیچیدگی بیشتری دارند تعداد حالات بیشتری داشته باشند ) عملا کارایی چندانی در بهبود عملکرد نهایی سیستم نخواهد داشت [4] .
علاوه بر مدل هایی که از ویژگی های ظاهری **حروف** استخراج میگردند , میتوان در یک سطح بالاتر ( **سطح کلمات** ) از [مدل های زبانی](https://en.wikipedia.org/wiki/Language_model) نیز برای بهبود و تایید نتایج استفاده کرد ( البته میتوان از مدل های زبانی در سطح حروف نیز استفاده کرد اما انباشتگی بسیار زیاد اطلاعات آن عملا باعث ناکارامدی آن میشود ) . ساختار این مدل های زبانی بسیار مشابه کاری که نویسه خوان در سطح حروف اتجام میدهد است , تنها با این تفاوت که در سطح کلمات و ترتیب قرار گیری آنها در پی یکدیگر , احتمال صحت یک دنباله بررسی میشود . ( از بررسی جزییات کارکرد این بخش به دلیل عدم ارتباط با پروژه اصلی پرهیز میشود )
تا این مرحله از موضیحات چندین بار از واژه **استخراج ویژگی** نام برده شد و حال که به بُعد پیاده سازی بسیار نزدیک هستیم بهترین فرصت میباشد که کمی بیشتر در مورد آنها توضیح دهیم .
در بخش قبل به چالشی اشاره کردیم که در طی آن باید راهی برای بهبود پارمتر های مدل خود پیدا میکردیم . مشخصاً این کار امکان پذیر نیست مگر آنکه راهی برای **تبدیل یک مشاهد** سیستم به یک مجموعه از **پارامتر های قابل فهم** برای سیستم , داشته باشیم . این پارامتر های قابل فهم همان ویژگی های یک قاب از ورودی ( که معادل یک مشاهده - $V_i$ - میباشد ) است . برای مثال میتوان در هر قاب ویژگی های زیر را استخراج کرد :
1. میزان غلظت پیکسل های سیاه و سفید
2. مشتق طولی از بردار غلظت
3. مشتق عرضی از بردار غلظت
پس هر بردارد از ویژگی ها نهایتا بیانگر یک مشاهده خواهد بود و حال میتوان متوجه شد که به چه دلیل هم در بخش آموزش و هم در بخش تشخیص **سیستم نتیجه بخش استخراج ویژگی ها به پردازشگر اصلی منتقل میکند** .
بحث در مورد اینکه کدام ویژگی ها برای دریافت بهترین نتایج مناسب تر هستند میتواند یکی از کار های اصلی بخش پیاده سازی باشد ( ویژگی های فوق در مراجع [1] به عوان یک سری از ویژگی های لازم و حداقل مطرح شده اند)
برای جمع بندی نهایی معماری کلی نویسه خوان , یک بار دیگر مراحل اصلی عکس فوق را با مقدمات ریاضی مطرح شده در بخش قبل از مدل های مارکوف تطابق میدهیم :
سیستم ابتدا بر اساس پردازش تصویری از قاب های پیاپی از ورودی و استخراج ویژگی های آنها یک دنباله از ورودی های آموزشی $V_i$ را مهیا کرده . بخش ایجاد کننده مدل های کاراکتر ها ( چالش ۳ ) برای هر کاراکتر یک مدل خام ایجاد کرده و با مشاهده ورودی های مخالف با طرز نوشتن های متفاوت و .. شروع به بهبود پارامتر مدل برای تشخیص بهتر این کاراکتر میکند .
و در نهایت سیستم در زمان تشخیص و آزمایش نهایی بار دیگر دنباله مشاهدات ورودی را با همان روشی که بر طبق آن آموزش دیده است تبدیل به یک بردار ویژگی میکند و با مقایسه میزان شباهت آن با مدل های مختلف متن نهایی را تولید میکند .
### آیا نتیجه بهتری میگیریم ؟
پس از بیان تمام این مقدمات بیایید با هم یکبار دیگر چند پرسش بسیار ساده تر را پاسخ دهیم :
چرا نویسه خوان خود را بر اساس مقدمات فوق پیاده سازی کنیم ؟ آیا روش بهتری وجود ندارد ؟ یا اصلا چرا از صفر اینکار را انجام میدهیم ؟ ایا شانسی برای یادگیری ابزار های موجود متن باز حال حاضر برای زبان فارسی وجود ندارد ؟
با [جستجویی در وب](http://www.researchgate.net/post/What_is_the_best_OCR_implementation_algorithm) میتوانیم بسیاری از روش های دیگر برای پیاده سازی نویسه خوان را پیدا کنیم :
+ پیاده سازی بر اساس الگوریتم های تطابق مسیر ( روشی که ترکیب آن با شبکه عصبی پایه Tesseract است ) [^Pattern Matching]
+ پیاده سازی با ابزارهای متلب
+ پیاده سازی بر اساس شبکه های عصبی ( روشی که Ocropy بر پایه آن نوشته شده - [لینک](https://www.quora.com/OCR-Where-can-I-find-good-resource-for-implementing-OCR-using-recurrent-neural-network) )
همان طور که در بخش های اولیه توضیح داده شد , هریک از روش های زیر به دلایل متفاوت (که اصلی ترین آنها وابستگی زیاد به تشخیص حروف در زبان هایی با نوشتار گسسته است ) راه حل مناسب و امید بخشی به حساب نمی آیند , در حالی که روش ارایه شده بر پایه تشخیص گفتار - حداقل در ظاهر و بر پایه مقالات نگارش شده در این زمینه - بسیار امیدوار کننده تر میباشد و در در مقالاتی که نتایج برخی آزمایش هایشان را منتشر کرده اند ,مشاهده میکنیم که برای زبان عربی (که در یک مرتبه مشابه سختی با زبان فارسی قرار دارد ) **به ضریب خطای کمتر از ۱٪** هم بدست آمده است [1] .
همچنین نباید از این واقعیت بار دیگر دور شد که معقوله نویسه خوانی برای زبان هایی با انعطاف بسیار بالا در نوشتار مانند زبان فارسی بسیار بسیار حساس تر میباشد و نتیجه این حساسیت و دشواری این بوده که زمان بسیار زیادی برای پیدا کردن راه حل مناسب صرف کردیم , زمانی که شاید میتوانستیم آنرا صرف پیاده سازی یک روش ساده تر بکنیم , تا اطمینان داشته باشیم که مسیر انتخابی میتواند نتیجه بخش باشد .
# کارهای آینده
+ تشریح بیشتر روش های حل ۳ چالش اساسی مدل های مارکوف
+ پیاده سازی این مدل و تحقیق و آزمایش در مورد بهینه ترین بردار ویژگی ها
+ ایجاد ابزار های تولید کننده دادهگان آموزشی برای سیستم شود.
این مساله را در قالب ریاضی زیر میتوان شرح داد :
$$P( O | \lambda ) = \pi_{1} + a_{11} + a_{11} + a_{12} + a_{23} + a_{32} + a_{21}$$
نماد $\pi$ به معنی وضعیت آغازین سیستم است و آنرا به صورا زیر تعریف میکنیم:
$$\pi_{i} = P(q_1 = S_i)$$
به طور مشابه میتوان به پرسش های جالب دیگری هم با استفاده از همین مدل پاسخ داد:
+ چه احتمالی وجود دارد که برای d روز پیاپی در یک وضعیت باقی بمانیم؟
+ چه احتمالی وجود دارد پس پس از یک روز آفتابی , ۳ روز پیاپی باران ببارد؟
+ چه احتمالی وجود دارد پس برای یک هفته بارش برف نداشته باشیم؟
ذکر این نکته مهم است که در انتخاب تعداد حالات این مدل مارکوف , ** حداقل حالات یا ساده ترین شکل ممکن در نظر گرفته شده است.** برای مثال در صورتی که این دانش را داشته باشیم که احتمال بارش باران پس از یک روز بارانی دیگر متفاوت از دیگر احتمال بارش باران پس از یک روز آفتابی است ( توجه کنید که در مدل های مارکوف مرتبه n وابستگی به n وضعیت قبلی مجاز است و در نظر گرفته میشود) واضح است که تعداد حالت های مدل و ابعاد ماتریس تغییر حالت بیشتر خواهد شد.
برای تشریح کامل مدل پنهان مارکوف لازم است که اجزای [^Element] آنرا بشناسیم.
1. تعداد حالت ها که با $N$ نمایش داده میشود.
2. تعداد حالت های مشاهدات در هر وضعیت که دریافت میشود ( در مثال قبل ۳ حالت مشاهده در هر وضعیت داشتیم - برفی , بارانی و آفتابی ). تعداد این مشاهدات با $M$ و دنباله آن با $V = { v_1 , v_2 , ... , V_M } $ نمایش داده میشود. توجه شود که این دنباله لزوما با تعداد حالات برابر نیست و در این مثال به دلیل توضیح داده شده در بخش قبلی (یک حالت به ازای هر وضعیت آب و هوایی) تعداد ها یکسان میباشد.
3. ماتریس احتمال تغییر حالت که با نماد $A , a_{i}$ نمایش داده میشود. هر عضو در سطر i و ستون j به معنی احتمال رفتن از وضعیت i به وضعیت j میباشد.
4. احتمال مشاهدات متفاوت در هر ورودی. احتمال اینکه در وضعیت i مشاهده k ام جزو مشاهدات دریافتی باشد با نماد زیر نمایش داده میشود:
$$B = b_i(k) = P( v_k | q_t = s_i )$$
5. وضعیت اولیه سیستم که در طی مثال نیز توضیح داده شد. احتمال اینکه سیستم با وضعیت i آغاز گردد به صورت زیر نمایش داده میشود: $$\pi_{i} = P(q_1 = S_i)$$
با داشتن این اطلاعات اولیه به بررسی سه چالش اصلی در یک مدل مارکوف میپردازیم :
+ به در اختیار داشتن یک مدل $\lambda = ( A , B , \pi ) $ ُ با مشاهده یک ورودی خاص $O = { o_1 , o_2 , .. , 0_m}$ چگونه به صورت بهینه احتمال رخداد این ورودی با فرض این مدل را محاسبه کنیم؟
$$P ( O | \lambda ) = ?$$
+ با فرض یک دنباله ورودی $O = { o_1 , o_2 , .. , 0_m}$ و یک مدل $\lambda$ چگونه یک دنبال از وضعیت ها را ( $Q = { q_1 , 1_2 , .. }$ ) انتخاب بکنیم که به بهترین نحو ورودی سیستم رو توجیه کنند.
+ چگونه یک مدل با پارامتر های فوق را تشکیل دهیم.
قبل از فکر کردن و درگیر کردن ذهن با روش های حل هریک از چالش فوق ُ لازم است که برای واضح شدن اهمیّت آنها, ربط هریک از مراحل با رویه تشخیص یک نوشته در این پروژه را توضیح دهیم [6]:
به مثال اصلی که ایده دهنده اصلی ما به مدل های پنهان مارکوف بود بازمیگردیم. یک سیستم تشخیص گفتار:
فرض کنید که به ازای هر کلمه w در الفبای سیستم W یک مدل با N وضعیت تشکیل دهیم. سیگنال های ورودی سیستم به صورت بردار های فرکانسی برچسب گذاری شده بر اساس زمان نشان داده میشوند.
اولین قدم ایجاد مدل کلمات ُو پیش بینی اولیه پارامترهای آن است. این کار دقیقا برابر با **چالش ۳** میباشد.
در مرحله بعد لازم است که به وسیله یک مجموعه اطلاعات صحیح اولیه برای آموزش سیستم, وضعیت های مدل را تغییر دهیم و پرامتر های آن را بهبود بخشیم. این بخش باعث میشود که در میان وضعیت های یک مدل (که خود نشان دهنده یک کلمه است) **دنباله صحیح وضعیت را پیدا کنیم**. شاید لازم باشد یک بار دیگر تکرار بکنیم که تا این مرحله به چه چیزی رسیده ایم:
ما برای هریک از کلمات ورودی سیستم یک مدل با تعداد حالات مشابه در نظر گرفتیم. هر یک از این مدلها (که در واقع قبل از آموزش دیدن و اجرای این مرحله **کاملا مشابه هم **هستند) در یک وضعیت آغازین قرار دارند و با مشاهده دنباله ای از بردار های ورودی به وضعیت های متقاوت میروند. پس لازم است که هر مدل برای شناسایی یک کلمه آموزش دیدهشود یا به عبارت دیگر, با مشاهده دنباله حالتهایی که مدل به آن به ازای یک ورودی خاص میرود, پارامترهایش را به گونه ای تغییر دهد که برای حالت های نزدیک به این ورودی نیز بتواند آنرا تشخیص دهد. این کار با تکرار مکرر **چالش ۲** انجام میگیرد. سیستم با مشاهده یک ورودی آموزشی دنباله وضعیت هایی را که با این ورودی بیشترین **همخوانی** را دارند (این ورودی را **توجیه** میکنند) تشخیص داده و خود را با توجه به آن اصلاح میکند. این مرحله شامل رویه **استخراج ویژگی ها** [^Featur Extraction] که یکی از همه ترین بخش های این پروژه می باشد نیز میباشد که در فاز پیاده سازی با جزییات بیشتر در مورد آن توضیحاتی داده خواهد شد.
و در نهایت, هدف نهایی ما: اینکه پس از آموزش دیدن یک مدل توسط ورودی های اولیه, با مشاهده یک ورودی بتوانیم احتمال وجود این ورودی در یک مدل را بدست آوریم و نهایتا تشخیص دهیم که کدامیک از مدل ها بیشترین شانس را برای توجیه این ورودی دارد. این کار در ** چالش ۱ ** انجام میگیرد.
بدست آورد روشی بهنیه برای رفع هریک از این چالش ها روش های مخصوصی دارد [6] که در بخش پیاده سازی بیشتر در مورد آنها بحث خواهد شد.
## ساختار یک نویسه خوان بر اساس مدل پنهان مارکوف
حال که بسیاری از فواید مدل های مارکوف, استفاده از آنها در سیستم های تشخیص گفتار و ربط آن با سیستم نویسه خوان را بررسی کردیم, میتوانیم به بررسی ساختار یک نویسه خوان بر پایه نظریات مطرح شده برسیم.
در این بخش چکیده ای از معماری یک نویسه خوان با الگو از سیستم تشخیص گفتار بیان میگردد. قبل از آغاز کار لازم به ذکر است که با توجه به گستردگی چالش های رَویه تشخیص یک نوشته در عکس, این پروژه تنها به بُعد **تشخیص** میپردازد و توضیخات این بخش و پیاده سازی نیز مربوط به همین بُعد خواهدبود.
برای درک بهتر این موضوع خط لوله اصلی رویه تبدیل یک نوشته به متن را میتوان در شکل زیر مشاهده کرد.
![مراحل تبدیل عکس به نوشته](http://www.danvk.org/images/ocropus/ocropus-pipeline.png)
+ یکپارچه سازی [^Binarization]: شامل تبدیل عکس رنگی به یک تصویر کاملا سیاه و سفید به منظور افزایش درک سیستم از هر پیکسل در عکس.
+ قطعه قطعه سازی:مطالب بسیاری در باره حذف این بخش در سیستم نویسهخوانی که آنرا در این مقاله شرح دادیم مطرح شد, اما نهایتا نباید فراموش کنیم که بخش تشخیص یک **خط در متن** کماکان یک چالش - قابل حل - در مسیر ما میباشد.
+ تشخیص: بخش اصلی که سیستم بر اساس آن بتواند متن نهایی را تولید کند.
### دیاگرام نویسه خوان نهایی
بدون مقدمه بیشتر, ابتدا سیستم نهایی را مشاهده میکنیم و سپس اجزای آنرا بررسی میکنیم:
![دیاگرام بلوکی یک نویسه خوان](http://uupload.ir/files/lgu2_screen_shot_2015-11-21_at_2.42.54_am.png)
به طور خلاصه میتوان در شکل مشاهده کرد که سیستم به دو بخش اصلی آموزش و تشخیص تفکیک شدهاست. هسته اصلی سیستم آموزش (مدل سازی کاراکتر ها[^Character Modeling]) ابتدا توسط داده های آموزشی, پس از استخراج ویژگی ها, به بهبود پارامتر ها میپردازد. (در مثال بخش قبل برای فهم بهتر و سادگی از یک **کلمه** به عنوان پایه مدل ها نام برده شد, در حالی که واضح است در این صورت میبایست بیشمار مدل برای کلمات ممکن داشت!)
همانطور که در بخش قبل به شباهت مدل ها قبل از آموزش دیدن اشاره شد, در این بخش هم این نکته قابل ذکر است که تجربه نشان داده متفاوت گرفتن تعداد حالات برای مدل های کاراکتر های مخالف (مثلا کارکتر هایی که به نظر پیچیدگی بیشتری دارند تعداد حالات بیشتری داشته باشند) عملا کارایی چندانی در بهبود عملکرد نهایی سیستم نخواهد داشت [4].
علاوه بر مدل هایی که از ویژگی های ظاهری **حروف** استخراج میگردند, میتوان در یک سطح بالاتر ( **سطح کلمات** ) از [مدل های زبانی](https://en.wikipedia.org/wiki/Language_model) نیز برای بهبود و تایید نتایج استفاده کرد. ( البته میتوان از مدل های زبانی در سطح حروف نیز استفاده کرد اما انباشتگی بسیار زیاد اطلاعات آن عملا باعث ناکارامدی میشود) ساختار این مدل های زبانی بسیار مشابه کاری که نویسهخوان در سطح حروف انجام میدهد است, تنها با این تفاوت که در سطح کلمات و ترتیب قرار گیری آنها در پی یکدیگر, احتمال صحت یک دنباله بررسی میشود. ( از بررسی جزییات کارکرد این بخش به دلیل عدم ارتباط با پروژه اصلی پرهیز میشود)
تا این مرحله از توضیحات چندین بار از واژه **استخراج ویژگی** نام برده شد و حال که به بُعد پیاده سازی نزدیک هستیم بهترین فرصت میباشد که کمی بیشتر در مورد آنها توضیح دهیم.
در بخش قبل به چالشی اشاره کردیم که در طی آن باید راهی برای بهبود پارمتر های مدل خود پیدا میکردیم. مشخصاً این کار امکان پذیر نیست مگر آنکه راهی برای **تبدیل یک مشاهد** سیستم به یک مجموعه از **پارامتر های قابل فهم** برای سیستم, داشته باشیم. این پارامتر های قابل فهم همان ویژگی های یک قاب از ورودی (که معادل یک مشاهده - $V_i$ - میباشد) است. برای مثال میتوان در هر قاب ویژگی های زیر را استخراج کرد:
1. میزان غلظت پیکسل های سیاه و سفید
2. مشتق طولی از بردار غلظت
3. مشتق عرضی از بردار غلظت
پس هر بردارد از ویژگی ها نهایتا بیانگر یک مشاهده خواهد بود و حال میتوان متوجه شد که به چه دلیل هم در بخش آموزش و هم در بخش تشخیص **سیستم نتیجه بخش استخراج ویژگی ها به پردازشگر اصلی منتقل میکند**.
بحث در مورد اینکه کدام ویژگی ها برای دریافت بهترین نتایج مناسب تر هستند میتواند یکی از کار های اصلی بخش پیاده سازی باشد. ( ویژگی های فوق در مراجع [1] به عوان یک سری از ویژگی های لازم و حداقل مطرح شدهاند)
برای جمع بندی نهایی معماری کلی نویسهخوان, یک بار دیگر مراحل اصلی عکس فوق را با مقدمات ریاضی مطرح شده در بخش قبل از مدل های مارکوف تطابق میدهیم:
سیستم ابتدا بر اساس پردازش تصویری از قاب های پیاپی از ورودی و استخراج ویژگی های آنها یک دنباله از ورودی های آموزشی $V_i$ را مهیا میکند. بخش ایجاد کننده مدل های کاراکترها (چالش ۳) برای هر کاراکتر یک مدل خام ایجاد کرده و با مشاهده ورودی های مخالف با طرز نوشتن های متفاوت و .. شروع به بهبود پارامتر مدل برای تشخیص بهتر این کاراکتر میکند.
و در نهایت سیستم در زمان تشخیص و آزمایش نهایی بار دیگر دنباله مشاهدات ورودی را با همان روشی که بر طبق آن آموزش دیده است تبدیل به یک بردار ویژگی میکند و با مقایسه میزان شباهت آن با مدل های مختلف متن نهایی را تولید میکند.
### آیا نتیجه بهتری میگیریم ؟
پس از بیان تمام این مقدمات باید با هم یکبار دیگر چند پرسش بسیار ساده تر را پاسخ دهیم:
چرا نویسه خوانخود را بر اساس مقدمات فوق پیاده سازی کنیم؟ آیا روش بهتری وجود ندارد؟ اصلا چرا از صفر اینکار را انجام میدهیم ؟ ایا شانسی برای یادگیری ابزار های موجود متن باز حال حاضر برای زبان فارسی وجود ندارد؟
با [جستجویی در وب](http://www.researchgate.net/post/What_is_the_best_OCR_implementation_algorithm) میتوانیم بسیاری از روش های دیگر برای پیاده سازی نویسه خوان را پیدا کنیم:
+ پیاده سازی بر اساس الگوریتم های تطابق مسیر( روشی که ترکیب آن با شبکه عصبی پایه Tesseract است ) [^Pattern Matching]
+ پیاده سازی با ابزارهای متلب
+ پیاده سازی بر اساس شبکه های عصبی ( روشی که Ocropy بر پایه آن نوشته شده - [لینک](https://www.quora.com/OCR-Where-can-I-find-good-resource-for-implementing-OCR-using-recurrent-neural-network) )
همان طور که در بخش های اولیه توضیح داده شد, هریک از روش های زیر به دلایل متفاوت (که اصلی ترین آنها وابستگی زیاد به تشخیص حروف در زبان هایی با نوشتار گسسته است) راه حل مناسب و امید بخشی به حساب نمیآیند, در حالی که روش ارایه شده بر پایه تشخیص گفتار- حداقل در ظاهر و بر پایه مقالات نگارش شده در این زمینه- بسیار امیدوار کننده تر میباشد و در در مقالاتی که نتایج برخی آزمایش هایشان را منتشر کردهاند, مشاهده میکنیم که برای زبان عربی (که در یک مرتبه مشابه سختی با زبان فارسی قرار دارد ) **به ضریب خطای کمتر از ۱٪** هم بدست آمده است [1] .
----------
# آزمایش ها
پس از یافتن یک دیدگاه اولیه از تئوری های استفاده شده برای پیاده سازی حال میتوانیم آمایش هایی بر اساس همین روش ها را پیاده سازی و نتایج آن را بررسی کنیم ( [لینک مخزن گیتهاب پروژه](https://github.com/Kianp/AICourse_OCR) ).
## آماده سازی سیستم پیاده سازی
به منظور در دست داشتن یک ابزار قابل اعتماد از نظر کیفیت و سرعت در پیاده سازی مدل های مارکوف, از کتابخانه [ Hidden Markof Toolkit - HTK Speech Recognition System](http://htk.eng.cam.ac.uk/) استفاده میکنیم. همانطور که در توضیحات قبل اشاره شد سیستم برای یادگیری مراحلی مشابه با تشخیص گفتار را طی میکند.
تمام مراحل ذکر شده در قست های بعدی در واقع مراحل یادگیری و آزمایش ذکر شده در کتاب مرجع HTK میباشند. با این تفاوت که ما سعی کردهایم که در آن به جای داده های **صوتی** و بررسی آنها در قالب **آوا** ها, فایل های **تصویری** را به عنوان ورودی سیستم در نظر بگیریم و **حروف** آنرا برسی کنیم [7] .
به منظور تمرکز بر ارایه نتایج از پرداختن توضیحات جزیی در باره دستورات کتابخانه HTK در این پژوهش نامه پرهیز شدهاست و تنها به نام چندی از دستورات پر کاربرد بسنده کردیم. توضیحات کامل در این مورد درکتاب مرجع HTK ذکر شدهاست و مطالعه آنرا بر عهده خواننده میگذاریم.
مراحل انجام هریک از آزمایش ها به شرح ذیل است:
+ ** آماده سازی داده های آزمایش **
برای به دست آوردن حجم بسیار زیادی از داده های متقارن تصویری به همراه متن های صحیح مربوط به هریک از قابلیت های برچسب[^Tag] Canvas در HTML5 استفاده میکنیم. به این طریق میتوانیم هر تعداد فایل متنی موجود را به نوشته فارسی در قالب عکس (با اندازه و قلم های متفاوت ) تبدیل و ذخیره کنیم. در طی آزمایش های اولیه بیشتر تصاویر تولید شده شامل اسم های فارسی ایجاد شده توسط کتابخانه های Faker یا متن های جمع آوری شده از سرتیتر های سایت های خبری میباشد.
----------
+ ** تبدیل تصاویر به فرمت های مجاز **
در مرحله قبل به منظور سهولت و سرعت در تولید تصاویر آنها را با فرمت PNG ایجاد مینماییم. اما برای پردازش ساده تر در مراحل استخراج ویژگی ها باید آنها را به ساختاری انتقال دهیم که به صورت خودکار قابل پردازش باشند. بدین منظور از کتابخانه [Netpbm](http://netpbm.sourceforge.net/) (که یکی از قدیمی ترین ابزار های پردازش تصویر در محیط های یونیکس است) استفاده میکنیم. Netpbm ساختاری یکپارچه و انعطاف پذیر (و در عین حال بسیار سبک و کم حجم) برای نمایش و پردازش تصاویر ایجاد میکند. به صورت کلی این کتابخانه [۳ فرمت اصلی برای تصویر](https://en.wikipedia.org/wiki/Netpbm_format) دارد : Portable Bitmap - Portable Graymap - Portable Pixmap
ما در طی اینازمایش تمام تصاویر را به نوع اول یعنی PBM تبدیل میکنیم. این فرمت تنها به نگه داشتن اطلاعات دودویی از تصویر بسنده میکند و با توجه به اینکه در مراحل بعدی نیز تنها تصاویر سیاه و سفید را مورد پردازش قرار میدهیم استفاده از این فرمت بسیار بهینه تر میباشد.
![ یک نمونه تصویر دودویی استفاده شده در آزمایش ها در فرمت PBM](http://uupload.ir/files/21j8_screenshot_from_2015-12-24_13:01:35.png)
----------
+ ** استخراج ویژگی ها **
دستورات زیر برای استخراج ویژگی ها به ترتیب استفاده میشوند. همانطور که اشاره شد این مراحل کاملا بر پایه Netpbm صورت میگیرد و دلیل اصلی سازگار کردن تصاویر با این کتابخانه سهولت این مرحله بود.
pnmdepth 255 $f | # Change to grey Level
pgmmedian | # Smooth the image
pgmslope| # Perform "Slope" correction
pgmslant -M M | # Perform "Slant" correction using Std. Desv.
pgmnormsize -c 5 | # Perform size normalization
pgmtextfea -c $DIM > /tmp/tmp.fea # Compute feature extraction
pfl2htk /tmp/tmp.fea $DDEST/${d/pbm/fea} # Convert to HTK format
در دستورات فوق متغییر `$f` تعداد پنجره های استفاده شده برای استخراج ویژگی های هر عکس میباشد. (در آزمایش های ما این مقدار ۲۰ قرار داده شده)
![یک نمونه از ویژگی های استخراج شده از داده های یادگیری](http://uupload.ir/files/pqpl_screenshot_from_2015-12-24_13:02:39.png)
----------
+ ** ایجاد مدل اولیه [^Prototype] حروف **
همانگونه که در توضیحات بخش قبل ذکر شد در ابتدای فرآیند برای هر کاراکتر یک مدل یکسان ایجاد میشود که در فاز یادگیری به تدریج مدل ها از یکدیگر تمایز پیدا میکنند و هریک نشانگر یک حرف خاص خواهد بود. در این بخش تعریف مدل بر اساس ساختار استاندارد شده در کتابخانه HTK صورت میگیرد که در آن به هر حرف یک مدل سمت راستی [^ Left to Right HMM ] تخصیص میشود که در آن ۸ وضعیت یکسان تعریف شده که احتمال انتقال از هر وضعیت به وضعیت بعدی .۴ و وضعیت اکنون .۶ در نظر گرفته میشود. این مدل به صورت یک فایل متنی ذخیره میشود.
علاوه بر آن با پردازش همه جمله های تعریف شده به عنوان داده یادگیری یک فایل از لیست تمام حروف قابل تشخیص سیستم ایجاد میشود.
انجام این مرحله پیاده سازی ** چالش ۱** توضیح داده شده در بخش مقدمه میباشد.
----------
+ ** ایجاد لیست های یادگیری **
به منظور خودکار کردن رویه یادگیری لیستی از تصاویر پردازش شده در قالب ویژگی ها ایجاد میکنیم و عمل یادگیری را روی تمام عناصر این لیست انجام میدهیم. در آزمایش های ما این لیست شامل کل داده های ورودی میباشد. علاوه بر آن برای آزمایش نتایج ۱۰ لیست ۱۰۰ تایی به صورت تصادفی از میان داده های ورودی انتخاب شده و عمل تشخیص [^Recognition] روی آنها صورت میگیرد و میانگین نهایی آنها مورد بحث قرار داده میشود. این روش به منظور حذف ضریب تصادفی بودن نتیجه در آزمایش و اطمینان از صحیح بودن ضریب خطای نهایی میباشد.
----------
+ ** ایجاد فایل های مرجع برای یادگیری و تشخیص **
فایل مرجع یادگیری ایجاد شده به منظور داشتن یک منبع صحیح از حروف به کار رفته در هر کلمه است. در همه بخش های بعدی این فایل ها به عنوان یک داده صحیح از کلمه نوشته شده در یک عکس ( چه در زمان یادگیری و چه در زمان تشخیص) استفاده میکنیم. شایان ذکر است که مانند مرحله تعریف مدل های مارکوف برای کلمه, در این محله نیز ساختار فایل های ایجاد شده مطابق کتابخانه HTK میباشد.
تنها تفاوت اصلی در فایل مرجع آموزش و فایل مرجع تشخیص این است که در فایل استفاده شده در بخش آموزش جمله ها تا مرز حروف تجزیه شدهاند و در بخش تشخیص جملات تا مرز یک کلمه تجزیه میشود.
```
sample.mlf # فایل مرجع یادگیری
\*/train_122.lab
پ
ر
س
ت
و
@
م
ط
ه
ر
ی
.
SampleRef.mlf # فایل مرجع تشخیص
پرستو
مطهری
.
```
مطابق قرارداد های HTK حرف `.` به عنوان نشانه پایان یک جمله و حرف `@` به عنوان یک آوای خالی ( سکوت ) شناخته میشود که در آزمایش های ما از آن برای نشان دادن یک فاصله [^Space] استفاده میشود.
----------
+ ** یادگیری **
![پارامتر های اصلی یادگیری اولیه](http://uupload.ir/files/v9ci_screen_shot_2015-12-26_at_12.16.29_am.png)
در بخش یادگیری سه پارامتر اصلی به عنوان ورودی در نظر گرفته میشود.
1. مدل خام حروف
2. لیست یادگیری
3. لیست حروف موجود
هر یک از جمله های موجود در لیست یادگیری به همراه متن متناسب با آن به ترتیب مشاهده شده و مدل حروف تک تک کلمات مشاهده شده در متن ورودی به تدریج به روزرسانی میشود.
انجام این مرحله پیاده سازی ** چالش ۲ ** توضیح داده شده در بخش مقدمه میباشد.
----------
+ ** ایجاد مدل های زبانی **
همانطور که در بلوک دیاگرام سیستم کلی اشاره شد, به منطور ایجاد نتایج بهتر از یک مدل زبانی وسیع به عنوان یکی از ورودی های بخش تشخیص استفاده میشود. در برخی آزمایش های انجام شده با توجه به نوع داده ورودی استفاده شده سعی شده که کامل ترین نوع مدل زبانی موجود مورد استفاده قرار گیرد.
مثلا در آزمایش های صورت گرفته بر روی جمله های خبری هر جمله ای که یک یا چند کلمه از آن به عنوان یک تصویر یادگیری برگزیده میشود, به صورت کامل در فایل مدل زبانی ذخیره میگردد.
نتیجه نهایی این مدل زبانی دو فایل با نام های Network و Dictionary میباشد که در آنها یک مدل مرتبه ۲ [^Bigram Language Model] از کلمه های استفاده شده ذخیره میگردد.
----------
+ ** تشخیص **
![مراحل تشخیص یک جمله ](http://uupload.ir/files/e9w6_screenshot_from_2015-12-24_16:26:15.png)
بلوک دیاگرام فوق در کتاب مرجع HTK مجموعه اطلاعات و بخش هایی که در نهایت موجب تشخیص یک ورودی سیستم میشوند را نشان میدهد. همانطور که مشاهده میشود مدل های زبانی ایجاد شده, مدل های حروف به همراه یک فایل مجهول به عنوان ورودی در نظر گرفته میشوند و توسط دستور `HVite` ( که نام آن برگفته شده از [الگوریتم Viterbi](https://en.wikipedia.org/wiki/Viterbi_algorithm) است ) پردازش شده و توسط دستور `HResult` آنالیز شده و درصد خطای آن بدست میآید.
انجام این مرحله پیاده سازی ** چالش ۳ ** توضیح داده شده در بخش مقدمه میباشد.
----------
## آزمایش اول : یادگیری اسامی فارسی
در یک آزمایش اولیه نام های فارسی ایجاد شده توسط کتابخانه های Faker را به عنوان ورودی سیستم در نظر میگیریم.
نتیج بدست آمده به شرح زیر است:
درصد های اعلام شده در جدول نتیجه میانگین حاصله از ۱۰ مرتبه اجرای عمل تشخیص روی ۱۰۰ داده ورودی به صورت تصادفی میباشد.
| قلم - اندازه | تعداد داده | صحت کلمه | صحت جمله |
|:---------:|:-----------:|:-------:|:--------:|:---------:|
| میترا ۴۲ | ۵۰۰ | ۸۰.۷۵٪ | ۷۷٪ |
| میترا ۴۲ | ۱٬۰۰۰ | ۴۹.۱۳٪ | ۴۰.۱٪ |
| میترا ۱۰۲ | ۱٬۵۰۰ | ۴۱.۴۱٪ | ۳۴٪ |
| میترا ۱۴۲ | ۲۵٬۰۰۰ | ۷.۳۹٪ | ۱.۲۱٪ |
## آزمایش دوم : یادگیری از آرشیو های خبری
در آزمایش های آرشیو خبری تلاش بر این بوده که از داده هایی با مقیاس بزرگتر استفاده شود. همچنین جملات ورودی سیستم محدود به یک نام نیستند و برخی از جملات ورودی سیستم طولی بیش از ۱۵ حرف دارند.
| قلم - اندازه | تعداد داده | حداکثر تعداد طول جمله | صحت کلمه | صحت جمله |
|:---------:|:-----------:|:-------:|:--------:|:---------:|
| میترا ۴۲ | ۱٬۵۰۰ | ۳ | ۵۱.۰۶٪ | ۵۲.۰۰٪ |
| میترا ۴۲ | ۵٬۰۰۰ | ۳ | ۱۹.۲۱٪ | ۱۸.۲۰٪ |
| میترا ۴۲ | ۱۳٬۰۰۰ | ۳ | ۷.۱۸٪ | ۸.۰۰٪ |
| میترا ۴۲ | ۲۵٬۰۰۰ | نامحدود | ۱.۹۶٪ | ۱.۱۲٪ |
| میترا ۴۲ * | ۳۵٬۰۰۰ | ۳ | ۶.۹۶٪ | ۴.۸۷٪ |
## نتایج اولیه برگرفته شده از آزمون ها
+ آزمایش های صورت گرفته در مقیاس های کوچک بیانگر این است که سیستم کلی که تمام مقدمات بر پایه آن بود, یعنی پیاده سازی نویسهخوان بر اساس تشخیص گفتار و یافتن بیشتر شباهت میان مدل های مارکوف, نهایتا قابل پیاده سازی است و میتواند جوابگو باشد. همچنین نتایج خوب در مقیاس های کوچک نمایانگر این نکته است که در متون ساده با دامنه محدود (مانند متن محدود به لغات مربوط به یک موضوع خاص) با یادگیری صحیح و در مدت زمان بسیار کم میتوان به نتایج خوبی دست یافت.
+ افت ضریب صحت کلمات با افزایش تعداد داده ها اصلی ترین مشکل سیستم اکنون است که میتواند دلایل مختلفی داشته باشد. تعداد داده های آزمایش شده بیشتر شده, اما نه تا حدی که به دقیق تر شدن بیشتر سیستم کمکی بکند. برای مثال در یک آزمایش با ۵۰۰ نام به عنوان ورودی تعداد حالت های موجود بسیار محدود است و میزان یادگیری نیز برای برای آن کفایت میکند. اما در یک آزمایش با ۵۰۰۰ داده ورودی تعداد حالات و کلمه های ممکن با ضریب بسیار زیادی رشد پیدا میکند (این تفاوت مخصوصاً در داده های خبری که میزان تنوع لغت در آنها بیشتر است مشهود است) در حالی که ۱۰ برابر شدن داده ها با ضریب کمتری باعث بهبود یادگیری مدل ها میشوند.
+ استفاده شدن از مدل های زبانی ضعیف نیز میتوان از دلایل کاهش دقت سیستم با گسترده تر شدن زبان باشد. در آزمایش های فوق برای تولید مدل زبانی از منبع مستقل استفاده نشده و به مجموع کل متن های ورودی سیستم برای تولید Bigram بسنده شده است. مثلا در آزمایشی با ۵۰۰ جمله ۳ حرفی از داده های خبری تنها همین ۵٬۰۰۰ جمله به عنوان مرجع زبان استفاده شدهاند. تنها در آزمایش آخر پایگاه های خبری که با علامت * مشخص شده است از یک مبع مستقل شامل بیش از ۵۰٬۰۰۰ جمله کامل خبری استفاده شده است که تاثیر مثبت آن نیز قابل مشاهده است. (هرچند با وجود آن نیز دقت بسیار پایین است)
+ در تمام آزمایش ها از یک رویه ثابت برای استخراج ویژگیها استفاده شده است. با وجود بهره گیری این رویه از روش های پیشنهاد شده در منابع شاید ایجاد تغییر در آنها بتواند موجب عملکرد سیستم گردد.
+ تنوع قلم ها و اندازه ها به حدی بودهاست که نشان دهد حداقل در این مرحله از پروژه نمیتواند تاثیر بسزایی ( مثلا رساندن یک نمونه آزمایش با دقت زیر ۵۰٪ به یک دقت مطلوب بالای ۷۰٪) در بهبود سیستم داشته باشد.
+ پارامتر های بسیاری زیادی را میتوان در مراحل انجام شده تغییر داد که تمام حالت های آنها ممکن است به نتیجه بهتر منجر شود. (انجام این تغییرات بعد مطالعه بیشتر و در فاز بهبود آزمایش میشود )
## قدم های بعدی پیشرو برای بهبود سیستم
با توجه به توصیفات و نتایج ذکر شده در قسمت قبل راهکار های زیر را برای بهبود سیستم در نظر میگیریم و در فاز بهبود نیز اولویت اصلی در پیاده سازی این راهکارها خواهد بود.
+ **استفاده از داده مطلوب تر** : تا این مرحله به دلیل اولیت داشتن انجام آزمایش های متعدد برای درک بهتر از سیستم, از انجام آزمایش های بسیار بزرگ پرهیز شده. انتظار میرود که در فاز بهبود پروژه پس از رسیدن به نتایج قطعی درباره روش های رسیدن به دقت بالا این روش ها با یک حجم برگتر از داده با تنوع بیشتر ترکیب شده تا تاثیر آن واضح تر گردد.
+ **استفاده از یادگیری مجدد مدل زبانی**: یک روش دیگر برای بهبود میتواند تکرار عمل یادگیری و بهروزرسانی پارامتر های مدل حروف و مدل های زبانی باشد. در فاز بهبود تلاش خواهد شد که با اجرای یک رَویه خودکار سیستم تشخیص به صورت مکرر فراخوانی شود و تا زمان رسیدن به نتیجه درست برای هر نمونه مجددا آموزش داده شود و مدل زبانی مربوطه را نیز بهروزرسانی کند.
# کارهای آینده
# مراجع
[1] [A Robust, Language-Independent OCR System](http://www.kornai.com/Papers/aipr98.pdf) . Zhidong Lu, Issam Bazzi, Andras Kornai, John Makhoul,
Premkumar Natarajan, and Richard SchwartBBN Technologies, GTE Internetworking, Cambridge, MA 02138
[2] [Post Processing of Optically Recognized Text via Second Order Hidden Markov Model](http://digitalscholarship.unlv.edu/thesesdissertations/1694/) . Srijana Poudel , University of Nevada, Las Vegas
[3] [Optical Character Recognition - A Combined ANN/HMM Approach](https://kluedo.ub.uni-kl.de/frontdoor/index/index/year/2014/docId/3939) , Sheikh Faisal Rashid Thesis
[4] [The Optical Character Recognition for Cursive Script Using HMM](http://maxwellsci.com/print/rjaset/v8-2016-2025.pdf): A Review . Saeeda Naz, Arif I. Umar, Syed H. Shirazi
[5] The 1994 BBN/BYBLOS Speech Recognition System, Nguyen, T. Anastasakos, F. Kubala, C. LaPre, J. Makhoul, R. Schwartz, N. Yuan, G. Zavaliagkos, and Y. Zhao
[6] [A tutorial on hidden Markov models and selected applications in speech recognition](http://www.cs.ubc.ca/~murphyk/Bayes/rabiner.pdf)
[7][Documentation for HTK](http://htk.eng.cam.ac.uk/docs/docs.shtml)
# لینک های مفید
1. [کتابخانه یادگیری ماشین به همراه آموزش برای زبان پایتون](http://scikit-learn.org/stable/)
2. [کتابخانه پیادی سازی مدل پنهان مارکوف در زبان پایتون](https://github.com/hmmlearn/hmmlearn)