تشخیص لب در لب خوانی بازی های رایانه ای

تغییرات پروژه از تاریخ 1393/03/05 تا تاریخ 1393/04/01
+ پیش مقدمه :
این پروژه شامل پردازش های اولیه ی پردازش معنایی لب خوانی می باشد که  در نهایت خودکار سازی لب خوانی به صورت پلاگینی به موتور بازی سازی یونیتی اضافه خواهد شد .
![تصویر](http://www.uplooder.net/img/image/56/a0010037647e4bd650f2d0bf4bcc7bfb/Gmae.PNG)


#مقدمه :

لب خوانی  روشی است برای فهم و تفسیر گفتار بدون شنیدن آن ، روشی که مردم ناشنوا یا کم شنوا برای درک سخنان دیگران به منظور برقراری ارتباط  استفاده می کنند. پیشرفت های اخیر در زمینه ی کامپیوتر ، شناسایی الگو ها و پردازش سیگنال ها ، علاقه مندی به خودکار سازی لب خوانی را افزایش داده است. خودکارسازی قابلیت انسان در لب خوانی نیاز مند پردازشی  تحت عنوان تشخیص  گفتار از طریق تصویر [^1] می باشد.
تشخیص گفتار از طریق تصویر  توجه بسیار زیادی را در این دهه به خود معطوف کرده است زیرا کاربرد بسیار زیادی در برنامه های   [^2] HCI  ، تشخیص سمعی و بصری گفتار [^3]  ، تشخیص سخنران ، تشخیص زبان علائم (زبان مخصوص ناشنوایان ) و برنامه های نظارت بر تصاویر دارد. 


#
# تشخیص گفتار از طریق تصویر  (VSR)  : 

هدف اصلی آن   شناسایی  کلمات سخنگو با پردازش سیگنال های بصری است . این فرآیند شامل پردازش تصویر ، هوش مصنوعی ، تشخیص اشیا ، تشخیص الگو ها و مدل سازی آماری  می باشد . این پردازش میتواند از طریق دو روش صورت گیرد، 1) visemic       و  2) holistic 
برای انجام فرآیند VSR  باید  تعدادی پیش پردازش  جهت شناسایی دقیق محل لب و دهان انجام شود.

![تصویر وی اس آر ](http://www.uplooder.net/img/image/76/294aeec198ca9db3744832da95bb84dc/lip1.png)



## پردازش تصویر برای شناسایی  دهان :

در ابتدا نگاه ما بدین گونه می باشد که ما در یک تصویر  میخواهیم دهان را تشخیص داریم چه راه هایی برای تشخیص  آن وجود دارد ؟ و بعد دنباله ای از تصاویر را بررسی میکنیم .
یکی از کاربرد های   پردازش تصویر مربوط به پردازش تصاویر انسان ها برای اهداف مختلف می باشد که از جمله ی آنها میتوان  به پی بردن به حرکت لب بوسیله ی پردازش دنباله ای از عکس ها  اشاره کرد.

بخش بندی تصویر [^4]
معمولاً مرحله ی اول در تحلیل یک تصویر، بخشبندی آن است. بخشبندی، یکی از شاخه های اصلی در علم پردازش تصویر است که مهمترین کارکرد آن، تصحیح مرزهای مخدوش بین بخشهای مختلف تصویر است. هدف از بخش بندی، جداسازی اجزای اصلی تشکیل دهنده ی تصویر است. دقت بخش بندی تصویر، اثر مستقیمی در کارایی کل سیستم میگذارد به طوری که میتواند موفقیت یا شکست احتمالی تحلیل نهایی تصویر را تعیین کند. در کاربردهای هوایی وسنجش از دور، تنها شناسایی اشیای روی زمین برای بخش بندی مورد نظر است. بخش بندی به طور گستردهای در علم سنجش از دور به کار میرود. این پیش پردازش به عنوان
فرایند تقسیم یک تصویر به گروه های همگن تعریف میشود به طوری که هر ناحیه همگن باشد ولی اجتماع هیچ یک از دو ناحیه ی مجاور آن همگن نباشد.


![تصویر وی اس آر ](http://www.uplooder.net/img/image/33/6a205c218a6a52a71faad4a685ad94ac/zoo.jpg)

​## الگوریتم های پیشنهادی  :

 #   الگوریتم بخش بندی Watershed  :

الگوریتم watershed بر مبنای بخش بندی ناحیه ای در تصویر عمل میکند   . در این الگوریتم، محاسبه ی watershed   دو مرحله دارد: یکی پیوستن  و دیگری غوطه ور کردن  .
تماس و همپوشانی اشیای درون یک تصویر، یکی از معضلات اصلی در بخش بندی تصاویر می باشد به طوری که بسیاری از روشهای متداول بخش بندی قادر به حل آن نیستند. الگوریتم watershed  با ارائه ی  یک روش قوی  برای بخش بندی تصاویر ، قادر به جدا سازی اجزای بهم چسبیده و همپوشانی کننده می باشد .
این الگوریتم بر اساس تغییر مقیاس سطح خاکستری پیکسلها عمل کرده و با استفاده از گرفتن گرادیان از تصویر قابل اجرا می باشد
تعریف گرادیان به صورت زیر است: 
                                                                               $$  ( G(f (x, y))=( f + B)(x, y)( f  tetaB)(x, y  $$
 که  در آن B عنصر ساختاری مربوط به عملیات مورفولوژی است .  فرایند محاسباتی  watarshed یک فرایند  برچسب زنی پیاپی است . زمانی که این الگوریتم به طور مستقیم استفاده گردد، به علت برخی عوامل مثل نویز در تصویر، به دست آمدن نتایج مطلوب از بخش بندی غالباً مشکل است . در اینلگوریتم، تعداد نواحی تشخیص داده شده از تعداد اشیای موجود در تصویر بسیار بیشتر است. این مسئله باعث به وجود آمدن  پدیده ی over segmentation   می شود که منجر به خراب شدن تصویر بخش بندی شده می شود . بنابراین بایستی نواحی مشابه بعد از بخش بندی تصویر ترکیب شوند.

![تصویر](http://www.uplooder.net/img/image/4/14318c021ec42cbc9844a2cc62227ac4/x.png)

![تصویر](http://www.uplooder.net/img/image/5/282d0e7a1c6c9feb8b0cb5e1b772a29c/y.png)

+  پیدا کردن   اطراف لب : 
 در این روش از دوطرف راست و چپ تصویر به سمت مرکز حرکت کرده  و هر بار به صورت ستونی تحلیل میکنیم که آیا نقطه ی سفیدی در این ستون وجود دارد یا خیر ؟  اولین نقطه ی سفیدی که پیدا از دو طرف پیدا خواهیم کرد راست ترین و چپ ترین نقاط لب هستند که با داشتن این نقاط  عرض لب  را محاسبه میکنیم :

                                                                                     $$  ( width=abs( left_lip -left_right   $$
 برای محاسبه ی  بالاترین و چپ ترین نقطه ی لب از فرمول زیر استفاده میکنیم :

                                                                                       $$   ( Tpls[x] =left_lip(x)+ (0.2*Width $$   
   . برای محاسبه ی بالاترین وراست ترین نقطه ی لب از فرمول زیر استفاده میکنیم 

                                                                                      $$ { (Tprs[x]} ={right_lip(x) -(0.2*Width}  $$ 

 و بوسیله ی یک سری فرمول پیچیده تر  تمام نقاط لازم را بدست می آوریم  و بدین شکل دور هر لب یک شش ضلعی فرض کرده و شش نقطه ی راسی این شش ضلعی را پیدا میکنیم . در نتیجه ما توانستیم به نوعی یک گراف ساده دور لب بکشیم و اطلاعات نقاط آن را بدست آوریم .
یکی از کاربرد های   پردازش تصویر مربوط به پردازش تصاویر انسان ها برای اهداف مختلف می باشد که از جمله ی آنها میتوان  به پی بردن به حرکت لب بوسیله ی پردازش دنباله ای از عکس ها  اشاره کرد
در ابتدا ما بررسی خواهیم کرد که برای تشخیص لب در یک فریم چه راه هایی وجود دارد سپس دنباله ای فریم ها را بررسی می کنیم .
هدف  در تمام این پیش پردازش تولید گرافی است که نقش داده ها ی  ورودی برای [پردازش تحلیل معنایی گفتار](http://www.boute.ir/ai/lip_reading_semantic)  را دارد.
به چنین گرافی در اصطلاح کانتور لب گفته می شود.

![تصویر کانتور لب](http://www.uplooder.net/img/image/52/ae40dcd8d2c666f2bc52a04a267b2554/contour.PNG)

	

 ## بخش بندی تصویر [^4]
بخش بندی تصویر روشی است برای نام گذاری هر پیکسل به طوری که پیکسل هایی که دارای ویژگی های یکسان هستند نام یکسان دارند. پس هر قطعه شامل پیکسل هایی است با ویژگی های یکسان.
هدف از بخش بندی یک تصویر این است که عکس را طوری به قسمت هایی تبدیل کنیم که برای تحلیل  و بررسی و پردازش قابل درک تر و آسان تر باشند. با این عمل یافتن مرز ها یا اشیا سهل تر خواهد شد.
معمولاً مرحله ی اول در تحلیل یک تصویر، بخشبندی آن است. بخشبندی، یکی از شاخه های اصلی در علم پردازش تصویر است که مهمترین کارکرد آن، تصحیح مرزهای مخدوش بین بخشهای مختلف تصویر است. هدف از بخش بندی، جداسازی اجزای اصلی تشکیل دهنده ی تصویر است. دقت بخش بندی تصویر، اثر مستقیمی در کارایی کل سیستم میگذارد به طوری که میتواند موفقیت یا شکست احتمالی تحلیل نهایی تصویر را تعیین کند. در کاربردهای هوایی وسنجش از دور، تنها شناسایی اشیای روی زمین برای بخش بندی مورد نظر است. بخش بندی به طور گستردهای در علم سنجش از دور به کار میرود. این پیش پردازش به عنوان
فرایند تقسیم یک تصویر به گروه های همگن تعریف میشود به طوری که هر ناحیه همگن باشد ولی اجتماع هیچ یک از دو ناحیه ی مجاور آن همگن نباشد.


![تصویر وی اس آر ](http://www.uplooder.net/img/image/33/6a205c218a6a52a71faad4a685ad94ac/zoo.jpg)



# الگوریتم های پیشنهادی برای تولید کانتور لب   :


در ذیل الگوریتم هایی معرفی می شوند که هرکدام مزیت ها و مشکلاتی دارند ، سعی براین است ساده ترین نوع الگوریتم انتخاب و بهبود داده شود.

## مدل سازی شکل لب :

![تصویر](http://www.uplooder.net/img/image/17/06f8c071652fd209d4746523812fc2a8/model_lip.png)

در این نوع الگوریتم ، با کمک مجموعه ای از پارامتر های فیزیکی  و معادلات خاصی   مدل هندسی لب  تشخیص داده می شود.
معادلات لازم عبارتند از :

![تصویر](http://www.uplooder.net/img/image/52/b9a60a155f4d62ac9fcd478f599535b7/1.formul.png)

 علاوه بر معادلات بالا ، نیازمند تابعی جهت  مدلسازی دقیق  و تعیین پارامتر های به کار برده شده هستیم .
 با فرض عدم  هم پوشانی ناحیه ی لب با دیگر نواحی مرز این ناحیه زمانی که تابع کمترین هزینه را بر گرداند مشخص خواهد شد.

![تصویر](http://www.uplooder.net/img/image/6/232141a206faf860de7f7865b4ef3edf/2.formula.png)

 در این فرمول منظور از R  نوع ناحیه  ای است  که پیکسل با مختصات  m , n  ادر آن قرار دارد و نوع ناحیه دو حالت دارد یا ناحیه ای که  شامل لب است یا ناحیه غیر لب ، تابع (prob1(m,n   احتمال اینکه این پیکسل در ناحیه ی غیر لب  باشد را مشخص می کند و (prob2(m,n  احتمال اینکه  پیکسل در ناحیه ی لب باشد   .مرز بهینه ی B  با مینیمم سازی  (C(Bبدست می آید. 
رابطه ی زیر  را پس از لگاریتم گیری و ساده سازی فرمول بالا بدست می آوریم:

![تصویر](http://www.uplooder.net/img/image/15/5b7514a50671260100caf77bc028370c/3.formula.png)


اما از آنجا که تا کنون فضا فضای گسسته بود (پیکسل را مختصاتی فرض کردیم ) بنابراین مرز B بدست آمده نیر گسسته هستند اما در واقع مرزها پیوسته هستند، پس برای پیوسته کردن فضای مربوطه  ابتدا  m, n  به x , y  پیوسته  بسط داده می شود.
تکه تابع در این فضای پیوسته اینگونه بدست می آید :
![تصویر](http://www.uplooder.net/img/image/13/ec460bc16d293994b9e1fb682eaec202/4.formula.png)

و بعد از آن معادله ی بالا را بسط می دهیم :
![تصویر](http://www.uplooder.net/img/image/8/73e637e15f69f215e5ca95b8ea196eea/5.formula.png)

در نتیجه ما یک مرز بهینه و پیوسته تولید کردیم ، حال نیاز داریم پارامترهای تابع هزینه را استخراج کنیم ، این استخراج با مینیمم سازی تابع هزینه بدست می آید:
![تصویر](http://www.uplooder.net/img/image/37/6fae11fe19603321375ee068ee0a72bb/6.formula.png)

در این فرمول P)=xc+wcose teta)    و x1 و x2  نقاط گوشه سمت راست و چپ لب ،و y1  و y2  دو نقطه ی مرز عمودی خط x  هستند.


حال چگونه سطح هزینه ی پیوسته  (g(x,y را بدست آوریم  ؟
اگر چهار نقطه   zjk , zj+1k,zj+1k+1, zjk+1   داشته باشیم سطح درون یابی دو سویه شده به این شکل بدست می آید :

![تصویر](http://www.uplooder.net/img/image/5/552e22480093a61e394f6e52fcdc6550/7.formula.png)


پس برای ایجاد (g (x,y نیاز به نقاط  zm,n  داریم با تعدادی محاسبات جبری  می توان نشان داد که(f(m,n  و zm,n  بوسیله ی معادله ی کانولوشن زیر با هم  ارتباط دارند :

![تصویر](http://www.uplooder.net/img/image/59/74373b1f2bf6c5c15e7a00c9fb15d512/8.formula.png)

که ماسک کانولوشن با کمک ماتریس زیر مشخص می شود:

![تصویر](http://www.uplooder.net/img/image/67/f255699efc83413fd3f6d16e7f3594fa/9.formula.png)


در حوزه ی فرکانس معادله ی  بالا  به این شکل در می آید:
![تصویر](http://www.uplooder.net/img/image/4/f6925df4c299f9478d6612def1e0c65c/10.formula.png)

که با گرفتن معکوس تبدیل فوریه  m , n را بدست می آوریم :

![تصویر](http://www.uplooder.net/img/image/100/5477fab778546b4b214c04b322535cf7/11.formula.png)


در معادلات بالا گفتیم  تابع هزینه و ارزیابی (E(P  نیاز به تابع احتمال نگاشت(  (probi(m,n  ) دارد . این تابع را با استفاده از [خوشه بندی فازی](http://en.wikipedia.org/wiki/Fuzzy_logic )  بدست می آوریم . در خوشه بندی فازی سعی میشود برای هر پیکسل با کمک  توزیع بردار های ویژگی آن پیکسل  در فضای ویژگی و اثر متقابل  پیکسل همسایگی آن  ، یک احتمال مناسب پیدا کند.
شدت رنگ و روشنایی به عنوان ورودی به الگوریتم خوشه بندی داده می شود.(ابتدا عکس را از فضای رنگی RGB  به CIEBLAB تبدیل می کنیم  چون این فضا دیاگرام رنگ یکنواختی دارد تفاوت دو رنگ به خوبی آشکار می شود)


![تصویر](http://www.uplooder.net/img/image/3/871921d510f6db1f8087d044be3d9baa/lip_fuzzi.png)

تصویر الف )  در این شکل تضاد رنگی بسیار کم است 
تصویر ب )  در این شکل با استفاده از خوشه بندی فازی چنین نگاشتی به وجود آمده است.

 ## الگوریتم بخش بندی Watershed  :
الگوریتم watershed بر مبنای بخش بندی ناحیه ای در تصویر عمل میکند   . 
تماس و همپوشانی اشیای درون یک تصویر، یکی از معضلات اصلی در بخش بندی تصاویر می باشد به طوری که بسیاری از روشهای متداول بخش بندی قادر به حل آن نیستند. الگوریتم watershed  با ارائه ی  یک روش قوی  برای بخش بندی تصاویر ، قادر به جدا سازی اجزای بهم چسبیده و همپوشانی کننده می باشد .

این الگوریتم بر اساس تغییر مقیاس سطح خاکستری پیکسلها عمل کرده و با استفاده از گرفتن گرادیان از تصویر قابل اجرا می باشد.
ابتدا دو تبدیل top hot  و bottom hat  را به عکس اعمال کرده ، سپس عکس اصلی را از این عکس تغییر یافته کم می کنیم (شاید سوال ایجاد شود منظور از تفریق دو عکس چیست ؟  باید بگویم طبق بررسی هایی که انجام دادم  این الگوریتم در محیط متلب زده شده و در آنجا دید به عکس ها کاملا ماتریسی است )
حاصل تفریق عکسی است که دارای نویز کمتری می باشد پس از اعمال این تغییرات لازم است از عکس مکمل بگیریم (تبدیل همه ی یک های ماتریس به صفر و تبدیل صفر های ماتریس به یک ) زیرا چنین عملی باعث آشکار شدن لبه های عکس می شود.
بعد از اعمال فیلتر های لازم بر روی عکس لازم است  اشیا اضافی عکس پاک شوند ، یا در بعضی قسمت ها اشیا پر شوند.
فرایند محاسباتی  watershed یک فرایند  برچسب زنی پیاپی است . زمانی که این الگوریتم به طور مستقیم استفاده گردد، به علت برخی عوامل مثل نویز در تصویر، به دست آمدن نتایج مطلوب از بخش بندی غالباً مشکل است . در این الگوریتم، تعداد نواحی تشخیص داده شده از تعداد اشیای موجود در تصویر بسیار بیشتر است. این مسئله باعث به وجود آمدن  پدیده ی over segmentation  می شود که منجر به خراب شدن تصویر بخش بندی شده می شود . بنابراین بایستی نواحی مشابه بعد از بخش بندی تصویر ترکیب شوند.

![تصویر](http://www.uplooder.net/img/image/4/14318c021ec42cbc9844a2cc62227ac4/x.png)

![تصویر](http://www.uplooder.net/img/image/5/282d0e7a1c6c9feb8b0cb5e1b772a29c/y.png)

بعد از آماده شدن عکس ،لازم است برای پیدا کردن لب محاسباتی را انجام دهیم .

  ## پیدا کردن   اطراف لب : 

![تصویر](http://www.uplooder.net/img/image/41/73f8343b33180af603de8c95b99a02f2/lip_column.PNG)

 در این روش از دوطرف راست و چپ تصویر به سمت مرکز حرکت کرده  و هر بار به صورت ستونی تحلیل میکنیم که آیا نقطه ی سفیدی در این ستون وجود دارد یا خیر ؟  اولین نقطه ی سفیدی که پیدا از دو طرف پیدا خواهیم کرد راست ترین و چپ ترین نقاط لب هستند که با داشتن این نقاط  عرض لب  را محاسبه میکنیم :

![تصویر عرض لب](http://www.uplooder.net/img/image/11/8b1334dee7c720061296d6ff6faf1bc3/width.PNG)

حال اگر بخواهیم قسمت سمت چپ بالای لب را بدست بیاوریم  یک سری فرضیات خواهیم داشت :
ابتدا به اندازه ی 0.2 از گوشه ی سمت چپ لب که در بالا محاسبه شده است ،به سمت راست رفته و x  نقطه ی شروع ما بدست می آید.
برای بدست آوردن y نقطه ، لازم است معادله ی خطی تشکیل دهیم که این خط گذرنده از دو نقطه ی  گوشه ی لب می باشد (نقطه ی سمت چپ ترین و نقطه ی سمت راست ترین ) مقداری که ازین معادله بدست می آید  در واقع مقدار y  نقطه ای است که ما میخواهیم از آن شروع به پیمایش کرده تا عرض نقطه ی سمت چپ بالای لب را پیدا کنیم ، در ذیل معادله ی خط مر بوطه را مشاهده می کنید:

 ![تصویر](http://www.uplooder.net/img/image/23/a40beafcdc993941401e2e6dca1b3c6c/line_equations_.PNG)

از این نقطه ی بدست آمده شروع کرده و به سمت بالا میرویم تا جایی که به مرز لب برسیم  ، این مقدار پیمایش رو به بالا را مقدار [TPLS[y  فرض میکنیم ، سپس با حرکات مداوم 0.05 در جهت x   به سمت گوشه ی راست لب  میرویم  و نقطه ی مرزی متناسب با آن را بدست می آوریم  ، که با کمک این نقطه و نقطه ی قبلی تغییر زاویه  را محاسبه کرده  ، اگر این تغییر زاویه مثبت بود  عملیات را تکرار می کنیم ، امّا اگر تغییرات منفی بود یعنی نقطه ی قبلی سمت چپ بالای لب میباشد .

 ![تصویر](http://www.uplooder.net/img/image/19/d1c8dbac7ac844bcfd896fc91ecf7926/degree_topleft.PNG)            

حال میخواهیم نقطه ی سمت چپ پایین لب را بدست بیاوریم:
از نقطه ی سمت چپ لب به اندازه ی 0.2  به سمت راست می رویم ، سپس همانند مراحل قبل ، معادله ی خط گذارنده از دو گوشه ی لب را نوشته و عرض نقطه را بدست می آوریم ، از این نقطه  پایین می رویم تا جایی که به مرز لب برسیم ، ازنقطه ی جدید (روی مرز لب ) شروع به پیمایش می کنیم و به اندازه ی 0.05 سمت راست رفته و نقطه ی مرزی متناسب با این x  را بدست آورده  ، تغییر زاویه را محاسبه کرده  ، اگر در هرمرحله تغییر زاویه مثبت بود ادامه میدهیم در غیر این صورت به نقطه ای مربوطه رسیده ایم.
                     ![تصویر4](http://www.uplooder.net/img/image/27/e59b86a5089bd2e3a15fa7a7dc182bcc/DOL__DOL.PNG)

![تصویر](http://www.uplooder.net/img/image/99/ed2e3d83cb8e7add6991aff9dbab7f29/degree_DoL.PNG)

نقطه ی سمت راست بالا و پایین لب را دقیقا مانند مراحل بالا میتوانیم بدست آوریم.
بدین صورت گراف شش نقطه ای ما مشخص می گردد.

               

![تصویر وی اس آر ](http://www.uplooder.net/img/image/69/f2453ac71d192f68f14ab96480fdbc11/hexogone.png)




لازم به ذکر است الگوریتم watershed  الگوریتم انتخابی در این پروژه می باشد.


## دنباله ای از تصاویر :

 یک فیلم شامل چندین فرم می باشد سوال پیش می آید که کدام فرم ها را برای پردازش انتخاب کنیم ؟ که پاسخ به این سوال نیازمند تحقیق و گردآوری بیشتری است
با فرض انتخاب فرم های مناسب طبق روش پیشنهادی و فرمول ها گراف ها را کشیده و بدین وسیله همه چیز برای مرحله ی پردازش معنایی تصاویر آماده و مهیا میشود.
           
![تصویر وی اس آر ](http://www.uplooder.net/img/image/38/6358d9fd4d60165a6cf4c5dbae116a43/frames.png)

​       

#مشکل :

یکی از مشکلات رایج در این زمینه  حساس بودن الگوریتم های تشخیص ، نسبت به noise  در تصاویر می باشد که تصاویر شامل ریش یا سبیل یا حتی زینت آلات  باعث بروز خطا خواهند شد.
           
![تصویر وی اس آر ](http://www.uplooder.net/img/image/29/0362a5b1d598e23bb177dd64ca0f41c7/noise.png)

​

# کار های مرتبط با موضوع لب خوانی :

##پردازش  و  تشخیص گفتار  [^7] :
 برای عمل تشخیص گفتار ، سیگنال های صوتی  توسط سنسور های ورودی دریافت شده و سپس با انجام پردازش هایی  به منظور  استخراج ویژگی های صوتی  شخص صحبت کننده   تشخیص تحقق می یابد . در این روش صرفا از اطلاعات صوتی استفاده میشود .)  [ کنترل رخدادهای درون بازی با پردازش و تشخیص گفتار ](http://www.boute.ir/ai/game_event_control_with_speech_recognition) )
امّا در دهه ی کنونی  برای بالا بردن دقت این تشخیص از تصاویر و حالات دهان هم  استفاده می کنند که با عنوان  پردازش و تشخیص گفتار به صورت  صوتی و سمعی [^6
# آزمایشات :

+  در ابتدا لازم است یاد آور شوم یکی از مشکلات این پروژه نبود دیتا ست مناسب بود ، در این قسمت وقت زیادی گذاشته شد تا دیتا ست مناسبی در زمینه ی لب خوانی پیدا شوند [^5]  امّا متاسفانه  یافت نشد و  بنده  از دیتا ست [^6]  FEI Face    که  برای  پروژه تشخیص چهره آماده شده بود  استفاده کردم .
این دیتا ست شامل 2400 عکس   640x480   پیکسلی  میباشد ، که 43 عدد از این  تعداد برای آزمایش تشخیص لب انتخاب گردید .  
البته  این 43 عدد عکس با در نظر گرفتن شرایط مسئله و راه حل آن انتخاب شده است و نمیتوان گفت تصادفی است ، نکته ی دیگر این است که 
برای تست و آزمایش لازم بود نور عکس ها کاملا تنظیم شوند تا بتوان خروجی مناسب داشت  و با کمک نرم افزار Photoshop  بالاخره ! دیتا ست آماده شد .

![تصویر قبل از فوتو شاپ](http://www.uplooder.net/img/image/67/1c01847cfc9270cca37797920a00011c/image233.jpg)

همانطور که میبینید تصویر بالا نور خوبی ندارد و به کمک نرم افزار فوتوشاپ  تغییراتی  در نور عکس ایجاد شد . همچنین سعی شد تا سایه ها و چروک هایی که دور دهان هستند تقریبا پاک شوند زیرا وجود چروک اطراف دهان خود مشکل بزرگی ایجاد می کند که در ادامه حتما با آن خواهم پرداخت.
در ذیل تصویر بعد از اعمال تغییر  مشاهده میکنید.

![تصویر بعد ا از فوتو شاپ ](http://www.uplooder.net/img/image/15/a15955ff13fa162b95c3b45800f26e1f/Image1_33.jpg)

## آزمایش مرحله اول پیاده سازی  : 

در فاز قبلی فایل picture.analyzing پیاده سازی شده بود، این فایل فیلتر های لازم بر روی عکس را ایجاد میکند تا برای مرحله ی بعد توضیحات ذیل مربوط به آزمایش این کد در فاز قبل می باشد.

در عکس زیر مراحل اعمال فیلترها را مشاهده می کنید :

![تصویر](http://www.uplooder.net/img/image/82/d5927347778a4ba1f831ab42a8d1a9b3/Untitled-2.jpg)


مراحل اولیه لازم برای تولید فیلتر های لازم روی عکس پیاده سازی شده است ، اما به دلیل فراگیر نبودن این روش (در دست بررسی است.)   بر روی تمامی عکس ها با نور های مختلف ،اشکال مختلف ،  صرفا روی عکس های خاص جواب می دهد .در تصویر زیر این اشکال مشهود است .

![تصویر](http://www.uplooder.net/img/image/61/ec30915516c3aadb85e3498e3ef2a4f6/image29.jpg)  ![تصویر](http://www.uplooder.net/img/image/76/19a530dc9786186d974d3e1fec2d62a2/result29.jpg)

برای رفع این مشکل با کمک کد راه حلی پیدا نکردم .


حال نتایج آزمایش را تا این مرحله  بررسی میکنیم :

 |  نوع عکس  |  تعداد کل  عکس ها | تعداد عکس های غلط  | تعداد عکس های نیمه غلط | درصد دقت در این مرحله |
|:------------------------:|:-----------:|:----------------:|:---------------------:|
| عکس های اولیه بدون اعمال هیچ تغییری|43|43|0|%0|
|عکس ها پس از ایجاد تغییر در نور آنها | 43|14|15|%32|
|عکس ها پس از ایجاد تغییر درنور آنها و از بین بردن چروک ها   |43 |  7|6| %75|
|عکس ها پس از  ایجاددقت بیشتر در تغییر نور آنها و از بین بردن چروک ها|43|6|4|%76|



## آزمایش مرحله دوم پیاده سازی :

در این قسمت فایل  lip_contour  هم پیاده سازی شد، در این کد یک مستطیل که شامل لب است از عکس ورودی جدا شده و با استفاده از الگوریتم انتخابی 
شش نقطه ی کانتور لب مشخص می گردد. در این کد 6 نقطه ی اصلی با شش دایره ی آبی رنگ بر روی عکس مشخص می شوند.

![تصویر](http://www.uplooder.net/img/image/45/e98943df4f1b79c69b3f94df80397f45/Image_26.jpg)
1. تصویر انتخابی از دیتا ست

![تصویر ](http://www.uplooder.net/img/image/13/c1102631f266e3c6e948041ea12e34dc/result26.jpg)
2. تصویر خروجی از مرحله ی اول پیاده سازی (خروجی کد picture_analyzing)

![تصویر](http://www.uplooder.net/img/image/94/975fc0f15980a407763c4a7e60f9d7c8/result26_.jpg)
 3. تصویر خروجی از مرحله ی دوم پیاده سازی(خروجی کد  lip_contour)

بررسی نتایج این مرحله :


ابتدا ده نمونه خروجی را نشان میدهیم :


 |  شماره عکس   |  تعداد نقطه ی درست از شش نقطه ی کانتور   | درصد دقت در این عکس در این مرحله | عکس خروجی|
|:------------------------:|:-----------:|:----------------:|:---------------------:|
|1 |6|100%|![تصویر](http://www.uplooder.net/img/image/52/75eebb29104edee2be1939e6bf8f2d0c/result0.jpg)|
|2 |5|83%|![تصویر](http://www.uplooder.net/img/image/77/b1035a67dc125bcd782cffe41e9990a4/result1.jpg)|
|3 |5|83%|![تصویر](http://www.uplooder.net/img/image/42/3f6b8c6077f8ef6c3f7b9faf2cdc8881/result2.jpg)|
|4 |5|83%|![تصویر](http://www.uplooder.net/img/image/3/95fbb698c9b2de0d14bdb26180074927/result3.jpg)|
|5 |5|83%|![تصویر](http://www.uplooder.net/img/image/81/5afc6b94e7efb25483497066fc6305f6/result4.jpg)|
|6 |5|83%|![تصویر](http://www.uplooder.net/img/image/54/2b0840e07c24bce0907e3c54dedec4d0/result5.jpg)|
|7 |6|100%|![تصویر](http://www.uplooder.net/img/image/29/dc876c4c73e532d6ccb25e66b8308a98/result6.jpg)|
|8 |5|83%|![تصویر](http://www.uplooder.net/img/image/16/e619bfd49e77d9c698c0df098afc005d/result7.jpg)|
|9 |6|100%|![تصویر](http://www.uplooder.net/img/image/64/e1a062f4671e9ba38c5a6a44ee36dd3e/result8.jpg)|
|10|6|100%|![تصویر](http://www.uplooder.net/img/image/40/88b6e34e6686dd27950b197b52fc9be4/result9.jpg)|


|تعداد عکس های آزمایش شده | تعداد کل نقاطی که باید تشخیص داده  شود |تعدادنقاط  اشتباه   |  درصد دقت الگوریتم|
|:------------------------:|:-----------:|:----------------:|:---------------------:|
|43| 258|18|69%


*  در  یکی از قسمت های الگوریتم گفته شد که معادله ی خطی که شامل دو نقطه ی سمت راست و سمت چپ لب می باشد ، نوشته می شود از X نقطه ی سمت چپ 0.2  به سمت راست می آییم  و سپس X  جدید را در معادله ی خط گذاشته و Y  را بدست می آوریم ازین نقطه ی یافت شده  شروع به پیمایش می کنیم .  
در یک سری از عکس های آزمایش شده دیده شد که  خط مذکور  نقطه ای خارج از محدوده ی لب می دهد ، که برای بهبود نتیجه تابعی نوشته شد تحت عنوان نزدیک ترین  نقطه به محدوده ی لب را پیدا می کند. 

در شکل نقطه ی A نقطه ی سمت چپ لب و نقطه ی B   نقطه ی سمت راست لب ، و خط قرمز خط گذرنده از این دو نقطه است . در این عکس نقطه ی C نقطه ی شروع پیمایش بر روی ناحیه لب است که همانطور که می بینید خارج از ناحیه لب قرار گرفته است.


![تصویر](http://www.uplooder.net/img/image/96/95a4cd988f910ae04537fff286b63723/result30.jpg)



##  خطا های  آزمایش :
1) وجود سایه در تصاویر باعث مشکل در عمل پردازش خواهند شد ، وقتی فردی میخندد یا بعضی از حروف را میگوید، معمولا بر چهره ی وی سایه میفتد  . این مشکل در فروم های متلب [^10]مطرح شد تا شاید نیازی به بازسازی عکس ها با Photoshop نباشد ، امّا راه حل ارائه شده بسیار و قت گیر است ، پیاده سازی راه حل های  shadow / highlights  نیازمند مطالعه ی بیشتری است .  در آزمایشات بالا  هدف آزمایش دقت شناسایی کانتور بود و نه برطرف کردن سایه ها ، لذا سایه ها با ابزار Photoshop بر طرف شد تا مانعی برای ادامه ی کار نباشد .


![تصویر](http://www.uplooder.net/img/image/22/238e5ebd851d9f59d909faf40b7ca2f3/image34.jpg)

![تصویر](http://www.uplooder.net/img/image/69/5dc7837a4c68037ddd4c3590ea018579/image35.jpg)


2) وجود چین و چروک  نیز سبب بروز مشکل میشود ، که با جستجو های انجام شده نتیجه  حاصل شد که با کمک FrangiFilter  میتوان خطوط چهره را شناسایی نمود و آن ها را محو کرد ، البته همیشه جواب گو نخواهد بود. 

![تصویر](http://www.uplooder.net/img/image/84/d333b26517311558f9353a7017038aaf/image18.jpg)

![تصویر](http://www.uplooder.net/img/image/95/bb18b501acc2e7ead40bb4c26ad365ac/result18.jpg)

3) مستطیلی که دهان را از صورت جدا میکند خود باید با دقت بالا و به درستی انتخاب شود ، این انتخاب درست مستلزم پاسخ گویی به سه سوال زیر است 
  1. چگونه پس زمینه را یک دست سفید کنیم ؟  2. چگونه صورت را تشخیص دهیم ؟ 3. چگونه محدوده ی دهان را در صورت تشخیص دهیم ؟
فرض بنده برای حل این مشکل این است که ، این اطلاعات باید در ورودی تنظیم شود ، یعنی وقتی شخصی مقابل دوربین قرار میگیرد خود را باید طوری جابجا کند که صورتش در ناحیه  A  و دهانش در ناحیه ی B بیفتد آنگاه تمام اجزای دیگری که در تصویر مشاهده می شود و در این دو محدوده نیست در ناحیه ی  c که ناحیه ای سفید است افتاده است .
امّا این فرضیات چیزی جز آسان تر شدن راه پیاده سازی نیست و باید طور دیگری مسئله بررسی شود.

4) یکی از مشکلات رایج در این زمینه  حساس بودن الگوریتم های تشخیص ، نسبت به noise  در تصاویر می باشد که تصاویر شامل ریش یا سبیل یا حتی زینت آلات  باعث بروز خطا خواهند شد.
           
![تصویر وی اس آر ](http://www.uplooder.net/img/image/65/22de5e3baaef14d2063dbfc5f93683ea/noise.png)


# کار های مرتبط با موضوع لب خوانی :

## پردازش  و  تشخیص گفتار  [^7] :
 برای عمل تشخیص گفتار ، سیگنال های صوتی  توسط سنسور های ورودی دریافت شده و سپس با انجام پردازش هایی  به منظور  استخراج ویژگی های صوتی  شخص صحبت کننده   تشخیص تحقق می یابد . در این روش صرفا از اطلاعات صوتی استفاده میشود .(  [ کنترل رخدادهای درون بازی با پردازش و تشخیص گفتار ] (http://www.boute.ir/ai/game_event_control_with_speech_recognition) )
امّا در دهه ی کنونی  برای بالا بردن دقت این تشخیص از تصاویر و حالات دهان هم  استفاده می کنند که با عنوان  پردازش و تشخیص گفتار به صورت  صوتی وبصری [ ^8 ]  بیان می شوند . 
در یکی از روش های بررسی شده ،با فرض وجود  دوربینی در نزدیکی گوشی تلفن، عکسهایی از نیم رخ شخص گرفته شده و  حالت دهان فرد پردازش میشود  
در این پردازش از اطلاعاتی چون شکل هندسی لب ، کانتور لب ،   حرکت و سرعت آن ، استفاده می شود. 

![تصویر  تشخیص گفتار ](http://www.uplooder.net/img/image/44/9263ce0963134fb95b525eb68cc7cf81/side_image.png)



![تصویر پردازش ](http://www.uplooder.net/img/image/99/8680267f0164cab50af568653dcd25c17/a0ed23bf11a901e2398197a2c0668e27/side_image.png)


![تصویر پردازش ](http://www.uplooder.net/img/image/71/312855165c6c0597e4befe233abd979d/process_image.png)


  ## رمز گشایی تصویری :

گاهی مردم برای آنکه دیگران حرف هایشان را نفهمند ، زمزمه وار یا حتی بدون تولید هیچ گونه صدایی صحبت میکنند. در رمزگشایی تصویری نیز سعی می شود تا کاربر با زمزمه ی کلمه ی عبور خود بدون آنکه نیاز به تولید صدا باشد ، در محدوده ی امنیتی راه یابد.
رمزگشایی تصویری  با هدف افزایش امنیت وتقلیل سو استفاده های هویتی در دست بررسی و تحقیق می باشد. در تحقیقات صورت گرفته نتیجه ی حاصل حاکی از آن دارد که مردم با ظاهر متفاوت و گفتار خاص  خود میتوانند به صورت تصویری رمز عبور خود را با استفاده از حرکت لب  تولید کنند . مزیت این روش این است که همیشه تولید رمز به وسیله ی صدا میسر نیست ، چرا که ممکن است محیط پیرامون  شلوغ و پر ازدحام باشد.
در این روش  رمز گذاری  یک ویدیو از چهره ی کاربر ضبط شده و سپس این ویدیو طبق دامنه ی لغات تعریف شده پردازش شده سپس دنباله ای از بردار های ویژگی استخراج میشود .
در مرحله ی تایید رمز رویه قبل اجرا شده و بردار های جدید استخراج شده با بردار های فیلم اصلی مقایسه می شوند  در صورت صحت و تطابق این دو بردار ، رمز گشوده می شود.
آزمایش های انجام شده نشان داده است که کارایی سیستم های رمز گشایی تصویری با فرض کلمه  ی عبور چند کلمه ای افزایش می یابدو سیگنال قوی تری را فراهم می آورد که احتمال هک شدن را کاهش می دهد.


![تصویر وی اس آر ](http://www.uplooder.net/img/image/2/1e52135f71afbbc17bc89902dd109b61/visual__passwords.png)


##تشخیص لب در عکس هایی با رزولوشن پایین :
در یکی از موضوعات بررسی شده تحت عنوان تشخیص لب در عکس هایی با رزولوشن پایین  برای کاهش نویز در تصویر از تشخیص لبه و فیلتر های رنگی استفاده می شود.
علارغم وجود دوربین های خوب با عکس هایی با کیفیت بالا  ، باز هم عکس هایی موجود است که  کیفیت پایینی دارند اما پردازش آنها اهمیت بسیار زیادی دارد.
در این مبحث ابتدا باید نویز از تصاویر پاک شوند و در بعضی موارد لازم است تا عکس از یک فضای رنگی به فضایی دیگر منتقل شود .  [^5]
 ![تصویر نویز دار ](http://www.uplooder.net/img/image/66/2d7c5094489047bdca0c57952b5a6acf/low_resolotion.png)

# لینک کد مربوطه :
+  [کد متلب ]( http://uploadkon.ir/fl/d/MTE3NTI%3D)9]

 ![تصویر نویز دار ](http://www.uplooder.net/img/image/32/72d85485c93bba414cb4391d241fac6f/low_resolotion.png)


# لینک کد مربوطه :

+  [کد متلب در گیت ]( https://github.com/N1010N/Image_processing_lip_detected)
 + در این کد الگوریتم watershed  پیاده سازی می شود .

# کار های آینده :

1) بررسی الگوریتم های  Shadow /Highlights  برای از بین بردن سایه ها در تصاویر
2)بررسی الگوریتم های موجود جهت رفع چین و چروک های صورت 
3) بررسی اینکه فریم های کلیدی برای انتخاب کانتور لب جهت پردازش معنایی را چگونه انتخاب کنیم ؟
4) تهیه ی یک دیتا ست مناسب جهت یادگیری 

# مراجع و منابع :

+   Petajan, E. (1984). Automatic lipreading to enhance speech recognition, Ph.D. Dissertation,
University of Illinois at Urbana-Champaign, USA.

+   Chan, T. Michael, 2002. Automatic Lip Model   Extraction for Constrained Contour-Based  Tracking. Rockwell Science Center.
+   Gurban, M. & Thiran, J. (2005). Audio-Visual Speech Recognition With A Hybrid Svm-Hmm
System, Proceedings of the 13th European Signal Processing Conference (EUSIPCO).

+   Lihin, M., R. Delmas, P.Y. Codon, F. Luthon and V. Fristot, 2000. Automatic Lip Tracking.

+ Hassanat,Ahmad.(2005).Visual Password using Automatic LipReading

+ Iwano et al. - 2007 - Audio-Visual Speech Recognition Using Lip Information Extracted from Side-Face Images

+ Werda, Mahdi, Hamadou - 2007 - Lip Localization and Viseme Classification for Visual Speech Recognition

+ Chiang et al. - 2003 - A novel method for detecting lips, eyes and faces in real time

+ Shirgahi et al. - 2008 - A New Approach for Detection by Movement of Lips Base on Image Processing and Fuzzy Decision

+ Hassanat - 2009 - Visual Speech Recognition

+ Kadlec et al. - Unknown - Lips detection in low resolution images

+ Sajjad.Asma, 2013, Virtual Makeover Software

+ بخش بندی تصاویر پزشکی با استفاده از مدل های شکل پذیر. 1386.بهار ، داوودی 

+  http://en.wikipedia.org/wiki/File:Result_of_a_segmentation_by_minimum_spanning_forest.png

+  http://en.wikipedia.org/wiki/Top-hat_transform

+  http://www.lipreading.org/vowel-eyedrills

+ بخش بندی تصاویر پزشکی با استفاده از مدل های شکل پذیر. 1386.بهار ، داوودی 
+ http://www.mathworks.ch/ch/help/images/examples/marker-controlled-watershed-segmentation.html?prodcode=IP&language=en




[^1]: Visual Speech Recognition​
[^2]: Human Computer Interaction 
[^3]: AVSR  یا Audio Visual Speech  Recognition
[^4]:  segmentation
[^5]: برای مثال تبدیل RGB  به Gray style
[^6]: Audio-Visual Speech Recognition
[^7]: Speech Recognition + http://www.getreuer.info/tutorials/matlabimaging
+ http://www.aquaphoenix.com/lecture/matlab10/page3.html
+ http://www.mathworks.ch/company/newsletters/articles/the-watershed-transform-strategies-for-image-segmentation.html
+ http://en.wikipedia.org/wiki/Watershed_(image_processing)
+ http://www.mathworks.ch/ch/help/images/functionlist.html
+ http://vasc.ri.cmu.edu/idb/html/face/frontal_images/




[^1]: Visual Speech Recognition
[^2]: Human Computer Interaction 
[^3]: AVSR  یا Audio Visual Speech  Recognition
[^4]:  segmentation
[^5]:خیلی از دیتا ست ها رایگان نبودند و یا باید استفاده از آن ها تایید می شدند (مانند Color FERET Database)
[^6]:http://fei.edu.br/~cet/facedatabase.html   
[^7]: Speech Recognition
[^8]: Audio -Visual Speech Recognition
[^9]: برای مثال تبدیل RGB  به Gray style
[^10]:http://www.mathworks.com/matlabcentral/answers/136594-how-to-remove-shadows-from-face-image-in-matlab#answer_141798







  


                                                                                    
.