۱. مقدمه :
لب خوانی روشی است برای فهم و تفسیر گفتار بدون شنیدن آن ، روشی که مردم ناشنوا یا کم شنوا برای درک سخنان دیگران به منظور برقراری ارتباط استفاده می کنند. پیشرفت های اخیر در زمینه ی کامپیوتر ، شناسایی الگو ها و پردازش سیگنال ها ، علاقه مندی به خودکار سازی لب خوانی را افزایش داده است. خودکارسازی قابلیت انسان در لب خوانی نیاز مند پردازشی تحت عنوان تشخیص گفتار از طریق دیدن ( visual speech recognition ) می باشد.
VSR یا Visual Speech Recognition توجه بسیار زیادی را در این دهه به خود معطوف کرده است زیرا کاربرد بسیار زیادی در برنامه های HCI یا Human Computer Interaction ، تشخیص سمعی و بصری گفتار (AVSR یا Audio Visual Speech Recognition ) ، تشخیص سخنران ، تشخیص زبان علائم (زبان مخصوص ناشنوایان ) و برنامه های نظارت بر تصاویر دارد.
۱.۱. تشخیص گفتار از طریق دیدن (VSR) :
هدف اصلی آن شناسایی کلمات سخنگو با پردازش سیگنال های بصری است . این فرآیند شامل پردازش تصویر ، هوش مصنوعی ، تشخیص اشیا ، تشخیص الگو ها و مدل سازی آماری می باشد . این پردازش میتواند از طریق دو روش صورت گیرد، 1) visemic و 2) holistic
برای انجام فرآیند VSR باید تعدادی پیش پردازش جهت شناسایی دقیق محل لب و دهان انجام شود.
۱.۲. پردازش تصویر برای شناسایی دهان :
در ابتدا نگاه ما بدین گونه می باشد که ما در یک تصویر میخواهیم دهان را تشخیص داریم چه راه هایی برای تشخیص آن وجود دارد ؟ و بعد دنباله ای از تصاویر را بررسی میکنیم .
یکی از کاربرد های پردازش تصویر مربوط به پردازش تصاویر انسان ها برای اهداف مختلف می باشد که از جمله ی آنها میتوان به پی بردن به حرکت لب بوسیله ی پردازش دنباله ای از عکس ها اشاره کرد.
بخش بندی تصویر (segmentation )
معمولاً مرحله ی اول در تحلیل یک تصویر، بخشبندی آن است. بخشبندی، یکی از شاخه های اصلی در علم پردازش تصویر است که مهمترین کارکرد آن، تصحیح مرزهای مخدوش بین بخشهای مختلف تصویر است. هدف از بخش بندی، جداسازی اجزای اصلی تشکیل دهنده ی تصویر است. دقت بخش بندی تصویر، اثر مستقیمی در کارایی کل سیستم میگذارد به طوری که میتواند موفقیت یا شکست احتمالی تحلیل نهایی تصویر را تعیینکند. در کاربردهای هوایی وسنجش از دور، تنها شناسایی اشیای روی زمین برای بخش بندی مورد نظر است. بخش بندی به طور گستردهای در علم سنجش از دور به کار میرود. این پیش پردازش به عنوان
فرایند تقسیم یک تصویر به گروه های همگن تعریف میشود به طوری که هر ناحیه همگن باشد ولی اجتماع هی چیک از دو ناحیه ی مجاور آن همگن نباشد.
## الگوریتم watershed segmentation :
الگوریتم watershed بر مبنای بخش بندی ناحیه ای در تصویر عمل میکند . در این الگوریتم، محاسبه ی watershed دو مرحله دارد: یکی پیوستن و دیگری غوطه ور کردن .
تماس و همپوشانی اشیای درون یک تصویر، یکی از معضلات اصلی در بخش بندی تصاویر می باشد به طوری که بسیاری از روشهای متداول بخش بندی قادر به حل آن نیستند. الگوریتم watershed با ارائه ی یک روش قوی برای بخش بندی تصاویر ، قادر به جدا سازی اجزای بهم چسبیده و همپوشانی کننده می باشد .
این الگوریتم بر اساس تغییر مقیاس سطح خاکستری پیکسلها عمل کرده و با استفاده از گرفتن گرادیان از تصویر قابل اجرا میباشد
تعریف گرادیان به صورت زیر است:
که در آن B عنصر ساختاری مربوط به عملیات مورفولوژی است . فرایند محاسباتی watarshed یک فرایند برچسب زنی پیاپی است . زمانی که این الگوریتم به طور مستقیم استفاده گردد، به علت برخی عوامل مثل نویز در تصویر، به دست آمدن نتایج مطلوب از بخش بندی غالباً مشکل است . در اینلگوریتم، تعداد نواحی تشخیص داده شده از تعداد اشیای موجود در تصویر بسیار بیشتر است. این مسئله باعث به وجود آمدن پدیده ی over segmentation می شود که منجر به خراب شدن تصویر بخش بندی شده می شود . بنابراین بایستی نواحی مشابه بعد از بخش بندی تصویر ترکیب شوند.
## پیدا کردن اطراف لب :
در این روش از دوطرف راست و چپ تصویر به سمت مرکز حرکت کرده و هر بار به صورت ستونی تحلیل میکنیم که آیا نقطه ی سفیدی در این ستون وجود دارد یا خیر ؟ اولین نقطه ی سفیدی که پیدا از دو طرف پیدا خواهیم کرد راست ترین و چپ ترین نقاط لب هستند که با داشتن این نقاط عرض لب را محاسبه میکنیم :$$ ( width=abs( left_lip -left_right $$
برای محاسبه ی بالاترین و چپ ترین نقطه ی لب از فرمول زیر استفاده میکنیم :
$$ ( Tpls[x] =left_lip(x)+ (0.2*Width $$
. برای محاسبه ی بالاترین وراست ترین نقطه ی لب از فرمول زیر استفاده میکنیم
$$ { (Tprs[x]} ={right_lip(x) -(0.2*Width} $$
و بوسیله ی یک سری فرمول پیچیده تر تمام نقاط لازم را بدست می آوریم و بدین شکل دور هر لب یک شش ضلعی فرض کرده و شش نقطه ی راسی این شش ضلعی را پیدا میکنیم . در نتیجه ما توانستیم به نوعی یک گراف ساده دور لب بکشیم و اطلاعات نقاط آن را بدست آوریم .
۱.۳. دنباله ای از تصاویر :
یک فیلم شامل چندین فرم می باشد سوال پیش می آید که کدام فرم ها را برای پردازش انتخاب کنیم ؟ که پاسخ به این سوال نیازمند تحقیق و گردآوری بیشتری است
با فرض انتخاب فرم های مناسب طبق روش پیشنهادی و فرمول ها گراف ها را کشیده و بدین وسیله همه چیز برای مرحله ی پردازش معنایی تصاویر آماده و مهیا میشود.
۲. مشکل :
یکی از مشکلات رایج در این زمینه حساس بودن الگوریتم های تشخیص ، نسبت به noise در تصاویر می باشد که تصاویر شامل ریش یا سبیل یا حتی زینت آلات باعث بروز خطا خواهند شد.
۳. کار های مرتبط با موضوع لب خوانی :
Visual Passwords Using Automatic Lip Reading
۴. مراجع و منابع :
Petajan, E. (1984). Automatic lipreading to enhance speech recognition, Ph.D. Dissertation,
University of Illinois at Urbana-Champaign, USA.Chan, T. Michael, 2002. Automatic Lip Model Extraction for Constrained Contour-Based Tracking. Rockwell Science Center.
Gurban, M. & Thiran, J. (2005). Audio-Visual Speech Recognition With A Hybrid Svm-Hmm
System, Proceedings of the 13th European Signal Processing Conference (EUSIPCO).Lihin, M., R. Delmas, P.Y. Codon, F. Luthon and V. Fristot, 2000. Automatic Lip Tracking.
http://en.wikipedia.org/wiki/File:Result_of_a_segmentation_by_minimum_spanning_forest.png
.