تغییرات تشخیص لب در لب خوانی بازی های رایانه ای

#مقدمه : لب خوانی روشی است برای فهم و تفسیر گفتار بدون شنیدن آن ، روشی که مردم ناشنوا یا کم شنوا برای درک سخنان دیگران به منظور برقراری ارتباط استفاده می کنند. پیشرفت های اخیر در زمینه ی کامپیوتر ، شناسایی الگو ها و پردازش سیگنال ها ، علاقه مندی به خودکار سازی لب خوانی را افزایش داده است. خودکارسازی قابلیت انسان در لب خوانی نیاز مند پردازشی تحت عنوان تشخیص گفتار از طریق ~~دیدن ( visual speech recognition ) می باشد. VSR یا Visual Speech Recognition~~تصویر [^1] می باشد. تشخیص گفتار از طریق تصویر توجه بسیار زیادی را در این دهه به خود معطوف کرده است زیرا کاربرد بسیار زیادی در برنامه های ~~HCI یا Human Computer Interaction ، تشخیص سمعی و بصری گفتار (AVSR یا Audio Visual Speech Recognition )~~[^2] HCI ، تشخیص سمعی و بصری گفتار [^3] ، تشخیص سخنران ، تشخیص زبان علائم (زبان مخصوص ناشنوایان ) و برنامه های نظارت بر تصاویر دارد. ## تشخیص گفتار از طریق ~~دیدن~~تصویر (VSR) : هدف اصلی آن شناسایی کلمات سخنگو با پردازش سیگنال های بصری است . این فرآیند شامل پردازش تصویر ، هوش مصنوعی ، تشخیص اشیا ، تشخیص الگو ها و مدل سازی آماری می باشد . این پردازش میتواند از طریق دو روش صورت گیرد، 1) visemic و 2) holistic برای انجام فرآیند VSR باید تعدادی پیش پردازش جهت شناسایی دقیق محل لب و دهان انجام شود. ![تصویر وی اس آر ](http://www.uplooder.net/img/image/76/294aeec198ca9db3744832da95bb84dc/lip1.png) ## پردازش تصویر برای شناسایی دهان : در ابتدا نگاه ما بدین گونه می باشد که ما در یک تصویر میخواهیم دهان را تشخیص داریم چه راه هایی برای تشخیص آن وجود دارد ؟ و بعد دنباله ای از تصاویر را بررسی میکنیم . یکی از کاربرد های پردازش تصویر مربوط به پردازش تصاویر انسان ها برای اهداف مختلف می باشد که از جمله ی آنها میتوان به پی بردن به حرکت لب بوسیله ی پردازش دنباله ای از عکس ها اشاره کرد. بخش بندی تصویر ~~(segmentation )~~[^4] معمولاً مرحله ی اول در تحلیل یک تصویر، بخشبندی آن است. بخشبندی، یکی از شاخه های اصلی در علم پردازش تصویر است که مهمترین کارکرد آن، تصحیح مرزهای مخدوش بین بخشهای مختلف تصویر است. هدف از بخش بندی، جداسازی اجزای اصلی تشکیل دهنده ی تصویر است. دقت بخش بندی تصویر، اثر مستقیمی در کارایی کل سیستم میگذارد به طوری که میتواند موفقیت یا شکست احتمالی تحلیل نهایی تصویر را تعیین کند. در کاربردهای هوایی وسنجش از دور، تنها شناسایی اشیای روی زمین برای بخش بندی مورد نظر است. بخش بندی به طور گستردهای در علم سنجش از دور به کار میرود. این پیش پردازش به عنوان فرایند تقسیم یک تصویر به گروه های همگن تعریف میشود به طوری که هر ناحیه همگن باشد ولی اجتماع هی چ یک از دو ناحیه ی مجاور آن همگن نباشد. ![تصویر وی اس آر ](http://www.uplooder.net/img/image/33/6a205c218a6a52a71faad4a685ad94ac/zoo.jpg) ## الگوریتم های پیشنهادی : + ## الگوریتم ~~watershed segmentation~~بخش بندی Watershed : الگوریتم watershed بر مبنای بخش بندی ناحیه ای در تصویر عمل میکند . در این الگوریتم، محاسبه ی watershed دو مرحله دارد: یکی پیوستن و دیگری غوطه ور کردن . تماس و همپوشانی اشیای درون یک تصویر، یکی از معضلات اصلی در بخش بندی تصاویر می باشد به طوری که بسیاری از روشهای متداول بخش بندی قادر به حل آن نیستند. الگوریتم watershed با ارائه ی یک روش قوی برای بخش بندی تصاویر ، قادر به جدا سازی اجزای بهم چسبیده و همپوشانی کننده می باشد . این الگوریتم بر اساس تغییر مقیاس سطح خاکستری پیکسلها عمل کرده و با استفاده از گرفتن گرادیان از تصویر قابل اجرا می باشد تعریف گرادیان به صورت زیر است: $$ ( G(f (x, y))=( f + B)(x, y)( f tetaB)(x, y $$ که در آن B عنصر ساختاری مربوط به عملیات مورفولوژی است . فرایند محاسباتی watarshed یک فرایند برچسب زنی پیاپی است . زمانی که این الگوریتم به طور مستقیم استفاده گردد، به علت برخی عوامل مثل نویز در تصویر، به دست آمدن نتایج مطلوب از بخش بندی غالباً مشکل است . در اینلگوریتم، تعداد نواحی تشخیص داده شده از تعداد اشیای موجود در تصویر بسیار بیشتر است. این مسئله باعث به وجود آمدن پدیده ی over segmentation می شود که منجر به خراب شدن تصویر بخش بندی شده می شود . بنابراین بایستی نواحی مشابه بعد از بخش بندی تصویر ترکیب شوند. ![تصویر](http://www.uplooder.net/img/image/4/14318c021ec42cbc9844a2cc62227ac4/x.png) ![تصویر](http://www.uplooder.net/img/image/5/282d0e7a1c6c9feb8b0cb5e1b772a29c/y.png) + ## پیدا کردن اطراف لب : در این روش از دوطرف راست و چپ تصویر به سمت مرکز حرکت کرده و هر بار به صورت ستونی تحلیل میکنیم که آیا نقطه ی سفیدی در این ستون وجود دارد یا خیر ؟ اولین نقطه ی سفیدی که پیدا از دو طرف پیدا خواهیم کرد راست ترین و چپ ترین نقاط لب هستند که با داشتن این نقاط عرض لب را محاسبه میکنیم : $$ ( width=abs( left_lip -left_right $$ برای محاسبه ی بالاترین و چپ ترین نقطه ی لب از فرمول زیر استفاده میکنیم : $$ ( Tpls[x] =left_lip(x)+ (0.2*Width $$ . برای محاسبه ی بالاترین وراست ترین نقطه ی لب از فرمول زیر استفاده میکنیم $$ { (Tprs[x]} ={right_lip(x) -(0.2*Width} $$ و بوسیله ی یک سری فرمول پیچیده تر تمام نقاط لازم را بدست می آوریم و بدین شکل دور هر لب یک شش ضلعی فرض کرده و شش نقطه ی راسی این شش ضلعی را پیدا میکنیم . در نتیجه ما توانستیم به نوعی یک گراف ساده دور لب بکشیم و اطلاعات نقاط آن را بدست آوریم . ![تصویر وی اس آر ](http://www.uplooder.net/img/image/69/f2453ac71d192f68f14ab96480fdbc11/hexogone.png) ## دنباله ای از تصاویر : یک فیلم شامل چندین فرم می باشد سوال پیش می آید که کدام فرم ها را برای پردازش انتخاب کنیم ؟ که پاسخ به این سوال نیازمند تحقیق و گردآوری بیشتری است با فرض انتخاب فرم های مناسب طبق روش پیشنهادی و فرمول ها گراف ها را کشیده و بدین وسیله همه چیز برای مرحله ی پردازش معنایی تصاویر آماده و مهیا میشود. ![تصویر وی اس آر ](http://www.uplooder.net/img/image/38/6358d9fd4d60165a6cf4c5dbae116a43/frames.png) #مشکل : یکی از مشکلات رایج در این زمینه حساس بودن الگوریتم های تشخیص ، نسبت به noise در تصاویر می باشد که تصاویر شامل ریش یا سبیل یا حتی زینت آلات باعث بروز خطا خواهند شد. ![تصویر وی اس آر ](http://www.uplooder.net/img/image/29/0362a5b1d598e23bb177dd64ca0f41c7/noise.png) # کار های مرتبط با موضوع لب خوانی : Visual Passwords Using Automatic Lip Reading ![تصویر وی اس آر ](http://www.uplooder.net/img/image/2/1e52135f71afbbc17bc89902dd109b61/visual__passwords.png) # مراجع و منابع : + Petajan, E. (1984). Automatic lipreading to enhance speech recognition, Ph.D. Dissertation, University of Illinois at Urbana-Champaign, USA. + Chan, T. Michael, 2002. Automatic Lip Model Extraction for Constrained Contour-Based Tracking. Rockwell Science Center. + Gurban, M. & Thiran, J. (2005). Audio-Visual Speech Recognition With A Hybrid Svm-Hmm System, Proceedings of the 13th European Signal Processing Conference (EUSIPCO). + Lihin, M., R. Delmas, P.Y. Codon, F. Luthon and V. Fristot, 2000. Automatic Lip Tracking. + http://en.wikipedia.org/wiki/File:Result_of_a_segmentation_by_minimum_spanning_forest.png + http://en.wikipedia.org/wiki/Top-hat_transform##پردازش و تشخیص گفتار [^7] : برای عمل تشخیص گفتار ، سیگنال های صوتی توسط سنسور های ورودی دریافت شده و سپس با انجام پردازش هایی به منظور استخراج ویژگی های صوتی شخص صحبت کننده تشخیص تحقق می یابد . در این روش صرفا از اطلاعات صوتی استفاده میشود .) [ کنترل رخدادهای درون بازی با پردازش و تشخیص گفتار ](http://www.boute.ir/ai/game_event_control_with_speech_recognition) ) امّا در دهه ی کنونی برای بالا بردن دقت این تشخیص از تصاویر و حالات دهان هم استفاده می کنند که با عنوان پردازش و تشخیص گفتار به صورت صوتی و سمعی [^6] بیان می شوند . در یکی از روش های بررسی شده ،با فرض وجود دوربینی در نزدیکی گوشی تلفن، عکسهایی از نیم رخ شخص گرفته شده و حالت دهان فرد پردازش میشود در این پردازش از اطلاعاتی چون شکل هندسی لب ، کانتور لب ، حرکت و سرعت آن ، استفاده می شود. ![تصویر تشخیص گفتار ](http://www.uplooder.net/img/image/44/9263ce0963134fb95b525eb68cc7cf81/side_image.png) ![تصویر پردازش ](http://www.uplooder.net/img/image/99/8680267f0164cab50af568653dcd25c1/process_image.png) ## رمز گشایی تصویری : گاهی مردم برای آنکه دیگران حرف هایشان را نفهمند ، زمزمه وار یا حتی بدون تولید هیچ گونه صدایی صحبت میکنند. در رمزگشایی تصویری نیز سعی می شود تا کاربر با زمزمه ی کلمه ی عبور خود بدون آنکه نیاز به تولید صدا باشد ، در محدوده ی امنیتی راه یابد. رمزگشایی تصویری با هدف افزایش امنیت وتقلیل سو استفاده های هویتی در دست بررسی و تحقیق می باشد. در تحقیقات صورت گرفته نتیجه ی حاصل حاکی از آن دارد که مردم با ظاهر متفاوت و گفتار خاص خود میتوانند به صورت تصویری رمز عبور خود را با استفاده از حرکت لب تولید کنند . مزیت این روش این است که همیشه تولید رمز به وسیله ی صدا میسر نیست ، چرا که ممکن است محیط پیرامون شلوغ و پر ازدحام باشد. در این روش رمز گذاری یک ویدیو از چهره ی کاربر ضبط شده و سپس این ویدیو طبق دامنه ی لغات تعریف شده پردازش شده سپس دنباله ای از بردار های ویژگی استخراج میشود . در مرحله ی تایید رمز رویه قبل اجرا شده و بردار های جدید استخراج شده با بردار های فیلم اصلی مقایسه می شوند در صورت صحت و تطابق این دو بردار ، رمز گشوده می شود. آزمایش های انجام شده نشان داده است که کارایی سیستم های رمز گشایی تصویری با فرض کلمه ی عبور چند کلمه ای افزایش می یابدو سیگنال قوی تری را فراهم می آورد که احتمال هک شدن را کاهش می دهد. ![تصویر وی اس آر ](http://www.uplooder.net/img/image/2/1e52135f71afbbc17bc89902dd109b61/visual__passwords.png) ##تشخیص لب در عکس هایی با رزولوشن پایین : در یکی از موضوعات بررسی شده تحت عنوان تشخیص لب در عکس هایی با رزولوشن پایین برای کاهش نویز در تصویر از تشخیص لبه و فیلتر های رنگی استفاده می شود. علارغم وجود دوربین های خوب با عکس هایی با کیفیت بالا ، باز هم عکس هایی موجود است که کیفیت پایینی دارند اما پردازش آنها اهمیت بسیار زیادی دارد. در این مبحث ابتدا باید نویز از تصاویر پاک شوند و در بعضی موارد لازم است تا عکس از یک فضای رنگی به فضایی دیگر منتقل شود . [^5] ![تصویر نویز دار ](http://www.uplooder.net/img/image/66/2d7c5094489047bdca0c57952b5a6acf/low_resolotion.png) # لینک کد مربوطه : + [کد متلب ]( http://uploadkon.ir/fl/d/MTE3NTI%3D) # مراجع و منابع : + Petajan, E. (1984). Automatic lipreading to enhance speech recognition, Ph.D. Dissertation, University of Illinois at Urbana-Champaign, USA. + Chan, T. Michael, 2002. Automatic Lip Model Extraction for Constrained Contour-Based Tracking. Rockwell Science Center. + Gurban, M. & Thiran, J. (2005). Audio-Visual Speech Recognition With A Hybrid Svm-Hmm System, Proceedings of the 13th European Signal Processing Conference (EUSIPCO). + Lihin, M., R. Delmas, P.Y. Codon, F. Luthon and V. Fristot, 2000. Automatic Lip Tracking. + Hassanat,Ahmad.(2005).Visual Password using Automatic LipReading + Iwano et al. - 2007 - Audio-Visual Speech Recognition Using Lip Information Extracted from Side-Face Images + Werda, Mahdi, Hamadou - 2007 - Lip Localization and Viseme Classification for Visual Speech Recognition + Chiang et al. - 2003 - A novel method for detecting lips, eyes and faces in real time + Shirgahi et al. - 2008 - A New Approach for Detection by Movement of Lips Base on Image Processing and Fuzzy Decision + Hassanat - 2009 - Visual Speech Recognition + Kadlec et al. - Unknown - Lips detection in low resolution images +Sajjad.Asma, 2013, Virtual Makeover Software + http://en.wikipedia.org/wiki/File:Result_of_a_segmentation_by_minimum_spanning_forest.png + http://en.wikipedia.org/wiki/Top-hat_transform + http://www.lipreading.org/vowel-eyedrills + بخش بندی تصاویر پزشکی با استفاده از مدل های شکل پذیر. 1386.بهار ، داوودی + http://www.mathworks.ch/ch/help/images/examples/marker-controlled-watershed-segmentation.html?prodcode=IP&language=en [^1]: Visual Speech Recognition [^2]: Human Computer Interaction [^3]: AVSR یا Audio Visual Speech Recognition [^4]: segmentation [^5]: برای مثال تبدیل RGB به Gray style [^6]: Audio-Visual Speech Recognition [^7]: Speech Recognition .