پیش مقدمه :
این پروژه شامل پردازش های اولیه ی پردازش معنایی لب خوانی می باشد که در نهایت خودکار سازی لب خوانی به صورت پلاگینی به موتور بازی سازی یونیتی اضافه خواهد شد .
۱. مقدمه :
لب خوانی روشی است برای فهم و تفسیر گفتار بدون شنیدن آن ، روشی که مردم ناشنوا یا کم شنوا برای درک سخنان دیگران به منظور برقراری ارتباط استفاده می کنند. پیشرفت های اخیر در زمینه ی کامپیوتر ، شناسایی الگو ها و پردازش سیگنال ها ، علاقه مندی به خودکار سازی لب خوانی را افزایش داده است. خودکارسازی قابلیت انسان در لب خوانی نیاز مند پردازشی تحت عنوان تشخیص گفتار از طریق تصویر 1 می باشد.
تشخیص گفتار از طریق تصویر توجه بسیار زیادی را در این دهه به خود معطوف کرده است زیرا کاربرد بسیار زیادی در برنامه های 2 HCI ، تشخیص سمعی و بصری گفتار 3 ، تشخیص سخنران ، تشخیص زبان علائم (زبان مخصوص ناشنوایان ) و برنامه های نظارت بر تصاویر دارد.
۲. تشخیص گفتار از طریق تصویر :
هدف اصلی آن شناسایی کلمات سخنگو با پردازش سیگنال های بصری است . این فرآیند شامل پردازش تصویر ، هوش مصنوعی ، تشخیص اشیا ، تشخیص الگو ها و مدل سازی آماری می باشد . این پردازش میتواند از طریق دو روش صورت گیرد، 1) visemic و 2) holistic
برای انجام فرآیند VSR باید تعدادی پیش پردازش جهت شناسایی دقیق محل لب و دهان انجام شود.
۲.۱. پردازش تصویر برای شناسایی دهان :
یکی از کاربرد های پردازش تصویر مربوط به پردازش تصاویر انسان ها برای اهداف مختلف می باشد که از جمله ی آنها میتوان به پی بردن به حرکت لب بوسیله ی پردازش دنباله ای از عکس ها اشاره کرد
در ابتدا ما بررسی خواهیم کرد که برای تشخیص لب در یک فریم چه راه هایی وجود دارد سپس دنباله ای فریم ها را بررسی می کنیم .
هدف در تمام این پیش پردازش تولید گرافی است که نقش داده ها ی ورودی برای پردازش تحلیل معنایی گفتار را دارد.
به چنین گرافی در اصطلاح کانتور لب گفته می شود.
۲.۲. بخش بندی تصویر 4
بخش بندی تصویر روشی است برای نام گذاری هر پیکسل به طوری که پیکسل هایی که دارای ویژگی های یکسان هستند نام یکسان دارند. پس هر قطعه شامل پیکسل هایی است با ویژگی های یکسان.
هدف از بخش بندی یک تصویر این است که عکس را طوری به قسمت هایی تبدیل کنیم که برای تحلیل و بررسی و پردازش قابل درک تر و آسان تر باشند. با این عمل یافتن مرز ها یا اشیا سهل تر خواهد شد.
معمولاً مرحله ی اول در تحلیل یک تصویر، بخشبندی آن است. بخشبندی، یکی از شاخه های اصلی در علم پردازش تصویر است که مهمترین کارکرد آن، تصحیح مرزهای مخدوش بین بخشهای مختلف تصویر است. هدف از بخش بندی، جداسازی اجزای اصلی تشکیل دهنده ی تصویر است. دقت بخش بندی تصویر، اثر مستقیمی در کارایی کل سیستم میگذارد به طوری که میتواند موفقیت یا شکست احتمالی تحلیل نهایی تصویر را تعیین کند. در کاربردهای هوایی وسنجش از دور، تنها شناسایی اشیای روی زمین برای بخش بندی مورد نظر است. بخش بندی به طور گستردهای در علم سنجش از دور به کار میرود. این پیش پردازش به عنوان
فرایند تقسیم یک تصویر به گروه های همگن تعریف میشود به طوری که هر ناحیه همگن باشد ولی اجتماع هیچ یک از دو ناحیه ی مجاور آن همگن نباشد.
۳. الگوریتم های پیشنهادی برای تولید کانتور لب :
در ذیل الگوریتم هایی معرفی می شوند که هرکدام مزیت ها و مشکلاتی دارند ، سعی براین است ساده ترین نوع الگوریتم انتخاب و بهبود داده شود.
۳.۱. مدل سازی شکل لب :
در این نوع الگوریتم ، با کمک مجموعه ای از پارامتر های فیزیکی و معادلات خاصی مدل هندسی لب تشخیص داده می شود.
معادلات لازم عبارتند از :
علاوه بر معادلات بالا ، نیازمند تابعی جهت مدلسازی دقیق و تعیین پارامتر های به کار برده شده هستیم .
با فرض عدم هم پوشانی ناحیه ی لب با دیگر نواحی مرز این ناحیه زمانی که تابع کمترین هزینه را بر گرداند مشخص خواهد شد.
در این فرمول منظور از R نوع ناحیه ای است که پیکسل با مختصات m , n ادر آن قرار دارد و نوع ناحیه دو حالت دارد یا ناحیه ای که شامل لب است یا ناحیه غیر لب ، تابع (prob1(m,n احتمال اینکه این پیکسل در ناحیه ی غیر لب باشد را مشخص می کند و (prob2(m,n احتمال اینکه پیکسل در ناحیه ی لب باشد .مرز بهینه ی B با مینیمم سازی (C(Bبدست می آید.
رابطه ی زیر را پس از لگاریتم گیری و ساده سازی فرمول بالا بدست می آوریم:
اما از آنجا که تا کنون فضا فضای گسسته بود (پیکسل را مختصاتی فرض کردیم ) بنابراین مرز B بدست آمده نیر گسسته هستند اما در واقع مرزها پیوسته هستند، پس برای پیوسته کردن فضای مربوطه ابتدا m, n به x , y پیوسته بسط داده می شود.
تکه تابع در این فضای پیوسته اینگونه بدست می آید :
و بعد از آن معادله ی بالا را بسط می دهیم :
در نتیجه ما یک مرز بهینه و پیوسته تولید کردیم ، حال نیاز داریم پارامترهای تابع هزینه را استخراج کنیم ، این استخراج با مینیمم سازی تابع هزینه بدست می آید:
در این فرمول P)=xc+wcose teta) و x1 و x2 نقاط گوشه سمت راست و چپ لب ،و y1 و y2 دو نقطه ی مرز عمودی خط x هستند.
حال چگونه سطح هزینه ی پیوسته (g(x,y را بدست آوریم ؟
اگر چهار نقطه zjk , zj+1k,zj+1k+1, zjk+1 داشته باشیم سطح درون یابی دو سویه شده به این شکل بدست می آید :
پس برای ایجاد (g (x,y نیاز به نقاط zm,n داریم با تعدادی محاسبات جبری می توان نشان داد که(f(m,n و zm,n بوسیله ی معادله ی کانولوشن زیر با هم ارتباط دارند :
که ماسک کانولوشن با کمک ماتریس زیر مشخص می شود:
در حوزه ی فرکانس معادله ی بالا به این شکل در می آید:
که با گرفتن معکوس تبدیل فوریه m , n را بدست می آوریم :
در معادلات بالا گفتیم تابع هزینه و ارزیابی (E(P نیاز به تابع احتمال نگاشت( (probi(m,n ) دارد . این تابع را با استفاده از خوشه بندی فازی بدست می آوریم . در خوشه بندی فازی سعی میشود برای هر پیکسل با کمک توزیع بردار های ویژگی آن پیکسل در فضای ویژگی و اثر متقابل پیکسل همسایگی آن ، یک احتمال مناسب پیدا کند.
شدت رنگ و روشنایی به عنوان ورودی به الگوریتم خوشه بندی داده می شود.(ابتدا عکس را از فضای رنگی RGB به CIEBLAB تبدیل می کنیم چون این فضا دیاگرام رنگ یکنواختی دارد تفاوت دو رنگ به خوبی آشکار می شود)
تصویر الف ) در این شکل تضاد رنگی بسیار کم است
تصویر ب ) در این شکل با استفاده از خوشه بندی فازی چنین نگاشتی به وجود آمده است.
۳.۲. الگوریتم بخش بندی Watershed :
الگوریتم watershed بر مبنای بخش بندی ناحیه ای در تصویر عمل میکند .
تماس و همپوشانی اشیای درون یک تصویر، یکی از معضلات اصلی در بخش بندی تصاویر می باشد به طوری که بسیاری از روشهای متداول بخش بندی قادر به حل آن نیستند. الگوریتم watershed با ارائه ی یک روش قوی برای بخش بندی تصاویر ، قادر به جدا سازی اجزای بهم چسبیده و همپوشانی کننده می باشد .
این الگوریتم بر اساس تغییر مقیاس سطح خاکستری پیکسلها عمل کرده و با استفاده از گرفتن گرادیان از تصویر قابل اجرا می باشد.
ابتدا دو تبدیل top hot و bottom hat را به عکس اعمال کرده ، سپس عکس اصلی را از این عکس تغییر یافته کم می کنیم (شاید سوال ایجاد شود منظور از تفریق دو عکس چیست ؟ باید بگویم طبق بررسی هایی که انجام دادم این الگوریتم در محیط متلب زده شده و در آنجا دید به عکس ها کاملا ماتریسی است )
حاصل تفریق عکسی است که دارای نویز کمتری می باشد پس از اعمال این تغییرات لازم است از عکس مکمل بگیریم (تبدیل همه ی یک های ماتریس به صفر و تبدیل صفر های ماتریس به یک ) زیرا چنین عملی باعث آشکار شدن لبه های عکس می شود.
بعد از اعمال فیلتر های لازم بر روی عکس لازم است اشیا اضافی عکس پاک شوند ، یا در بعضی قسمت ها اشیا پر شوند.
فرایند محاسباتی watershed یک فرایند برچسب زنی پیاپی است . زمانی که این الگوریتم به طور مستقیم استفاده گردد، به علت برخی عوامل مثل نویز در تصویر، به دست آمدن نتایج مطلوب از بخش بندی غالباً مشکل است . در این الگوریتم، تعداد نواحی تشخیص داده شده از تعداد اشیای موجود در تصویر بسیار بیشتر است. این مسئله باعث به وجود آمدن پدیده ی over segmentation می شود که منجر به خراب شدن تصویر بخش بندی شده می شود . بنابراین بایستی نواحی مشابه بعد از بخش بندی تصویر ترکیب شوند.
بعد از آماده شدن عکس ،لازم است برای پیدا کردن لب محاسباتی را انجام دهیم .
۳.۳. پیدا کردن اطراف لب :
در این روش از دوطرف راست و چپ تصویر به سمت مرکز حرکت کرده و هر بار به صورت ستونی تحلیل میکنیم که آیا نقطه ی سفیدی در این ستون وجود دارد یا خیر ؟ اولین نقطه ی سفیدی که پیدا از دو طرف پیدا خواهیم کرد راست ترین و چپ ترین نقاط لب هستند که با داشتن این نقاط عرض لب را محاسبه میکنیم :
حال اگر بخواهیم قسمت سمت چپ بالای لب را بدست بیاوریم یک سری فرضیات خواهیم داشت :
ابتدا به اندازه ی 0.2 از گوشه ی سمت چپ لب که در بالا محاسبه شده است ،به سمت راست رفته و x نقطه ی شروع ما بدست می آید.
برای بدست آوردن y نقطه ، لازم است معادله ی خطی تشکیل دهیم که این خط گذرنده از دو نقطه ی گوشه ی لب می باشد (نقطه ی سمت چپ ترین و نقطه ی سمت راست ترین ) مقداری که ازین معادله بدست می آید در واقع مقدار y نقطه ای است که ما میخواهیم از آن شروع به پیمایش کرده تا عرض نقطه ی سمت چپ بالای لب را پیدا کنیم ، در ذیل معادله ی خط مر بوطه را مشاهده می کنید:
از این نقطه ی بدست آمده شروع کرده و به سمت بالا میرویم تا جایی که به مرز لب برسیم ، این مقدار پیمایش رو به بالا را مقدار [TPLS[y فرض میکنیم ، سپس با حرکات مداوم 0.05 در جهت x به سمت گوشه ی راست لب میرویم و نقطه ی مرزی متناسب با آن را بدست می آوریم ، که با کمک این نقطه و نقطه ی قبلی تغییر زاویه را محاسبه کرده ، اگر این تغییر زاویه مثبت بود عملیات را تکرار می کنیم ، امّا اگر تغییرات منفی بود یعنی نقطه ی قبلی سمت چپ بالای لب میباشد .
حال میخواهیم نقطه ی سمت چپ پایین لب را بدست بیاوریم:
از نقطه ی سمت چپ لب به اندازه ی 0.2 به سمت راست می رویم ، سپس همانند مراحل قبل ، معادله ی خط گذارنده از دو گوشه ی لب را نوشته و عرض نقطه را بدست می آوریم ، از این نقطه پایین می رویم تا جایی که به مرز لب برسیم ، ازنقطه ی جدید (روی مرز لب ) شروع به پیمایش می کنیم و به اندازه ی 0.05 سمت راست رفته و نقطه ی مرزی متناسب با این x را بدست آورده ، تغییر زاویه را محاسبه کرده ، اگر در هرمرحله تغییر زاویه مثبت بود ادامه میدهیم در غیر این صورت به نقطه ای مربوطه رسیده ایم.
نقطه ی سمت راست بالا و پایین لب را دقیقا مانند مراحل بالا میتوانیم بدست آوریم.
بدین صورت گراف شش نقطه ای ما مشخص می گردد.
لازم به ذکر است الگوریتم watershed الگوریتم انتخابی در این پروژه می باشد.
۳.۴. دنباله ای از تصاویر :
یک فیلم شامل چندین فرم می باشد سوال پیش می آید که کدام فرم ها را برای پردازش انتخاب کنیم ؟ که پاسخ به این سوال نیازمند تحقیق و گردآوری بیشتری است
با فرض انتخاب فرم های مناسب طبق روش پیشنهادی و فرمول ها گراف ها را کشیده و بدین وسیله همه چیز برای مرحله ی پردازش معنایی تصاویر آماده و مهیا میشود.
۴. آزمایشات :
در ابتدا لازم است یاد آور شوم یکی از مشکلات این پروژه نبود دیتا ست مناسب بود ، در این قسمت وقت زیادی گذاشته شد تا دیتا ست مناسبی در زمینه ی لب خوانی پیدا شوند 5 امّا متاسفانه یافت نشد و بنده از دیتا ست 6 FEI Face که برای پروژه تشخیص چهره آماده شده بود استفاده کردم .
این دیتا ست شامل 2400 عکس 640x480 پیکسلی میباشد ، که 43 عدد از این تعداد برای آزمایش تشخیص لب انتخاب گردید .
البته این 43 عدد عکس با در نظر گرفتن شرایط مسئله و راه حل آن انتخاب شده است و نمیتوان گفت تصادفی است ، نکته ی دیگر این است که
برای تست و آزمایش لازم بود نور عکس ها کاملا تنظیم شوند تا بتوان خروجی مناسب داشت و با کمک نرم افزار Photoshop بالاخره ! دیتا ست آماده شد .
همانطور که میبینید تصویر بالا نور خوبی ندارد و به کمک نرم افزار فوتوشاپ تغییراتی در نور عکس ایجاد شد . همچنین سعی شد تا سایه ها و چروک هایی که دور دهان هستند تقریبا پاک شوند زیرا وجود چروک اطراف دهان خود مشکل بزرگی ایجاد می کند که در ادامه حتما با آن خواهم پرداخت.
در ذیل تصویر بعد از اعمال تغییر مشاهده میکنید.
۴.۱. آزمایش مرحله اول پیاده سازی :
در فاز قبلی فایل picture.analyzing پیاده سازی شده بود، این فایل فیلتر های لازم بر روی عکس را ایجاد میکند تا برای مرحله ی بعد توضیحات ذیل مربوط به آزمایش این کد در فاز قبل می باشد.
در عکس زیر مراحل اعمال فیلترها را مشاهده می کنید :
مراحل اولیه لازم برای تولید فیلتر های لازم روی عکس پیاده سازی شده است ، اما به دلیل فراگیر نبودن این روش (در دست بررسی است.) بر روی تمامی عکس ها با نور های مختلف ،اشکال مختلف ، صرفا روی عکس های خاص جواب می دهد .در تصویر زیر این اشکال مشهود است .
برای رفع این مشکل با کمک کد راه حلی پیدا نکردم .
حال نتایج آزمایش را تا این مرحله بررسی میکنیم :
نوع عکس | تعداد کل عکس ها | تعداد عکس های غلط | تعداد عکس های نیمه غلط | درصد دقت در این مرحله |
---|---|---|---|---|
عکس های اولیه بدون اعمال هیچ تغییری | 43 | 43 | 0 | %0 |
عکس ها پس از ایجاد تغییر در نور آنها | 43 | 14 | 15 | %32 |
عکس ها پس از ایجاد تغییر درنور آنها و از بین بردن چروک ها | 43 | 7 | 6 | %75 |
عکس ها پس از ایجاددقت بیشتر در تغییر نور آنها و از بین بردن چروک ها | 43 | 6 | 4 | %76 |
۴.۲. آزمایش مرحله دوم پیاده سازی :
در این قسمت فایل lip_contour هم پیاده سازی شد، در این کد یک مستطیل که شامل لب است از عکس ورودی جدا شده و با استفاده از الگوریتم انتخابی
شش نقطه ی کانتور لب مشخص می گردد. در این کد 6 نقطه ی اصلی با شش دایره ی آبی رنگ بر روی عکس مشخص می شوند.
تصویر انتخابی از دیتا ست
تصویر خروجی از مرحله ی اول پیاده سازی (خروجی کد picture_analyzing)
تصویر خروجی از مرحله ی دوم پیاده سازی(خروجی کد lip_contour)
بررسی نتایج این مرحله :
ابتدا ده نمونه خروجی را نشان میدهیم :
شماره عکس | تعداد نقطه ی درست از شش نقطه ی کانتور | درصد دقت در این عکس در این مرحله | عکس خروجی |
---|---|---|---|
1 | 6 | 100% | |
2 | 5 | 83% | |
3 | 5 | 83% | |
4 | 5 | 83% | |
5 | 5 | 83% | |
6 | 5 | 83% | |
7 | 6 | 100% | |
8 | 5 | 83% | |
9 | 6 | 100% | |
10 | 6 | 100% |
تعداد عکس های آزمایش شده | تعداد کل نقاطی که باید تشخیص داده شود | تعدادنقاط اشتباه | درصد دقت الگوریتم |
---|---|---|---|
43 | 258 | 18 | 69% |
در یکی از قسمت های الگوریتم گفته شد که معادله ی خطی که شامل دو نقطه ی سمت راست و سمت چپ لب می باشد ، نوشته می شود از X نقطه ی سمت چپ 0.2 به سمت راست می آییم و سپس X جدید را در معادله ی خط گذاشته و Y را بدست می آوریم ازین نقطه ی یافت شده شروع به پیمایش می کنیم .
در یک سری از عکس های آزمایش شده دیده شد که خط مذکور نقطه ای خارج از محدوده ی لب می دهد ، که برای بهبود نتیجه تابعی نوشته شد تحت عنوان نزدیک ترین نقطه به محدوده ی لب را پیدا می کند.
در شکل نقطه ی A نقطه ی سمت چپ لب و نقطه ی B نقطه ی سمت راست لب ، و خط قرمز خط گذرنده از این دو نقطه است . در این عکس نقطه ی C نقطه ی شروع پیمایش بر روی ناحیه لب است که همانطور که می بینید خارج از ناحیه لب قرار گرفته است.
۴.۳. خطا های آزمایش :
1) وجود سایه در تصاویر باعث مشکل در عمل پردازش خواهند شد ، وقتی فردی میخندد یا بعضی از حروف را میگوید، معمولا بر چهره ی وی سایه میفتد . این مشکل در فروم های متلب 7مطرح شد تا شاید نیازی به بازسازی عکس ها با Photoshop نباشد ، امّا راه حل ارائه شده بسیار و قت گیر است ، پیاده سازی راه حل های shadow / highlights نیازمند مطالعه ی بیشتری است . در آزمایشات بالا هدف آزمایش دقت شناسایی کانتور بود و نه برطرف کردن سایه ها ، لذا سایه ها با ابزار Photoshop بر طرف شد تا مانعی برای ادامه ی کار نباشد .
2) وجود چین و چروک نیز سبب بروز مشکل میشود ، که با جستجو های انجام شده نتیجه حاصل شد که با کمک FrangiFilter میتوان خطوط چهره را شناسایی نمود و آن ها را محو کرد ، البته همیشه جواب گو نخواهد بود.
3) مستطیلی که دهان را از صورت جدا میکند خود باید با دقت بالا و به درستی انتخاب شود ، این انتخاب درست مستلزم پاسخ گویی به سه سوال زیر است
چگونه پس زمینه را یک دست سفید کنیم ؟ 2. چگونه صورت را تشخیص دهیم ؟ 3. چگونه محدوده ی دهان را در صورت تشخیص دهیم ؟
فرض بنده برای حل این مشکل این است که ، این اطلاعات باید در ورودی تنظیم شود ، یعنی وقتی شخصی مقابل دوربین قرار میگیرد خود را باید طوری جابجا کند که صورتش در ناحیه A و دهانش در ناحیه ی B بیفتد آنگاه تمام اجزای دیگری که در تصویر مشاهده می شود و در این دو محدوده نیست در ناحیه ی c که ناحیه ای سفید است افتاده است .
امّا این فرضیات چیزی جز آسان تر شدن راه پیاده سازی نیست و باید طور دیگری مسئله بررسی شود.
4) یکی از مشکلات رایج در این زمینه حساس بودن الگوریتم های تشخیص ، نسبت به noise در تصاویر می باشد که تصاویر شامل ریش یا سبیل یا حتی زینت آلات باعث بروز خطا خواهند شد.
۵. کار های مرتبط با موضوع لب خوانی :
۵.۱. پردازش و تشخیص گفتار 8 :
برای عمل تشخیص گفتار ، سیگنال های صوتی توسط سنسور های ورودی دریافت شده و سپس با انجام پردازش هایی به منظور استخراج ویژگی های صوتی شخص صحبت کننده تشخیص تحقق می یابد . در این روش صرفا از اطلاعات صوتی استفاده میشود .( [ کنترل رخدادهای درون بازی با پردازش و تشخیص گفتار ] (http://www.boute.ir/ai/game_event_control_with_speech_recognition) )
امّا در دهه ی کنونی برای بالا بردن دقت این تشخیص از تصاویر و حالات دهان هم استفاده می کنند که با عنوان پردازش و تشخیص گفتار به صورت صوتی وبصری [ ^8 ] بیان می شوند .
در یکی از روش های بررسی شده ،با فرض وجود دوربینی در نزدیکی گوشی تلفن، عکسهایی از نیم رخ شخص گرفته شده و حالت دهان فرد پردازش میشود
در این پردازش از اطلاعاتی چون شکل هندسی لب ، کانتور لب ، حرکت و سرعت آن ، استفاده می شود.
۵.۲. رمز گشایی تصویری :
گاهی مردم برای آنکه دیگران حرف هایشان را نفهمند ، زمزمه وار یا حتی بدون تولید هیچ گونه صدایی صحبت میکنند. در رمزگشایی تصویری نیز سعی می شود تا کاربر با زمزمه ی کلمه ی عبور خود بدون آنکه نیاز به تولید صدا باشد ، در محدوده ی امنیتی راه یابد.
رمزگشایی تصویری با هدف افزایش امنیت وتقلیل سو استفاده های هویتی در دست بررسی و تحقیق می باشد. در تحقیقات صورت گرفته نتیجه ی حاصل حاکی از آن دارد که مردم با ظاهر متفاوت و گفتار خاص خود میتوانند به صورت تصویری رمز عبور خود را با استفاده از حرکت لب تولید کنند . مزیت این روش این است که همیشه تولید رمز به وسیله ی صدا میسر نیست ، چرا که ممکن است محیط پیرامون شلوغ و پر ازدحام باشد.
در این روش رمز گذاری یک ویدیو از چهره ی کاربر ضبط شده و سپس این ویدیو طبق دامنه ی لغات تعریف شده پردازش شده سپس دنباله ای از بردار های ویژگی استخراج میشود .
در مرحله ی تایید رمز رویه قبل اجرا شده و بردار های جدید استخراج شده با بردار های فیلم اصلی مقایسه می شوند در صورت صحت و تطابق این دو بردار ، رمز گشوده می شود.
آزمایش های انجام شده نشان داده است که کارایی سیستم های رمز گشایی تصویری با فرض کلمه ی عبور چند کلمه ای افزایش می یابدو سیگنال قوی تری را فراهم می آورد که احتمال هک شدن را کاهش می دهد.
۵.۳. تشخیص لب در عکس هایی با رزولوشن پایین :
در یکی از موضوعات بررسی شده تحت عنوان تشخیص لب در عکس هایی با رزولوشن پایین برای کاهش نویز در تصویر از تشخیص لبه و فیلتر های رنگی استفاده می شود.
علارغم وجود دوربین های خوب با عکس هایی با کیفیت بالا ، باز هم عکس هایی موجود است که کیفیت پایینی دارند اما پردازش آنها اهمیت بسیار زیادی دارد.
در این مبحث ابتدا باید نویز از تصاویر پاک شوند و در بعضی موارد لازم است تا عکس از یک فضای رنگی به فضایی دیگر منتقل شود . 9
۶. لینک کد مربوطه :
در این کد الگوریتم watershed پیاده سازی می شود .
۷. کار های آینده :
1) بررسی الگوریتم های Shadow /Highlights برای از بین بردن سایه ها در تصاویر
2)بررسی الگوریتم های موجود جهت رفع چین و چروک های صورت
3) بررسی اینکه فریم های کلیدی برای انتخاب کانتور لب جهت پردازش معنایی را چگونه انتخاب کنیم ؟
4) تهیه ی یک دیتا ست مناسب جهت یادگیری
۸. مراجع و منابع :
Petajan, E. (1984). Automatic lipreading to enhance speech recognition, Ph.D. Dissertation,
University of Illinois at Urbana-Champaign, USA.Chan, T. Michael, 2002. Automatic Lip Model Extraction for Constrained Contour-Based Tracking. Rockwell Science Center.
Gurban, M. & Thiran, J. (2005). Audio-Visual Speech Recognition With A Hybrid Svm-Hmm
System, Proceedings of the 13th European Signal Processing Conference (EUSIPCO).Lihin, M., R. Delmas, P.Y. Codon, F. Luthon and V. Fristot, 2000. Automatic Lip Tracking.
Hassanat,Ahmad.(2005).Visual Password using Automatic LipReading
Iwano et al. - 2007 - Audio-Visual Speech Recognition Using Lip Information Extracted from Side-Face Images
Werda, Mahdi, Hamadou - 2007 - Lip Localization and Viseme Classification for Visual Speech Recognition
Chiang et al. - 2003 - A novel method for detecting lips, eyes and faces in real time
Shirgahi et al. - 2008 - A New Approach for Detection by Movement of Lips Base on Image Processing and Fuzzy Decision
Hassanat - 2009 - Visual Speech Recognition
Kadlec et al. - Unknown - Lips detection in low resolution images
Sajjad.Asma, 2013, Virtual Makeover Software
بخش بندی تصاویر پزشکی با استفاده از مدل های شکل پذیر. 1386.بهار ، داوودی
http://en.wikipedia.org/wiki/File:Result_of_a_segmentation_by_minimum_spanning_forest.png
.
Visual Speech Recognition
Human Computer Interaction
AVSR یا Audio Visual Speech Recognition
segmentation
خیلی از دیتا ست ها رایگان نبودند و یا باید استفاده از آن ها تایید می شدند (مانند Color FERET Database)
Speech Recognition
برای مثال تبدیل RGB به Gray style