عکس

در این پروژه بطور کلی هدف این است که بازیکن با گفتار و صحبت ، کنترل کاراکتر یا بطور کلی تر، بازی را در اختیار داشته باشد به نحوی که با گفتن تعدادی کلمه خاص کارهای مختلفی را انجام دهد. مثلا با گفتن کلمه "برو" حرکت کند ، "بزن" با حریف مبارزه کند و ...

برای این کار از پردازش و تشخیص گفتار بازیکن در کامپیوتر استفاده می شود. این فرایند با توجه به نوع کاربرد روش های مختلفی دارد.

روش های انجام این کار و متدهای مختلف در ادامه به تفضیل شرح داده خواهند شد.

۱. مقدمه

امروزه بازی های رایانه ای به یکی از بزرگ ترین صنعت های جهان تبدیل شده است که تاثیر بسزایی در اقتصاد و فرهنگ ملت ها دارد. علاوه بر مباحث گیم پلی و مکانیک در بازی ، بحث کنترل بازی از اهمیت خاصی‌ برخوردار است . هرچه کنترل بازی آسان تر باشد ، به دلچسبی و جذابیت بازی بیشتر کمک می‌کند. کنترل بازی از طریق گفتار و صدا یکی‌ از بهترین راههای کنترل کاراکتر در بازی‌ها به حساب می‌آید. بازی‌های فارسی به دلیل کمبود و حتّی نبود امکانات کافی‌ برای بازی سازان در موتورهای بازی سازی ، از این امکان کمتر بهره برده اند. به همین دلیل بر آن‌ شدیم که این امکان را در معروف‌ترین موتور بازی‌ سازی یعنی‌ موتور بازی سازی یونیتی پیاده سازی کنیم.

بدیع و جدید بودن این تکنولوژی برای داخل کشور و زبان فارسی، یکی از مشکلات جدی کار در این پروژه محسوب می شود. البته لازم به ذکر است که در بخش های مختلف، این تکنولوژی به زبان فارسی وجود دارد اما در بحث بازی های رایانه ای و موتورهای بازی سازی پروژه و حتی تحقیق جامعی صورت نگرفته است و اگر هم صورت گرفته است به صورت جامع و کامل مطرح نشده است.

عکس09

مشکل دوم پیچیدگی خود فرایند پردازش و تشخیص گفتار است. محاسبات دقیق و آزمایش روند کار بطور مداوم است که می تواند به هرچه بهتر شدن این پروژه کمک کند.

هدف از این پروژه، پیاده سازی کلی این تکنولوژی در موتور بازی سازی یونیتی است. بطوری که در بازی کنترل تمامی رخدادها را از طریق گفتار فارسی انجام دهیم.

عکس49

اما نکته اساسی در این پروژه ، حجم بالای کار است. در این زمان محدود امکان پیاده سازی کامل و رسیدن به آنچه که هدف کلی این پروژه محسوب می شود، عملا نشدنی است. به همین منظور ما تعداد کلمات محدودی را مورد بررسی و ارزیابی قرار می دهیم لذا پیاده سازی بر روی نمونه های کمتر و ساده تر هدف اولیه کار در این پروژه درسی است که درصورت پیشرفت درست کار، فازها و مراحل بالاتر را ادامه خواهیم داد. البته خاطر نشان می شوم که این پروژه تا رسیدن به مرحله تجاری شدن در هر زمانی ، ادامه پیدا خواهد کرد.

2. Pipeline کار

برای پیاده سازی ، اولین قدم کار این است که ضرایب و داده هایی از صوت استخراج کنیم. این ضرایب نشان می دهند که انرژی در کجا متمرکز شده است و این نشان می دهد که از چه حرف یا صامت و... استفاده کرده ایم.

به طور تخصصی تر یک سیستم شناسایی زبان باید به طور دقیق و جزئی جنبه های مختلف مربوط به اطلاعات گفتار را استخراج کند و از آن ها بهره برداری کند، آن ها باید به اندازه کافی انعطاف پذیر بوده تا خود را با تنوع گوینده های مختلف (مرد ، زن، بچه و ...) وفق دهند. برای استخراج ویژگی های مورد نیاز به طور معمول ابتدا سیگنال گفتار به پنجره های کوتاهی با طول مثلآ 20 میلی ثانیه که با هم همپوشانی دارند تقسیم میگردد. علت آن هم اینست که مشخصات سیگنال گفتار و مجاری گفتار در حین بیان یک گویش تغییر می کند. بنابراین، سیگنال گفتار سیگنالی غیر ایستا است و خواص آماری آن در طول زمان تغییر می کند. ولی از آنجا که اندام¬های گفتار به کندی تغییر حالت می دهند یا به عبارت دیگر انسان نمی تواند آنها را سریع تراز حد خاصی تغییر دهد، در بازه های زمانی کوچکی می توان آنرا سیگنال ایستان فرض کرد. به همین دلیل، سیگنال گفتار رابه فواصل زمانی کوتاه(20 تا 40) میلی ثانیه تقسیم می کنند و تحلیل سیگنال در این فواصل کوتاه بر روی سیگنال انجام میگیرد. این قطعات گفتاری را پنجره یا قاب می نامند. سپس در مرحله استخراج ویژگی، از هر قاب ویژگی های گفتاری استخراج می شوند.

برای هر قاب ، سیگنال گفتار هر زبان، 39 ضریب مبتنی بر ضرایب
(MFCC (Mel Frequency Cepstram Coefficients و سه ضریب مبتنی بر انرژی آن قاب استخراج شده اند.

۲.۰.۱. تصاویر spectrogram در صداهای مختلف :

عکس1

۲.۰.۲. نحوه استخراج ضرایب بردارهای ویژگی:

ضرایب MFCC الهام گرفته از خواص شنیداری گوش انسان در دریافت و فهم گفتار می باشد. جهت محاسبه ضرایب MFCC هر قاب، سیگنال مربوط به
هر زبان را ابتدا در پنجره همینگ ضرب کرده و سپس از سیگنال بدست آمده تبدیل فوریه گسسته FFT گرفته میشود . اندازه تبدیل فوریه گرفته شده، محاسبه شده وبرروی پوش طیف بدست آمده مراحلی را انجام می¬دهیم تا این ضراسب استخراج شود.

در نهایت هم از طریق شبکه های عصبی و مدل مخفی مارکوف (HMM(Hidden Markov Models پردازش می کنیم.

۳. مراجع

  • C. Cortes, V. Vapnik, "Support vector networks," Mach. Learn, vol. 20, pp. 273-297, 1995.

  • K.K. Paliwal. On The Use Of Fliter-Bank Energies As Fetures For Robust Speech Recognition, ISSPA,1999

  • X. Huang, A. Acero and H. Hon, SpokenLanguage Processing: A Guideo to Theory,Algorithm and System
    Development.Prentice Hall, 2001

  • Jayram, A.K.V.Sai, Ramasubramanian, V., Sreenivas, T.V. Automatic Language Recognition Using Acoustic
    Sub-word Units. Proc. ICSLP’02, pp. 81-84, 2002

  • E. Singer, P.A. Torres-Carrasquillo, T.P. Gleason, W.M. Campbell, and D.A. Reynolds. Acoustic, Phonetic,
    and Discriminative Approaches to Automatic Language Identification. Geneva.Switzerland.pp.1345-1348.2003

  • J.-julien Aucouturier and F. Pachet, “Improving Timbre Similarity : How high’s the sky?,” J. Negative Results
    Speech Audio Sci., vol. 1, 2004

  • LU Shi-Dan,Rong-Yi. An approchto content-independent feature exraction for Chinese-Korean spoken
    language identification. IEEE, 2011

  • Sudhamay Maity1, Anil Kumar Vuppala2, K. Sreenivasa Rao1, and Dipanjan Nandi. IITKGP-MLILSC Speech
    Database for Language Identification. IEEE,2012

  • Rania Chakroun, Yassine BenAyed.Automatic Language Identification in speech streams. IEEE,2012

  • Subhadeep Dey, Hema Murthy. Universal Syllable Tokeniser for Language Identification. IEEE,2012

  • david mayer.support vector machine.The interfrance to libsvm in package e1071,2012

  • Sadanandam Manchala • V. Kamakshi Prasad •V. Janaki. GMM based language identification system using
    robust features. Int J Speech Technol DOI 10.1007/s10772-013-9209-1.spriner 2013
    The 8th Symposium on Advances in Science and Technology (8thSASTech), Mashhad, Iran. 8thSASTech.khi.ac.ir

  • http://www.cs.cmu.edu/~tanja/GlobalPhone/index-e-wel.html

محمد غضنفری

خوب بود آفرین. خسته نباشی.

فقط بهتر بود در نوشتن متن دقت بیشتری می کردید. استفاده از پاورقی در خیلی از قسمتهای متن شما لازم است. ضمنا برای عکس ها هیچ توضیحی (caption) وجود ندارد.