تغییرات بهبود عملکرد عامل بازی روبوکد با کمک یادگیری تقویتی

##چکیده محیط روبوکد یک محیط شبیه سازی شده‌ی دو بعدی است که در آن تعدادی ایجنت که به صورت تانک هستند با هم به مبارزه می‌پردازند. هر تانک یک ایجنت است که دارای تعدادی سنسور برای گرفتن اطلاعات و تعدادی اکشن است. هدف از این پروژه افزایش مهارت یک تانک برای از بین بردن حریف‌های خود با استفاده از یادگیری ماشین به صورت تقویتی می‌باشد. # مقدمه ## روبوکد چیست؟ [^Robocode] [روبوکد](http://robocode.sourceforge.net/) یک بازی برنامه نویسی [^Programming game] است که هدف در آن برنامه نویسی کردن یک ربات برای شکست دادهن بقیه ربات ها در زمین شبیه سازی شده بازی است. در روبوکد یک بازیکن تنها می‌تواند روبات را قبل از شروع مسابقه برنامه ریزی کند و در طی مسابقه هیچ تاثیری در بازی نمی‌گذارد. در واقع با نوشتن یک هوش مصنوعی برای عامل این محیط به او یاد می‌دهیم که در شرایط مختلف چگونه رفتار کند (تصویر ۱) ![تصویر ۱- روبوکد](http://robocode.sourceforge.net/gfx/robocode_logo_tanks.png) ### بررسی عامل در محیط روبوکد (تصویر ۱ ) عامل به صورت یک تانک می‌باشد. این تانک شامل ۶ چرخ برای حرکت یک رادار برای تشخیص محیط اطراف و یک لوله برای شلیک گلوله است. چرخ ها - که می‌تواند با آنها حرکت رو به جلو و عقب و چرخش را انجام دهد - لوله تانک جز عملگر های این عامل هستند. سنسور این عامل راداری می‌باشد که بالای سر ربات فرار دارد. عامل روبوکد فقط توانایی دیدن اجسامی را دارد که در رو به روی رادار قرار داشته باشند. رادار یک عملگر هم محسوب می‌شود چرا که ربات قابلیت چرخاندن رادار را دارد. عامل روبوکد دارای انرژی می‌باشد که با حرکت کردن و شلیک گلوله کاهش می‌یابد و با صدمه رساندن به حریف افزایش پیدا می‌کند. عامل روبوکد توانایی شلیک گلوله با سه قدرت مختلف دارد. قدرت بیشتر انرژی بیشتری را از ربات میگیرد ولی در صورت اصابت خسارت زیادی وارد می‌کند. عامل روبوکد باید موفق شود با مصرف کمترین انرژی دشمنان خود را شکست دهند. ![تصویر ۲- عامل روبوکد](https://lh5.googleusercontent.com/-3GK5-5ErZpo/AAAAAAAAAAI/AAAAAAAAAFY/-koba5-1MFQ/photo.jpg) ### بررسی محیط محیطی که عامل در آن قرار دارد یک زمین مسطح به شکل مستطیل است که دور آن با دیوار محسور شده است. (تصویر ۳) همانطور که گفته شد عامل فقط توانایی مشاهده کردن رو به روی رادار را دارد و محیط به طور کامل قابل مشاهده نیست. موجودیت های داخل محیط عبارت اند از ربات های دوست و دشمن و تیر های شلیک شده. تیر ها بر اساس قوانین مشخص حرکت می‌کنند و حالت بعدی آنها قابل پیشبینی است اما حالت بعدی عامل های دیگر بستگی به تصمیم آنها دارد. کد نوشته شده برای ربات از طریق یک رابط به صورت نا همگام [^asyncronous] از محیط اطراف اطلاعات دریافت می‌کند تصمیم می‌گیرد و دستور یک عمل را صادر می‌کند. این کار به صورت دنباله دار تا پیروزی یکی از طرفین ادامه پیدا می‌کند. عملکرد کند عامل احتمال کسر امتیاز را افزایش می‌دهد. ![تصویر ۳- محیط بازی روبوکد](http://gamedesignclub.org/robocode/robobattle.jpg) ## یادگیری تقویتی[^ Reinforcement learning] به صورت کلی یادگیری تقویتی بخشی از یادگیری ماشین است که از [علوم روانشناسی رفتار گرا](https://en.wikipedia.org/wiki/Behaviorism) الهام گرفته است. در یادگیری تقویتی می‌خواهیم یادبگیریم که چه کنیم یا در واقع می‌خواهیم موقعیت را به یک رفتار و عملکرد نظیر کنیم به طوری که بیشترین پاداش را دریافت کنیم. در این نوع یادگیری بر خلاف یادگیری های دیگر به یادگیرنده گفته نمی‌شود که عملکرد درست کدام است، بلکه این خود یادگیرنده است که باید با امتحان کردن رفتار های مختلف و دریافت پاداش [^Reward] یا جزا[^Punishment] در شرایط مختلف بهترین عمل را پیدا کند. در یادگیری به همراه ناظر [^Supervised] یک مجموعه از داده های مطلوب به عامل داده می‌شود ولی در مسائلی که توسط یادگیری تقویتی حل می‌گردند پیدا کردن یک مجموعه از داده های مطلوب کار بسیار دشواری است زیرا این مسائل عمداتاً از پیچیدگی بالایی برخوردارند و بسیار تعاملی هستند. یکی از چالش های پیش رو در این نوع یادگیری انتخاب بین استخراج [^Exploite]بیشتر و کاوش[^Explore] بیشتر است. عامل باید با تکرار عمل های نسبتا مطلوب خود در گذشته دقت آنها را افزایش دهد اما از جهتی این کار باعث می‌شود که عامل از تجربه رفتار های جدید باز ماند. ![تصویر ۴ - ٔمدل کلی یادگیری تقویتی](https://webdocs.cs.ualberta.ca/~sutton/book/ebook/figtmp7.png) ## محاسبه باز خورد [^Feedback] مهم ترین شاخصه‌ای که یادگیری تقویتی را از سایر یادرگیری های دیگر متمایز می‌کند این است که ارزش انجام یک عمل را حساب می‌کند به جای اینکه مجموعه‌ای از اعمال های درست را دریافت کند. در واقع بازخورد فقط به ما می‌گوید که عمل انجام شده چقدر خوب یا بد بوده است و به ما بهترین عمل یا بدترین عمل را نمی‌گوید. در مسئله ساده [n-armed bandit](https://en.wikipedia.org/wiki/Multi-armed_bandit) محاسبه بازخورد کار بسیار ساده‌ای است که درواقع همان میزان جایزه دریافت شده از دستگاه می‌باشد. اما در مسائل دیگر این کار می‌تواند پیچیده باشد. ## محیط در یادگیری تقویتی به طور خلاصه هر آنچه عامل با آن در تعامل است را محیط می‌گویند. در مسئله‌ای که می‌خواهیم آنرا با یادگیری تقویتی حل کنیم در ابتدا باید بتوانیم محیط را با فرآیند تصمیم گیری ماکُو [^ Markov Decision Process (MDP)] مدل سازی کنیم. فرآیند تصمیم گیری مارکو به صورت چندتایی زیر تعریف میشود$$(S,A,P_{0}(0,0),R_{0}(0,0),\gamma)$$ که در آن S مجموعه‌ی متناهی از حالت‌ها[^States] ، A مجموعه متناهی از عملیات‌ها [^Actions] ، P تابع احتمال اینکه از حالت s به s' با عمل a برویم، R پاداش [^Reward] دریافتی با رفتن از حالت s به s' با عمل a و گاما، که عددی بین صفر و یک است، ضریب اهمیت پاداش فعلی و پاداش های احتمای در آینده می‌باشند. با توجه به تعریف بالا اولین چالش پیش رو نگاشت کردن حالت های مسئله به مجموعه‌ی متناهی از حالت هاست به طوری که با انجام یک عمل به حالتی دیگر برویم. ![تصویر ۵ - مثالی ساده از مدل فرآیند تصمیم گیری مارکُو دارای ۳ حالت و ۲ عمل](https://upload.wikimedia.org/wikipedia/commons/thumb/2/21/Markov_Decision_Process_example.png/750px-Markov_Decision_Process_example.png) ## یادگیری کیو [^ Q Learning] این مسئاله رو مدل MDP تعریف می‌شود. هدف عامل در این الگوریتم بیشینه کردن پاداش دریافتی با پیدا کردن بهترین عمل در هر حالت است. این الگوریم دارای تابعی است که ارزش هر عمل را با توجه به حالت می‌دهد. $$ Q: S \times A \Rightarrow \mathbb{R}. $$ چالش ما بدست آوردن مقدار Q است. عامل دارای یک آرایه‌ی دو بعدی بر اساس حالت و عمل است و قبل از شروع یادگیری Q دارای های مقادیر مساوی است. سپس هر بار که عامل عملی را انجام می‌دهد مقدار Q بروز می‌شود. $$ Q_{t+1}(s_{t}, a_{t}) = Q_{t}(s_{t},a_{t}) + \alpha_{t}(s_{t},a_{t}).\lgroup R_{t+1} + \gamma .maxQ_t(s_{t+1},a) - Q_{t}(s_{t},a_{t}) \rgroup $$ در فرمول بالا آلفا ضریب یادگیری است که توابع مختلفی برای بدست آوردن آن ارائه شده است. هرچه آلفا بزرگتر شود یه این معنی است که اهمیت مقدار های پیشین کم است و تاثیر پاداش کنونی افزایش می‌یابد و هرچه آلفا کمتر باشد به این معنی است که بیشتر به داده های قبلی تکیه کرده‌ایم و پاداش های جدید کم اهمیت تر است. در حالتی که آلفا یک باشد Q برابر با پاداش کنونی می‌شود و در حالت آلفای صفر یادگیری متوفق می‌شود. معمولا برای آلفا تابعی را انتخاب می‌کنیم که در شروع مقدار زیادی داشته باشد و رفته رفته به صفر میل کند. $$ \alpha(t) = \frac{1}{t+1} $$ Initialize Q(s,a) arbitrarily Repeat (for each episode): Initialize s Repeat (for each step of episode): Choose a from s using policy drived from Q (e.g. epsilon-greedy) Take action a, obsere r, s' Q(s,a) <- Q(s,a) + alpha * (r + gamma * max(Q(s',a')-Q(s,a)) s <- s'; until s is terminal # کارهای مرتبط ## استفاده از یادگیری تقویتی در حرکت عامل روبوکد پاتریک هلوپتزک از دانشگاه واشنگتون در پروژه خود [4] که درباره استفاده از یادگیری تقویتی برای حرکت عامل بازی روبوکد است برای نگاشت کردن محیط بازی روبوکد به MDP حالت بازی را با استفاده از پارامتر های موقعیت تانک حریف، زاویه بین تانک خودی و تانک حریف، فاصله تا حریف و اینکه آیا حریف در چند ثانیه آخیر شلیک کرده است یا نه، ساخته است. نکته‌ای که وجود دارد این است که اگر بخواهیم تمامی زاویه ها و تمامی موقعیت ها را در نظر بگیریم تعداد حالت ها بسیار زیاد خواهد شد و این امر یادگیری را بسیار دشوار میکند زیرا عامل تونایی تجربه کردن تمامی حالات را عملا ندارد. برای همین در این پروژه زمین به ۷ بخش عمودی و افقی تقسیم شده است. یعنی در کل ۴۹ حالت برای موقعیت تانک حریف.همین طور ۸ حالت برای زاویه و ۶ حالت برای فاصله. با این تقسیم بندی ۴۷۰۴ حالت خواهیم داشت. عمل های موجود نقاطی است که عامل می‌تواند به آن‌ها حرکت کند. اگر بخواهیم تمامی نقاط را به عنوان عمل در نظر بگیریم تعداد عمل ها بسیار زیاد خواهد شد. در این پروژه ۴۹ موقعیت برای حرکت به آن‌ها در نظر گرفته شده است. این ۴۹ نقطه تقاطع ۷ دایره به مرکزیت تانک حریف و ۷ خط که از مرکز دایره ها می‌گذرند است. ## استفاده از یادگیری تقویتی در انتخاب قدرت در پروژه‌ای دیگری [5] که روی هوش مصنوعی برای بازی روبوکد کار شده از شبکه‌ی عصبی برای چرخاندن لوله تنفگ و از یادگیری تقویتی برای یادگیری شدت شلیک استفاده شده است. برای این کا زمین بازی را به چند قسمت مانند تصویر ۵ تقسیم کرده است. همان طور که گفته شد شلیک گلوله باعث کاهش انرژی میشود و مورد اصابت قرار دادن حریف باعث افزایش انرژی می‌شود. کم شدن یا زیاد شدن انرژی به عنوان تابع پاداش استفاده شده است. در این پروژه محیط اطراف به ۵ ناحیه کمتر از ۱۰ متر، کمتر از ۱۰۰متر کمتر از ۲۵۰متر، کمتر از ۵۰۰ متر و کمتر از ۱۰۰۰ متر تفسیم شده است و در هر حالت ۳ عمل شلیک گلوله با قدرت های ۰.۵ ، ۱.۵ و ۳ تعریف شده است که در مجموع جدول کیو اندازع ۳ در ۵ پیدا می‌کند که نسبت به پروژه قبل بسیار کوچک است و امر یادگیری را تسریع می‌بخشد اما دقت کم می‌شود ولی از آنجایی که انتخاب قدرت شلیک به پیچیدگی تصمیم گیری برای حرکت نیست می‌توان به همین دقت هم بسنده کرد ![تصویر ۶ - تقسیم یندی زمین بازی نگاشت روی تعداد حالت محدود](https://boute.s3.amazonaws.com/220-photo_2015-11-20_21-35-20.jpg) # آزمایش‌ها # کارهای آینده # مراجع >1- O'Kelly, Jackie, and J. Paul Gibson. "RoboCode & problem-based learning: a non-prescriptive approach to teaching programming." ACM SIGCSE Bulletin 38, no. 3 (2006): 217-221. > 2- S. Russell and P. Norvig. "Artificial Intelligence: A Modern Approach Prentice Hall.", 2003, Second Edition > 3- Richard S. Sutton and Andrew G. Barto. "Reinforcement Learning An Introduction". > 4 - Patrick Haluptzok. "MARKOV MODEL DRIVEN AIMING COMBINED WITH Q LEARNING FOR MOVEMENT" University of Washington 2003 > 5 - Jon Lau Nielsen, Benjamin Fedder Jensen. "Modern AI for games: RoboCode"