درست کردن کیک با استفاده از یادگیری تقویتی

تغییرات پروژه از ابتدا تا تاریخ 1392/12/24
یادگیری تقویتی روشی است که در آن عامل با در نظر گرفتن حالت محیط، از بین همه اعمال ممکن یکی را انتخاب می کند و محیط در ازای انجام آن عمل، یک سیگنال عددی به نام پاداش به عامل باز می گرداند.
هدف عامل این است که از طریق سعی و خطا سیاستی را بیابد که با دنبال کردن آن به بیشترین پاداش ممکن برسد.
در این پروژه سعی داریم به یک عامل یاد بدهیم چگونه مواد مورد نیاز برای درست کردن یک کیک را با استفاده از یادگیری تقویتی جمع آوری کند.
محیط به صورت یک ماز است که یک هیولا در آن وجود دارد و در یک سری از خانه ها چاله وجود دارد که مانع عامل ما هستند.
عامل باید سه ماده آرد، شکر و تخم مرغ را در کوتاهترین زمان جمع آوری کند بدون آنکه هیولا او را بگیرد.

![تصویر محیط](http://bayanbox.ir/id/8971829688117353036?view)

# مقدمه
در  این صفحه ماز عامل ما در هر لحظه در  خانه ای به سر میبرد . او میتواند در هر خانه به چهار سمت حرکت کند ، چاله ها و هیولا عوامل محدود کننده حرکت او هستند . در یادگیری تقویتی برای هر حرکت پاداشی در نظر گرفته میشود . در اینجا مثلا نزدیک شدن به شیر ، تخم مرغ و آرد میتواند حرکت هایی با امتیاز بالا و نزدیک شدن به  هیولا حرکتی با امتیاز منفی باشد . به این صورت که عامل با تجربه کردن راه های متفاوت ، بهترین راه را برای رسیدن به این سه خانه (صرفا با تعامل با محیط) به دست آورد .
توضیحی بر یادگیری تقویتی : در این موضوع  عامل  علاوه بر اینکه در هر حالت باید بهترین تصمیم را بگیرد ، باید نسبت به پاداشی که در آینده در حرکتاتی که بعد از  حرکت فعلی نسیبش میشود ، حساس باشد . دو عامل اکتشاف و بهره برداری باید به طور یکسان مورد بررسی عامل قرار گیرد . اکتشاف یا همان سعی و خطا یعنیامتحان کردن  حرکتی جدیدی  که باعث افزایش پاداش او شود (که همراه با ریسک است) .  منظور از بهره برداری نیز این است که عامل متناسب با تجربیات گذشته خویش ، راهی که بیشترین امتیاز را به او داده برود.  هرکدام ازین دو راه اگر  به تنهایی مورد تجه قرار گیرند ، شکست خواهند خورد .  
در پایان عامل باید خط مشیی را پیدا کند که کا با استفاده از آن بتواند  حالات را به اعمالی نگاشت دهد که بیشترین امتیاز را برای او به ارمغان آورد  . یعنی با رجوع با آن در هر موقعیتی که قرار دارد بتواند بهترین عمل را انجام دهد .
# کارهای مرتبط
در این پروژه من  میخواهم موضوع را با دو الگوریتم Q-learning  و sarsa    بررسی کرده و میان این دو الگوریتم ، روش بهتر را انتخاب کنم . هر دو روش ذکر شده بر پایه ی یادگیری تقویتی عمل میکنند ، به این صورت که در الگوریتم سارسا ، عامل در مرحله ی یادگیری همراه با یادگیری رویه ی خود را هم بهینه میکند ولی در روش یادگیری Q عامل رویه خود را حین عمل خود تغییر نداده و در پایان خط مشی را به صورت کلی تغییر میدهد . 
# آزمایش‌ها

# کارهای آینده

# مراجع
+ محمد غضنفری، "بهبود عملکرد عامل شبیه‌سازی فوتبال دوبعدی با استفاده از یادگیری تقویتی "، پایان‌نامه کارشناسی، دانشگاه علم و صنعت ایران، ۱۳۹2. [لینک](https://www.dropbox.com/s/2elzbgh9qnym476/Performance%20Improvement%20of%20a%202D%20Soccer%20Simulation%20agent%20using%20Rainforcement%20Learning.pdf)

R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction. Cambridge, United States of America: MIT Press, 1998.

http://en.wikipedia.org/wiki/SARSA


F. S. Melo and M. I. Ribeiro, "Q-learning with linear function approximation," pp. 602-607, Mar. 2007.

http://en.wikipedia.org/wiki/Q-learning

# پیوندهای مفید
+ [یک نمونه استفاده از این مسئله برای پیاده‌سازی روش سارسا و یادگیری کیو](https://www.dropbox.com/s/zi1p2jkgohjhv5b/TD_Sarsa.pdf)
+ [یک نمونه استفاده از این مسئله برای پیاده‌سازی روش value iteration و policy iteration ](https://www.dropbox.com/s/6c5q3lbppa8qaag/Value_Iteration.pdf)
+ [Reinforcement learning](http://en.wikipedia.org/wiki/Reinforcement_learning)