پیش‌بینی شاخص بورس

شاخص هر بورس، می‌تواند نماینده‌ی خوبی برای نمایش میزان رشد سهام‌های موجود در بورس و خوب و یا بد بودن وضعیت سرمایه‌گذاری در آن باشد. این شاخص در طول زمان نوساناتی را تجربه می‌کند که بسیاری از متخصصین بر این باور هستند، که این نوسانات در شرایط عادی از الگوهای مشخصی پیروی می‌کنند. حتی برخی از این الگوها به صورت فرموله شده نیز تحت عنوان «تحلیل تکنیکال بورس» تبیین شده است. اگر این فرض را بپذیریم، پس باید بتوانیم با کنکاش در گذشته شاخص یک بورس، آینده نوسانات آن را پیش‌بینی کنیم. تکنیک‌های هوش مصنوعی و یادگیری ماشین هم می‌توانند یک ابزار بسیار قدرتمند در استخراج الگو و پیش‌بینی آینده بازار بورس باشند. چیزی که هدف از این پروژه خواهد بود، شکل ساده شده‌ای از مسئله پیش‌بینی شاخص بورس می‌باشد، آن هم این که با مشاهده وضعیت شاخص بورس در بازه‌های مشخص زمانی گذشته (مثلا هفته‌های پیش)، پیش‌بینی کنید که آیا شاخص بورس در بازه زمانی پیش رو (هفته آتی) مثبت است یا منفی. در واقع مسئله در این پروژه یک رده‌بندی دو کلاسه خواهد بود، که داده‌های آن مربوط به شاخص بورس هستند. مجموعه داده‌های متعددی در این زمینه وجود دارد که از یکی از آن‌ها برای انجام پروژه می‌توانید استفاده کنید. مثلا مجموعه داده شاخص بورس داوجونز.

۱. مقدمه

در ابتدای سال 2008 میلادی حجم سرمایه بازار بورس ایالات متحده امریکا به 36.6 تریلیون دلار رسید و در همین زمان حجم سرمایه بازارهای بورس جهان 731 تریلیون دلار تخمین زده شد که حجم قابل توجهی است.
با توجه به این اعداد و ارقام مساله زمان خرید و فروش سهام به یکی از چالش برانگیز ترین موضوعات تبدیل شده است؛ حال مساله بزرگتر این است که آیا راهی وجود دارد که بهترین زمان را برای خرید و فروش انتخاب کنیم ، جواب این است که بله راه هایی وجود دارد که ما از بهترین زمان ها برای خرید و فروش آگاه شویم؛اما چگونه؟برای این کار دو روش وجود دارد:
1) تحلیل بنیادی : این تحلیل که بیشتر مخصوص مدیران مالی است که توانایی تجزیه و تحلیل گزارشات مالی را دارند و می‌توانند با استفاده از این گزارشات به پیش بینی راجع به آینده شاخص بورس برسند.علاوه بر این نرخ سهام یک شرکت فقط به مسائل مالی آن شرکت وابسته نیست. بلکه عواملی از قبیل خبر های انتشار یافته ، شرایط اجتماعی ، مالی و سیاسی موجود در جامعه و ... می‌توانند در ارزش سهام سهیم باشند.
2) تحلیل تکنیکال:[6] این تحلیل شامل بررسی و تجزیه و تحلیل نمودارهای ارزش سهام می‌باشد؛ از آنجایی که این نمودار ها با روند خاصی ادامه می‌یابند پس با تجزیه و تحلیل آنها میتوانیم ادامه یک نمودار را پیش بینی کنیم. [1]
از آنجایی که تجزیه و تحلیل این نمودار ها برای انسان کار زیاد آسانی نیست به دنبال این است که این وظیفه را به کامپیوتر محول کند . پس اکنون ما می‌توانیم با استفاده از روش های هوش مصنوعی از کامپیوتر برای تجزیه و تحلیل نمودار ها استفاده کنیم.

۲. 1. مسئله و راهکار ها

هدف مسئله: هدف ما همانطور که درقسمت مقدمه گفته شد پیدا کردن روشی است که با استفاده از روش های هوش مصنوعی و بخصوص شبکه های عصبی بتواند با استفاده از تحلیل تکنیکال یا همان تجزیه و تحلیل نمودار های ارزش سهام پیش بینی برای آینده این سهام انجام دهد.البته اگر بخواهیم هدف مسئله را به صورت دقیق تر بررسی کنیم باید بگوییم که ایده آل ما در این پروژه این است که بتوانیم به یک برنامه دست یابیم که بتواند زمان خرید و فروش سهام های مختلف را به کاربر بدهد و همچنین بتواند آینده را برای یک سهام مشخص کند. این همان کاری است که تحلیل گران بازار بورس انجام می‌دهند.

راهکار حل مسئله : راهکاری که ما در این پروژه قصد استفاده از آن را داریم استفاده از روش شبکه های عصبی مصنوعی می‌باشد. و همچنین برای استفاده از این روش از الگوریتم ژنتیک و بازگشت به عقب نیز کمک میگیریم.[2]

شرح راهکار:
1)شبکه های عصبی مصنوعی[3]: در ابتدا توضیح خلاصه ای راجع به شبکه های عصبی مصنوعی و الگوریتم ژنتیک می‌دهیم وسپس به شرح راهکار می‌پردازیم.
روش شبکه های عصبی اصولا از شبکه های عصبی موجود در مغز الهام گرفته شده است. شبکه های عصبی داخل مغز انسان بدین صورت کار می‌کنند که یکسری داده وارد این شبکه می‌شود و بعد از پردازش با استفاده از الگوهای خاصی این داده ها به خروجی منتقل می‌شوند.مجموعه این اعمال باعث حل یک مسئله می‌شود، و ما اکنون نیز میخواهیم با شبیه سازی این شبکه های عصبی به صورت مصنوعی مسئله پیش بینی شاخص بورس را حل کنیم.
شبکه های عصبی از سه سطح اصلی تشکیل شده اند : سطح ورودی ، سطح پنهان ، سطح خروجی
شبکه عصبی 4 وظیفه مهم دارد که عبارتنداز:

  1. هر شبکه عصبی شامل چندین واحد پردازش می‌باشد که هرکدام از این پردازشگر ها در هر سطح و در هر زمانی کار به خصوص خود را انجام می‌دهند.

  2. ارتباط وزن دار بین سطح های مختلف و پردازشگرهای مختلف است که باعث می‌شود نتیجه کار یکی بر کار دیگری تاثیر گذارد.

  3. قانون عملکرد پردازشگر است که مشخص می‌کند یک سیگنال ورودی به چه سیگنال خروجی تبدیل شود.

  4. قوانین یادگیری است که مشخص می‌کند با چه احتمالی اطلاعات به چه پردازشگری فرستاده شود.
    اثبات شده است که اگر تعداد سطح های لایه پنهان به 3 برسد تقریبا هرگونه داده ای را می‌توان طبقه بندی و تجزیه کرد.

    شکل 1- نشان دهنده سطح های مختلف در شبکه های عصبی

    شرح الگوریتم ژنتیک: این الگوریتم یک الگوریتم جستوجو می‌باشد که قابلیت این را داردکه بهترین راه حل را برای مسائل پیدا کند. این الگوریتم بسیار شبیه الگوریتم های به کار برده شده در بدن انسان و حتی در محیط بیرون می‌باشد . از جمله وراثت ، جهش و سایر عملکرد هایی که در محیط و در انسان رخ میدهد.
    در این الگوریتم از چند پارامتر استفاده میکنیم از جمله تابع برازش1 ، میزان تاثیر گزاری در پیش بینی 2 .
    در این الگوریتم ما تغییراتی را روی ورودی اعمال میکنیم و این تغییرات را آنقدر ادامه می‌دهیم که تا به داده ای که مد نظرمان است برسیم.
    این تغییرات شامل جابجایی بعضی از بیت های اطلاعات و شاید تغییر کامل یک قسمت از اطلاعات باشد.که به مورد اولی جابجایی3 و به مورد دوم جهش 4 می‌گویند.
    { p }_{ i }=\frac { { f }_{ i } }{ \sum _{ j=1 }^{ n }{ { f }_{ i } } }

    که دراینجا f همان مقدار مناسب و p مقدار اندکی است که به اطلاعات ما در هر مرحله اضافه می‌شود؛و n نیز کل جامعه انتخابی ما می‌باشد که در این جا برابر 100 می‌باشد.
    شکل 2 - نشان دهنده چگونگی وراثت در الگوریتم ژنتیک

    فرض مسئله: ابتد باید فرض هایی را برای مسئله خود متصور شویم و سپس به حل آن بپردازیم. ابتدا فرض می‌کنیم که 8 شرکت با ارزش سهام های متفاوت وجود دارند که قیمت سهام آنها را از 6 جنبه میتوان مورد بررسی قرار داد. حال باید ببینیم که هرکدام از این صفت ها چقدر در پیش بینی ما تاثیر گذارند که این همان مقدار تاثیر گذار می‌باشد؛ و سپس باید مقدار مناسب را بدست آوریم که این مقدار مناسب برابر است با تعداد دفعاتی که ما توانسته ایم برای هر صفت پیش بینی درستی انجام دهیم.
    شرح الگوریتم اصلی[3]:حال که با شبکه های عصبی و الگوریتم ژنتیک آشنا شدیم می‌توانیم به حل مسئله بپردازیم.
    بعد از این که ما با استفاده از الگوریتم ژنتیک توانستیم مقدار تاثیر گذاری هر صفت را پیدا کنیم و با آزمایشات پی در پی مقدار مناسب را پیدا کردیم وقت آن است که پیش بینی کنیم که آیا ارزش سهام بورس این شرکت ها حرکت صعودی دارند یا نزولی ! که این پیش بینی نیز با استفاده از فرمول زیر که نشئت گرفته از شبکه های عصبی می‌باشد قابل انجام است.
    t\quad =\quad \sum _{ i=1 }^{ 6 }{ { p }_{ i }*{ f }_{ i } }

    { p }(t)=\frac { 1 }{ 1+{ e }^{ -t } }

    که در این فرمول ها p برابر بامقدار تاثیر گذاری صفت در پیش بینی می‌باشد و f مقدار تخمین زده شده برای آن صفت و t نیز یک متغیر است که در فرمول اول تعریف شده است و در تعریف دوم استفاده شده است.
    ما برای آزمایش این روش از دو مجموعه اطلاعاتی5 استفاده می‌کنیم که مطمئن شویم اطلاعاتی که از این الگوریتم بدست می‌آوریم درست است.
    مجموعه اطلاعاتی: مجموعه اطلاعاتی ما شامل اطلاعات بازار بورس 5 سال شرکت های اپل،گوگل ،مایکروسافت، Oracle،Symantec،Sony،IBM Adobe می‌باشد.
    نتیجه : نتیجه ای که پژوهشگران این تحقیق بدست آوردند این بود که الگوریتم ژنتیک توانسته بود با دقت 73.87 درصد ارزش سهام بورس این شرکت هارا به درستی تشخیص دهد و این نتیجه نشان دهنده این است که الگوریتم ژنتیک به عنوان یک الگوریتم کارآمد می‌تواند عمل پیش بینی را انجام دهد.

دقت پیش بینی روی داده های ثانویه دقت پیش بینی روی داده های اولیه نام شرکت
73.22% 72.09% Adobe
70.80% 73.70% Apple
69.35% 75.00% Google
70.80% 70.64% IBM
70.32% 75.32% Microsoft
72.90% 71.77% Oracle
69.51% 66.45% Sony
73.87% 70.96% symantec

شاید برای شما خیلی عجیب باشد که چگونه با الگوریتم ژنتیک و بدون استفاده از هیچ گونه الگوریتم دیگری می‌توانیم با این دقت آینده بورس را پیش بینی کنیم ؛ لازم است بدانید که این اتفاق بخاطر این است که افراد برای تصمیم گیری خرید سهام نیز در ذهن خود تقریبا به صورت خودکار از همین الگوریتم استفاده می‌کنند. و شرایط اجتماعی و سیاسی محیط نیز تقریبا بر اساس همین الگوریتم ژنتیک کار میکنند . پس ما می‌توانیم با کمال آرامش از این الگوریتم استفاده کنیم

۳. 2.کارهای مرتبط

نویسندگان این مقاله همچنین از روش دیگری برای پیش بینی ارزش سهام استفاده کردند با نام استراتژی تکامل تدریجی6 که پایه آن بر روی مقادیر تکرار شونده و مدوام است . در عین حال که این الگوریتم دارای ساختار پیچیده تری نیز هست ولی دقت الگوریتم ژنتیک همچنان بالا تر از این الگوریتم است.
الگوریتم دیگری در زمینه پیش بینی شاخص وجود دارد به نام روش عقبگرد 7و تفاوت این روش با روش قبل این است که برای پیش بینی در این الگوریتم باید مستقیما به نتیجه پیش بینی های گذشته بازگردیم و با توجه به آنها پیش بینی کنیم.'[4]
در سال 2007 نیز تحقیقاتی راجع به مشکلات سیستم شبکه عصبی بیان شد که از جمله آن می‌توان به نادیده گرفتن بعضی شرایط برای پیش بینی ارزش سهام اشاره کرد.[5].

۴. 3 . آزمایش‌ها

در این قسمت قصد داریم که انچه را که در بالا به صورت تئوری توضیح دادیم را به طور عملی اجرا و آزمایش کنیم.برای اینکار درابتدا از روش انتشار به عقب یا back propagation (در پایین به صورت مفصل بحث خواهد شد)استفاده میکنیم.و سپس برای رفع بعضی نواقص از روش دوم که الگوریتم Resilient back propagation algorithm استفاده می‌کنیم
3.1دادگان:

دادگان آزمایش مرحله اول: برای انجام این آزمایش ها باید از دادگانی معتبر استفاده کنیم . داده هایی که در آزمایش اول استفاده می‌شود S&P500(شاخص بورس 500 شرکت برتر ) آمریکا و ... می‌باشد. و برای محاسبه و پیاده سازی راحت تر فقط از میانگین ارزش شاخص روز برای پیش بینی استفاده میکنیم و از قیمت بازگشایی و قیمت بسته شدن و همچنین قیمت ماکزیمم و مینیموم چشم پوشی می‌کنیم.البته این چشم پوشی ها باعث می‌شود از دقت پیش بینی ما کاسته شود که ما این کاهش دقت را با افزایش داده های تمرینی جبران میکنیم که در هنگام پیش بینی داده نهایی بتوانیم از عهده این کار به خوبی برآییم.
دادگان آزمایش مرحله دوم: برای این که بتوانیم به خوبی این روش را بررسی کنیم؛ این روش را با چهار داده متفاوت چک می‌کنیم و نیز برای اطمینان در یادگیری از داده های سال 1928 تا 2011 در این آزمایش استفاده می‌کنیم که عبارتند از:

  1. S&P500: شاخص بورس 500 شرکت برتر بازار بورس آمریکا

  2. DOW JONES: شاخص بورس شرکت های صنعتی آمریکا

  3. NASDAQ Composite : شاخص بورس 3000 شرکت برتر الکترونیکی

  4. Prime Interest Rate:شاخص بورس سهام های بانکی

در این روش دیگر از قیمت باز شدن هرروز و بسته شدن آن چشم پوشی نمیکنیم و این باعث دقت بیشتر و البته کاهش سرعت میشود که درصورت اجرا کردن آن خودتان به این موضوع پی خواهید برد.
3.2شرح پیاده سازی:
پیش پردازش داده ها:در این قسمت باید اول داده هارا نرمال کنیم یا به عبارتی باید توسط یک تابع انها را به اعدادی تبدیل کنیم که همگی بین صفر و یک باشند. ما این کار را با استفاده از تابع زیر انجام میدهیم.
Index(x) = (Index(x) - Min(Index))/(Max(Index) - Min(Index)
این کار بدین خاطر انجام می‌شود که پراکندگی داده ها کم شود. بعد از انجام این عملیات روی داده ها اطلاعات به شکل زیر در می‌آیند . برای درک بهتر خوانندگان داده ها توسط matlab به صورتی که در شکل زیر مشاهده میکنید نمایش می‌دهیم.

نمایش داده ها پس از نرمال سازی

3.2.1شرح پیاده سازی و آزمایش مرحله اول:
در این قسمت پیاده سازی به زبان java و به کمک کتابخانه neuroph انجام شده است و فایل مربوط به پیاده سازی در سایت گیت هاب موجود می‌باشد.برای مراجعه به منبع اصلی پیاده سازی میتوانید از این لینکاستفاده کنید. پس از این که داده های خود را نرمال کردیم . حال نوبت به یادگیری است . در آزمایش مرحله اول داده های ما به دو دسته تقسیم می‌شوند ، داده هایی برای یادگیری و داده هایی برای تست کردن برنامه می باشد. اطلاعات مربوط به ارزش شاخص در سالهای 2013 و 2014 را به داده های یادگیری اختصاص داده و از اطلاعات سال 2015 برای تست کردن برنامه استفاده می‌شود.
چگونگی عمل یادگیری:همانطور که در ابتدا توضیح داده شد در آزمایش مرحله اول به صورت ابتدایی و توسط الگوریتم انتشار به عقب8 یادگیری را انجام می‌دهیم . و این روش بدین گونه عمل میکند که در هر بار عمل یادگیری یادداشتی از عمل های خود و همچنین نتیجه پیش بینی برمی‌دارد که اگر درآینده موقعیت مشابهی به وجود آمد در صورت موفقیت در انجام پیش بینی قبلی از همان پیش بینی دوباره استفاده کند تا باز هم به موفقیت برسد . در این روش ابتدا 5 داده اولیه را برمی‌داریم و چون هنوز اولین بار است به طور تصادفی داده ششم یاهمان شاخص روز بعد را حدس می‌زنیم و این مقدار را با مقدار اولین داده سطر بعد یاهمان قیمت واقعی شاخص بورس در روز ششم مقایسه میکنیم و اگر این دوعدد همگرایی خوبی باهم داشته باشند میتوانیم بگوییم توانسته ایم پیش بینی مناسبی انجام دهیم و به موفقیت رسیده ایم و در غیر این صورت یعنی ما نتوانسته ایم قیمت خوبی تخمین بزنیم؛ ما به این کار ادامه میدهیم و هر بار 5 داده را انتخاب میکنیم و با استفاده از تجربه پیش بینی های گذشته و همچنین شانس پیش بینی جدیدی انجام می‌دهیم.برای درک بهتر خوانندگان عکسی از جدول به وجود امده بعد از انجام عمل یادگیری در پایین نمایش داده شده است.ضمنا این نکته نیز قابل توجه است که برنامه در هر بار که داده ای را تخمین میزند میزان خطای تخمین را برای کاربر نیز نمایش می‌دهد و یادگیری را تا زمانی ادامه می‌دهد که درصد خطای برنامه از مقداری که خود برنامه تشخیص می‌دهد پایین تر بیاید و نیز حداکثر به تعدادی یادگیری انجام میدهد که ما به عنوان برنامه نویس به آن بگوییم.

شکل 4 - جدولی که برنامه بعد از عمل یادگیری به صورت خودکار می‌سازد

پیش بینی:بعد از این که داده ها را مورد یادگیری قراردادیم حال موقع امتحان است. اکنون باید به صورت دستی پنج مقدار را به برنامه خود بدهیم و برنامه با توجه به آنچه که آموخته عدد ششم یا همان قیمت تخمینی شاخص را به ما می دهد و ما نیز باید تا فردای آن روز صبر کنیم تا ببینیم که برنامه به ما قیمت درست داده است یا نه! البته چون ما داده های یک سال را در اختیار داریم نیاز به صبر کردن تا فردا نیست و می‌توانیم میزان خطای برنامه را هم اکنون بسنجیم.

مشکلات این روش :از جمله مشکلات این روش می‌توان به اشغال کردن فضای بسیار زیاد برای ثبت کردن تجربه های پیشین و ناسازگاری درصورت تغییر شدید قیمت ها به دلیل مشکلات سیاسی و اجتماعی و ...اشاره کرد .

ارزیابی :پس از پایان کار برنامه ،کار ارزیابی شروع می‌شود . در این قسمت باید نتایج پیش بینی را با مقدار حقیقی مقایسه کنیم و میزان خطا را بدست بیاوریم که نتیجه آن نمودار و شکل زیر می‌شود . اگر ما 5 داده اول که در جدول زیر است را به برنامه بدهیم خروجی آن برابر شکل 5 خواهد شد.

4/2/2015 4/1/2015 3/31/2015 3/30/2015 3/29/1015 3/28/2015 تاریخ
2066.96 2059.69 2067.89 2086.24 2061.02 2056.15 قیمت شاخص s&p500

شکل 5- خروجی برنامه پس از اجرا

حال اگر برنامه را چندین بار اجرا کنیم می‎‌بینیم که داده های غیر یکسان تولید میشوند و باعث ایجاد نموداری همانند نمودار زیر می‌شود.
نمودار 1-نتیجه تکرار اجرای برنامه برای 4/2/2015

و اگر همین کار را برای تاریخ دیگری انجام دهیم مشاهده میکنیم که نمودا آ ن به شکل زیر خواهد شد.
نمودار 2- نتیجه تکرار اجرای برنامه برای 3/17/2015

و برای این آزمایشات محدود نیز درصد خطا برابر است با:
eror% = (2066.96-2061.62)/2066.96 = 0.2%
که البته همین میزان درصد خطا هم برای مسائل مالی موضوع قابل اهمیتی محسوب می‌شود.

3.2.2شرح پیاده سازی و آزمایش مرحله دوم:
در این قسمت پیاده سازی به وسیله زبان c# و به کمک کتابخانه Encog انجام شده است و فایل های مربوط به پیاده سازی در گیت هاب موجود می‌باشد.
در قسمت قبل گفتیم که یکی از مشکلات انتشار به عقب این است که فضای زیادی را اشغال می‌کند پس اگر ما بتوانیم زمان و میزان تکرار یادگیری خود را به نحوی صحیح کنترل کنیم میتوانیم تا حد خوبی از این اشغال فضا جلوگیری کنیم. برای این کنترل لازم است که برنامه بداند چه درصد خطایی به عنوان درصد خطای مینیموم شناسایی میشود تا بتواند به محض رسیدن به آن پایان یادگیری را اعلام کند. ما برای رسیدن به این مقصود از Resilient algorithm استفاده میکنیم .
پس تا اینجا به این نتیجه رسیدیم که برای پیش بینی شاخص بورس روش انتشار به عقب روش مناسبی است ولی در صورتی که ما مینیموم خطا را به درستی انتخاب کرده باشیم .
به طور معمول در روش انتشار به عقب تا زمانی ادامه میدهیم که همچنان راهی برای رسیدن به مینیموم پایینتر نیز باشد. ولی احتمال این که ما در مینیموم های محلی گرفتار شویم زیاد است . ما برای این که این احتمال را کم کنیم از روش Resilient algorithm استفاده میکنیم که بجای انتخاب پایین ترین نقطه به علامت نقطه توجه میکند . یعنی صرفا توجه میکند که نقطه بالاتر است یا پایین تر و اگر پایین تر بود میتواند آن را به عنوان نقطه مینیموم انتخاب کند. در این روش احتمال به دام افتادن در مینیموم های محلی کمتر می شود.البته این روش نیز مانند روش قبلی همچنان مشکل ناسازگاری با تغییرات شدید را دارد.
تفاوت مرحله اول و دوم فقط در استفاده از resilient algorithm و بعضی جزئیات مانند مقدار و نوع داده های تمرینی می‌باشد ؛ پس برای پرهیز از زیاده گویی بخش های دیگر را دوباره تکرار نمی‌کنیم و به سراغ ارزیابی می‌رویم.
ارزیابی :
پس از اجرای برنامه در سربرگ train به انتخاب خودمان داده های ورودی را انتخاب میکنیم. و پس از آن مشخص میکنیم که عمل یادگیری از چه تاریخی تا چه تاریخی انجام شود. و سپس در سربرگ predict میتوانیم با فشردن دکمه predict عمل پیش بینی را انجام دهیم و در نهایت نتیجه ایجاد شده را با فشردن دکمه export در پوشه ای ذخیره می کنیم.با تجزیه تحلیل نتایج گزارش به نمودار های زیر دست می‌یابیم

نمودار 3 - مقایسه مقدار پیش بینی شده با مقدار واقعی شاخص DOW

نمودار 4 - مقایسه مقدار پیش بینی شده با مقدار واقعی شاخص NASDAQ

نمودار 5 - مقایسه مقدار پیش بینی شده با مقدار واقعی شاخص PIR

نمودار 6 - مقایسه مقدار پیش بینی شده با مقدار واقعی شاخص S&P

با توجه به نمودار های بالا متوجه می‌شویم که این برنامه علی رغم این که از الگوریتم هوشمند تری استفاده میکند ولی بخاطر این که در انتخاب مینیموم نقطه بخاطر ترس از افتادن در دام محتاطانه و طبق علامت عمل می‌کند از دقت پایین تری برخوردار است و اگر درصد خطای آن را نیز محاسبه کنیم به عدد 2% می‌رسیم که 10 برابر درصد خطای روش قبل می‌باشد .
نتیجه ارزیابی :پس از اینکه آزمایشات را ارزیابی کردیم به این نتیجه میرسیم که بدلیل اهمیت بالای درصد خطا در پیش بینی های مالی بهتر است که ما هر آنچه از منابع مانند فضای حافظه و زمان را صرف کنیم ولی نتیجه پیش بینی دقیق تر بدست آید.

۵. شرح کامل پیاده سازی :

با توجه به توضیحات قسمت قبلی متوجه شدیم که پیاده سازی اولیه کاراتر و دارای ضریب اطمینان بیشتری می‌باشد، البته این روش نیز دارای خطاهایی است که ما بدلیل حساسیت کار خودمان مایلیم که این خطا را به حداقل کاهش دهیم. در ابتدا باید به توضیح و تفسیر کامل این کد بپردازیم تا بعد از روشن شدن این قسمت بتوانیم به راحتی به بهبود کد بپردازیم
فایل اصلی برنامه در مسیر neuralNetwork/src/main/java/com/technobium می باشد . در کد اجرایی که مشاهده می‌کنید از چندین کتابخانه استفاده شده که اصلی ترین آن کتابخانه neuroph می‌باشد . که به تفصیل در پایین توضیح داده خواهد شد .
ابتدا باید داده ها را توسط تابع بسیار ساده prepare data اماده کنیم به عبارت دیگر باید مقدار ماکسیمم و مینیموم را بدست آوریم و بعد از آن بوسیله تابع normalizeValue داده هارا بین مقادیر صفر و یک مرتب کنیم .
بعد از آن نوبت به استفاده از کلاس data set کتابخانه neuroph میباشد. این کلاس وظیفه دریافت اطلاعات روزهای متوالی بورس را دارد و آنها را به دسته های مختلف با اندازه های مشخص تقسیم میکند . برای مثال ما در این پروژه روزهارا به دسته های 5 تایی تقسیم کرده ایم و سپس برای هرکدام به پیش بینی می‌پردازیم.
بعد از اینکه داده هارا مرتب و پشت سرهم و در ردیف های 5 تایی مرتب کردیم نوبت به یادگیری توسط کلاس SupervisedLearning می رسد که باید قبل از یادگیری چند پارامتر را برای آن مشخص کنیم .اولین پارامتری که باید مشخص شود بیشترین مقدار تکرار در یادگیری است9 .که ما این مقدار را برابر با 1000 میگیریم یعنی اگر ما نتوانستیم به نتیجه دلخواه خود یا همان کمترین میزان خطا برسیم در هرصورت بعد از 1000 تکرار یادگیری ما متوقف خواهد شد. پارامتر بعدی که باید مشخص کنیم نرخ یادگیری است 10 که اگر مقدار آن را زیاد انتخاب کنیم باعث می‌شود سرعت یادگیری ما افزایش یابد و در مقابل دقت ما کاهش یابد پس برای پیش بینی های مالی که کار حساسی است بهتر است که نرخ یادگیری را تا حد ممکن پایین آورد تا دقت ما افزایش یابد
و این سرعت به تجزیه و تحیلیل داده های قبلی بستگی دارد به عبارت دیگر وقتی ما نرخ یادگیری را افزایش دهیم با این کار باعث میشویم که برای یادگیری کمتر از تجربیات گذشته استفاده کند. پارامتر بعدی که باید مشخص کنیم بیشترین خطاست 11. به عبارت دیگر وقتی یادگیری به پایان می‌رسد که خطای ما از این مقدار کمتر باشد.
پس از مشخص کردن این مقادیر آنها را به صورت قوانین به کلاس supervised learning می‌ دهیم و می‌توانیم بعد از بارگزاری اطلاعات ،یادگیری را با استفاده از همین کلاس انجام دهیم.بعد از این که یادگیری طبق همین قواعد به پایان رسید میتوانیم 5 داده تستی را به انتخاب خود از داده های تستی انتخاب کنیم و به تابع test network بدهیم تا پس از نرمال سازی روی آنها پیش بینی را انجام دهد.
لازم به ذکر است که پس از هربار تکرار یادگیری و انجام پیش بینی نتایج را چاپ میکنیم و هر موقع مقدار خطا به مقدار دلخواه ما برسد این تکرار را قطع میکنیم.
پس از پایان پیش بینی لازم است که این مقدارپیش بینی شده از حالت نرمال خارج شده و مقدار اصلی را نمایش دهد.پس برای این کار از تابع denormalize value استفاده میکنیم.فایل مربوط به پیاده سازی در سایت گیت هاب موجود می‌باشد.برای مراجعه به منبع اصلی پیاده سازی میتوانید از این لینکاستفاده کنید.

۶. بهبود مدل و پیاده سازی

در مدل و روشی که توضیح داده شد شاهد مقدار کمی خطا می‌باشیم و مایلیم این خطا ها را کم و کمتر کنیم . برای انجام این کار ایده هایی موجود است که باید پیاده شود و نتیجه آن بررسی شود. این تغییرات شاید باعث کاهش خطا شوند و شاید برخلاف تفکر و میل ما باعث افزایش خطا شوند.
1- روند های بورسی متشکل از روند های روزانه ، هفته ای ،ماهیانه ، نیم سالی و سالیانه می‌باشد پس به جای اینکه پیش بینی را از روی 5 روز گذشته انجام دهیم بهتر است به این روند ها دقت بیشتری بکنیم تا برنامه بتواند به خوبی این روند هارا آموخته و از انها در پیش بینی استفاده نماید. البته شاید این فکر به ذهن آید که هرچه ما بازه یادگیری را افزایش دهیم به یادگیری کمک میکنیم در صورتی که اینطور نیست ، با افزایش طول بازه های یادگیری علاوه بر پایین آمدن عملکرد ماشین باعث میشویم که روند های کوچک و تغییرات کوچک در قیمت نادیده گرفته شود که این زیاد به نفع ما نیست ، پس بهترین کار این است که ما مقداری میانه را برای طول بازه های یادگیری خود انتخاب کنیم . با تغییر طول ردیف از 5 به 10 و 15 و 20 شاهد نتایج چشمگیر و شگفت انگیزی می‌شویم که در نمودار زیر مشاهده می‌کنید.

مقایسه مقدار حقیقی با مقدار پیش بینی شده با طول بازه های یادگیری متفاوت

با توجه به نمودارهای بالا میتوان دریافت که بهترین پیش بینی زمانی اتفاق افتاده که طول بازه یادگیری ما 15 روز بوده است. پس اولین راه حل برای بهبود نتایج تغییر طول بازه یادگیری است.
2- همانطور که در کد اجرایی مشاهده می‌کنید پارامتر هایی مانند بیشترین خطا ، بیشترین تکرار یادگیری و نرخ یادگیری بصورت استاتیک تعریف شده اند که این کار باعث می‌شود این کد برای تمام سهام ها و تمام قیمت ها به صورت یکسان عمل کند و بین سهام هایی با قیمتهای بالا و تلورانس زیاد و سهام هایی با قیمت پایین و تلورانس کم تفاوتی قائل نشود. برای اینکه بتوانیم به پیش بینی بهتری برسیم نباید این تفاوت ها را نادیده بگیریم . برای مثال اگر قیمت سهامی 10 برابر سهام دیگر است باید حداکثر درصد خطای آن نیز 0.1 برابر سهام دیگر و به تبع آن ماکزیمم تکرار نیز 10 برابر سهام دیگر باشد تا اگر پیش بینی اشتباه بود ما ضرر زیادی را متحمل نشویم. این کار بدلیل ایجاد توازن بین سهام های مختلف می باشد .
پس میتوانیم در قسمتی از کد که ماکزیمم تکرار، بیشترین خطا و نرخ یادگیری مشخص شده است آنها را از حالت استاتیک درآورده و به صورت تابعی از max و min بنویسیم . همانند عبارت مقابل:

double m = Math.log((max + min)/2)/Math.log(10);
if(m>5){
m=5;}
else if(m<2){
m=2;}
double max iteration = Math.pow(10,m);

وبه همین صورت برای max errorنیز بدست می‌آوریم (فقط در این قسمت باید به توان -m برسانیم ):

double max error = Math.pow(10,-m);

واگر قیمت روز های مختلف سهامی نیز بسیار نزدیک بهم باشد یا به عبارت دیگر max - min عبارت بسیار کوچک باشد میتوانیم نتیچه بگیریم که این داده ها پراکندگی بسیار کمی دارند پس باید در یادگیری روند این داده ها دقت زیادی اعمال شود که برای اینکار باید مقدار نرخ یادگیری را به صورت تابعی از max و min می‌نویسیم .

double n = log(max-min)/log(10);
if(n>3){
n=3;}
double learning rate =pow(10, n-4);

و این جملات شرطی برای این گذاشته شده است که اگر n یا m بسیار بزرگ یا بسیار کوچک شدند ما به صورت دستی مقداری برای آنها در نظر بگیریم.
بعد از ایجاد تغییرات فوق در کد برنامه، آن را تست میکنیم و نمودار های زیر از آن نتیجه می‌شود.
در نمودار اول ما برای تست برنامه خود تمام داده ها را در 10 ضرب میکنیم تا داده های بزرگتری بدست آوریم . در این صورت تعداد تکرار نیز در 10 ضرب شده و درصد خطا نیز در 0.1 ضرب می‌شود .

مقایسه پیش بینی با پارامتر های استاتیک و داینامیک

همانطور که در بالا مشاهده می‌کنید بر خلاف میل ما وقتی که به جای پارامتر های استاتیک از پارامتر های داینامیک برای قانون یادگیری استفاده می‌کنیم نه تنها درصد خطا کمتر نمی‌شود بلکه در بعضی آزمایشات نیز بیشتر هم می‌شود.و این بدین دلیل است که وقتی ما در مدل سازی مدل انتخابی را خیلی پیچیده انتخاب کنیم این مدل نمیتواند در حل مسئله کمکی به ما بکند .حال دوباره برنامه خود را با یک مجموعه کوچک که دارای 45 داده با پراکندگی پایین است تست میکنیم و نتایج زیر از آن حاصل می‌شود.
مقایسه پیش بینی با پارامتر های استاتیک و داینامیک

همانطور که از نمودار بالا نیز پیداست باز هم نتیجه دلخواه حاصل نشد و ما به مقصود خود یعنی کم کردن درصد خطا به وسیله پارامتر های داینامیک نرسیدیم.پس این راه حل برای بهبود نتایج با شکست مواجه شد و برای بهبود نتایج فقط می‌توانیم از راه حل اول استفاده کنیم.

۷. جمع بندی

در پایان به این نتیجه رسیدیم که همانطور که انسان با استفاده از دانش خود می‌تواند در بعضی موارد قیمت سهام بورس را پیش بینی کند ؛کامپیوتر نیز با استفاده از الگوریتم های هوش مصنوعی و مخصوصا شبکه های عصبی میتواند در بیشتر مواقع به کمک انسان بیاید و ابتدا با استفاده از الگوریتم های یادگیری روند تغییر قیمت را بیاموزد و هنگام پیش بینی از آموخته های خود استفاده کند و یک پیش بینی صحیح از شرایط آتی سهام در اختیار ما بگذارد.

۸. کارهای آینده

بحث پیش بینی شاخص بورس یکی از مهم ترین مسائلی است که با استفاده از الگوریتم های هوش مصنوعی قابل حل است. بنده به خوانندگانی که به این بحث علاقه مند می‌باشند پیشنهاد میکنم که ابتدا مقالاتی که در ذیل آمده با دقت بخوانند و سپس این پروژه را در زمینه هایی همچون پیاده سازی پیش بینی شاخص بورس با استفاده از الگوریتم ژنتیک ادامه دهند .
و یا می‌توانند به رفع نقایصی همچون نادیده گرفتن قیمت های خرید ، فروش ، شروع و اتمام سهام های بورسی در این پروژه بپردازند . همچنین میتوانند موضوعاتی مانند روند های روزانه ،هفته ای ، ماهانه ، نیم سالی و سالانه مورد بحث قرار دهند و از اثر تلفیقی آنها در پیش بینی شاخص بورس استفاده کنند.

۹. مراجع

[1]Yuzheng Zhai, Arthur Hsu, and Saman K Halgamuge(2007)Combining News and Technical Indicators in
Daily Stock Price Trends Prediction
[2]Ganesh Bonde,Rasheed Khaled , Stock price prediction using genetic algorithms and evolution
strategie
[3]Dr. Sunil Kumar Dhal, Artificial Neural Network (ANN) for Stock Market Predictions
[4]Lev Blynski and Alex Faseruk (2006) Journal of Financial Management and Analysis,19 (2), 46-58.
[5]Olivier Coupelon (2007) Neural network Modeling for Stock Movement Prediction, 11.
[6]کتاب تحلیل تکنیکال بازار سرمایه نوشته دکتر لنگرودی،مقدمه

پیوندهای مفید


  1. fitness value

  2. connection weight

  3. crossover

  4. mutation

  5. data set

  6. Evolution Strategies

  7. backpropogation

  8. back propagation

  9. max Iterations

  10. learning Rate

  11. maxError

تایید شده

سلام.
خسته نباشید.
زحمت مناسبی کشیدید که جا داره ازتون تشکّر کنم. مسئله رو به خوبی بیان کردید و لزوم پرداختن بهش برای خواننده کاملاً روشن می‌شه.
ایدهٔ توضیح دادن شبکهٔ عصبی و الگوریتم ژنتیک در ابتدای امر، ایدهٔ خوبی بود امّا به خوبی از پس بیان روشن این دو مفهوم بر نیومده بودید.
کارهای مرتبط رو هم به سرعت بیان کردید و خیلی از جزئیات لازم برای فهم رویکرد حل مسئله و روش پیشنهادی نویسنده‌ها برای خوانندهٔ شما گنگ و نامفهوم باقی می‌مونه. این کار رو باید بسیار با حوصله‌تر انجام می‌دادید.
در خصوص نوشتار، جای کار زیادی دارید. از مباحث درس شیوهٔ ارائه استفاده کنید و قواعد نگارش زبان فارسی رو هم به صورت جدی‌تری در نوشته‌تون رعایت کنید.
برخی از اصطلاحات علمی که دست به ترجمهٔ اون‌ها زدید (مثل fitness یا crossover)، در حال حاضر دارای کلمات جایگزین هستند و بهتره از همون کلمات رایج استفاده کنید. (کلمهٔ evolution رو هم با evaluation اشتباه گرفتید)
منتظر نتایج کارهای شما در فازهای آینده هستم.

تایید شده

سلام.
خسته نباشید.
در این بخش از شما انتظار داشتیم که در خصوص داده‌ها، روش‌های پیاده‌سازی‌شده و نقاط ضعف و قوّت کار شاهد حاصل تلاش‌های شما باشیم.
در خصوص داده‌ها، به خوبی در خصوص منبع داده، فیلدهای داده‌ها و حجم آن‌ها توضیح داده‌اید.
در خصوص پیاده‌سازی، باید منبع کدها را ذکر می‌کردید. ضمن اینکه از جزئیات روش‌های پیاده‌سازی‌شده حرفی به میان نیامده است (احتمالاً اگر خود شما کدهای پیاده‌سازی را می‌نوشتید برای این قسمت مشکلی نداشتید). برای توضیح و تفسیر نتایج از شکل‌ها و نمودارها به خوبی استفاده کرده‌اید امّا گاهی فراموش کرده‌اید که معنی محورهای نمودار را ذکر کنید.
در پایان هم باید به صورت عینی موارد ضعف و قوّت روش را بیان می‌کردید (مثلاً می‌گفتید روش اوّل در تاریخ x برای سهام y خطای زیادی دارد که به علّت z است) امّا به کلّی‌گویی بسنده کرده‌اید.
موفّق باشید.
پ.ن: با خواندن دوبارهٔ متن، به نکات نگارشی و رسم‌الخط توجّه بیشتری کنید.

تایید شده

متن خوب، روان و بدون اشکال نگارشی تنظیم شده و قابل درک است مخصوصا قسمت آزمایش ها که به طور کامل به آن پرداخته شده است اما ذکر دو نکته را لازم می بینم :

  • شرح کامل در قسمت مسئله و راهکار داده شده و قسمت کار های مرتبط خوب توضیح داده نشده است.

  • کارهای آینده به صورت کلی بیان شده است و راهکار های موردی در آن وجود ندارد.

تایید شده

سلام
در فاز اول موضوع را خیلی کامل برای خواننده شرح دادید و توضیحات شما اطلاعات مفیدی را راجع به معاملات بورسی در اختیار خوانندگان میگذارد
در قسمت پیاده سازی آزمایشات کافی را انجام دادید ولی بعضی از نمودار ها گنگ و نامفهموم است.
و در قسمت بهبود نتایج نیز روش هایی که پیشنهاد کردید پیشنهادات جالبی بود ولی متاسفانه روش دوم شما باعث بهبود نتایج نشد.
ارجاع به سایت علاوه بر مقالات در قسمت پیاده سازی نیز یکی دیگر از نکات مثبت بود.
موفق باشید

تایید شده

سلام
موضوع و محتوای پروژه رو به خوبی شرح دادین. از نمودارها و تصاویر به خوبی استفاده شده که باعث میشه شناخت سایرین از روند پروژه بهتر بشه. همینطور آزمایشات خوبی انجام شده.
موفق باشید

تایید شده

+مسئله مختصر و مفید شرح داده شده است.
+استفاده از نمودار های مناسب به فهم کامل تر نتایج کار شما کمک کرده است.
+بیان اشکلات پس از آزمایشات و ارزیابی آنها نیز بیانگر تلاش شما برای تحلیل روش های موجود است.
+در بند دوم بخش کارهای آینده به خوبی و مختصر ایده پردازی شده.اما فکر میکنم بند اول نیازی به بیان نداشت.
+در گیت هاب خود readme خوبی داشتید.
-بهتر بود در ارایه ی فرمول ها فهم آنها را با ارائه ی یک مثال برای خواننده آسان تر می کردید.
موفق باشید.

تایید شده

مقدمه خیلی روان وخوب نوشته شده بود.
پیاده سازی خیلی خوب توضیح داده شده بود ولی بعضی از نمودارها توضیح کافی نداشتند.
ارجاعات به خوبی صورت گرفته بود.
خوبه که برای بهبود نتایج راه های مختلف رو آزمایش کردید و نتیجه رو نوشتید حتی با اینکه تو یه مورد بهبودی صورت نگرفته، این تجربه ی خوبی برای بقیه ست.
ممنون از زحمتی که کشیدید

تایید شده

سلام پروژه شما کامل است فقط چند نکته برای بهبود مقاله به شما پیشنهاد می شود برخی از توضیحات شما ناکافی به نظر میرسد بهتر بود در قسمت جمع بندی از ذکر کلیات صرف نظر می کردید و مناسب ترین روش را با توجه به پیاده سازی های انجام شده ذکر می کردید
موفق باشید

تایید شده

سلام.
خسته نباشید.
بابت توضیحاتی که در خصوص روش پیاده‌سازی اضافه کرده بودید از شما تشکّر می‌کنم. هر چند نیازی به توضیحات کدها نبود و بیشتر، شرح روش و نحوهٔ کارکرد روش پیاده‌سازی شده مد نظر بود.
روش‌هایی که برای بهبود کارایی پیشنهاد کرده بودید در نوع خود جالب بوده و شرح نتایج مناسب بود.
در این بخش از شما انتظار می‌رفت که گزارش خود را یک بار از ابتدا تا انتها ویرایش کرده و موضوعات مطروحه در نقدهای قبلی را اعمال کرده باشید که در این مورد نمرهٔ قابل قبولی نمی‌گیرید.