۱. عنوان

تشخیص بیماری قلبی

۲. مقدمه

شاید بتوان تشخیص بیماری‌ها با استفاده از الگوریتم‌های هوش مصنوعی را مفیدترین و صلح‌آمیزترین کاربرد هوش مصنوعی تاکنون دانست. هوش مصنوعی کامپیوترها، می‌تواند حتی قبل از پزشکان، به تشخیص تعدادی از بیماری‌ها کمک کند اما تشخیص و تایید نهایی از جانب خود پزشک است. تشخیص برخی از بیماری‌ها ساده است و هر پزشکی می‌تواند با یک معاینه و شرح حال مختصر از عهده آن برآید. اما برای تشخیص تعداد دیگری از بیماری‌ها، تیزهوشی پزشک، یک استنتاج قوی ذهنی و آزمایشات دقیق لازم است. تعدادی از بیماری‌ها هم طوری هستند که به سبب ماهیت زیرپوستی و تدریجی خود، غالبا خیلی دیر تشخیص داده می‌شوند. از فعالیت‌های در این موضوع می‌توان سرویسFace2Gene1 و ابزارهایی برای تشخیص بیماری‌هایی نظیر اوتیسم2 و آلزایمر یا زوال عقل3 را نام برد.[1]
در این بین بیماری‌های قلبی – عروقی (CAD) رتبه نخست علت مرگ و میر در جهان را به خود اختصاص داده و بیشتر مردم دنیا هر ساله بیشتر از هر علت دیگری جان خود را به علت بیماری‌های قلبی و عروقی از دست می‌دهند، طبق برآورد صورت گرفته ۱۷.۵ میلیون نفر در جهان در سال ۲۰۱۲ بعلت بیماری‌های قلبی عروقی فوت نموده‌اند که ۳۱ درصد از کل موارد مرگ و میرها را شامل می‌شود، از این مرگ‌ها حدود ۷.۴ میلیون به بیماری عروق کرونر قلب و ۶.۷ میلیون ناشی از سکته های قلبی و مغزی بوده است. [2]
ما در این پروژه می‌خواهیم با زدن الگوریتم‌های داده کاوی و یادگیری ماشین بر روی داده‌های دانشگاه ایرواین به تشخیص بیماری قلبی بپردازیم.
داده‌کاوی4 به مفهوم استخراج اطلاعات نهان یا الگوها و روابط مشخص در حجم زیادی از داده‌ها در یک یا چند بانک اطلاعاتی بزرگ است. داده کاوی پیشرفت قابل ملاحظه‌ای را در نوع ابزارهای تحلیل موجود نشان می‌دهد اما محدودیت‌هایی نیز دارد. یکی از این محدودیت‌ها این است که با وجود اینکه به آشکارسازی الگوها و روابط کمک می‌کند اما اطلاعاتی را دربارهٔ ارزش یا میزان اهمیت آنها به دست نمی‌دهد. دومین محدودیت آن این است که با وجود توانایی شناسایی روابط بین رفتارها یا متغیرها لزوماً قادر به کشف روابط علت و معلولی نیست. موفقیت داده کاوی در گرو بهره‌گیری از کارشناسان فنی و تحلیل گران کار آزموده‌ای است که از توانایی کافی برای طبقه‌بندی تحلیل‌ها و تغییر آنها برخوردار هستند. توانایی‌های فنی در داده کاوی از اهمیت ویژه‌ای برخوردار اند اما عوامل دیگری نیز مانند چگونگی پیاده‌سازی و نظارت ممکن است نتیجه کار را تحت تأثیر قرار دهند پس در این آزمایش هوشمندی کد علاوه بر الگوریتم‌های به کار برده‌شده از اهمیت خوبی برخوردار است.[3]
ده الگوریتم برتر داده‌کاوی بیان شده در یک مقاله[10] سی4.55, خوشه‌بندی کی-میانگین6, ماشین بردار پشتیبانی7, الگوریتم آپریوری8, الگوریتم امید ریاضی–بیشینه کردن9, پیج‌رنک10, آدابوست11, الگوریتم کی‌نیرست12, الگوریتم کلاسه‌بندی نایوبیزین13 و الگوریتم کارت14 اند. کلاسه‌بندی یا دسته بندی‌ها به دو منظور استفاده می‌شوند: مدل‌های توصیفی و مدل‌های پیش‌بینی کننده.
به طور کلی در مقاله‌ای[11] به بررسی خلاصه کارها و الگوریتم‌های استفاده شده داده‌کاوی در زمینه پزشکی پرداخته است.

اولین و از مهم‌ترین مراحل این آزمایش بعد از شناخت مسئله را می‌توان شناخت پایگاه داده‌ی خود دانست. یکی از عوامل تاثیر گذار در نتیجه کیفیت داده‌‎هاست که بر میزان دقت و کامل بودن آن دلالت دارد. [3] پایگاه‌داده دانشگاه ایرواین دارای 76 متغیر برای 303 بیمار است که در تمام کارهای تا به حال انجام شده روی آن فقط 14 متغیر آن مورد استفاده قرارگرفته‌اند.این متغیرها عبارت‌اند از:

  1. سن

  2. جنسیت (0 برای خانم‌ها و 1 برای آقایان)

  3. نوع درد قفسه سینه

  4. فشار خون در حال استراحت (Trestbps)

  5. میران کلسترول

  6. قندخون ناشتا (0 برای کمتر از 120 و 1 برای بیشتر از 120 )

  7. نتایج الکتروکاردیوگرافی (Restecg سه مقدارnorm برای نرمال,abn برای غیر نرمال و hyp هاپرتروپی بطن چپ )

  8. بیشینه میزان ضربان قلب (Thalach)

  9. آنژین ناشی از ورزش داشته است یا خیر؟ (Exang)

  10. اس‌تی ورزش مرتبط با استراحت

  11. شیب قسمت اس‌تی (صعودی, نزولی و بدون شیب)

  12. تعداد رگ‌های رنگی در فلوروسکوپی (ca بین 0 تا 3)

  13. وضعیت قلب در تست تالیم

  14. وضعیت (0 برای سالم 1 تا 4 برای نا سالم)

اکنون به بررسی تعدادی از کارهایی که تا کنون در این موضوع انجام شده‌اند می‌پردازیم.

۳. کارهای مرتبط

در مقاله‌ای [4] مراحل این تحقیق را پیدا کردن داده‌های آموزشی, اعمال الگوریتم‌ها بر روی آن, به‌دست‌آوردن مدل و در نهایت ارزیابی مدل یافت‌شده معرفی کرده‌است. سپس با اعمال سه الگوریتم درخت تصمیم15 جی4816, درخت لجیستیک17 و جنگل تصادفی18 و مقایسه آن‌ها مشاهده شد که الگوریتم جی48 حساسیت و دقت بالاتری نسبت به بقیه دارد که در کل با اعمال هرس کم کننده خطا19 بهتر از دو درخت دیگر جواب می‌دهد. در آخر با جی48 به 56.76 درصد دقت رسیده است.

از کارهای مهم برای داده‌کاوی انتخاب ویژگی‌های مناسب برای تحلیل است به خصوص زمانی که بخواهیم کلاس بندی انجام بدهیم. مقاله‌ای[5] در این موضوع به بررسی نتایج با دو روش انتخاب ویژگی‌ها بر اساس قوانین کامپیوتری20 یا CFS و انتخاب بر اساس معیارهای پزشکی21 یا MFS پرداخته‌است. معیار گرفتن هر کدام از این روش‌ها به تنهایی ممکن است باعث رسیدن به نتایج اشتباه بشود پس اعمال هر دو روش ضروری است. این مقاله هم مانند بقیه موارد تنها 14 مورد نام‌برده‌شده در قسمت قبل را استفاده کرده است. داده‌های ما یک برای بخش افراد سالم و چهار بخش برای افراد ناسالم دارد که در این مقاله پیشنهاد شده‌است که چهار گروه ناسالم را یک گروه در نظر بگیریم. سپس نتایج به‌دست‌آمده روی متغیرهایی که با دو معیار بالا انتخاب شده‌اند در دو حالت همه‌ی متغیرها و تنها متغیرهای پیوسته را مقایسه کرده که دقت, حساسیت و کاملیت در حالت تنها متغیرهای پیوسته بهتر و بیشتر بوده‌اند. این موضوع را می‌توان اینگونه توجیح کرد که متغیرهای گسسته مثل جنسیت از ابتدا یکسان بوده‌اند اما متغیر سن با گذر زمان تغییر می‌کند و امکان تغییر احتمال ابتلا به بیماری‌های قلبی را افزایش می‌دهد. در این مقاله و اکثر مقالات دیگر کلاسه بندی اس‌وی‌ام را روش خوبی برای دسته‌بندی نام‌برده‌اند که در این مقاله از راه بهینه‌سازی متوالی کمینه22
برای اس‌وی‌ام استفاده کرده‌است.

C یک متغیر اس‌وی‌ام و K تابع کرنل است

متغیرهای انتخابی این مقاله در جدول زیر قابل مشاهده‌اند:

از دیگر روش‌های نام برده شده انتخاب ویژگی‌ها در این مقاله می‌توان به موارد زیر اشاره کرد:

  1. روش حذفی عقب‌گردی23 [6]

  2. روش انتخاب ویژگی پوشش کننده با استفاده از چی‌اسکوئر24[7]

  3. استفاده هم‌زمان از چی‌اسکوئر و گین رشیو25 برای انتخاب ویژگی‌های مناسب[8]

  4. روش کرنل اف-اسکور26[9]

در مقاله‌ای دیگر [12] ویژگی‌ها به سه دسته‌ی مفید, تکراری و غیر مفید تقسیم‌بندی شده‌اند . در این مقاله از روش‌های پی‌سی‌ای27 و چی‌اسکوئر تست برای انتخاب ویژگی‌ها استفاده‌شده‌است. روش پی‌سی‌ای در تشخیص چهره, تشخیص الگو, مقایسه تصاویر و داده‌کاوی کاربرد دارد. مراحل این روش به شرح زیراند:

  • فراهم سازی ماتریس ورودی‌ها

  • کم کردن میانگین در همه‌ی ابعاد

  • به‌دست‌آوردن ماتریس کواریانس از نتیجه‌ی مرحله‌ی قبل

  • به‌دست آوردن مقدارویژه و بردار ویژه

  • ساختن وکتوری از ویژگی‌ها

  • استخراج پایگاه‌داده‌ی جدید

    vبردار ویژه و ضریب آن مقدار ویژه

    تست چی‌اسکوئر تستی برای تشخیص ویژگی‌های مرتبط و مفید است. فرمول چی‌اسکوئر در زیر قابل مشاهده است.
    oتکرار رویت شده و Eتکرار مورد انتظار است

در این مقاله روش شبکه‌های عصبی همراه با الگوریتم‌های انتخاب ویژگی بالا امتحان شده‌است. شبکه‌های عصبی به سه قسمت ورودی, قسمت نهان و خروجی تقسیم می‌شوند. کار اصلی شبکه‌های عصبی پیش‌بینی است. از فواید شبکه‌های عصبی نام‌برده‌شده در این مقاله موارد زیر را می‌توان مطرح کرد:

  • دقت بالا

  • مستقل از پراکندگی داده

  • سازگاری با نویز

  • نگهداری آسان

  • قابل پیاده سازی در سخت‌افزارهای موازی

مورد دیگر بررسی شده در این مقاله الگوریتم جست و جوی ژنتیک28است. از این الگوریتم به منظور پیدا کردن زیرمجموعه‌ای از ویژگی‌ها با دقت بالا استفاده‌شده.

الگوریتم جست و جوی ژنتیک

در نهایت الگوریتم پیشنهادی ارائه شده‌ی این مقاله ابتدا الگوریتم‌های کم کردن ویژگی و بعد از آن پیاده‌سازی الگوریتم شبکه‌های عصبی روی ویژگی‌های به‌دست‌آمده است که در مقایسه با روش‌های جی48, ناییوبیزین و پارت (PART) دقت بالاتری داشته‌است.

برای بخشی از روش‌های دیگر استفاده شده به طور خلاصه می‌توان موارد زیر را نام‌برد:

  • استفاده از سه الگوریتم ناییوبیزین, کی‌نیرست و دی‌ال (Decision List algorithm) در [13]

  • سیستم IHDPS با استفاده از درخت تصمیم, ناییوبیزین و شبکه‌های عصبی در [14]

  • الگوریتم بر پایه‌ی گراف در [15]

  • یادگیری قانون وابستگی29 به همراه الگوریتم ژنتیک در [16]

  • کلاسه بندی وابسته وزن‌دار 30 در [17]

۴. آزمایش‌ها

۵. کارهای آینده

۶. مراجع

[1] تشخیص بیماری با هوش مصنوعی
[2] بیماری‌های قلبی و عروقی سایت مرجع
[3] ویکی پدیا سایت مرجع
[4]Heart Disease Prediction Using Machinelearning and Data Mining TechniqueJaymin Patel, Prof.TejalUpadhyay, Dr. Samir Patel
[5]A Knowledge driven Approach for Efficient Analysis of Heart Disease Dataset G. N. Beena BethelAssociate Professor,CSE Department,GRIET, Hyderabad T. V. Rajinikanth, PhDProfessor,CSE Department,SNIST, Hyderabad. S. Viswanadha Raju, PhDProfessor,CSE Department,JNTUH, Jagityal, Karimnagar.
[6]Zhao, H., Guo, S., Chen, J., Shi, Q., Wang, J., Zheng,C., et al. (2010). Characteristic pattern study of coronaryheart disease with blood stasis syndrome based ondecision tree. In 4th international conference onbioinformatics and biomedical engineering (iCBBE)(pp. 1–3). Chengdu, China: IEEE
[7]Abraham, R., Simha, J. B., & Iyengar, S. (2007).Medical datamining with a new algorithm for featureselection and Naı¨ve Bayesian classifier. In 10thinternational conference on information technology,(ICIT), 2007 Orissa IEEE computer society (pp. 44–49).
[8]Sethi, P., & Jain, M. (2010). A comparative featureselection approach for the prediction of healthcarecoverage. Information Systems, Technology andManagement, 392–403.
[9]Polat, K., & Guenes, S. (2009). A new feature selectionmethod on classification of medical datasets: Kernel Fscore feature selection. Expert Systems withApplications, 36, 10367–10373
[10]Top 10 algorithms in data mining Xindong Wu · Vipin Kumar · J. Ross Quinlan · Joydeep Ghosh · Qiang Yang · Hiroshi Motoda · Geoffrey J. McLachlan · Angus Ng · Bing Liu · Philip S. Yu · Zhi-Hua Zhou · Michael Steinbach · David J. Hand · Dan Steinberg
[11]A Survey of Data Mining Techniques on Medical Data for Finding Locally Frequent Diseases Mohammed Abdul Khaleel*Sateesh Kumar Pradham G.N. Dash Research Scholar P.G.Department of Computer Science P.G.Department of Physics Sambalpur University, India Utkal University, India Sambalpur University, India
[12]Classification of Heart Disease using Artificial Neural Networkand Feature Subset Selection M. Akhil Jabbar, B.L Deekshatulu & Priti Chandra
[13]Asha Rajkumar, G.Sophia Reena, Diagnosis Of Heart Disease Using Datamining Algorithm, Global Journal of Computer Science andTechnology 38 Vol. 10 Issue 10 Ver. 1.0 September 2010.
[14]Sellappan Palaniappan Rafiah Awang, Intelligent Heart Disease Prediction System Using Data Mining Techniques, IJCSNSInternational Journal of Computer Science and Network Security, VOL.8 No.8, August 2008
[15]MA. Jabbar, B.L Deekshatulu, Priti Chandra, “Graphbased approach for heart disease prediction”, LNEEpp 361-369 Springer Verlag 2012
[16]MA.Jabbar, B.L Deekshatulu, Priti Chandra, “Anevolutionary algorithm for heart disease prediction”,CCIS pp 378-389springer Verlag(2012)
[17]Intelligent and Effective Heart Disease Prediction System using Weighted Associative Classifiers Jyoti Soni, Uzma Ansari, Dipesh SharmaComputer ScienceRaipur Institute of Technology, RaipurC.G., IndiaSunita SoniComputer ApplicationsBhilai Institute of technology, BhilaiC.G., India

۷. پیوندهای مفید


  1. می‌تواند نیمی از هشت هزار بیماری ژنتیکی را با تحلیل الگوهای چهره و مقایسه با عکس‌های بیماران در پایگاه اطلاعاتی خود تشخیص بدهد

  2. Autism( RightEye GeoPref Autism آزمایشی به نام )

  3. Alzaymer (Winterlight ابزار شرکت )

  4. Data mining

  5. C4.5

  6. k-means clustering

  7. Support vector machine

  8. Apriori algorithm

  9. EM algorithm

  10. Page rank

  11. AdaBoost

  12. k-nearest neighbors algorithm

  13. Naive Bayes classifier

  14. CART:Classification and Regression Trees

  15. Decision tree

  16. J48

  17. Logistic Model Tree

  18. Random Forest

  19. ReducedErrorPruning

  20. Computerized Feature Selection

  21. Medical Feature Selection

  22. Sequential minimal optimization

  23. backward elimination

  24. Wrapper based feature selection using Chi-square

  25. Gain ratio

  26. Kernel F-score

  27. PCA

  28. Genetic Search

  29. association rule mining

  30. Weighted Associative Classifier(WAC)

سيد محمد پورباقری

سلام
خسته نباشید
مقدمه‌ی شما طولانی است. در واقع تقریباً نیمی از مطالب شما را مقدمه تشکیل می‌دهد. بهتر است آن را کوتاه‌تر کنید.
در بخش کارهای پیشین، توضیحات شما مختصر است. لازم است حداقل یکی از روش‌ها که روش اصلی مورد استفاد‌ه‌ی شما در انجام پروژه است را با توضیحات بیشتری شرح دهید.
از فرمول‌ها عکس گرفته‌اید. در فاز بعد حتماً اصلاح کرده و خودتان آن‌ها را بنویسید.
مراجع ۱ تا ۳ را اصلاح کنید. به‌جای آن‌که به‌صورت لینک قرار دهید، آدرس آن را بنویسید.
عنوان شماره ۱ که با نام عنوان آورده شده را حذف کنید. علاوه بر این حتماً یک بار نوشته‌تان را مرور کنید. علایم نگارشی را اصلاح کنید و بعضی از غلط‌های املایی را نیز تصحیح کنید.
در این فاز، چون فاز اول بود کمی در امتیازدهی سخت‌گیری کمتری انجام شده‌است. لطفاً در فازهای بعدی دقت بیشتری در انجام پروژه داشته‌باشید.
موفق باشید