شاید بتوان تشخیص بیماریها با استفاده از الگوریتمهای هوش مصنوعی را مفیدترین و صلحآمیزترین کاربرد هوش مصنوعی تاکنون دانست. یکی از شایعترین بیماریها و علل مرگ و میر در دنیای امروز بیماریهای قلبی است.در تشخیص این نوع بیماریها معمولا عواملی چون سن، جنسیت، فشار خون، میزان کلسترول و ... مدنظر قرار میگیرند و در نهایت میزان ریسک بیمار در مقابل بیماریهای قلبی تعیین میشود.در این پژوهش انتظار میرود با استفاده از هریک از روشهای یادگیری ماشین (مثلا دستهبندی) به تشخیص این بیماری پرداخته شود.برای این منظور میتوان از دادههای دانشگاه ایرواین که لینک آن در قسمت لینکهای مفید قرار دارد استفاده کنید.
# مقدمه
در دنیای امروز با عنایت به حجم وسیع و پیچیدگی دادههای موجود، بیش از پیش نیاز به ابزاری کارا، مؤثر و مطمئن به منظور کشف دانش سودمند و مورد نیاز در این دادهها، حس میشود. دادهکاوی (Data Mining) ایزاری است که برای حصول به چنین دانشی ما را یاری میکند. یکی از زمینههای پر کاربرد دادهکاوی در علم پزشکی است؛ دادهکاوی روشی است برای استخراج الگوهای پنهان و نو از میان یک یا چند سری از دادهها. پیشبینی رفتار آینده بیمار بر حسب تاریخچه، یکی از مهمترین برنامههای تکنیکهای دادهکاوی است که میتواند در مدیریت مراقبت از سلامت استفاده شود. زمانی که پارامترهای لازم برای تشخیص بیماری زیاد میشود، تشخیص و پیشبینی بیماری حتی برای یک متخصص خبره پزشکی نیز به سختی امکانپذیر است. به همین دلیل در چند دهه اخیر ابزار تشخیص کامپیوتری با هدف کمک به پزشک مورد استفاده قرار میگیرد، به نوعی پزشکان دست به دامان کامپیوتر شدهاند. این مهم موجب شده است که خطاهای احتمالی ناشی از خستگی یا بی تجربگی فرد متخصص تا حدی کاهش پیدا کند و دادههای پزشکی مورد نیاز ، طی مدت زمان کمتر و با جزئیات و دقت بیشتر در اختیار پزشک قرار گیرد. ابزارهای آنالیز و مدلسازی مانند دادهکاوی، پتانسیل خوبی برای ایجاد یک محیط غنی از دانش دارند که میتوانند کمک قابل توجهای به کیفیت تصمیمات بالینی نمایند.
بیماریهای قلبی یک از عوامل اصلی مرگ و میر در دنیا، به خصوص ایران، است و بهترین درمان آن تشخیص به موقع و پیشگیری آن است. بیماری قلبی، که معمولا از آن به عنوان بیماری شریانهای اکلیلی(CAD) نام برده میشود؛ واژهای با دامنه وسیع است که به هر نوع شرایطی که قلب را تحت تأثیر قرار میدهد، اطلاق میشود. CAD بیماری مزمنی است که طی آن شریان اکلیلی بهتدریج سفت و باریک میشود و همچنین رایجترین بیماری قلبی- عروقی که موجب حملات قلبی میشود. به عنوان مثال طبق آمار سالانه 500000 حملات قلبی منجر به مرگ در ایالات متحده رخ میدهد که آمار قابل تأملی برای یک کشور توسعه یافته است. در حالیکه بیشتر مردم مبتلا به بیماری قلبی نشانههایی همچون درد قفسه سینه و خستگی دارند، ولی حدود 50 درصدشان تا زمان حمله قلبی هیچ نشانهای ندارند.
هدف اصلی ما استفاده از الگوریتمهای دادهکاوی(Data Mining) برای پیشبینی حملات قلبی است که در ادامه به کم و کیف آن در حد توان میپردازیم.
یک نمونه سیستم هوشمند پیشبینی بیماری قلبی(IHDPS) با استفاده از تکنیکهای دادهکاوی درخت تصمیم و شبکههای عصبی ارائه شدهاست و نتایج حاصل از آن نشان میدهد که هر تکنیک یک نوانایی منحصر به فردی در تحقق اهداف مورد نظر دارند(3). این سامانه هوشمند میتواند پرس و جوهای "What If" پیچیده را پاسخ دهد که سیستمهای پشتیبان تصمیم قدیمی قادر به انجامش نیستند. IHDPS با استفاده از پروفایلهای پزشکی مانند سن، جنسیت، فشار خون و قند خون میتواند احتمال داشتن بیماری قلبی افراد را پیشبینی نماید. در میان مدلهای آزمایش شده، مؤثرترین مدل برای پیشبینی بیمارانی با ناراحتی قلبی مدل **بیزین ساده** است.
در پژوهشی دیگر بر روی کشف قوانین وابستگی در دادههای پزشکی برای پیشبینی بیماری قلبی متمرکز شدهاند که برای این کار دادهی پزشکی را به یک فرمت مناسب برای استخراج قوانین وابستگی تبدیل مینماید. با توجه به این کارها یک الگوریتم بهبودیافتهای را برای کشف قوانین وابستگی معرفی میکنند]3[. در این پروژه همهی اطلاعات مشمول در رکوردهای پزشکی توصیف شدهاند و یک الگوریتم نگاشت ساده برای تبدیل رکوردهای پزشکی به یک فرمت تراکنشی معرفی شده و سپس یک الگوریتم بهبودیافتهای برای استخراج قوانین وابستگی ارائه شدهاست. الگوریتم استخراجی قوانین وابستگی چندین شرایط مهم را برای کاهش تعداد قوانین و افزایش سرعت پردازش به کار گرفتهاست.
با استفاده از یادگیری ماشین(Machine Learning) به بررسی و بهبود تشخیص بیماری قلبی پرداخته شدهاست که چهار سطح تشخیصی شامل ارزیابی علائم و نشانههای بیماری و ECG (ثبت ضربان قلب بهوسیلهی برق) در حال استراحت، تست ECG طی فعالیتهای کنترل شده و سرانجام آنژیوگرافی انسداد شرائین اکلیلی قلب است(6). در این پروژه سعی بر این است که آزمایشاتی که با الگوریتمهای یادگیری متفاوت انجام شده و سطح کارایی آنها مورد بررسی قرار گیرد.
در یکی از مقالات(7) متدی برای تشخیص مؤثر بیماری قلبی ارائه شدهاست؛ سیستم پیشنهادی از مدل ترکیبی شبکه عصبی استفاده کرده است. دقت کلاسبندی در این روش پس از انجام آزمایشات بر روی دادههای دریافتشده از پایگاه داده بیماری قلبی Cleveland در حدود 89.01% به دست آمده است.
به طور کلی روشها و الگوریتمهای متعددی برای پیشبینی بیماری قلبی مورد ارزیابی قرار گرفتهاند که این الگوریتمها بر روی مجموعه دادههای متفاوت و تحت شرایط متنوعی آزمایش شدهاند بنابراین در ادامه ضمن ارائه روشی که از ترکیب سه شبکه عصبی ایجاد شده است، به منظور تشخیص و پیشبینی بیماری قلبی به مقایسهی چهار الگوریتم از الگوریتمهای معروف در زمینهی پزشکی به نامهای **بیزین ساده**، **پرسپترون چند لایه**، **درخت تصمیم** و **ماشین بردار پشتیبان** با روش پیشنهادی تحت شرایط یکسان میپردازیم و بهترین تکنیک را بر اساس معیارهای مختلف معرفی مینماییم.
روش پیشنهادی برای تشخیص بیماری قلبی، از شبکههای عصبی به صورت ترکیبی استفاده میکند. این روش، مدلی را بر اساس ترکیب نتایج سه شبکه عصبی با تنظیمات متفاوت ایجاد مینماید.
# 1. تکنیکهای دستهبندی در **Data Mining**
دستهبندی یکی از مهمترین و پرکاربردترین تکنیکهای دادهکاوی است. این مهم یک فرایند دو مرحلهای است و دادههای ورودی را به دو دسته تقسیم میکند: در مرحلهی اول(مرحله یادگیری)، الگوریتم دستهبندی با آنالیز کردن مجموعه دادهها مدل را میسازد و به کشف روابط میان دادهها میپردازد و در مرحله دوم از مدل ایجاد شده برای دستهبندی دادهها استفاده میشود(مقالهای در سومین کنفرانس دادهکاوی ایران(کد مقاله:285) ).
**2-1. درخت تصمیم**
درخت تصمیم یکی از روشهای قوی و متداول برای دستهبندی و پیشبینی است. در واقع درختهای تصمیم بالا به پایین رایجترین تکنیک دستهبندی هستند و از مهمترین دلایل رایج بودنشان میتوان شفاف بودن، قابل فهم، انعطافپذیری و پردازش نسبتاً سریع ساختار آنها، را نام برد. پیشبینی بهدست آمده از درخت در قالب یک سری قواعد توضیح داده میشود. در این درخت هر گره داخلی شامل سؤالی بر مبنای یک صفت مشخص و یک فرزند برای هر پاسخ ممکن بوده و هر برگ با یکی از کلاسهای ممکن برچسبگذاری میشود(10). درخت تصمیم جهت دستهبندی یک نمونه با شروع از ریشه مسیری را بر اساس سوالات مطرح شده در گرههای داخلی و پاسخهای آن دنبال میکند تا زمانی که به یک برگ برسد در نهایت برچسب مربوطه کلاس نمونه مورد نظر خواهد بود.
اغلب الگوریتمهای یادگیری درخت تصمیم بر پایهی یک عمل جستجوی بالا به پایین عمل میکنند.
**2-2. بیزین ساده**
استدلال بیزی یک روش احتمالی برای استنتاج فراهم میآورد. این روش بر اساس این فرض بنا شده است که مقادیر مورد توجه از یک توزیع احتمال پیروی میکنند و اینکه تصمیمهای بهینه میتوانند با استدلال بر روی این احتمالات به همراه دادههای مشاهدهشده، اتخاذ شوند. بهدلیل اینکه این روش یک راه کار کمی برای وزندهی شواهدی که از فرضهای مختلف پشتیبانی میکند، فراهم میآورد؛ در مبحث یادگیری ماشین(Machine Learning) از اهمیت فراوانی برخوردار است. استدلال بیزی، روشی مستقیم برای کار با احتمالات برای الگوریتمهای یادگیری فراهم آورده و همچنین چارچوبی برای تحلیل عملکرد الگوریتمهایی که مستقیماً با احتمالات سروکار ندارند، ایجاد مینماید.
**2-3. شبکه عصبی**
در شبکههای عصبی مصنوعی سعی بر این است که ساختار مشابهی با ساختار بیولوژیکی مغز انسان و شبکه اعصاب ایجاد شود تا همانند آن قدرت یادگیری تعمیمدهی و تصمیمگیری داشتهباشد. شبکههای عصبی از یک سری لایههایی شامل اجزای ساده پردازشگری به نام **نرون** تشکیل شدهاند که به صورت موازی با هم عمل میکنند. این شبکههای به علت دارا بودن خواصی از جمله پردازش موازی، تحملپذیری در مقابل خطا، قدرت یادگیری و ... تا کنون توانستهاند در حل مسائل اقتصادی، پزشکی و مهندسی که از نظر درک و تعریف مشکل هستند عملکردی موفقی از خود نشان دهند.
سادهترین شبکه عصبی، شبکه عصبی پرسپترون است و به صورت پرسپترون تک لایه و چند لایه وجود دارد. پرسپترون تک لایه تنها قادر است مسائل مجزای خطی را دستهبندی کند و برای مسائل پیچیدهتر لازم است از تعداد بیشتری از لایه استفاده شود.
در حالت کلی در پرسپترون چند لایه، سه نوع لایه نرونی وجود دارد:
لایه ورودی: دریافت اطلاعات خامی که به شبکه تغذیه شده است.
لایههای پنهان: عملکرد لایههای پنهان به وسیله ورودیها و وزن ارتباط بین آنها و لایههای پنهان تعیین میشود. وزنهای بین واحدهای ورودی و پنهان تعیین میکند چه وقت یک واحد پنهان باید فعال شود.
لایه خروجی: عملکرد واحد خروجی به فعالیت واحد پنهان و وزن ارتباط بین واحد پنهان و خروجی بستگی دارد(8).
مزایا:
تعمیم دهی، دستهبندی، تحمل خطا، یادگیری تطبیقی، خودسازماندهی، عملگرهای بلادرنگ
قابلیتها:
- محاسبه یک تابع معلوم
- تقریب یک تابع ناشناخته
- شناسائی الگو
- پردازش سیگنال
- یادگیری انجام موارد فوق
معایب و مشکلات:
در مواردی ممکن است که شبکه عصبی اصولاً موفق به فراگیری نشود. بدین معنی که پارامترهای شبکه پس از زمانهای طولانی به مقدار مشخصی همگرا نشود. چنین مواردی ممکن است بر اثر ناکافی بودن دادههای آموزشی و یا اصولاً نقص طراحی شبکه ایجاد شوند.
مواردی در عمل وجود دارند که شبکه عصبی مشخصی، بر اثر آموزش بیش از حد، اصطلاحا over trained شود. توجه داشته باشید که فرایند آموزش شبکههای عصبی فقط به ازای زیر مجموعهای از دادههایی که قرار شبکه آنها را در کاربرد حقیقی خود پردازش کند، آموزش داده میشوند. درصورتیکه تعداد دادههای آموزشی یک شبکه عصبی بیش از اندازه زیاد باشد (در واقع از تمامی دادههای مسئله برای آموزش دادن به شبکه استفاده شود)، شبکه عصبی به جای آنکه آموزش ببیند، به حالتی میرسد که به آن حفظ کردن اطلاعات میگویند. در واقع به جای آنکه یک شبکه عصبی برای حل مسئله از هوش خود کمک بگیرد، از محفوظات خود استفاده میکند.
**2-4. ماشین بردار پشتیبان**
ماشین بردار پشتیبان، یک روش برای دستهبندی دادههای خطی و غیر خطی است. این روش ابتدا از یک نگاشت غیر خطی برای تبدیل دادهی اولیه به ابعاد استفاده کرده و سپس در بعد جدید به دنبال بهترین فراصفحه جداساز میگردد. این فراصفحه عبارت است از یک مرز تصمیم که رکوردهای یک کلاس را از کلاسهای دیگر جدا سازد(5).
# 2. اعمال تکنیکهای دادهکاوی برای پیشبینی بیماری قلبی
بر روی مجموعه دادهی استاندارد بیماری قلبی عملیات پیش پردازش انجام شده و با استفاده از تکنیکهای دادهکاوی درخت تصمیم، شبکه عصبی، ماشین بردار پشتیبان و بیزین ساده عملیات آموزش و آزمایش انجام میشود و در نهایت به ارزیابی و مقایسهی آنها با متد پیشنهادی میپردازیم.
**3-1. توصیف مجموعه داده**
در این پروژه از مجموعه دادهی تشخیص بیماری قلبی Cleveland مخزن دادهای دانشگاه کالیفرنیا(2) استفاده شده است. علائم زیادی از بیماری قلبی وجود دارد، یافتن الگوهایی از دادهی بیماری قلبی در تشخیص دلایل آتی این بیماری کمک میکند. پایگاه دادهی بیماری قلبی توط مرکز پزشکی CLEVELAND CLINIC FOUNDATION، LONG BEACH و V.A در سال 1998 ایجاد شده است.
پایگاه داده شامل 303 نمونه که در برگیرنده 297 نمونه کامل و شش نمونه با مقادیر از دست رفته است. این پایگاه داده 76 صفت خام دارد در حالیکه همهی آزمایشات فقط بر روی 13 صفت از آنها انجام شدهاست. بنابراین، این پایگاه داده شامل 13 علائم بیماری و یک صفت تشخیص است که فیلد هدف به وجود بیماری قلبی بر اساس علائم موجود در بیمار اشاره دارد که یک مقدار عددی 0(عدم وجود بیماری) یا 1(وجود بیماری) است که در ادامه مفهوم هر کدام از علائم بیان میشود:
Age: سن بیمار
Sex: جنسیت بیمار
Chest pain type: بیان کننده درد قفسه سینه که شامل 4 مقدار مشخصهی درد قلبی، بدون درد و بدون علامت است.
Resting blood pressure: فشار خون در زمان استراحت
Serum cholestoral: کلسترول(چربی بد خون)
Fasting blood sugar: قند خون ناشتا
Resting electrocardiographic results: نتایج نوار قلب در حال استراحت که شامل 3 مقدار نرمال، موج غیر قلبی و نشاندهندهی افزایش مقطعی یا احتمالی ضخامت بطن چپ است.
Maximum heart rat achieved: ماکزیمم ضربان قلب به دست آمده
Exercise induced angina: آنژین ناشی از ورزش که شامل مقادیر بله و خیر است
St depression induced by exercise relative: st ایجاد شده موقع تست ورزش وابسته به استراحت
The slop of peak exercise at segment: بیان کننده شیب قطعه st در زمان حداکثر ورزش که شامل 3 مقدار بالا رفتن، صاف و پایین آمدن قطعه st است
Number of major vessels colored by fluoroscopy: این صفت بیانگر تعداد رگهایی که در فلوروسکوپی دیده میشود
Thal: اسکن تالیوم است که شامل 3 مقدار ضایعه ثابت، نرمال و ضایعه قابل برگشت است.
**3-2. ارزیابی الگوریتمها بر روی مجموعه داده(****Data Set****)**
در مرحله پیش از پردازش، مقادیر از دست رفته را با میانگین مقادیر این صفت در سایر نمونهها جایگزین نموده و برای آموزش و آزمایش بر روی این مجموعه داده از روش تقسیم دادهها به دو مجموعهی آموزشی و آزمایش استفاده میشود، به طوریکه 70% دادهها بهصورت تصادفی در مجموعهی آموزشی قرار گرفته و از بقیه دادهها برای آزمایش صحت و دقت مدل استفاده میشود. همهی این تکنیکها در یک شرایط یکسان بر روی مجموعه دادهی مورد نظر اعمال میشوند.
# 3. متدولوژی پیشنهادی و پیادهسازی
متدولوژی پیشنهادی که متشکل از بخشهای مختلفی است. بخش پایگاه دادهی قلب، صفاتی را در بر میگیرد که برای تشخیص دادن اشخاص بیمار از سالم استفاده میشوند. همانطور که قبلاً بیان شد، پایگاه داده شامل 14 ستون و 267 سطر است. 13 ستون بیانگر صفات و یک ستون بیانگر برچسب کلاس است.
![توضیح تصویر](https://boute.s3.amazonaws.com/158-diagram.png)
سیستم پیشنهادی برای تشخیص و پیشبینی بیماری قلبی
بخش افراز دادهی ورودی به مجوعه داده آموزش و آزمایش استفاده میشود. افراز بندی، مجموعه دادههای دو به دو ناسازگاری را ایجاد میکند که هیچ اشتراکی با هم ندارند.
قسمت انتخاب متغیر به رد کردم متغیرهای ورودی که مرتبط به هدف نیستند میپردازد.
قسمت بلوک شبکههای عصبی برای کلاسبندی فضای مشخصهها استفاده میشود. سه مدل شبکهی عصبی مستقل برای ایجاد این قسمت به کار گرفته شدهاند. انواع مختلف شبکهی عصبی وجود دارد، با این حال، شبکه عصبی feed forward چند لایه بهطور گستردهای مورد استفاده واقع میشود. یک شبکه عصبی feed forward چند لایه معمولا یک لایه ورودی، یک لایه خروجی و یک یا چند لایه پنهان دارد. در این شبکهها، نرونها در لایهها قرار گرفته و یک ارتباطی بین نرونهای لایههای دیگر وجود دارد. ورودیها به لایه ورودی اعمال شده، لایه خروجی مستفیماً به خروجی اعمال میشود. لایهای دیگر مابین لایه ورودی و خروجی، لایههای پنهان نامیده میشود.
ورودیها به تدریج در یک جهت جلو روندهای منتشر میشومد، سرانجام به لایه خروجی میرسند. در این قسمت، الگوریتم یادگیری پس انتشار در feed forward استفاده میشود و یک تابع انتقال tangent sigmoid برای لایههای پنهان و خروجی استفاده میشود. در روش پیشنهادی در لایه پنهان 30 نرون استفاده و وزنهای اولیه به صورت تصادفی انتخاب شدهاند. در این مقاله از شبکهی feed forward با پارامترهای مختلف که سبب ایجاد شبکههای متفاوت میشود استفاده نموده و نتایج حاصل از آنها را با یکدیگر ترکیب میکنیم.
قسمت ensemble برای ایجاد مدل جدیدی توسط ترکیب مقادیر پیشبینی شده از چندین مدل استفاده میشود و سپس مدل جدید برای رتبهبندی دادهی جدید استفاده میشود.
نود ensemble متدهای مختلفی برای ترکیب نتایج نودهای مدلسازی مختلف را به کار میبرد که ما دو متد را معرفی میکنیم:
میانگینگیری: میانگین مقادیر پیشبینی شده از مدلهای مختلف را به عنوان پیشبینی نود ensemble در نظر میگیرد.
ماکزیمم: ماکزیمم مقادیر پیشبینی شده از مدلهای مختلف را به عنوان پیشبینی نود ensemble در نظر میگیرد
ما از روش میانگینگیری استفاده میکنیم.
# 4. تحلیل و ارزیابی
از معیارهای مختلفی برای مقایسهی نتایج حاصل از پیادهسازی روش پیشنهادی و 4 الگوریتم مذکور، استفاده میشود:
دقت: عبارت است از تعداد نمونههایی که به درستی در کلاس مورد نظر تشخیص داده میشوند نسبت به کل نمونهها.
حساسیت: عبارت است از تعداد نمونههایی که به درستی عدم وجود ناراحتی قلبی را نشان داده نسبت به تعداد کل نمونههایی که واقعاً ناراحتی قلبی ندارند.
ویژگی: تعداد نمونههایی که به درستی وجود بیماری قلبی را نشان داده نسبت به تعداد کل نمونههایی که واقعا بیماری قلبی دارند.
مقدار پیشبینی مثبت: تعداد نمونههایی که به درستی عدم وجود بیماری را نشان داده نسبت به تعداد کل نمونههایی که پیشبینی شده بیماری ندارند.
مقدار پیشبینی منفی: تعداد نمونههایی که به درستی وجود بیماری را نشان داده نسبت به کل نمونههایی که پیشبینی شده بیماری دارند.
مقایسهی معیارهای مختلف بر روی الگوریتمها بر حسب درصد:
| ستون 1 | ستون 2 | ستون 3 | ستون 4 | ستون 5 | ستون 6 |
| -------------------------------- | ------ | ------ | ------ | --------------------- | --------------------- |
| معیار/ الگوریتم | دقت | ویژگی | حساسیت | مقدار پیشبینی منفی | مقدار پیشبینی مثبت |
| بیزین ساده | 85.7 | 88 | 83 | 82 | 88 |
| درخت تصمیم | 76 | 80 | 74 | 71 | 82 |
| شبکه عصبی | 85.7 | 88 | 83 | 82 | 88 |
| ماشین بردار پشتیبان | 85.7 | 93.3 | 80.8 | 78.3 | 93 |
| متد پیشنهادی(شبکه عصبی ترکیبی) | 86.5 | 88.8 | 86.04 | 85.1 | 88.09 |
بر اساس ارزیابیهای صورت گرفته و نتایج آن، همانطور که از جدول بالا مشخص است که اگر روش پیشنهادی را کنار بگذاریم و چهار متد متداول و ساده دیگر را مقایسه کنیم به نتایج زیر میرسیم:
الگوریتم بیزین ساده در دقت، حساسیت و مقدار پیشبینی منفی، کارایی بیشتری نسبت به سه الگوریتم دیگر دارد؛ به همین ترتیب الگوریتم شبکه عصبی در مقدار پیشبینی مثبت و ویژگی برتر است و با اینکه کمترین حساسیت را داراست، در پیشبینی منفی عدد بیشتری نسبت به درصد این معیار در الگوریتم درخت تصمیم دارد.
و اما روش پیشنهادی؛ این روش در معیارهای مختلف عملکرد بهتری نسبت به دیگر الگوریتمها دارد. البته قابل ذکر است که در دو معیار مقدار پیشبینی مثبت و ویژگی در رتبه دوم قرار دارد ولی در کل، به خصوص بر اساس معیار دقت، بالاتر از دیگر روشها جای میگیرد که همین امر تا حدودی موجب تشخیص بهتر بیماری قلبی میشود.
# 5. نتیجهگیری
در اینجا ما علاوه بر تحلیل و ارزیابی برترین الگوریتمهای استفاده شده در علم پزشکی برای پیشبینی بیماری قلبی به ارائهی یک روش جدید و ترکیبی از سه شبکه عصبی پرداختیم. برای ایجاد مدلهای دادهکاوی و عملیات آموزش و آزمایش از الگوریتمهای شبکه عصبی، بیزین ساده و ماشین بردار پشتیبان استفاده شده است. این الگوریتمها تحت شرایط یکسان بر روی مجموعه دادهی استاندارد بیماری قلبی Cleveland اعمال شده و بر اساس یکسری معیارهای اندازهگیری ماننذد مقدار پیشبینی مثبت، مقدار پیشبینی منفی، دقت، حساسیت و ویژگی، به مقایسهی این الگوریتمها برای پیشبینی دقیقتر بیماری قلبی پرداخته شدهاست. برای انجام این آزمایشات از نرمافزار Dia استفاده شده است و نتایج نشان میدهند که الگوریتم ماشین بردار پشتیبان عملکرد بهتری نسبت به سه الگوریتم سادهی دیگر دارد و سپس شیکه عصبی و بیزین ساده و در آخر درخت تصمیم پیشبینی بهتری انجام دادهاست، درحالیکه روش پیشنهادی ترکیبی سه شبکهی feedforward با پارامترهای متفاوت ایجاد شده است؛ در مقایسه با روشهای ساده عملکرد بهتری دارد.
# 6. مراجع
[2] Blake C.L., Mertz, C.J.: “UCI Machine learning Databases”, http://mlearn.ics,uci.edu/databases/heart-disease.
[3] Carlos Ordonez, Edward, Omiecinski, Levien de Braal, “Mining Constrained Association Rules to Predict Heart Disease”, 2010.
[4] Fayad,U.,Piatestky-shapiro,G.,Smyth,P Uthurusamy,R.",Advances in knowledge discovery and data mining".Menlo Park,CA:AAAI Press/the MIT Press. 996.
[5] Jiawei Han ; “Data Mining Concepts and Techniques” , MORGAN KAUFMANN , 255 .
[6] Matjaˇz Kukar, Igor Kononenko, Ciril Groˇselj, Katarina Kralj, Jure Fettich, "Analysing and Improving the Diagnosis of Ischaemic Heart Disease with Machine Learning"2559.
[7] Resul Das, Ibrahim Turkoglu, Abdulkadir Sengur. "Effective diagnosis of heart disease through neural networks ensembles",2559.
[8] Ripley, B. D.; “Neural networks and related methods for classification”, Journal of the Royal Statistical Society, Series B(Methodological), Volume 56(3), PP. 459–456، 994.
[9] Sellappan Palaniappan, Rafiah Awang." Intelligent Heart Disease Prediction System Using Data Mining Techniques". International Journal of Computer Science and Network Security, VOL.8 No.8, August 2558.
[11] S. Rasoul Safavian; David Landgrebe; “A Survey of Decision Tree Classifier Methodology”, Transactions on Systems, Man, and Cybernetics, Volume 2 (3), pp. 665-674, May 99 .
[-] اسماعیلی محمد هادی، محمدپور تهمتن رضا علی، قائمیان علی، اسماعیلی جواد، ارزیابی بیماری عروق کرونری قلب با استفاده از شبکه عصبی مصنوعی، اولین کنگره کاربرد فناوری اطلاعات در سلامت.
# پیوندهای مفید
+ [Heart Disease Data Set ](http://archive.ics.uci.edu/ml/datasets/Heart+Disease)