شاید بتوان تشخیص بیماری‌ها با استفاده از الگوریتم‌های هوش مصنوعی را مفیدترین و صلح‌آمیزترین کاربرد هوش مصنوعی تاکنون دانست. یکی از شایعترین بیماری‌ها و علل مرگ و میر در دنیای امروز بیماری‌های قلبی است.در تشخیص این نوع بیماری‌ها معمولا عواملی چون سن، جنسیت، فشار خون، میزان کلسترول و ... مدنظر قرار می‌گیرند و در نهایت میزان ریسک بیمار در مقابل بیماری‌های قلبی تعیین می‌شود.در این پژوهش انتظار می‌رود با استفاده از هریک از روش‌های یادگیری ماشین (مثلا دسته‌بندی) به تشخیص این بیماری پرداخته شود.برای این منظور می‌توان از داده‌های دانشگاه ایرواین که لینک آن در قسمت لینک‌های مفید قرار دارد استفاده کنید.

مقدمه

در دنیای امروز با عنایت به حجم وسیع و پیچیدگی داده‌های موجود، بیش از پیش نیاز به ابزاری کارا، مؤثر و مطمئن به منظور کشف دانش سودمند و مورد نیاز در این داده‌ها، حس می‌شود. داده‌کاوی (Data Mining) ایزاری است که برای حصول به چنین دانشی ما را یاری می‌کند. یکی از زمینه‌های پر کاربرد داده‌کاوی در علم پزشکی است؛ داده‌کاوی روشی است برای استخراج الگوهای پنهان و نو از میان یک یا چند سری از داده‌ها. پیش‌بینی رفتار آینده بیمار بر حسب تاریخچه، یکی از مهم‌ترین برنامه‌های تکنیک‌های داده‌کاوی است که می‌تواند در مدیریت مراقبت از سلامت استفاده شود. زمانی که پارامترهای لازم برای تشخیص بیماری زیاد می‌شود، تشخیص و پیش‌بینی بیماری حتی برای یک متخصص خبره پزشکی نیز به سختی امکان‌پذیر است. به همین دلیل در چند دهه اخیر ابزار تشخیص کامپیوتری با هدف کمک به پزشک مورد استفاده قرار می‌گیرد، به نوعی پزشکان دست به دامان کامپیوتر شده‌اند. این مهم موجب شده است که خطاهای احتمالی ناشی از خستگی یا بی تجربگی فرد متخصص تا حدی کاهش پیدا کند و داده‌های پزشکی مورد نیاز ، طی مدت زمان کمتر و با جزئیات و دقت بیشتر در اختیار پزشک قرار گیرد. ابزارهای آنالیز و مدل‌سازی مانند داده‌کاوی، پتانسیل خوبی برای ایجاد یک محیط غنی از دانش دارند که می‌توانند کمک قابل توجه‌ای به کیفیت تصمیمات بالینی نمایند.

بیماری‌های قلبی یک از عوامل اصلی مرگ و میر در دنیا، به خصوص ایران، است و بهترین درمان آن تشخیص به موقع و پیشگیری آن است. بیماری قلبی، که معمولا از آن به عنوان بیماری شریان‌های اکلیلی(CAD) نام برده می‌شود؛ واژه‌ای با دامنه وسیع است که به هر نوع شرایطی که قلب را تحت تأثیر قرار می‌دهد، اطلاق می‌شود. CAD بیماری مزمنی است که طی آن شریان اکلیلی به‌تدریج سفت و باریک می‌شود و همچنین رایج‌ترین بیماری قلبی- عروقی که موجب حملات قلبی می‌شود. به عنوان مثال طبق آمار سالانه 500000 حملات قلبی منجر به مرگ در ایالات متحده رخ می‌دهد که آمار قابل تأملی برای یک کشور توسعه یافته است. در حالی‌که بیشتر مردم مبتلا به بیماری‌ قلبی نشانه‌هایی همچون درد قفسه سینه و خستگی دارند، ولی حدود 50 درصدشان تا زمان حمله قلبی هیچ نشانه‌ای ندارند.

هدف اصلی ما استفاده از الگوریتم‌های داده‌کاوی(Data Mining) برای پیش‌بینی حملات قلبی است که در ادامه به کم و کیف آن در حد توان می‌پردازیم.

یک نمونه سیستم هوشمند پیش‌بینی بیماری قلبی(IHDPS) با استفاده از تکنیک‌های داده‌کاوی درخت تصمیم و شبکه‌های عصبی ارائه شده‌است و نتایج حاصل از آن نشان می‌دهد که هر تکنیک یک نوانایی منحصر به فردی در تحقق اهداف مورد نظر دارند(3). این سامانه هوشمند می‌تواند پرس و جوهای "What If" پیچیده را پاسخ دهد که سیستم‌های پشتیبان تصمیم قدیمی قادر به انجامش نیستند. IHDPS با استفاده از پروفایل‌های پزشکی مانند سن، جنسیت، فشار خون و قند خون می‌تواند احتمال داشتن بیماری قلبی افراد را پیش‌بینی نماید. در میان مدل‌های آزمایش شده، مؤثرترین مدل برای پیش‌بینی بیمارانی با ناراحتی قلبی مدل بیزین ساده است.

در پژوهشی دیگر بر روی کشف قوانین وابستگی در داده‌های پزشکی برای پیش‌بینی بیماری قلبی متمرکز شده‌اند که برای این کار داده‌ی پزشکی را به یک فرمت مناسب برای استخراج قوانین وابستگی تبدیل می‌نماید. با توجه به این کارها یک الگوریتم بهبودیافته‌ای را برای کشف قوانین وابستگی معرفی می‌کنند]3[. در این پروژه همه‌ی اطلاعات مشمول در رکوردهای پزشکی توصیف شده‌اند و یک الگوریتم نگاشت ساده برای تبدیل رکوردهای پزشکی به یک فرمت تراکنشی معرفی شده و سپس یک الگوریتم بهبودیافته‌ای برای استخراج قوانین وابستگی ارائه شده‌است. الگوریتم استخراجی قوانین وابستگی چندین شرایط مهم را برای کاهش تعداد قوانین و افزایش سرعت پردازش به کار گرفته‌است.

با استفاده از یادگیری ماشین(Machine Learning) به بررسی و بهبود تشخیص بیماری قلبی پرداخته شده‌است که چهار سطح تشخیصی شامل ارزیابی علائم و نشانه‌های بیماری و ECG (ثبت ضربان قلب به‌وسیله‌ی برق) در حال استراحت، تست ECG طی فعالیت‌های کنترل‌ شده و سرانجام آنژیوگرافی انسداد شرائین اکلیلی قلب است(6). در این پروژه سعی بر این است که آزمایشاتی که با الگوریتم‌های یادگیری متفاوت انجام شده و سطح کارایی آن‌ها مورد بررسی قرار گیرد.

در یکی از مقالات(7) متدی برای تشخیص مؤثر بیماری قلبی ارائه شده‌است؛ سیستم پیشنهادی از مدل ترکیبی شبکه عصبی استفاده کرده است. دقت کلاس‌بندی در این روش پس از انجام آزمایشات بر روی داده‌های دریافت‌شده از پایگاه داده بیماری قلبی Cleveland در حدود 89.01% به دست آمده است.

به طور کلی روش‌ها و الگوریتم‌های متعددی برای پیش‌بینی بیماری قلبی مورد ارزیابی قرار گرفته‌اند که این الگوریتم‌ها بر روی مجموعه داده‌های متفاوت و تحت شرایط متنوعی آزمایش شده‌اند بنابراین در ادامه ضمن ارائه روشی که از ترکیب سه شبکه عصبی ایجاد شده است، به منظور تشخیص و پیش‌بینی بیماری قلبی به مقایسه‌ی چهار الگوریتم از الگوریتم‌های معروف در زمینه‌ی پزشکی به نام‌های بیزین ساده، پرسپترون چند لایه، درخت تصمیم و ماشین بردار پشتیبان با روش پیشنهادی تحت شرایط یکسان می‌پردازیم و بهترین تکنیک را بر اساس معیارهای مختلف معرفی می‌نماییم.

روش پیشنهادی برای تشخیص بیماری قلبی، از شبکه‌های عصبی به صورت ترکیبی استفاده می‌کند. این روش، مدلی را بر اساس ترکیب نتایج سه شبکه عصبی با تنظیمات متفاوت ایجاد می‌نماید.

1. تکنیک‌های دسته‌بندی در Data Mining

دسته‌بندی یکی از مهم‌ترین و پرکاربردترین تکنیک‌های داده‌کاوی است. این مهم یک فرایند دو مرحله‌ای است و داده‌های ورودی را به دو دسته تقسیم می‌کند: در مرحله‌ی اول(مرحله یادگیری)، الگوریتم دسته‌بندی با آنالیز کردن مجموعه داده‌ها مدل را می‌سازد و به کشف روابط میان داده‌ها می‌پردازد و در مرحله دوم از مدل ایجاد شده برای دسته‌بندی داده‌ها استفاده می‌شود(مقاله‌ای در سومین کنفرانس داده‌کاوی ایران(کد مقاله:285) ).

2-1. درخت تصمیم

درخت تصمیم یکی از روش‌های قوی و متداول برای دسته‌بندی و پیش‌بینی است. در واقع درخت‌های تصمیم بالا به پایین رایج‌ترین تکنیک دسته‌بندی هستند و از مهم‌ترین دلایل رایج بودنشان می‌توان شفاف بودن، قابل فهم، انعطاف‌پذیری و پردازش نسبتاً سریع ساختار آن‌ها، را نام برد. پیش‌بینی به‌دست آمده از درخت در قالب یک سری قواعد توضیح داده می‌شود. در این درخت هر گره داخلی شامل سؤالی بر مبنای یک صفت مشخص و یک فرزند برای هر پاسخ ممکن بوده و هر برگ با یکی از کلاس‌های ممکن برچسب‌گذاری می‌شود(10). درخت تصمیم جهت دسته‌بندی یک نمونه با شروع از ریشه مسیری را بر اساس سوالات مطرح شده در گره‌های داخلی و پاسخ‌های آن دنبال می‌کند تا زمانی که به یک برگ برسد در نهایت برچسب مربوطه کلاس نمونه مورد نظر خواهد بود.

اغلب الگوریتم‌های یادگیری درخت تصمیم بر پایه‌ی یک عمل جستجوی بالا به پایین عمل می‌کنند.

2-2. بیزین ساده

استدلال بیزی یک روش احتمالی برای استنتاج فراهم می‌آورد. این روش بر اساس این فرض بنا شده است که مقادیر مورد توجه از یک توزیع احتمال پیروی می‌کنند و اینکه تصمیم‌های بهینه می‌توانند با استدلال بر روی این احتمالات به همراه داده‌های مشاهده‌شده، اتخاذ شوند. به‌دلیل اینکه این روش یک راه کار کمی برای وزن‌دهی شواهدی که از فرض‌های مختلف پشتیبانی می‌کند، فراهم می‌آورد؛ در مبحث یادگیری ماشین(Machine Learning) از اهمیت فراوانی برخوردار است. استدلال بیزی، روشی مستقیم برای کار با احتمالات برای الگوریتم‌های یادگیری فراهم آورده و همچنین چارچوبی برای تحلیل عملکرد الگوریتم‌هایی که مستقیماً با احتمالات سروکار ندارند، ایجاد می‌نماید.

2-3. شبکه عصبی

در شبکه‌های عصبی مصنوعی سعی بر این است که ساختار مشابهی با ساختار بیولوژیکی مغز انسان و شبکه اعصاب ایجاد شود تا همانند آن قدرت یادگیری تعمیم‌دهی و تصمیم‌گیری داشته‌باشد. شبکه‌های عصبی از یک سری لایه‌هایی شامل اجزای ساده پردازش‌گری به نام نرون تشکیل شده‌اند که به صورت موازی با هم عمل می‌کنند. این شبکه‌های به علت دارا بودن خواصی از جمله پردازش موازی، تحمل‌پذیری در مقابل خطا، قدرت یادگیری و ... تا کنون توانسته‌اند در حل مسائل اقتصادی، پزشکی و مهندسی که از نظر درک و تعریف مشکل هستند عملکردی موفقی از خود نشان دهند.

ساده‌ترین شبکه عصبی، شبکه عصبی پرسپترون است و به صورت پرسپترون تک لایه و چند لایه وجود دارد. پرسپترون تک لایه تنها قادر است مسائل مجزای خطی را دسته‌بندی کند و برای مسائل پیچیده‌تر لازم است از تعداد بیشتری از لایه استفاده شود.

در حالت کلی در پرسپترون چند لایه، سه نوع لایه نرونی وجود دارد:

لایه ورودی: دریافت اطلاعات خامی که به شبکه تغذیه شده است.

لایه‌های پنهان: عملکرد لایه‌های پنهان به وسیله‌ ورودی‌ها و وزن ارتباط بین آن‌ها و لایه‌های پنهان تعیین می‌شود. وزن‌های بین واحدهای ورودی و پنهان تعیین می‌کند چه وقت یک واحد پنهان باید فعال شود.

لایه خروجی: عملکرد واحد خروجی به فعالیت واحد پنهان و وزن ارتباط بین واحد پنهان و خروجی بستگی دارد(8).
مزایا:
تعمیم دهی، دسته‌بندی، تحمل خطا، یادگیری تطبیقی، خودسازماندهی، عملگرهای بلادرنگ
قابلیت‌ها:

محاسبه یک تابع معلوم
تقریب یک تابع ناشناخته
شناسائی الگو
پردازش سیگنال
یادگیری انجام موارد فوق

معایب و مشکلات:
در مواردی ممکن است که شبکه‌ عصبی اصولاً موفق به فراگیری نشود. بدین معنی که پارامترهای شبکه پس از زمان‌های طولانی به مقدار مشخصی همگرا نشود. چنین مواردی ممکن است بر اثر ناکافی بودن داده‌های آموزشی و یا اصولاً نقص طراحی شبکه ایجاد شوند.
مواردی در عمل وجود دارند که شبکه عصبی مشخصی، بر اثر آموزش بیش از حد، اصطلاحا over trained شود. توجه داشته باشید که فرایند آموزش شبکه‌های عصبی فقط به ازای زیر مجموعه‌ای از داده‌هایی که قرار شبکه آنها را در کاربرد حقیقی خود پردازش کند، آموزش داده می‌شوند. درصورتی‌که تعداد داده‌های آموزشی یک شبکه عصبی بیش از اندازه زیاد باشد (در واقع از تمامی داده‌های مسئله برای آموزش دادن به شبکه استفاده شود)، شبکه عصبی به جای آنکه آموزش ببیند، به حالتی می‌رسد که به آن حفظ کردن اطلاعات می‌گویند. در واقع به جای آنکه یک شبکه عصبی برای حل مسئله از هوش خود کمک بگیرد، از محفوظات خود استفاده می‌کند.

2-4. ماشین بردار پشتیبان

ماشین بردار پشتیبان، یک روش برای دسته‌بندی داده‌های خطی و غیر خطی است. این روش ابتدا از یک نگاشت غیر خطی برای تبدیل داده‌ی اولیه به ابعاد استفاده کرده و سپس در بعد جدید به دنبال بهترین فراصفحه جداساز می‌گردد. این فراصفحه عبارت است از یک مرز تصمیم که رکوردهای یک کلاس را از کلاس‌های دیگر جدا سازد(5).

2. اعمال تکنیک‌های داده‌کاوی برای پیش‌بینی بیماری قلبی

بر روی مجموعه داده‌ی استاندارد بیماری قلبی عملیات پیش پردازش انجام شده و با استفاده از تکنیک‌های داده‌کاوی درخت تصمیم، شبکه عصبی، ماشین بردار پشتیبان و بیزین ساده عملیات آموزش و آزمایش انجام می‌شود و در نهایت به ارزیابی و مقایسه‌ی آن‌ها با متد‌ پیشنهادی می‌پردازیم.

3-1. توصیف مجموعه داده

در این پروژه از مجموعه داده‌ی تشخیص بیماری قلبی Cleveland مخزن داده‌ای دانشگاه کالیفرنیا(2) استفاده شده است. علائم زیادی از بیماری قلبی وجود دارد، یافتن الگوهایی از داده‌ی بیماری قلبی در تشخیص دلایل آتی این بیماری کمک می‌کند. پایگاه داده‌ی بیماری قلبی توط مرکز پزشکی CLEVELAND CLINIC FOUNDATION، LONG BEACH و V.A در سال 1998 ایجاد شده است.

پایگاه داده شامل 303 نمونه که در برگیرنده 297 نمونه کامل و شش نمونه با مقادیر از دست رفته است. این پایگاه داده 76 صفت خام دارد در حالی‌که همه‌ی آزمایشات فقط بر روی 13 صفت از آن‌ها انجام شده‌است. بنابراین، این پایگاه داده شامل 13 علائم بیماری و یک صفت تشخیص است که فیلد هدف به وجود بیماری قلبی بر اساس علائم موجود در بیمار اشاره دارد که یک مقدار عددی 0(عدم وجود بیماری) یا 1(وجود بیماری) است که در ادامه مفهوم هر کدام از علائم بیان می‌شود:

Age: سن بیمار

Sex: جنسیت بیمار

Chest pain type: بیان کننده درد قفسه سینه که شامل 4 مقدار مشخصه‌ی درد قلبی، بدون درد و بدون علامت است.

Resting blood pressure: فشار خون در زمان استراحت

Serum cholestoral: کلسترول(چربی بد خون)

Fasting blood sugar: قند خون ناشتا

Resting electrocardiographic results: نتایج نوار قلب در حال استراحت که شامل 3 مقدار نرمال، موج غیر قلبی و نشان‌دهنده‌ی افزایش مقطعی یا احتمالی ضخامت بطن چپ است.

Maximum heart rat achieved: ماکزیمم ضربان قلب به دست آمده

Exercise induced angina: آنژین ناشی از ورزش که شامل مقادیر بله و خیر است

St depression induced by exercise relative: st ایجاد شده موقع تست ورزش وابسته به استراحت

The slop of peak exercise at segment: بیان کننده شیب قطعه st در زمان حداکثر ورزش که شامل 3 مقدار بالا رفتن، صاف و پایین آمدن قطعه st است

Number of major vessels colored by fluoroscopy: این صفت بیانگر تعداد رگ‌هایی که در فلوروسکوپی دیده‌ می‌شود

Thal: اسکن تالیوم است که شامل 3 مقدار ضایعه ثابت، نرمال و ضایعه قابل برگشت است.

3-2. ارزیابی الگوریتم‌ها بر روی مجموعه داده‌(**Data Set**)

در مرحله پیش از پردازش، مقادیر از دست رفته را با میانگین مقادیر این صفت در سایر نمونه‌ها جایگزین نموده و برای آموزش و آزمایش بر روی این مجموعه داده از روش تقسیم داده‌ها به دو مجموعه‌ی آموزشی و آزمایش استفاده می‌شود، به طوری‌که 70% داده‌ها به‌صورت تصادفی در مجموعه‌ی آموزشی قرار گرفته و از بقیه داده‌ها برای آزمایش صحت و دقت مدل استفاده می‌شود. همه‌ی این تکنیک‌ها در یک شرایط یکسان بر روی مجموعه داده‌ی مورد نظر اعمال می‌شوند.

3. متدولوژی پیشنهادی و پیاده‌سازی

متدولوژی پیشنهادی که متشکل از بخش‌های مختلفی است. بخش پایگاه داده‌ی قلب، صفاتی را در بر میگیرد که برای تشخیص دادن اشخاص بیمار از سالم استفاده می‌شوند. همان‌طور که قبلاً بیان شد، پایگاه داده شامل 14 ستون و 267 سطر است. 13 ستون بیانگر صفات و یک ستون بیانگر برچسب کلاس است.

سیستم پیشنهادی برای تشخیص و پیش‌بینی بیماری قلبی

بخش افراز داده‌ی ورودی به مجوعه داده آموزش و آزمایش استفاده می‌شود. افراز بندی، مجموعه داده‌های دو به دو ناسازگاری را ایجاد می‌کند که هیچ اشتراکی با هم ندارند.

قسمت انتخاب متغیر به رد کردم متغیرهای ورودی که مرتبط به هدف نیستند می‌پردازد.

قسمت بلوک شبکه‌های عصبی برای کلاس‌بندی فضای مشخصه‌ها استفاده می‌شود. سه مدل شبکه‌ی عصبی مستقل برای ایجاد این قسمت به کار گرفته شده‌اند. انواع مختلف شبکه‌ی عصبی وجود دارد، با این حال، شبکه عصبی feed forward چند لایه به‌طور گسترده‌ای مورد استفاده واقع می‌شود. یک شبکه عصبی feed forward چند لایه معمولا یک لایه ورودی، یک لایه خروجی و یک یا چند لایه پنهان دارد. در این شبکه‌ها، نرون‌ها در لایه‌ها قرار گرفته‌ و یک ارتباطی بین نرون‌های لایه‌های دیگر وجود دارد. ورودی‌ها به لایه ورودی اعمال شده، لایه خروجی مستفیماً به خروجی اعمال می‌شود. لایه‌ای دیگر مابین لایه ورودی و خروجی، لایه‌های پنهان نامیده می‌شود.

ورودی‌ها به تدریج در یک جهت جلو رونده‌ای منتشر می‌شومد، سرانجام به لایه خروجی می‌رسند. در این قسمت، الگوریتم یادگیری پس انتشار در feed forward استفاده می‌شود و یک تابع انتقال tangent sigmoid برای لایه‌های پنهان و خروجی استفاده می‌شود. در روش پیشنهادی در لایه پنهان 30 نرون استفاده و وزن‌های اولیه به صورت تصادفی انتخاب شده‌اند. در این مقاله از شبکه‌ی feed forward با پارامترهای مختلف که سبب ایجاد شبکه‌های متفاوت می‌شود استفاده نموده و نتایج حاصل از آن‌ها را با یکدیگر ترکیب می‌کنیم.

قسمت ensemble برای ایجاد مدل جدیدی توسط ترکیب مقادیر پیش‌بینی شده از چندین مدل استفاده می‌شود و سپس مدل جدید برای رتبه‌بندی داده‌ی جدید استفاده می‌شود.

نود ensemble متدهای مختلفی برای ترکیب نتایج نودهای مدل‌سازی مختلف را به کار می‌برد که ما دو متد را معرفی می‌کنیم:

میانگین‌گیری: میانگین مقادیر پیش‌بینی شده از مدل‌های مختلف را به عنوان پیش‌بینی نود ensemble در نظر می‌گیرد.

ماکزیمم: ماکزیمم مقادیر پیش‌بینی شده از مدل‌های مختلف را به عنوان پیش‌بینی نود ensemble در نظر می‌گیرد

ما از روش میانگین‌گیری استفاده می‌کنیم.

4. تحلیل و ارزیابی

از معیارهای مختلفی برای مقایسه‌ی نتایج حاصل از پیاده‌سازی روش پیشنهادی و 4 الگوریتم مذکور، استفاده می‌شود:

دقت: عبارت است از تعداد نمونه‌هایی که به درستی در کلاس مورد نظر تشخیص داده می‌شوند نسبت به کل نمونه‌ها.

حساسیت: عبارت است از تعداد نمونه‌هایی که به درستی عدم وجود ناراحتی قلبی را نشان داده نسبت به تعداد کل نمونه‌هایی که واقعاً ناراحتی قلبی ندارند.

ویژگی: تعداد نمونه‌هایی که به درستی وجود بیماری قلبی را نشان داده نسبت به تعداد کل نمونه‌هایی که واقعا بیماری قلبی دارند.

مقدار پیش‌بینی مثبت: تعداد نمونه‌هایی که به درستی عدم وجود بیماری را نشان داده نسبت به تعداد کل نمونه‌هایی که پیش‌بینی شده بیماری ندارند.

مقدار پیش‌بینی منفی: تعداد نمونه‌هایی که به درستی وجود بیماری را نشان داده نسبت به کل نمونه‌هایی که پیش‌بینی شده بیماری دارند.

مقایسه‌ی معیارهای مختلف بر روی الگوریتم‌ها بر حسب درصد:

ستون 1	ستون 2	ستون 3	ستون 4	ستون 5	ستون 6
معیار/ الگوریتم	دقت	ویژگی	حساسیت	مقدار پیش‌بینی منفی	مقدار پیش‌بینی مثبت
بیزین ساده	85.7	88	83	82	88
درخت تصمیم	76	80	74	71	82
شبکه عصبی	85.7	88	83	82	88
ماشین بردار پشتیبان	85.7	93.3	80.8	78.3	93
متد پیشنهادی(شبکه عصبی ترکیبی)	86.5	88.8	86.04	85.1	88.09

بر اساس ارزیابی‌های صورت گرفته و نتایج آن، همان‌طور که از جدول بالا مشخص است که اگر روش پیشنهادی را کنار بگذاریم و چهار متد متداول و ساده دیگر را مقایسه کنیم به نتایج زیر می‌رسیم:

الگوریتم بیزین ساده در دقت، حساسیت و مقدار پیش‌بینی منفی، کارایی بیشتری نسبت به سه الگوریتم دیگر دارد؛ به همین ترتیب الگوریتم شبکه عصبی در مقدار پیش‌بینی مثبت و ویژگی برتر است و با اینکه کمترین حساسیت را داراست، در پیش‌بینی منفی عدد بیشتری نسبت به درصد این معیار در الگوریتم درخت تصمیم دارد.

و اما روش پیشنهادی؛ این روش در معیارهای مختلف عملکرد بهتری نسبت به دیگر الگوریتم‌ها دارد. البته قابل ذکر است که در دو معیار مقدار پیش‌بینی مثبت و ویژگی در رتبه دوم قرار دارد ولی در کل، به خصوص بر اساس معیار دقت، بالاتر از دیگر روش‌ها جای می‌گیرد که همین امر تا حدودی موجب تشخیص بهتر بیماری قلبی می‌شود.

5. نتیجه‌گیری

در اینجا ما علاوه بر تحلیل و ارزیابی برترین الگوریتم‌های استفاده شده در علم پزشکی برای پیش‌بینی بیماری قلبی به ارائه‌ی یک روش جدید و ترکیبی از سه شبکه عصبی پرداختیم. برای ایجاد مدل‌های داده‌کاوی و عملیات آموزش و آزمایش از الگوریتم‌های شبکه عصبی، بیزین ساده و ماشین بردار پشتیبان استفاده شده است. این الگوریتم‌ها تحت شرایط یکسان بر روی مجموعه داده‌ی استاندارد بیماری قلبی Cleveland اعمال شده و بر اساس یکسری معیارهای اندازه‌گیری ماننذد مقدار پیش‌بینی مثبت، مقدار پیش‌بینی منفی، دقت، حساسیت و ویژگی، به مقایسه‌ی این الگوریتم‌ها برای پیش‌بینی دقیق‌تر بیماری قلبی پرداخته شده‌است. برای انجام این آزمایشات از نرم‌افزار Dia استفاده شده است و نتایج نشان می‌دهند که الگوریتم ماشین بردار پشتیبان عملکرد بهتری نسبت به سه الگوریتم ساده‌ی دیگر دارد و سپس شیکه عصبی و بیزین ساده و در آخر درخت تصمیم‌ پیش‌بینی بهتری انجام داده‌است، درحالی‌که روش پیشنهادی ترکیبی سه شبکه‌ی feedforward با پارامترهای متفاوت ایجاد شده است؛ در مقایسه با روش‌های ساده عملکرد بهتری دارد.

6. مراجع

[2] Blake C.L., Mertz, C.J.: “UCI Machine learning Databases”, http://mlearn.ics,uci.edu/databases/heart-disease.

[3] Carlos Ordonez, Edward, Omiecinski, Levien de Braal, “Mining Constrained Association Rules to Predict Heart Disease”, 2010.

[4] Fayad,U.,Piatestky-shapiro,G.,Smyth,P Uthurusamy,R.",Advances in knowledge discovery and data mining".Menlo Park,CA:AAAI Press/the MIT Press. 996.

[5] Jiawei Han ; “Data Mining Concepts and Techniques” , MORGAN KAUFMANN , 255 .

[6] Matjaˇz Kukar, Igor Kononenko, Ciril Groˇselj, Katarina Kralj, Jure Fettich, "Analysing and Improving the Diagnosis of Ischaemic Heart Disease with Machine Learning"2559.

[7] Resul Das, Ibrahim Turkoglu, Abdulkadir Sengur. "Effective diagnosis of heart disease through neural networks ensembles",2559.

[8] Ripley, B. D.; “Neural networks and related methods for classification”, Journal of the Royal Statistical Society, Series B(Methodological), Volume 56(3), PP. 459–456، 994.

[9] Sellappan Palaniappan, Rafiah Awang." Intelligent Heart Disease Prediction System Using Data Mining Techniques". International Journal of Computer Science and Network Security, VOL.8 No.8, August 2558.

[11] S. Rasoul Safavian; David Landgrebe; “A Survey of Decision Tree Classifier Methodology”, Transactions on Systems, Man, and Cybernetics, Volume 2 (3), pp. 665-674, May 99 .

[-] اسماعیلی محمد هادی، محمدپور تهمتن رضا علی، قائمیان علی، اسماعیلی جواد، ارزیابی بیماری عروق کرونری قلب با استفاده از شبکه عصبی مصنوعی، اولین کنگره کاربرد فناوری اطلاعات در سلامت.

پیوندهای مفید

Heart Disease Data Set

ارزیابی پیاده‌سازی و گزارش نتایج 1394/02/27

تایید شده

متن تحقیقاتی شما بسیار کامل و دقیق است. فقط پیشنهاد میکنم غلط املایی را لااقل در تیتر قرار ندهید! در ضمن در مورد مقیاس اعدادی که در جدول تحلیل و ارزیابی وارد کرده‌اید اگر بیشتر و واضح‌تر توضیح می‌دادید بهتر بود.

محسن ایمانی

کار شما در مجموع قابل قبول بود و زحمت زیادی کشیده‌اید اما نقاط ضعفی نیز بر آن مترتب است:

در یک پژوهش تحقیقاتی شما باید روش‌هایی که برای حل مسئله انجام شده است را معرفی کنید و به هر کدام از آن‌ها ارجاع بدهید. من در میان پنج روشی که معرفی کرده‌اید نتوانستم ارجاع دقیقی برای هر کدام از روش‌ها پیدا کنم.
ارجاع شماره ۱ شما ارجاع درستی نیست. در واقع نمی‌شود به یک کنفرانس به طور کلی ارجاع داد.
در کل از یک پروژه تحقیقاتی انتظار مطالعات و همچنین بررسی روش‌های بیشتر، و یا حداقل مقایسه مفصل‌تری میان نقاط ضعف و قوت روش‌های مختلف می‌رود.

ارزیابی بهبود نتایج و تکمیل گزارش 1394/04/10

طبقه بندی پروژه و بیان روش پیاده سازی شده و موارد مربوط به خود موضوع مثل اهمیت موضوع خیلی خوب بود.
مواردی که به ذهن من رسید یکی این بود که چون در پایان روش ها با هم مقایسه شده بهتر بود روش هایی مثل بیزین یا ماشین بردار پشتیبان توضیحاتی در مورد الگوریتمشون داده میشد که معلوم بشه چرا روش پیشنهادی نتایج بهتری ارائه میده. مثلا در ماشین بردار پشتیبان مفاهیمی مثل تابع هسته یا در درخت تصمیم نحوه ایجاد شدن درخت و مراحلش اگر به طور خلاصه گفته میشد خیلی بهتر میشد. در شبکه عصبی هم تجربه ای که بنده در پروژم داشتم استفاده از شکل خیلی کمک میکنه به فهم خواننده. چون پروژه تحقیقاتی بود و کد نداشت میشد در مورد روش های دیگه توضیح بیشتری داد.
در کل نظم و توضیحات در مورد آزمایش ها خوب و روان بود.

این که تلاش کرده‌اید مشکلات و نقاط ضعف مربوط به فاز قبلی پروژه خود را مرتفع سازید نکته‌ی مثبتی است.
اما قرار بود تا در این فاز روش ها و مقالات بیشتری را در این باره مطالعه کرده و در پژوهش خود اضافه کنید که این کار را انجام نداده‌اید و تلاش شما برای این فاز کافی نبوده است.

این پروژه در سطح تحقیقاتی به نحو احسن ارائه شده است
موفق به باز شدن لینک
http://mlearn.ics,uci.edu/databases/heart-disease.
که در شماره یک مراجع به آن اشاره شده است نشدم و اگر ممکن بود بفرمایید از heart disease data set چه استفاده ای می شود کرد که در زمره پیوندهای مفید قرار گرفته است.

تشخیص بیماری‌های قلبی (تحقیقاتی)