غذاهای هر کشور و منطقهی جغرافیایی و نوع موادی غذایی که در آنها مصرف میکنند، جزئی از فرهنگ کشورها قلمداد میشود. به نحوی که میشود این جمله «غذایت را سفارش بده تا بگویم کجایی هستی!» را میشود یک قانون قلمداد کرد. در این پروژه میخواهیم همین کار را انجام دهید. یعنی باید با داشتن لیستی از مواد اولیه یک غذا، پیشبینی خواهیم کرد که این غذا در متعلق به کدام کشور است. # مقدمه امروزه کارشناسان، تغذیه را یکی از فاکتورهای بسیار مؤثر در سلامت انسان میدانند. از اینرو با افزایش نگرانیها در مورد سلامت مواد غذایی، جمعآوری اطلاعات در زمینهی عادتهای غذایی باتوجه به جغرافیای محل زندگی بسیار مورد توجه قرار گرفته است. فرهنگ یک کشور، میزان دسترسی به منابع غذایی، آبوهوا و حتی مذهب غالب در یک کشور را میتوان از فاکتورهای بسیار مؤثر در عادات غذایی مردم آن درنظر گرفت. علاوهبر این دانستن علایق عمدهی مردم یک کشور درزمینههای مختلف، در این پروژه بهطور خاص درمورد مواد غذایی، نقش بسیار مهمی در بهدست گرفتن بازار هدف کشور آن مختلف دارد. از اینرو، بهدست آوردن عادتهای غذایی غالب در هرکشور علاوه بر برخورداری از اهمیت در حوزه سلامت، کاربرد اقتصادی فراوانی نیز دارد. ## شرح مسئله در راستای پیشبینی سبد غذایی مردم یک کشور، [این مسابقه](https://www.kaggle.com/c/whats-cooking) نیز طراحی شده است که روش کاری ما در این پروژه نیز شبیه به آن است. در این مسئله یک [دیتاست](https://www.kaggle.com/c/whats-cooking/data) متشکل از مواد غذایی تشکیلدهندهی غذاهایی که در کشورهای مختلف، به تفکیک غذا و کشور، سرو میشوند در اختیار ما قرار گرفتهاست. باتوجه به این دیتاست ما باید به روشی برسیم که با گرفتن مواد تشکیلدهنده یک غذا، تشخیص دهیم آن غذا متعلق به کدام کشور است، یا بهعبارتی درکدام کشور متقاضی بیشتری دارد. ## اهمیت مسئله به این مسئله میتوان از ابعاد مختلفی نگاه کرد. خروجی این مسئله تنها درزمینه مواد غذایی کاربرد ندارد. امروزه یکی از راههای درآمد شبکههای اجتماعی منجمله فیسبوک درگرو پاسخ به همین مسئله است. فرض کنید شما سرمایهگذار هستید و میخواهید یک رستوران زنجیرهای در ایران تأسیس کنید. تأسیس یک رستوران زنجیرهای نیاز به سرمایه بسیار زیادی دارد و شما قبل از شروع کارتان باید یک اطمینان نسبی از سودآوری آن داشته باشید. بگذارید در دو حالت این مسئله را بررسی کنیم: + فرض کنید شما با الگوبرداری از یک رستوران زنجیرهای موفق در چین، بدون توجه به نیاز مخاطب اقدام به تأسیس یک رستوران مشابه در ایران کنید. در این حالت به احتمال زیادی شما ورشکست خواهید شد. چراکه سبد غذایی ایرانی بسیار متفاوت با سبد غذایی کشورهای آسیای دور است. لذا سرمایهی شما از دست میرود. + حالت دوم زمانیاست که شما پیش از تأسیس رستوران خود، با صرف هزینهای بسیار کم یا هیچ هزینهای به نیازسنجی در جامعه هدف خود پرداخته و بهوسیله روشهای نوین یا حتی روشهای سنتی و باتوجه با ذائقهی غالب در جامعه ایران اقدام به تأسیس یک رستوران کنید. در این حالت میتوان گفت به احتمال زیادی شما صاحب یک رستوران موفق خواهید شد! این تنها یک نمونه از اهمیت این مسئله در بازار اقتصادی است. دربسیاری از زمینهها داشتن اطلاعات درمورد فرهنگ و یا علایق غالب در یک منطقه کمک بسیار زیادی به سودآوری اقتصادی میکند. ## کاربردها همانطور که پیشتر نیز اشاره شد، یکی از روشهای درآمدی در شبکههای اجتماعی، فروش دیتاستهای متنوع به سرمایهگذاران بهمنظور کسب اطلاعات علایق مردم مختلف باتوجه به جغرافیای محل زندگی آنها است. علاوه براین موتورهای جستوجو نیز به نوعی از این روش برای هوشمند وبهینهسازی نتایج جستوجو باتوجه به محل زندگی و سابقه جستوجو استفاده میکنند. # کارهای مرتبط در این بخش ما به دو صورت کارهای مرتبط را بررسی میکنیم، درابتدا به توضیح روش موجود در مقالهای میپردازیم که همین مسئله را بهطور کامل و باتوجه به منوهای غذایی موجود در اینترنت حل کرده است و به انتشار نتایج آن پرداخته است و سپس فعالیتهای مشابهی که روی دیتاستها با موضوعات دیگری صورت گرفته است را بررسی میکنیم. ## توضیح مقاله اول[^KYUNG-JOONG KIM AND CHANG-HO CHUNG-Tell Me What You Eat, and I Will Tell You Where You Come From: A Data Science Approach for Global Recipe Data on the Web-2016] در این مقاله، از دادهکاوی جهت پیشبینی علایق غذایی نقاط مختلف استفاده شدهاست. ابتدا منوهای غذایی از دو سایت محبوب در این زمینه که براساس کشور غذاها را دسته بندی کردند، منوی غذاها دریافت شده و مواد تشکیل دهنده آنها جدا شدهاند. (ما در پروژه خود نیازی به انجام این کار نداریم چراکه دیتاست موجود شامل مواد تشکیلدهند و کشور است.) سپس عمل دادهکاوی در سه مرحله صورت میگیرد: + Hierarchical clustering + Ingredient network analysis + Classification + مرحله اول - خوشهبندی سلسه مراتبی خوشهبندی سلسلهمراتبی یکی از روشهای رایج در آنالیز اطلاعات است. ایدهی اصلی این روش، ایجاد یک درخت دودویی از اطلاعات است که در آن اطلاعات مشابه در یک خوشه قرار میگیرند.[^COS424 Princton University-David M. Blei-2008] برای استفاده از این روش برای حل مسئله فوق، مقاله مورد نظر به صورت زیر عمل کرده است: ابتدا توسط یکی از الگوریتمهای خوشهبندی، ارتباطات پنهان بین دستورهای غذایی کشورهای مختلف را باتوجه به مواد غذایی سازنده آن بهدست میآوریم. درحیقت این عمل را بدین منظور انجام میدهیم که کشورهای مشابه و غیرمشابه ازنظر عادت غذایی را دستهبندی کنیم. یک نمونه از خوشهبندی صورت گرفته شده توسط این مقاله را در ادامه میبینیم: ![مثالی از خوشهبندی کشورها](https://boute.s3.amazonaws.com/250-clus.png) درمثال فوق، نقطهچین مرز خوشهها را مشخص میکند، برای مثال اگر نقطهچین پایینی را مرز قرار دهیم،تنها دو کشور کره و ژاپن در یک خوشه قرار میگیرند. برای استفاده از این الگوریتم باید دو چیز را بتوانیم مشخص کنیم، + مرز خوشهبندی را به چه صورت قرار دهیم؟ + از چه الگوریتمی برای خوشه بندی استفاده کنیم. این مقاله برای خوشهبندی از الگوریتمی استفاده میکند که در آن از مؤلفهای تحت عنوان **dissimilarity** استفاده شده است که تفاوتهای میان دو کشور را مشخص میکند و پس از تعیین آن عمل خوشهبندی را انجام میدهد. ![فرمول محاسبه میزان تفاوت میان کشور 1 و 2](https://boute.s3.amazonaws.com/250-d.png) که در آن ![فرمول محاسبه احتمال رخداد ماده i در دستور غذایی کشور c در دیتاست](https://boute.s3.amazonaws.com/250-Untitled.png) + مرحله دوم - آنالیز شبکه مواد غذایی تشکیلدهنده در این مرحله شبکهای از مواد غذایی تشکیلدهنده ایجاد میشود، این شبکه یک گراف است که بهصورت زیر تولید میشود: + هر رأس یک مادهی غذایی تشکیل دهنده دستور غذاست. + اگر هر دو ماده در یک دستور غذایی موجود باشند، یک یال میان آنها رسم میشود. + وزن هر یال عبارت است از تعداد دفعاتی که هر دو ماده در یک دستور غذایی دیده شدهاند. گراف INc، بیانگر شبکه مواد غذایی کشور c است که شامل دادههای آماری مواد غذایی تشکیلدهنده دستورهای غذایی آن کشور هستند و توسط الگوریتم استخراجی backbone به دست آمدهاند. ![نمونه گراف مواد غذای در دو کشور فیلیپین و اسکاتلند](https://boute.s3.amazonaws.com/250-Untitled1.png) + مرحله سوم - تقسیمبندی در این بخش، توسط مدلهای تقسیمبندی، برنامه اقدام به تصمیمگیری درمورد دستورهای غذایی جدید میکند. در این مرحله برنامه بهوسیله الگوریتمهای پیادهسازی شده در بخش قبل دستورهای غذایی موجود را مورد بررسی قرار میدهد و پیشبینی خود را با جواب موجود مقایسه میکند و به این شکل خود را بهبود میبخشد. بهترین الگوریتم، الگوریتمی است که توسط آن بتوانیم برای هرکشور الگویی متفاوت با سایر کشورها بهدست آوریم. ![نمونهای از مدل تقسیمبندی-درخت تصمیم گیری](https://boute.s3.amazonaws.com/250-tree.png) در شکل بالا رأسهای میانی، مواد غذایی و برگها کشورها هستند. درحالت کلی نحوهی آنالیز مسئله بهصورت زیر است: ![نگاه کلی به راهکار حل مسئله](https://boute.s3.amazonaws.com/250-Untitled2.png) ## مقالات مشابه کارهای بسیار زیاد و مشابهی در زمینههای مختلف صورت گرفته، اما برای حل مسئله روش ذکر شده در مقاله فوق بهترین و بهینهترین روش است. بااین وجود در این بخش به بررسی اجمالی برخی دیگر از مقالهها نیز میپردازیم. + پیشبینی میزان سودآوری از مشتری [^https://technet.microsoft.com/en-us/library/dd883232(v=sql.100).aspx] این مقاله با استفاده از روشهای دادهکاوی به بررسی میزان سودآوری کار باتوجه به فاکتوهای مختلف ازجمله مکان جغرافیایی میپردازد. + پیش بینی شرایط محیط زیستی باتوجه به فاکتورهای مؤثر در شرایط اقلیمی # آزمایشها درحال حاضر پیادهسازی کامل انجام نشدهاست اما بهمنظور پیادهسازی مناسب پروژه بهصورت زیر فازبندی شد و اکنون فاز یک درحال انجام است. **فاز اول- محاسبه درصد احتمال رخداد ماده غذایی در دستور غذایی یک کشور برای تمامی مواد غذایی** **فاز دوم - خوشه بندی** **فاز سوم - ایجاد شبکه مواد غذایی** **فاز چهارم - تقسیمبندی و بهینهسازی** # کارهای آینده ایدهای که به ذهن خود من رسید و نتوانستم روی آن در این بخش مطالعه کنم، استفاده از روش حل این مسئله برای تبلیغات اینترتی بود. یعنی تحقیق روی این مسئله که آیا سامانهای وجود دارد که باتوجه به منطقهی جغرافیایی و ... تبلیغات را محلی کند یا نه. # مراجع [1] KYUNG-JOONG KIM, CHANG-HO CHUNG, “Tell me what you eat and I will tell you where you come from : a data science approach for global recipe data on the web,” Sejong University, Seoul, 2016. [2] L. I. Kuncheva, "Combining Pattern Classifiers, Methods and Algorithms," New York, NY, USA, Wiley 2004. [3] E. Alpaydin, "Introduction to Machine Learning," Cambridge, MA, USA, MIT Press, 2009. [4] C.-Y. Teng, Y.-R. Lin, and L. A. Adamic, ‘‘Recipe recommendation using ingredient networks,’’ in Proc. 3rd Annu. ACM Web Sci. Conf., 2012, pp. 298–307. [5] Y.Ahn,S.Ahnert,J.Bagrow,andA.-L.Barabasi,‘‘Flavor network and the principles of food pairing,’’ Sci. Rep., vol. 1, Art.no. 196, Dec. 2011. [6]Princton university course, David M. Blei, COS424 [7]https://technet.microsoft.com/en-us/library/dd883232(v=sql.100).aspx