هرزنامه که معمولا تبلیغاتی هستند، ویژگیهای مشابهی دارند. مثلا آنهایی که محصولی را تبلیغ میکنند از *قیمت آن* حرف میزنند و یا میگویند که *فرصتتان چقدر استثنایی* است. حتی رنگارنگ بودن بخشهای نوشته میتواند نشان از بیارزش بودن آن باشد. از آنجایی که این نشانههای قطعی نیستند و ما هم در ایمیلهایی که برای هم میفرستیم ممکن است مثلا از قیمت حرف بزنیم، نمیتوانیم با چند قانون ساده هرزنامهها را جدا کنیم. اینجور مواقع سعی میکنیم از روی مجموعه هرزنامههای موجود یاد بگیریم که هرزنامهها چه ویژگیهایی دارند. # مقدمه با افزایش حجم اطلاعات در همه ی زمینه ها ٬ وابستگی مردم جهان به خدمات و اطلاعات موجود در وب سایتها افزایش یافته است. برای مثال ٬ پیام های الکترونیکی که به عنوان سریعترین و اقتصادی ترین راه برقراری ارتباط بین افراد هستند. متاسفانه در میان این خدمات کاربران با یکسری پیام ها ی ناخواسته ای که حتی به علایق و حیطه ی کاری آنان مرتبط نیستند و حاوی مطالب پوچ ٬ غیر اخلاقی یا حتی مخرب هستن مواجه می شوند از اهداف هرزنامه نویسان انجام کارهای مخرب و سرقت های رایانه ای ٬ سوء استفاده از اطلاعات محرمانه ی افراد فریب خورده می توان یاد کرد. # کارهای مرتبط + روش اول: + در ارسال نامه های الکترونیکی بعضی از اطلاعات فیلدهای سرایند توسط فرستنده پر می شود و برخی دیگر به صورت خودکار توسط MTA تکمیل می شوند. MTA بر اساس اطلاعات سرایند٬ نامه ی الکترونیکی را به گیرنده تحویل می دهد و سپس این عمل تحویل را در فایل syslog ثبت می نماید. که اطلاعات syslog به صورت خودکار فقط توسط MTA پر می شوند و فرستنده اجازه ی هیچ گونه تغییر در آن ها را ندارند هرزنامه نویسان برای فریب دادن ضد هرزنامه ها از اطلاعات غیر معتبر و نامربوط در فایل سرایند نامه ی الکترونیکی استفاده می کنند. در این روش اطلاعات فیلدها مانند: From, To, Date, Deliver-to, Received, Reteurn-Path بررسی می شوند و در صورت غیر معتبر یا نامربط بودن هر کدام از اطلاعات آن ها ٬ درجه ی هرزنامه بودن نامه الکترونیکی بالا می رود.منظور از غیر معتبر این است که هرزنامه نویس در فیلدهای مورد نظر اطلاعات نادرست وارد کند مثلا قسمت From را با آدرس نامشخص که به صورت تصادفی تولید شده است یا با آدرس های جعلی پر کند. اطلاعات فیلدهای فایل سرایند را به تنهایی از نظر اعتبار و صحت و قالب بندی می سنجند و نیز این اطلاعات را با اطلاعات فیلدهای همتایشان در فایل syslog از نظر سازگاری داشتن با هم مقایسه می کنند.منظور از همتا بودن این است که آن از دسته از فیلدهایی که از نظر جنس اطلاعات یکسان باشند با هم مقایسه می شوند + روش دوم: + ۱)حذف کلمات بی ارزش + ۲)ریشه یابی کلمات + ۳)استخراج ویژگی ها + ۴)کاهش ویژگی ها + ۵)ساخت مدل + ۱- حذف کلمات بی ارزش: + در این بخش از پایگاه اطلاعاتی استاندار در زمینه تشخیص هرزنامه استفاده می کنیم که شامل نامه های الکترونیک عادی و هرزنامه می باشد. ما در ابتدا سعی داریم تا با انجام روش های متفاوت کلمات بی ارزش (and,the,or,in,…) را از متن نامه ها حذف کنیم. + ۲- ریشه یابی کلمات: + بعد از حذف کلمات بی ارزش کلمات باقی مانده را ریشه یابی می کنیم و هدف این است که کلماتی که ریشه یکسانی دارند را یکان در نظر بگیریم(الگوریتم stemming) + ۳- استخراج ویژگی: + می خواهیم ویژگی های موجود در متن را پیدا کنیم و برداری از ویژگی ها را تشکیل دهیم. این بردار به این صورت ساخته می شود که بعد آن برابر با تعداد ویژگی های استخراج شده می باشد و اگر نامه الکترونیکی مربوطه ویژگی مورد نظر را داشته باشد مقدار آن ویژگی برابر با مقداری معین و در غیر این صورت مقدار ۰ را برای آن ویژگی در بردار قرار می دهیم. + ۴- کاهش ویژگی ها: + یکی از مراحل مهم در فیلتر کردن هرزنامه ها که تاثیر بسیار زیادی در عملکرد و افزایش سرعت تشخیص دارد انتخاب بهترین ویژگی ها از میان ویژگی های استخراج شده می باشد. زیرا ویژگی ها که شامل عبارات یا کلمات موجود در اسناد می شوند شامل ویژگی های بیشتری هستند که این اشکال در عملکرد الگوریتم های یادگیری تاثیر منفی دارد. بنابراین نیاز به مرحله کاهش ویژگی ها داریم به طوری که ویژگی هایی که تفاوت هرزنامه و ایمیل عادی را به درستی بیان نمی کنند حذف گردند. بنابر این در این مرحله با اعمال الگوریتم انتخاب ویژگی بر روی بردارها بهترین ویژگی ها را استخراج می کنیم و به این ترتیب بعد بردارها نیز کاهش میابد. + ۵- ساخت مدل: + در این مرحله ما می خواهیم با استفاده از ویژگی های برگزیده شده از مرحله ی قبل و اعمال الگوریتم های متفاوت طبقه بندی در داده کاوی بر روی بردارهای بدست آمده مدلی تهیه کنیم بطوری که با استفاده از آن بتوان ایمیل های هرزنامه و ایمیل های عادی را تفکیک کرد. # آزمایشها # کارهای آینده # مراجع + Liu, Bing, and Lei Zhang. "A survey of opinion mining and sentiment analysis." Mining Text Data. Springer US, 2012. 415-463. + Blanzieri, Enrico, and Anton Bryl. "A survey of learning-based techniques of email spam filtering." Artificial Intelligence Review 29.1 (2008): 63-92. + Chih-Hung Wu, “Beahavior-based detection using neural networks”, Expert Systems with Applications: An International Journal. Vol.36, Issue 3, pp4321-4330. April 2009. + http://en.wikipedia.org/wiki/information_gain. + http://encarta.msn.com/encnet/refpages/searchdetail.aspx?q=spam&pg=1&grp=art. + Cisco 2008 Annual Security Report. + http://www.civilica.com. + http://www.ranks.nl/resources/stopwords.html. + http://tartarus.org/martin/Porterstemmer. # پیوندهای مفید + [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm) + [یادگیری ماشین در پایتون](http://scikit-learn.org) + [راهنمایی برای استخراج ویژگی از متن زبان طبیعی](http://pyevolve.sourceforge.net/wordpress/?p=1589) + [ردهبندی متون با استفاده از کتابخانه Scikit-learn](http://scikit-learn.org/stable/auto_examples/document_classification_20newsgroups.html) + [UCI Spambase Data Set ](https://archive.ics.uci.edu/ml/datasets/Spambase) + [WEBSPAM-UK2007 dataset](http://chato.cl/webspam/datasets/uk2007/) + [Natual Language Processing Course - Text Classification](https://class.coursera.org/nlp/lecture/preview) + [NLTK](http://nltk.org)