دانلود پایان نامه user8189- تحقیق علمی


عضو شوید


نام کاربری
رمز عبور

:: فراموشی رمز عبور؟

عضویت سریع

نام کاربری
رمز عبور
تکرار رمز
ایمیل
کد تصویری
براي اطلاع از آپيدت شدن وبلاگ در خبرنامه وبلاگ عضو شويد تا جديدترين مطالب به ايميل شما ارسال شود




تبادل لینک هوشمند

برای تبادل لینک ابتدا ما را با عنوان پایان نامه ها و آدرس k-thesis.LXB.ir لینک نمایید سپس مشخصات لینک خود را در زیر نوشته . در صورت وجود لینک ما در سایت شما لینکتان به طور خودکار در سایت ما قرار میگیرد.







نام :
وب :
پیام :
2+2=:
(Refresh)
پرش به محتوای اصلیرفتن به نوارابزار پیشخوان خانه به‌روزرسانی‌ها 2 نوشته‌ها همه‌ی نوشته‌ها افزودن نوشته دسته‌ها برچسب‌ها بگرد و جایگزین کن! تمام گشتن ها اضافه کردن رسانه کتابخانه افزودن برگه‌ها همه‌ی برگه‌ها افزودن برگه دیدگاه‌ها 1 نمایش پوسته‌ها سفارشی‌سازی ابزارک‌ها فهرست‌ها سربرگ پس‌زمینه Random Backgrounds تنظیمات پوسته ویرایشگر افزونه‌ها افزونه‌های نصب‌شده افزودن ویرایشگر Random Banners کاربران همه کاربران افزودن شناسنامه شما ابزارها ابزارهای دردسترس درون‌ریزی برون‌بری Search & Replace تنظیمات همگانی نوشتن خواندن گفت‌و‌گو‌ها رسانه پیوندهای یکتا Shortcode any widget Auto Limit Posts Header and Footer WP Rocket XML-Sitemap Random Thumbnails کوتاه کردن پست فونت ماندگار فونت پیشخوان فونت پوسته انتقادات و پیشنهادات Related Posts تنظیمات پارسی جمع کردن فهرست درباره وردپرس پایان نامه های ایران داک 22 به‌روزرسانی پوسته 11 دیدگاه در انتظار مدیریت است تازه WP Rocket سلام 92 بیرون رفتن راهنما تنظیمات صفحه نوشته‌ی تازه Easy Image Display is supported through Patreon. If you find it useful, please consider a small donation. Thanks! | Hide Notice وردپرس پارسی فعال شد! برای کارکردن افزونه نیاز به پیکربندی آن دارید. برگه‌ی پیکربندی – بی‌خیال WP Rocket بعد از فعال یا غیرفعال سازی ویژگی یا افزونه پا کردن کش ضروری است پاک کردن کش WP Rocket: برای درست کار کردن افزونه به پیوند یکتا بروید و ساختار دلخواه را انتخاب کنید ، رفتن به پیوند یکتا عنوان را اینجا وارد کنید پیوند یکتا: http://abbas-jadidi.ir/?p=3132&preview=true تغییر پیوندهای یکتا افزودن پرونده چندرسانه‌ایدیداریمتن bilinkb-quotedelinsimgulollicodemoreبستن برچسب‌هاجهت متن سرویس وبلاگدهی وردپرسی

پایان نامه ارشد مدیریت (سایت اصلی)

نمونه سوال ارشد (تست ها)

پایان نامه ارشد حقوق (سایت اصلی)

دانلود پایان نامه ارشد -همه رشته ها

پایان نامه حسابداری (سایت اصلی)

پایان نامه ادبیات

پایان نامه برق

پایان نامه (ارشد فایل)

پایان نامه ارشد روانشناسی (بلاگ اسکای)

پایان نامه مدیریت

پایان نامه ارشد (پارسی بلاگ)

روانشناسی (لوکس بلاگ)

پایان نامه (رزبلاگ)

فروش فایل سنجش و دانش

آرتین فایل

پایان نامه (بلاگ اسکای)

پایان نامه های پارسی بلاگ 2

پایان نامه و تز (فورکیا)

پایان نامه (نیلوبلاگ)

دانلود پایان نامه ارشد مدیریت (لوکس بلاگ)

پایان نامه ارشد رشته حقوق (میهن بلاگ)

پایان نامه ارشد حقوق (بلاگ اسکای)

هما تز

دانلود پایان نامه رشته حقوق (رز بلاگ)

پایان نامه حقوق (نیلو بلاگ)

عناوین پایان نامه مدیریت

پایان نامه های حقوق (لوکس بلاگ)

پایان نامه تربیت بدنی

پایان نامه مدیریت صنعتی

پایان نامه ارشد مدیریت (بلاگ اسکای)

پایان نامه علم یار

پایان نامه روانشناسی (فورکیا)

پایان نامه ارشد

پایان نامه حقوق (رزبلاگ)

آوا فایل

دانلود پایان نامه ها (رزبلاگ 3)

دانلود متن کامل پایان نامه (رزبلاگ)

پایان نامه حقوق جزا

ارشد حقوق

بهار فایل

پایان نامه ها (پارسا بلاگ)

پایان نامه حسابداری

پایان نامه بورس

پایان نامه حسابداری دولتی

پایان نامه ها (سایت بیان)

پایان نامه مدیریت مالی

پایان نامه ارشد جغرافی (جغرافیا)

فوکا-لینک های مفید سایت دانلود

پایان نامه مدیریت انسانی

پایان نامه ارشد صنایع

پایان نامه مدیریت مالی صنعتی

پایان نامه الهیات

پایان نامه عمران

پایان نامه ارشد (میهن بلاگ)

متن کامل پایان نامه (رزبلاگ 4)

پایان نامه و تحقیق

پایان نامه مدیریت عمران

پایان نامه فرمت ورد( لوکس بلاگ)

پایان نامه ارشد ( لوکس بلاگ)

پایان نامه ارشد دانلود ( لوکس بلاگ)

دانلود پایان نامه ها (پارسا بلاگ)

پایان نامه (جوان بلاگ)

پایان نامه ارشد و کارشناسی

پایان نامه کارشناسی ارشد (لاین بلاگ)

دسترسی پایان نامه ارشد

دانلود رایگان پایان نامه

تعداد واژه‌ها: 290 پیش‌نویس در زمان 2:17:43 ب.ظ ذخیره شد. تغییر وضعیت پنل: انتشار انتشار ذخیره پیش‌نویس پیش‌نمایش (باز شدن در پنجره تازه) وضعیت: پیش‌نویس ویرایش ویرایش وضعیت نمایانی: عمومی ویرایش تغییر میدان دید انتشار فوری ویرایش ویرایش تاریخ و زمان پاک کردن کش انتقال به زباله‌دانانتشار تغییر وضعیت پنل: ساختار ساختار ساختارهای نوشته استاندارد حاشیه پیوند گفتاورد تغییر وضعیت پنل: دسته‌ها دسته‌ها همه دسته‌ها بیشتر استفاده شده پایان نامه ها دسته شماره 2 + افزودن دسته تازه تغییر وضعیت پنل: برچسب‌ها برچسب‌ها افزودن برچسب افزودن برچسب‌ها را با ویرگول لاتین (,) جدا کنید انتخاب از برچسب‌های بیشتر استفاده شده تغییر وضعیت پنل: Cache Options Cache Options Activate these options on this post: Images LazyLoad Iframes & Videos LazyLoad HTML Minification CSS Minification JS Minification شبکه تحویل محتوا Note: These options aren't applied if you added this post in the "Never cache the following pages" option. تغییر وضعیت پنل: Header and Footer Header and Footer Disable top injection Disable bottom injection سپاسگزاریم از اینکه سایت خود را با وردپرس ساخته‌اید. نگارش 4.8.1 پیوند درج شد. هیچی پیدا نشد.

دانلود پایان نامه ارشد

دانلود پایان نامه های ارشد ایران داک –مجموعه کامل پایان نامه دسترسی متن کامل پایان نامه-پایان نامه ارشد-دانلود متن کامل همه رشته ها و گرایش ها خرید و فروش پایان نامه -تحقیق-پروژه-مقاله دانلود متن کامل با فرمت ورد پایان نامه های ارشد-رشته و گرایش : ادبیات برق عمران رشته روانشناسی-مدیریت حقوق –دانلود نمونه رایگان پایان نامه

دانلود فایل user8189- پژوهش

دانلود ریسرچ user8189- مقاله ایرانداک

موضوع پایان نامه user8189- پژوهش های ارشد

Please enter banners and links.

جدول‏46: ماتریس Confusion الگوریتم Waode85جدول‏45: معیارهای ارزیابی ونتایج الگوریتم Waode85
جدول‏48: ماتریس Confusion الگوریتم Aode85جدول‏47: معیارهای ارزیابی و نتایج الگوریتم Aode86
جدول‏410: ماتریسConfusion الگوریتم Aodesr86جدول‏49: معیارهای ارزیابی ونتایج الگوریتم Aodesr 86
جدول‏412: ماتریسConfusion الگوریتم Bayesenet87
جدول‏411: معیارهای ارزیابی ونتایج الگوریتم Bayesenet87
جدول‏413: معیارهای ارزیابی ونتایج الگوریتم HNB88
جدول‏414: ماتریسConfusion الگوریتم HNB 88
جدول‏416: ماتریس Confusion الگوریتم Dmnbtext88
جدول‏415: معیارهای ارزیابی ونتایج الگوریتم Dmnbtext89
جدول‏418: ماتریسConfusion الگوریتم BaysianLogic Regression89
جدول‏417: معیارهای ارزیابی ونتایج الگوریتم BaysianLogic Regression89
جدول‏420: ماتریسConfusion الگوریتم IB193
جدول‏419: معیارهای ارزیابی و نتایج الگوریتم IB1 93
جدول‏421: معیارهای ارزیابی ونتایج الگوریتم IBK93
جدول‏422: ماتریس Confusion الگوریتم IBK94
جدول‏424: ماتریس Confusion الگوریتم LWL94
جدول‏423: معیارهای ارزیابی ونتایج الگوریتم LWL94
جدول‏426: ماتریسConfusion الگوریتم KSTAR95
جدول‏425: معیارهای ارزیابی ونتایج الگوریتم KSTAR95
جدول‏427: معیارهای ارزیابی ونتایج الگوریتم KNN95
جدول‏428: ماتریس Confusion الگوریتم KNN96
جدول‏429: معیارهای ارزیابی ونتایج شبکه MLP101
جدول‏430: ماتریس ConfusionشبکهMLP 101
جدول‏432: ماتریس Confusionشبکه Perceptrons102
جدول‏431: معیارهای ارزیابی ونتایج شبکه Perceptrons 103
جدول‏434: ماتریسConfusion الگوریتم RBF104
جدول‏433: معیارهای ارزیابی ونتایج الگوریتم RBF104
جدول‏436:ماتریسConfusion الگوریتم Neural net105
جدول‏435:معیارهای ارزیابی ونتایج الگوریتم Neural net105
جدول‏438: ماتریس Confusion الگوریتم Conjuctive rule108
جدول‏437: معیارهای ارزیابی ونتایج الگوریتم Conjuctive rule108
جدول‏439: معیارهای ارزیابی ونتایج الگوریتم decision table109
جدول‏440: ماتریسConfusion الگوریتم decision table109
جدول‏441 :معیارهای ارزیابی ونتایج الگوریتم DTNB110
جدول‏442: ماتریسConfusion الگوریتم DTNB110
جدول‏444: ماتریس Confusion الگوریتم JRIP110
جدول‏443: معیارهای ارزیابی ونتایج الگوریتم JRIP111
جدول‏445: معیارهای ارزیابی ونتایج الگوریتم ONER111
جدول‏446: ماتریس Confusion الگوریتم ONER111
جدول‏447: معیارهای ارزیابی ونتایج الگوریتم PRSIM112
جدول‏448: ماتریس Confusion الگوریتم PRSIM112
جدول‏449: معیارهای ارزیابی ونتایج الگوریتم RIDOR112
جدول‏450: ماتریسConfusion الگوریتم RIDOR113
جدول‏451: معیارهای ارزیابی ونتایج الگوریتم RULE Induction113
جدول‏452: ماتریسConfusion الگوریتم RULE Induction113
جدول‏453: معیارهای ارزیابی ونتایج الگوریتم RULE Induction single attribute114
جدول‏454: ماتریسConfusion الگوریتم RULE Induction single attribute114
جدول‏455: معیارهای ارزیابی ونتایج الگوریتم TREE by rule114
جدول‏456:ماتریس Confusion الگوریتم TREE by rule115
جدول‏457: معیارهای ارزیابی ونتایج الگوریتم part115
جدول‏758: ماتریسConfusion الگوریتم part115
جدول‏459: معیارهای ارزیابی ونتایج الگوریتم CHAID119
جدول‏460: ماتریسConfusion الگوریتم CHAID119
جدول‏461: معیارهای ارزیابی ونتایج الگوریتم DECISION TREE 119
جدول‏462: ماتریس Confusion الگوریتم DECISION TREE120
جدول‏463: معیارهای ارزیابی ونتایج الگوریتم J48120
جدول‏464: ماتریسConfusion الگوریتم J48120
جدول‏465: معیارهای ارزیابی ونتایج الگوریتم FT121
جدول‏466: ماتریس Confusion الگوریتم FT 121
جدول‏468: ماتریس Confusion الگوریتم ID3121
جدول‏467: معیارهای ارزیابی ونتایج الگوریتم ID3122
جدول‏469: معیارهای ارزیابی ونتایج الگوریتم LAD122
جدول‏470: ماتریس Confusion الگوریتم LAD122
جدول‏471: معیارهای ارزیابی ونتایج الگوریتم ADT123
جدول‏472: ماتریس Confusion الگوریتم ADT123
جدول‏473: معیارهای ارزیابی ونتایج الگوریتم BF123
جدول‏474: ماتریس Confusion الگوریتم BF123
جدول‏475:معیارهای ارزیابی ونتایج الگوریتم LMT124
جدول‏476:ماتریسConfusion الگوریتم LMT124
جدول‏477: معیارهای ارزیابی ونتایج الگوریتم J48graft124
جدول‏478: ماتریس Confusion الگوریتم J48graft125
جدول‏479: معیارهای ارزیابی ونتایج الگوریتم NB 125
جدول‏480:ماتریس Confusion الگوریتم NB125
جدول‏481:معیارهای ارزیابی ونتایج الگوریتم REEPTREE 126
جدول‏482: ماتریس Confusion الگوریتم REEPTREE126
جدول‏483: معیارهای ارزیابی ونتایج الگوریتم Simplecart126
جدول‏484:ماتریس Confusion الگوریتم Simplecart127
جدول‏485:معیارهای ارزیابی ونتایج روش Libsvm130
جدول‏486: ماتریسConfusion روش Libsvm130
جدول‏487: معیارهای ارزیابی ونتایج روش Support vector machine131
جدول‏488: ماتریس Confusion روش Support vector machine 131
جدول‏489: معیارهای ارزیابی ونتایج روش Support vector machine(linear)132
جدول‏490: ماتریسConfusion روش Support vector machine(linear)132
جدول‏491: معیارهای ارزیابی ونتایج روش Speggeous132
جدول‏492: ماتریسConfusion روش Speggeous133
جدول‏493: معیارهای ارزیابی ونتایج روش W-svm133
جدول‏494: ماتریس Confusion روش W-svm133
جدول‏495: معیارهای ارزیابی ونتایج روش Fast large134
جدول‏496: ماتریس Confusion روش Fast large134

فهرست اشکال و نمودارها
TOC \h \z \c “شکل”شکل‏21: معماری یک نمونه سیستم دادهکاوی‎‎12
شکل‏22: Wx,yوزن یال بینXو Yاست.15
شکل‏23: درخت تصمیم گیری‎‎‎‎17
شکل‏24: شبکه بیزین‎‎21
شکل‏25: شبه کد الگوریتم توالی پوشش26
شکل‏26: شبکه کد الگوریتم IB329
شکل‏27: شبکه کد مربوطذ به الگوریتمKDD 31
شکل‏28: انواع سیستم های تشخیص تقلب38
شکل‏29: معماری یک سیستم تشخیص نفوذ40
شکل‏210: چارچوب کلی دادهکاوی برای کشف تقلب‎‎52
شکل‏211: مقایسه خروجیهابااستفاده ازنمودارROC55
شکل‏212: الگوریتم استخراج شده ازدرخت تصمیم61
شکل‏213: عملکرد الگوریتم ژنتیک‎63
شکل‏214: قاعده استخراج شده ازالگورِیتم ژنتیک‎‎64
شکل‏215: توابع مربوط به الگوریتم ژنتیک ومقداردهی آنها64
شکل‏216: معماری الگوریتم ژنتیک برای تست نفوذ‎‎65
شکل‏217: خوشه بندی برایk=2‎‎‎67
شکل‏218: شناسایی دادهغیرنرمال‎‎68
شکل‏219: ترکیب دستهبندی وشناسایی غیرنرمال68
شکل‏31: معماری پیشنهاد داده شده برای تشخیص نفوذ باروش مبتنی بردادهکاوی72
شکل‏32: مدلسازی الگوریتم شبکهعصبی با نرمافزارRapidminer78
شکل‏33: مدلسازی الگوریتم مدلبیزین با نرمافزارRapidminer78
شکل‏34: مدلسازی الگوریتم درخت تصمیم با نرمافزارRapidminer79
شکل‏35: مدلسازی الگوریتم مدلقانونمحوربا نرمافزارRapidminer79
شکل‏36: مدلسازی الگوریتم مدل بردارپشتیبان با نرمافزارRapidminer80
شکل‏37: مدلسازی الگوریتم مدل کاهل بانرم افزارRapidminer80
شکل‏38: نمونهای ازخروجی نرمافزار Rapidminerباپارامترهای مختلف ارزیابی81
شکل‏41: نمودار ارزیابی الگوریتمهای مدل بیزین برحسب پارامتر درستی90
شکل‏42: نمودار ارزیابی الگوریتمهای مدل بیزین برحسب پارامتر دقت90
شکل‏43: نمودار ارزیابی الگوریتمهای مدل بیزین بر حسب پارامتر یادآوری91
شکل‏44: نمودار ارزیابی الگوریتمهای مدل بیزین برحسب پارامتر F91
شکل‏45: نمودار ارزیابی الگوریتمهای مدل بیزین برحسب پارامترهای مختلف92
شکل‏46: نمودار ارزیابی الگوریتمهای مدل کاهل برحسب پارامتر درستی96
شکل‏47: نمودار ارزیابی الگوریتمهای مدل کاهل برحسب پارامتر دقت97
شکل‏48: نمودار ارزیابی الگوریتمهای مدل کاهل برحسب پارامتر یادآوری97
شکل‏49: نمودار م ارزیابی الگوریتمهای مدل کاهل برحسب پارامتر F98
شکل‏410: نمودار مربوط به ارزیابی الگوریتمهای مدل کاهل برحسب پارامترهای مختلف98
شکل‏411: نمونه ای ازشبکهMLP100
شکل‏412: عملکرد شبکه پرسپتون102
شکل‏413: نمونه ای ازشبکهRBF103
شکل‏414:نمودار ارزیابی مدلهای شبکه عصبی برحسب پارامتر درستی105
شکل‏415: نمودار ارزیابی مدلهای شبکه عصبی برحسب پارامتر دقت106
شکل‏416: نمودار ارزیابی مدلهای شبکه عصبی برحسب پارامتر یادآوری106
شکل‏417: نمودار ارزیابی مدلهای شبکه عصبی برحسب پارامتر F107
شکل‏418: نموداره ارزیابی مدلهای شبکه عصبی برحسب پارامتر مختلف107
شکل‏419:نمودار ارزیابی الگوریتمهای مدل قانونمحور برحسب پارامتر درستی116
شکل‏420: نمودار ارزیابی الگوریتمهای مدل قانونمحور برحسب پارامتر دقت116
شکل‏421: نمودار ارزیابی الگوریتمهای مدل قانونمحور برحسب پارامتر یادآوری117
شکل‏422: نمودار ارزیابی الگوریتمهای مدل قانونمحور برحسب پارامتر F117
شکل‏423: نمودار ارزیابی الگوریتمهای مدل قانون محور برحسب پارامتر مختلف118
شکل‏424:نمودار ارزیابی الگوریتمهای مدل درخت برحسب پارامتر درستی127
شکل‏425: نمودار ارزیابی الگوریتمهای مدل درخت برحسب پارامتر دقت128
شکل‏426: نمودار ارزیابی الگوریتمهای مدل درخت برحسب پارامتر یادآوری128
شکل‏427: نمودار ارزیابی الگوریتمهای مدل درخت برحسب پارامتر F129
شکل‏428: نمودار ارزیابی الگوریتمهای مدل درخت برحسب پارامتر مختلف129
شکل‏429: نمودار ارزیابی روشهای مختلف ماشین بردارپشتیبان برحسب پارامتر درستی135
شکل‏430: نمودار ارزیابی روشهای مختلف ماشین بردارپشتیبان برحسب پارامتر یادآوری135
شکل‏431: نمودار ارزیابی روشهای مختلف ماشین بردارپشتیبان برحسب پارامتر F136
شکل‏432: نمودار ارزیابی روشهای مختلف ماشین بردارپشتیبان برحسب پارامتر دقت136
شکل‏433: نمودار ارزیابی روشهای مختلف ماشین بردارپشتیبان برحسب پارامتر مختلف 137
شکل 4-34: نمودار مربوط به مقایسه بین همه الگوریتمها بر حسب پارامترهای مختلف 137

فصل اولمقدمه و کلیات تحقیق

1-1 مقدمهاز آنجایی که از نظر تکنیکی ایجاد سیستمهای کامپیوتری بدون نقاط ضعف و شکست امنیتی عملا غیر ممکن است. تشخیص نفوذ در سیستمهای کامپیوتری با اهمیت خاصی دنبال میشود. سیستمهای تشخیص نفوذ سختافزار یا نرمافزاری است که کار نظارت بر شبکه کامپیوتری را در مورد فعالیتهای مخرب و یا نقص سیاستهای مدیریتی و امنیتی را انجام میدهد و گزارشهای حاصله را به بخش مدیریت شبکه ارائه میدهد REF _Ref373695584 \r \h \* MERGEFORMAT ‎[1]. سیستمهای تشخیص نفوذ وظیف شناسایی و تشخیص هر گونه استفاده غیر مجاز به سیستم، سوء استفاده و یا آسیب رسانی توسط هر دودسته کاربران داخلی و خارجی را بر عهده دارند. هدف این سیستمها جلوگیری از حمله نیست و تنها کشف و احتمالا شناسایی حملات و تشخیص اشکالات امنیتی در سیستم یا شبکهکامپیوتری و اعلام آن به مدیر سیستم است. عموما سیستمهای تشخیص نفوذ در کنار دیوارهای آتش و بصورت مکمل امنیتی برای آنها مورد استفاده قرار میگیرد. سیستم های تشخیص نفوذ ستنی نمیتوانند خود را با حملات جدید تطبیق دهند از این رو امروزه سیستم های تشخیص نفوذ مبتنی بر دادهکاوی مطرح گردیدهاند REF _Ref373695584 \r \h \* MERGEFORMAT ‎[1]. مشخص نمودن الگوهای در حجم زیاد داده، کمک بسیار بزرگی به ما میکند. روشهای دادهکاوی با مشخص نمودن یک برچسب دودویی (بسته نرمال، بسته غیرنرمال) و همچنین مشخص نمودن ویژگیها و خصیصه با الگوریتمهای دسته بندی میتوانند داده غیرنرمال تشخیص دهند. از همین رو دقت و درستی سیستم های تشخیص نفوذ افزایش یافته و در نتیجه امنیت شبکه بالا میرود REF _Ref373695584 \r \h \* MERGEFORMAT ‎[1].
در این پایاننامه سعی شده است با استفاده از روشهای مبتنی بر دادهکاوی سیتم های تشخیص نفوذ پیشنهاد کنیم که از این روشها برای شناسایی و کشف حملات استفاده میکنند. در این روش ما تمامی الگوریتمهای موجود را شبیهسازی نموده و در خاتمه بهترین الگوریتم را پیشنهاد مینماییم. نوآوری اصلی در این پایاننامه، استفاده از الگوریتمهای مدل کاهل و مدل قانونمحور در دادهکاوی است که تاکنون برای سیستمهای تشخیصنفوذ استفاده نشده است. همچنین استفاده از تمام الگوریتمهای موجود در روشهای دستهبندی است که در نرم افزار WEKA و Rapidminer موجود است[67]. پیشنهاد 5 نمونه داده که از داده اولیه استخراج شده و برای مدلهای مختلف و الگوریتمها بهترین جواب را میدهد از نوآوری این پایاننامه است. استخراج 5 نمونه داده وقت بسیار زیادی به خود اختصاص داده وهمه الگوریتمهای مختلف موجود در مدلهای دستهبندی با مجموعه دادههای مختلف شبیهسازی و اجرا شدند که در نهایت 5 نمونه داده اولیه پیشنهاد نمودهایم.
1-2 بيان مسئلهدر دنیای امروز، کامپیوتر و شبکههای کامپیوتری متصل به اینترنت نقش عمدهای در ارتباطات و انتقال اطلاعات ایفا میکند. در این بین افراد سودجو با دسترسی به اطلاعات مهم مراکز خاص یا اطلاعات افراد دیگر و با قصد اعمال نفوذ یا اعمال فشار و یا حتی به هم ریختن نظم سیستمها، به سیستم های کامپیوتری حمله میکنند. بنابراین لزوم حفظ امنیت اطلاعاتی و حفظ کارآیی در شبکههای کامپیوتری که با دنیای خارج ارتباط دارند، کاملا محسوس است.
مكانیزم‌های امنیتی به 2 گروه كلی محافظتی و مقابله‌ای تقسیم‌بندی می‌شوند. مكانیزم‌های محافظتی سعی می‌كنند از اطلاعات و سیستم در مقابل حملات محافظت كنند. مكانیزم‌های مقابله‌ای هم برای مقابله با حمله تدارك دیده شده‌اند.REF _Ref373695584 \r \h‎[1] سیستم‌های تشخیص نفوذ مطابق تعریف مؤسسه ملی استانداردها و تكنولوژی‌های آمریكا، فرایندی هستند كه كار نظارت بر رویدادهایی كه در شبكه و سیستم رخ می‌دهد و همچنین كار تحلیل رویدادهای مشكوك را برای به‌دست آوردن نشانه نفوذ، بر عهده دارند.
1-3 اهميت و ضرورت تحقيقهدف از این پایاننامه استفاده از روشهای مبتنی بر دادهکاوی برای تشخیص نفوذ است زیرا حملات همواره بروز میشوند و سیستمهای تشخیص نفوذ ستنی نمیتوانند این حملات شناسایی کنند. وقتی نفوذ اتفاق میافتد مهمترین کار شناسایی است. رخداد مربوط به نفوذ در هر زمان مرتبط به الگویی ازاتفاقات است که در گذشته رخ داده است. این دادههای تاریخی منبع بسیار مهمی از صفات هستند که نیاز هست تا بطور موثر علامت و نشانه های نفوذ در مجموعه دادهها مشخص شود. دادهکاوی با كشف الگوهای مناسب از میان دادههای قبلی به روند ساخت این مدل ها كمك شایانی میكند. در این روش مجموعهای از قانونهای دستهبندی از دادههای شبکه بدست میآید. این قانونها توانایی تعیین رفتار عادی از غیر عادی را دارا میباشند. این پایاننامه با استفاده از مجموعه داده DARPA مورد ارزیابی قرار گرفته است. هدف اصلی این پایاننامه معرفی بهترین الگوریتم با توجه به مجموعه دادهها است. که بتواند بسته های عادی را از غیر عادی تشخیص دهد. .نوآوری اصلی در پایاننامه، استفاده از الگوریتمهای مدل کاهل و مدل قانونمحور است که تاکنون برای سیستمهای تشخیصنفوذ استفاده نشده است. همچنین استفاده از تمام الگوریتمهای مجود در روشهای دستهبندی است که در نرم افزار WEKA و Rapidminer موجود است. و پیشنهاد 5 نمونه داده که از داده اولیه استخراج شده و برای مدلهای مختلف و الگوریتمها بهترین جواب را میدهد. استخراج 5 نمونه داده وقت بسیار زیادی به خود اختصاص داده وهمه الگوریتمهای مختلف موجود در مدلهای دستهبندی با مجموعه دادههای مختلف شبیهسازی و اجرا شدند که در نهایت 5 نمونه داده اولیه پیشنهاد نمودهایم.
1-4 اهداف تحقيقشناسایی داده نرمال و غیرنرمال با استفاده از روشهای دادهکاوی
استخراج مجموعه دادههای متعدد برای ارزیابی بهتر شبیهسازی
بررسی تمام روشهای موجود در دادهکاوی برای تشخیص نفوذ
مقایسه بین تمام الگوریتمهای موجود در هر مدل
عدم روشی موجود برای بررسی تمام الگوریتمها و مقایسه آنها
استفاده از پارامترهای متعدد ارزیابی
1-5 تعاريف و اختصارنفوذ
نفوذ به عملیاتی اطلاق می‌شود كه تلاش میكند برای دسترسی غیر مجاز به شبكه یا سیستم های كامپیوتری از مكانیسم امنیتی سیستم عبور كند. این عملیات توسط نفوذ كننده گان خارجی و داخلی انجام میشود.
سیستم های تشخیص نفوذ
سیستم تشخیص نفوذ، برنامه‌ای ‌است كه با تحلیل ترافیك جاری شبكه یا تحلیل تقاضاها سعی در شناسایی فعالیتهای نفوذگر می‌نماید و در صورتی كه تشخیص داد ترافیك ورودی به یك شبكه یا ماشین، از طرف كاربر مجاز و عادی نیست بلكه از فعالیتهای یك نفوذگر ناشی می‌شود، به نحو مناسب به مسئول شبكه هشدار داده یا واكنش خاص نشان می‌دهد.
دادهکاوی
داده کاوی عبارتست از فرآیند یافتن دانش از مقادیر عظیم داده های ذخیره شده در پایگاه داده، انباره داده ویا دیگر مخازن اطلاعات
مدل بیزین
مدل بیزین نوعی از یادگیری با نظارت است که عضویت در یک دسته را با توجه به مقدار احتمال اینکه یک رکورد به کدام دسته تعلق دارد مشخص مینماید.
شبکه عصبی
شبکه عصبی نوعی از یادگیری با نظارت است که از مجموعه ای پیوسته از واحدهای ورودی خروجی وزندار تشکیل شده است. در طی مراحل یادگیری شبکه وزنها را بطور دقیق مقدار دهی مینماید یا عضویت هر داده ورودی در دسته را مشخص نماید.
درخت تصمیم
درخت تصمیم نوعی از یادگیری با نظارت است که از ساختاردرخت برای مشخص کردن عضویت در دسته استفاده میکند. برگها نوع دسته ها و نود میانی حالات مختلف رسیدن تا جواب نهایی را نشان میدهد.
مدل کاهل
مدل کاهل نوعی از یادگیری با نظارت است که روش مبتنی بر نمونه نیز نامیده میشود. در واقع مدلی از دادهها ساخته نمیشود و یادگیری تا زمان دسته بندی به تعویق میافتد و زمان زیادی صرف دستهبندی میشود.
ماشین بردار پشتیبان
ماشین بردار پشتیبان نوعی از یادگیری با نظارت است که هم در دادههای خطی و هم غیر خطی کاربرد دارد. مبنای آن استفاده از دادههای خطی است و دادههای غیر خطی را به خطی تبدیل مینماید.
مدل قانونمحور
مدل قانونمحور نوعی از یادگیری با نظارت است است که نتایج بصورت قوانین if-then نشان میدهد. بخش بعد از if شرطها و بخش then جواب نهایی مشخص مینماید.
1-6 ساختار پاياننامهساختار پایاننامه در پنج فصل بصورت زیر ساماندهی شده است:
در فصل اول به شرح کلیات تحقیق از جمله تبین موضوع تحقیق، ضرورت انجام طرح، اهداف و فرضیات مسئله میپردازیم. در فصل دوم به ادبیات، مبانی نظری و پیشینه تحقیق پرداخته شده است. سپس روش انجام طرح بصورت تفصیلی در فصل سوم شرح داده شده است. در فصل چهارم روش پیشنهادی پیادهسازی شد و نتایج حاصل مورد ارزیابی قرار گرفت. در آخرین فصل از فصول پنجگانه نتیجه تحقیق و پیشنهاداتی برای کارهای آینده عنوان شده است.
فصل دومادبیات و پیشینه تحقیق

2-1 دادهکاویدادهکاوی را می توان حاصل سیر تکاملی طبیعی تکنولوژی اطلاعات دانست، که این سیر تکاملی ناشی از یک سیر تکاملی در صنعت پایگاهداده میباشد. نظیر عملیات جمعآوری دادهها وایجاد پایگاه داده، مدیریت داده و تحلیل و فهم دادهها.
دراینجا تعریفی از دادهکاوی ارائه میدهیم:
“دادهکاوی عبارتست از فرآیند یافتن دانش از مقادیر عظیم دادههای ذخیره شده در پایگاهداده، انباره داده ویا دیگر مخازن اطلاعات”[2].
بر اساس این دیدگاه یک سیستم دادهکاوی به طور نمونه دارای اجزاء اصلی زیر است که شکل 2-1 بیانگر معماری سیستم است.بنابراین دادهکاوی به عنوان یکی از شاخههای پیشرو در صنعت اطلاعات مورد توجه قرار گرفته و به عنوان یکی از نوید بخشترین زمینههای توسعه بین رشته ای در صنعت اطلاعات است.
2-1-1دستهبندیدر مسائل دستهبندی هدف شناسایی ویژگیهایی است که گروهی را که هر مورد به آن تعلق دارد را نشان دهند. از این الگو میتوان هم برای فهم دادههای موجود و هم پیشبینی نحوه رفتار داده جدید استفاده کرد.

شکل 2-1: معماری یک نمونه سیستم دادهکاوی REF _Ref373614574 \r ‎[3]
دادهکاوی مدلهای دستهبندی را با بررسی دادههای دستهبندی شده قبلی ایجاد میکند و یک الگوی پیشبینی کننده را بصورت استقرایی ایجاد مینماید. این موارد موجود ممکن است از یک پایگاه داده تاریخی آمده باشندREF _Ref373615136 \r \h‎[5].
2-2مدلها و الگوريتمهای دادهکاویدر این بخش قصد داریم مهمترین الگوریتمها و مدلهای دادهکاوی را بررسی کنیم. بسیاری از محصولات تجاری دادهکاوی از مجموعه از این الگوریتم ها استفاده میکنند و معمولا هر کدام آنها در یک بخش خاص قدرت دارند و برای استفاده از یکی از آنها باید بررسی های لازم در جهت انتخاب متناسبترین محصول توسط گروه متخصص در نظر گرفته شود.نکته مهم دیگر این است که در بین این الگوریتم ها و مدل ها ، بهترین وجود ندارد و با توجه به دادهها و کارایی مورد نظر باید مدل انتخاب گردد.
2-2-1 شبکههای عصبیهر شبکه عصبی شامل یک لایه ورودیمیباشد که هر گره در این لایه معادل یکی از متغیرهای پیشبینی میباشد. گرههای موجود در لایه میانی به تعدادی گره در لایه نهانوصل میشوند. هر گره ورودی به همه گرههای لایه نهان وصل میشود.
گرههای موجود در لایه نهان میتوانند به گرههای یک لایه نهان دیگر وصل شوند یا میتوانند به لایه خروجیوصل شوند.
لایه خروجی شامل یک یا چند متغیر خروجی می باشد
هر یال که بین نود هایX,Y میباشد دارای یک وزن است که با Wx,y نمایش داده میشود. این وزن ها در محاسبات لایههای میانی استفاده میشوند و طرز استفاده آنها به این صورت است که هر نود در لایههای میانی (لایههای غیر از لایه اول) دارای چند ورودی از چند یال مختلف میباشد که همانطور که گفته شد هر کدام یک وزن خاص دارند.
هر نود لایه میانی میزان هر ورودی را در وزن یال مربوطه آن ضرب میکند و حاصل این ضربها را با هم جمع میکند و سپس یک تابع از پیش تعیین شده (تابع فعالسازی) روی این حاصل اعمال میکند و نتیجه را به عنوان خروجی به نودهای لایه بعد میدهد.
وزن یالها پارامترهای ناشناختهای هستند که توسط تابع آموزش و دادههای آموزشی که به سیستم داده میشود تعیین میگردند.
تعداد گرهها و تعداد لایههای نهان و نحوه وصل شدن گرهها به یکدیگر معماری(توپولوژی) شبکه عصبی را مشخص میکند.کاربر یا نرم افزاری که شبکهعصبی را طراحی میکند باید تعداد گرهها ، تعداد لایههای نهان ، تابع فعالسازی و محدودیتهای مربوط به وزن یالها را مشخص کند[3].

شکل 2-2: Wx,yوزن یال بین X و Y است[3].
از مهمترین انواع شبکههای عصبی شبکه انتشار به جلو و شبکه انتشار به عقب میباشد که در اینجا به اختصار آنرا توضیح میدهیم.
انتشار به جلو به معنی این است که مقدار پارامتر خروجی براساس پارامترهای ورودی و یک سری وزن های اولیه تعیین می گردد. مقادیر ورودی با هم ترکیب شده و در لایههای نهان استفاده میشوند و مقادیر این لایههای نهان نیز برای محاسبه مقادیر خروجی ترکیب می شوند[3].
انتشار به عقب خطای خروجی با مقایسه مقدار خروجی با مقدار مد نظر در دادههای آزمایشی محاسبه می گردد و این مقدار برای تصحیح شبکه و تغییر وزن یالها استفاده میگردد و از گره خروجی شروع شده و به عقب محاسبات ادامه می یابد.
این عمل برای هر رکورد موجود در بانک اطلاعاتی تکرار می گردد.
به هر بار اجرای این الگوریتم برای تمام دادههای موجود در بانک یک دوره گفته می شود. این دوره ها آنقدر ادامه می یابد که دیگر مقدار خطا تغییر نکند[3].
2-2-2درخت تصميمدرختهای تصمیم روشی برای نمایش یک سری از قوانین هستند که منتهی به یک رده یا مقدار میشوند.
یکی از تفاوتها بین متدهای ساخت درخت تصمیم این است که این فاصله چگونه اندازهگیری میشود. درختهای تصمیمی که برای پیشبینی متغیرهای دستهای استفاده میشوند، درختهای دستهبندی نامیده میشوند زیرا نمونهها را در دستهها یا ردهها قرار میدهند. درختهای تصمیمی که برای پیشبینی متغیرهای پیوسته استفاده میشوند درختهای رگرسیون نامیده میشوند[3].

شکل 2-3: درخت تصمیمگیری REF _Ref373614574 \r ‎[3]
الگوریتمهای یادگیری درخت تصمیم:
اغلب الگوریتمهای یادگیری درخت تصمیم بر پایه یک عمل جستجوی حریصانه بالا به پائین در فضای درختهای موجود عمل میکنند.
در درخت تصمیم ID3 از یک مقدار آماری به نام بهره اطلاعات استفاده می شود تا اینکه مشخص کنیم که یک ویژگی تا چه مقدار قادر است مثالهای آموزشی را بر حسب دستهبندی آنها جدا کند[4].
آنتروپی:
میزان خلوص (بی نظمی یا عدم خالص بودن) مجموعهای از مثالها را مشخص میکند. اگر مجموعه S شامل مثالهای مثبت و منفی از یک مفهوم هدف باشد آنتروپیS نسبت به این دسته بندی بولی بصورت رابطه 2-1 تعریف می شودREF _Ref373604892 \r \h‎[4].
رابطه 2-1
Entropys=-p+*log2p+-p-*log2p-بهره اطلاعات:
بهره اطلاعات یک ویژگی عبارت است از مقدار کاهش آنتروپی که بواسطه جداسازی مثالها از طریق این ویژگی حاصل میشود.
به عبارت دیگر بهره اطلاعات Gain(S,A) برای یک ویژگی نظیر A نسبت به مجموعه مثالهایS بصورت رابطه 2-2 تعریف میشود:
رابطه 2-2 Informationgain=Entropys-v∈ValuesAsvs*Entropysکه در آن Values(A) مجموعه همه مقدار ویژگیهایA بوده و SVزیرمجموعه ای از S است که برای آن A دارای مقدار V است.
در تعریف فوق عبارت اول مقدار آنتروپی دادهها و عبارت دوم مقدار آنتروپی مورد انتظار بعد از جداسازی دادههاست[4].
درختان رگرسیون:
وظیفه یادگیری در درختان رگرسیون، شامل پیش بینی اعداد حقیقی بجای مقادیر دستهای گسسته است. که این عمل را با داشتن مقادیر حقیقی در گرههای برگ خود نشان میدهند. بدین صورت که میانگین مقادیر هدف نمونههای آموزشی را در این گره برگ بدست میآورند. این نوع از درختان، تفسیر آسان داشته و می توانند توابع ثابت تکه ای را تقریب بزنند.
نسخه پیچیدهتر درختان رگرسیون، درختان مدل هستند که عمل رگرسیون را با داشتن مدل خطی در گرههای داخلی یا پایانی نشان میدهند به عبارت بهتر هر گره، توابع رگرسیون خطی دارند. بعداز اینکه درخت رگرسیون کامل ساخته شد، عمل رگرسیون خطی به نمونههای ی که به این گره رسیده اند اعمال میشود و فقط از یک زیرمجموعه از صفات، صفاتی که در زیردرخت دیده خواهند شد برای این کار استفاده میشوند. به دلیل استفاده از زیرمجموعه ای از صفات در هر گره، سربار عمل رگراسیون خطی زیاد نخواهد شد[3].
2-2-3 روش طبقهبندی بيزين2-2-3-1 بيز سادهفرض کنید A1 تاAn ویژگیهایی با مقادیر گسسته باشند این مقادیر برای پیشبینی یک کلاس گسسته C بکار میروند .هدف ما پیش بینی و انتخاب دستهای است که رابطه 2-3 ماکزیمم شود.
رابطه 2-3 PC=c|A1∪A2∪A3∪….∪Anبا استفاده از قانون بیزین رابطه 2-4 را داریم:
رابطه 2-4 =PA1=a1∪….∪An=an|C=c*p(C=c)PA1=a1∪….∪An=an که مخرج کسر برای تصمیمگیری بی تاثیر است زیرا که برای همه مقادیرC یکسان است از طرفی با توجه به استقلال مجموعه ویژگیها رابطه 2-5 را خواهیم داشت:
رابطه 2-5 PA1=a1∪….∪An=an|C=c=PA1=a1C=c*….*pAn=an|C=cدر کل برای مسایل طبقه بندی اگر C به عنوان صفت شاخص در نظر بگیریم هدف حداکثر کردن مقدارpX|Ci*pCi است که x صفات دیگر هستند. از مزایای بیز ساده اجرای راحت و نتایج خوب برای بسیار کاربردهاست و از معایب آن میتوان گفت که شاید همه ویژگیها ازهم مستقل نباشند و وابستگی وجود دارد که در این مورد مدل ضعیف است[4].
2-3-2-2 شبکههای بيزينشبکههای بیزی وابستگیهای شرطی بین متغیرها (ویژگیها) را شرح میدهد. با استفاده از این شبکهها دانش قبلی در زمینه وابستگی بین متغیرها با دادههای آموزش مدل طبقه بندی، ترکیب میشوند. شکل 2-4 یک نمونه شبکه بیزین را نمایش میدهد.
شکل 2-4: شبکه بیزین [4]
مفاهيم اساسی شبکه بيزيندر شبکه بیزین، گرهها، متغیرهایی هستند که هر کدام مجموعه مشخصی از وضعیتهای دوبه دو ناساگاز دارند. کمان ( یال) نشان دهنده وابستگیهای متغیرها به یکدیگر میباشد. برای هر گره توزیع احتمال محلی وجود دارد که به گره وابسته ‌است و از وضعیت والدین مستقل می‌باشد.
فرض مهم در روش بیز ساده استقلال شرطی طبقهها از یکدیگر است اما در عمل این وابستگی بین متغیرها وجود دارد. شبکههای احتمالی بیزین این نوع احتمالها را بررسی میکند. یک شبکه بیزی از دو بخش گراف غیر حلقوی و احتمالهای شرطی تشکیل شده است اگر کمانی از Y به Z وصل شود بدین معناست که Y پدر Z است. هر کمان دانش علل و معلولی بین متغیرهای مرتبط نشان میدهد. هر متغیر A با والدینBn , .. .. ,B2 ,B1 یک جدول احتمال شرطی وجود دارد در این جدول برای هر متغیر رابطه آن با والدینش در نظر گرفته میشود[4].
فرض کنید دادهx با ویژگیx1,x2,…xn است در این صورت رابطه 2-6 احتمال شرطی با توجه به وابستگی بین متغیرها نشان میدهد.
رابطه 2-6 px1,x2,..,xn=i=1npxi|parentsyi2-2-4 مدل قانونمحوردسته بندی با روش قانونمحور:
قوانین راه خوبی برای نشان داده یکسری اطلاعات است. یک دسته بندی قانون محور از مجموعهای از قانون if-then برای دسته بندی استفاده میکند.یک قاعده if-then بصورت زیر میباشد:
If condition then conclusion
که بخش if را پیش شرط و بخش then را نتیجه میگوییم.
هر قانون بوسیله دو معیار پوشش و درستی مورد ارزیابی قرار میگیرد.برای مجموعه داده D معیار یوشش قانون R به صورت رابطه 2-7 و درستی قانون R به صورت رابطه 2-8 تعریف میشود :
رابطه 2-7 CoverageR=ncoverDرابطه 2-8 accuracyR=ncorrectncoverکهD تعداد کل رکوردها و ncover تعداد رکوردهایی که توسط قانون R پوشش داده میشوند و ncorrect تعداد رکوردها پوشش داده شدهای است که بطور درست توسط R دسته بندی شدهاند.
اگر یک رکورد بوسیله چندین قانون ارضا شود تداخل پیش می آید که از قانون ترتیب اندازه یا ترتیب قانون بر طرف میشود.
ترتیب اندازه: قانونی انتخاب میشود که تعداد خصوصیت بیشتری را در برگیرد.
ترتیب قانون: قانونها از قبل به دو روش مبتنی بر قانون یا کلاس دسته بندی اولویتبندی میشوند. در روش مبتنی بر قانون، یک لیست اولویت دار از قوانین ساخته میشود که در آن قوانین بر پایه درستی، پوشش و تعداد صفات که در برمیگردند اولویت بندی میشوند.
در روش مبتنی بر کلاس، کلاسها بطور نزولی بر پایه اهمیت(تعداد تکرار) مرتب میشوند. بنابراین قانون با بیشترین تکرار همیشه در اول میآید و انتخاب میشود REF _Ref373604892 \r \h ‎[4].
الگوریتم های قانونمحور:
وش مستقیم: در این روش قانون IF-THEN بصورت مستقیم از دادهها بدون تولید درخت تصمیم با استفاده از الگوریتم توالی پوششبدست میآید. الگوریتم های مشهور مانندAQ،RIPPER و CN2 است. در شکل 2-5 شبه کد مربوط به الگوریتم توالی پوشش آمده است.
معیار توقف الگوریتم: برای توقف الگوریتم از معبارهای زیر استفاده میکنند در اینجا ابتدا به معرفی چند پارامتر میپردازیم:
اگر R بصورت
R: IF Condition then class=c
R´ بصورت زیر تعریف میشود
R: IFCondition´ then class=c
Pos: تعداد رکوردهایی که بطور صحیح توسط R پوشش داده شده است.
Neg: تعداد رکوردهایی که بطور غلط توسط R پوشش داده شده است.
pos´: تعداد رکوردهایی که بطور صحیح توسطR´ پوشش داده شده است.
neg´: تعداد رکوردهایی که بطور غلط توسطR´ پوشش داده شده است.
رابطه 2-9 FOILGAIN=pos´*log2pos´-neg´pos´-log2pos-negposو رابطه 2-10 Likehood_Ratio=2*i=1mlogfieifiاگر قانون بطور اتفاقی پیش بینی شود fi تعداد تکرار کلاس i میان رکوردهاست و ei مقدار مورد انتظار کلاس i است.
Cn2 از روشlikedhooh_ratio و RIPPER از FOIL برای خاتمه الگوریتم استفاده میکند[4].
روش غیر مستقیم: استخراج قوانین از روش های دسته بندی مانند درخت تصمیم
در مقایسه با درخت تصمیم بزرگ قوانین برای انسان راحتتر قابل فهم است برای ساختن قوانین از درخت تصمیم ما هر مسیر از ریشه تا برگ را پیمایش میکنیم. معیار جدا کننده نودها برای رسیدن تا برگ AND است و برگ نتیجه نگه میدارد که قبلش برگThen میآید. در اینجا شرط انحصار متقابل برقرار است و هیچ دو قانونی یک رکورد را ارضا نمیکند[4].

شکل 2-5: شبکه کد الگوریتم توالی پوشش [4]
2-2-5 مدل کاهلدر یک نگاه کلی میتوان دستهبندی را به دو گروه مشتاق و کاهل تقسیم کرد در نوع مشتاق، مدلی از دادهها در مرحله آموزش ساخته میشوند. درخت تصمیم نمونهای از این مدل است. در مدل کاهل نمونههای آموزشی دریافت و ذخیره شده و تنها هنگام دستهبندی از آن استفاده میشود. در واقع مدلی از دادهها ساخته نمیشود و یادگیری تا زمان دسته بندی به تعویق میافتد. به این نوع دسته بندی، یادگیری مبتنی بر نمونه میگوییم.
تفاوت بین این دو مدل در این است که نوع مشتاق زمان زیادی صرف ساخت مدل کرده و در زمان دسته بندی سریع عمل میکند و نوع کاهل زمان بیشتری صرف دسته بندی میکند[4].
در ادامه به بررسی الگوریتمهای مدل کاهل میپردازیم.
2-2-5-1 روش نزديکترين همسايگیاین الگوریتم از سه گام زیر تشکیل شده است:
محاسبه فاصله نمونه ورودی با تمام نمونههای آموزشی
مرتب کردن نمونههای آموزشی بر اساس فاصله و انتخاب k همسایه نزدیکتر
استفاده از دستهای که اکثریت را در همسایههای نزدیک، به عنوان تخمینی برای دسته نمونه ورودی دارد.
در گام اول روش نزدیکترین همسایگی، باید فاصله نمونه ورودی با تمام نمونه آموزشی محاسبه شود. برای انجام این کار باید فاصله بین دو نمونه تعریف شد که با فرض اینکه نمونه x دارایi ویژگی است بصورت زیر تعریف میشود.
رابطه2-11 distx1,x2=i=1nx2i-x2iK همسایه نزدیکتر انتخاب شده و دستهای که دارای اکثریت است داده جدید آموزشی به آن تعلق میگیرد.REF _Ref373604892 \r \h‎[4]
2-2-5-2 الگوريتمهايی برای اطمينان از عدم وجود داده مغشوشدر الگوریتم که قبلا گفتیم اگر مقدار k بسیار بزرگ باشد داده مغشوش تاثیر زیادی بر نتیجه ندارد. اما پیدا کردن k مناسب خود چالش بزرگی است در زیر به معرفی الگوریتمهایی میپردازیم که مبتنی بر این فرض هستند که نمونههایی را که کارایی خوبی برای دستهبندی دارند در مجموعه آموزشی نگه میدارند[4].
الگوریتم IB3 :
این الگوریتم در واقع یک پیش پردازش روی دادههای آموزشی است که در واقع اگر T مجموعه آموزشی باشد در واقع زیر مجموعه ای از آن s را نگه میداریم
در شکل 2- 6 شبکه کد الگوریتم IB3 آمده است.

شکل 2-6: شبکه کد الگوریتم [4] IB3
افزودن و حذف عناصر S با توجه به نرخ موفقیت نمونه و نرخ موفقیت پیش فرض آن صورت میگیرد.
نرخ موفقیت نمونه بصورت زیر تعریف میشود
رابطه 2-12 p=f+z22N+zfN-f2N-z24N21+z2Nدر این رابطه مقدار z از جدول مربوط به توزیع نرمال بدست میآید. متغیر f دقت دسته بندی در N بار امتحان استREF _Ref373604892 \r \h‎[4].
2-2-5-3 روش K-Dtreeمشکل الگوریتمهای بالا سرعت کم است که با تعداد نمونه آموزشی رابطه مستقیم دارد به عبارتیO(D) است اگر اندازه مجموعه آموزشیD باشد. برای جل این مشکل از روش K-Dtree استفاده میکنیم. این روش از روی نمونههای آموزشی درختی میسازد که گرههای آن نمونهها هستند.K ، تعداد ویژگیها است. در واقع نمونهها را به عنوان نقاطی در فضای k بعدی در نظر میگیرد. این درخت دودوی ی فضای ورودی را به بخشهای ی افراز میکند. روال کلی بدین صورت است که در هر مرحله یک ویژگی انتخاب شده و بر اساس آن تقسیم بندی مجدد انجام میشود. تمام تقسیمات موازی بوده و در نهایت هر ناحیه دارای حداکثر یک نقطه است[4].
شبه کد الگوریتم K-Dtreeدر شکل 2-7 آمده است. در این الگوریتم بازگشتی، در هر مرحله یک ویژگی به تناوب و با توجه به عمق انتخاب میشود. میانه حول آن محاسبه شده و نهایتا روال بصورت بازگشتی برای نقاط سمت چپ و راست میانه و با افزایش عمق فراخوانی میشود در واقع این روش یک روش شاخصگذاری برای جستجوی سریع است.REF _Ref373604892 \r \h‎[4]
6159522860000
شکل 2-7: شبکه کد مربوط به الگوریتم KDD [4]

2-2-6ماشين بردارپشتيبانماشین بردارپشتیبان در دسته بندی دادههای خطی و هم غیرخطی کاربرد دارد. در دستهبندی غیرخطی، این الگوریتم از یک نگاشت غیر خطی برای تبدیل دادههای اصلی به ابعاد بالاتر استفاده میکند. در بعد جدید از یک بهینه خطی برای جداسازی ابر صحفه استفاده میکند. دادهها از دو کلاس، همیشه توسط یک ابرصفحه جدا شده میشوند.ماشین بردار پشتیبان ابرصحفه را با استفاده از بردار پشتیبان(داده آموزشی) و حاشیه (توسط بردار پشتیان تعریف میشود) ایجاد میکند.REF _Ref373604892 \r \h \* MERGEFORMAT ‎[4]
2-2-6-1 دادهها بطور خطی جدا پذير هستندمجموعه داده D بصورت x1,y1,x2,y2,..,xD,yDکه xi مجموعه داده آموزشی همراه با برچسب، و y یکی از دو مقدار +1 و -1 است. ما نیازبه خطی داریم که مقادیر y از هم جدا و بهترین باشد. چون داده خطی است میتوان گفت که کوتاهترین فاصله از ابرصفحه به یک طرف حاشیه آن برابر است با کوتاهترین فاصله از ابرصفحه به طرف دیگر از حاشیه آن، هدف پیدا کردن ابرصفحه جداکننده با بیشترین فاصله از نقاط حاشیهای است که نقاط با yi=1 را از نقاط باyi=-1 جدا کند. REF _Ref373604892 \r \h ‎[4]
هر ابر صحفه میتواند بصورت رابطه 2-13 تعریف شود
رابطه 2-13 W.x+b=0
که w بردار وزنها وn تعداد صفات و b یک عدد است اگرb به عنوان یک وزن اضافی در نظر بگیریم معادله بصورت رابطه 2-14 است.
رابطه 2-14 w0+w1x1+w2x2=0اگر این نقطه بالا جدا کننده ابر صحفه باشد معادله بصورت رابطه 2-15 است.
رابطه 2-15 w0+w1x1+w2x2>0اگر این نقطه پایین جدا کننده ابر صحفه باشد معادله بصورت رابطه 2-16 است
رابطه 2-16 w0+w1x1+w2x2<0وزن را می توان طوری تنظیم کرد به طوری که دارای مقدار حاشیه ماکزیمم شود رابطه 2-15 و 2-16 را میتوان بصورت رابطه 2-17 و 2-18 نِز نشان داد.
رابطه 2-17 H1:w0+w1x1+w2x2>1 for yi=+1رابطه 2-18 H2:w0+w1x1+w2x2>-1foryi=-1با ترکیب این دو رابطه 2-17 و 2-18 نامساوی 2-19 را داریم
رابطه 2-19 yiw0+w1x1+w2x2≥1 ∀iرکوردهای آموزشی که در ابرصفحه تعریف میشوند و در نامساوی بالا صدق میکنند بردار پشتیبانی نامیده می شود. اگر داده های آموزشی جدایی پذیر خطی باشند، ما می توانیم دو ابر صفحه در حاشیه نقاط به طوری که هیچ نقطه مشترکی نداشته باشند، در نظر بگیریم و سپس سعی کنیم فاصله بین آنها ماکسیمم شود. با استفاده از هندسه، فاصله این دو صفحه 2wا است. بنابر این ما باید w را مینیمم کنیم که حل این مسئله با ضرایب لاگرانژ یا مسئله دو گان قابل حل استREF _Ref373604892 \r \h \* MERGEFORMAT ‎[4].
2-2-6-2 دادهها خطی نيستنددر این حالت ما مدل را از حالت خطی استخراج میکنیم برای این کار به دو مرحله احتیاج داریم
مرحله اول: تبدیل دادهها ورودی به فضایی با با ابعاد بالاتر با استفاده از نگاشت غیر خطی
مرحله دوم: جستجو برای پیدا کردن یک ابر صحفه جدا کننده خطی در فضای جدید
پیدا کردن ابر صحفه خطی در فضای جدید متناظر ابر صفحه غیر خطی در فضای قبلی است.
تابع ϕ(x) را تابع نگاشت غیر خطی برای تبدیل دادههاست تابع هسته
رابطه 2-20 kxi,xj=ϕ(xi).ϕ(xj) بصورت رابطه 2-20 تعریف میشود. به عبارت دیگر هر ϕ(xi).ϕ(xj) در الگوریتم آموزشی را با kxi,xj حایگرین میکنیم[4].
چندین تابع معروف برای نگاشت وجود دارد که معروفترین آنها تابع چند جملهای از درجه h بصورت رابطه 2-21 و تابع گوس بصورت رابطه 2-22 و تابع هلالی بصورت رابطه 2-23 تعریف میشود[4].
چند جمله ای از درجه h
رابطه 2-21 kxi,xj=xixj+1hتابع گوس
رابطه 2-22 kxi,xj=e-xi-xj22σ2تابع هلالی
رابطه 2-23 kxi,xj=tanhκxixj-δ 2-3 مقدمهای بر تقلبتقلب به عنوان یک فعالیت مجرمانه میتواند تعریف شود و شامل نشان دادن اطلاعات غلط یا اشتباه که هیچ گونه مزیت ندارد. تقلب به شکلهای مختلف رخ میدهد و تغییر در تکنولوژی، اقتصاد و سیستمهای اجتماعی یک فرصت برای فعالیتهای مجرمانه است.جمع کل زیان تجاری که از فعالیت مجرمانه بدست می آید قابل تخمین نیستREF _Ref373619960 \r \h‎[6].
2-3-1 ساختن مدل برای تقلبهدف اصلی این بخش شناسایی تقلب و ساختن یک مدل است.
هدف ما ساختن مدل تقلب و داشتن اطلاعات اضافی که دانش ما در مورد تشخیص تقلب عمیق تر و وسیعتر میسازد.
2-3-2 اصول کلی تقلب:شناسایی تقلب نیازبه فرمول کردن قوانین بر پایه اصول هشدار ، پروفایل و خطرناک دارد.
مدل سازی تقلب نیاز به ساختن اشیا، بر پایه روابطی در گذشته که میان شرایط مختلف و رخداد تقلب طراحی شده است، دارد .
2-3-3 چگونگی شناسايی تقلب:رهیافت اصلی برای کشف تقلب، مشخص نمودن مدل تحلیلی برای پیشبینی امکان تقلب با متقلبان شناخته شده و اقداماتی که در گذشته انجام داده است، امکان پذیر میباشد. قویترین مدل تقلب( مدل پاسخ مشتری) بر اساس داده تاریخی ساخته شده است.
اگر پاسخ تقلب را بتوانیم مشخص کنیم میتوانیم از آن برای مشخص نمودن رفتار متقلب را در دادههای تاریخی استفاده کنیمREF _Ref373619960 \r \h‎[6].
2-3-4 چگونگی ساخت مدل تقلب:سه رهیافت کلی برای ساخت مدل تقلب وجود دارد که در شکل 2-8 آمده است.مدلهای اولیه کشف تقلب بر پایه سیستم خبره بودند که برای مشخص کردن متقلب به کار میرفتند. علاوه بر جدا کردن الگوهای ریاضی در مجموعه دادهها، این سیتم ها از قوانین استفاده میکنند. که این قوانین منجر به تصمیم میشود.مشکل اصلی سیستم خبره این است که بر پایه ورودیهای ذهنیاست که ممکن است متناقض باشد. سیستمهای تشخیص تقلب بر پایه تکنولوژی درخت تصمیم یا منطق فازی از موتورهای اتوماتیک استناج قواعد استفاده میکنند[6].

شکل 2-8: انواع سیستمهای تشخیص تقلب[6]
2-4 مقدمهای بر سيستم تشخيص نفوذاز آنجایی که از نظر تکنیکی ایجاد سیستمهای کامپیوتری بدون نقاط ضعف و شکست امنیتی عملا غیر ممکن است تشخیص نفوذ در سیستمهای کامپیوتری با اهمیت خاصی دنبال میشود. سیستم تشخیص نفوذ سختافزار یا نرمافزاری است که کار نظارت بر شبکه کامپیوتری را در مورد فعالیتهای مخرب و یا نقص سیاستهای مدیریتی و امنیتی را انجام میدهد و گزارشهای حاصله را به بخش مدیریت شبکه ارائه میدهد. سیستمهای تشخیص نفوذ وظیف شناسایی و تشخیص هر گونه استفاده غیر مجاز به سیستم، سوء استفاده و یا آسیب رسانی توسط هر دو دسته کاربران داخلی و خارجی را بر عهده دارند.هدف این سیستمها جلوگیری از حمله نیست و تنها کشف و احتمالا شناسایی حملات و تشخیص اشکالات امنیتی در سیستم یا شبکه کامپیوتری و اعلام آن به مدیر سیستم است. عموما سیستمهای تشخیص نفوذ در کنار دیوارهای آتش و بصورت مکمل امنیتی برای آنها مورد استفاده قرار میگیرد.
سیستمهای تشخیص نفوذ عملا سه وظیفه کلی بر عهده دارند پایش (نظارت و ارزیابی)، تشخیص نفوذ و پاسخ هر چند پاسخ در این سیستمها عموما به ایجاد اخطار در قالبهای مختلف، محدود میگردد[1].
2-4-1 تعاريف اوليهتشخیص نفوذ
فرآیند نظارت بر وقایع رخ داده در یک شبکه یا سیستم کامپیوتری در جهت کشف موارد انحراف از سیاستهای امنیتی را تشخیص نفوذ مینامند.
سیستم تشخیص نفوذ
یک نرم افزار با قابلیت تشخیص، آشکارسازی و پاسخ(واکنش) به فعالیتهای غیر مجاز یا ناهنجار در رابطه با سیستم را سیستم تشخیص نفوذ می نامند[1].
2-4-2 وظايف عمومی يک سيستم تشخيص نفوذ:نظارت و تحلیل فعالیتهای شبکه، سیستم و کاربر
بررسی پیکربندی سیستم و آسیب پذیریها
ارزیابی صحت سیستم و فایلهای دادهای حساس
تشخیص الگوهای منطبق با حملات شناخته شده
تحلیل آماری الگوهای فعالیت ناهنجار
2-4-3 دلايل استفاده از سيستم های تشخيص نفوذ:جلوگیری از رفتارهای مشکلزا با مشاهده خطرات کشف شده
تشخیص و مقابله با مقدمات خطرات
ثبت تهدیدات موجود برای یک سازمان
سیستم های تشخیص نفوذ اطلاعات مفیدی درباره تهاجمات و نفوذهایی که واقع میشوند، ارائه میدهد و امکان عیب یابی، کشف، و تصحیح عاملهای کشف شونده را میدهد.
هدف IDS را می توان به طور کلی به دو بخش تقسیم کرد:
حسابرسی: قابلیت ارتباط دادن یک واقعه به شخص مسئول آن واقعه( نیازمند مکانیزمهای شناسایی و رد یابی است.)
پاسخگویی یا واکنش: قابلیت شناخت حمله و سپس انجام عملی برای مقابله یا توقف آن و پیشگیری از تکرار آن

شکل 2-9: معماری یک سیستم تشخیص نفوذ[1]
2-4-4 جمع آوری اطلاعاتشامل عملیات جمع آوری داده از یک منبع اطلاعاتی و تحویل آنها به پیش پردازنده و موتور تحلیل می باشد. برای جمع آوری اطلاعات در سیستمهای مبتنی بر شبکه از ترافیک شبکه، سیستمهای مبتنی بر میزبان از دنبالههای ممیزی سیستمعامل و رویدادنامهها، و سیستمهای میتنی بر برنامه کاربردی از رویدادنامهها پایگاه داده و رویدادنامهها کارگزار وب استفادهمیشود[1].
2-4-5 تشخيص و تحليل:سازمان دهی اطلاعات و جستجوی علائم امنیتی در تشخیص مورد بررسی قرار میگیرد در تشخیص سوء استفاده، علائم حمله و تشخیص ناهنجاری، رفتار غیرنرمال را مورد بررسی قرار میگیرد[1].
2-4-6 تشخيص سوء استفاده:شناخت حملات موجود و تعریف الگوی حملات برای موتور تحلیل با جستجوی مجموعهای از وقایع که با یک الگوی از پیش تعریف شده مطابقت دارد، را انجام میدهد. نیاز به بروزرسانی الگوهای حمله است. روشهای پیادهسازی را با سیستم خبره، روشهای مبتنی بر گذار حالات انجام می دهد. کاربرد آن در سیستمهای تجاریIDS است[1].
2-4-7 تشخيص ناهنجاری:به شناخت عملکرد نرمال سیستم وتهیه نمایههای ی از رفتار نرمال سیستم برای موتور تحلیل می پردازد. در جستجوی فعالیت غیر نرمال است. روشهای پیادهسازی شامل روشهای آماری و دادهکاوی است و بیشتر جنبه تحقیقاتی و کاربردی دارد.
2-4-8 مقايسه بين تشخيص سوء استفاده و تشخيص ناهنجاری:تشخيص سو استفاده:
در این روش تشخیص حملات در حد حملات شناخته شده و سریع و با خطای کمتری انجام میگیرد.
تشخيص ناهنجاری:
در این روش بیشتر تاکید روی تشخیص حملات ناشناخته است و از مشکلات این روش بالابودن درصد خطای مثبت غلط است.
2-4-9 پياده سازی سيستمهای تشخيص نفوذ:2-4-9-1 روشهای پيادهسازی تشخيص سوءاستفاده:سیستم خبره:
مکانیزمی برای پردازش حقایق و مشتق کردن نتایج منطقی از این حقایق، با توجه به زنجیرهای از قواعد است. در اینجا قواعد شامل الگو یا سناریوهای نفوذ و حقایق شامل وقایع رخداده در سیستم است.
از جمله مزیتهای این روش میتوان به ارائه حملات در قالب قواعد توسط کاربر بدون نیاز به دانستن نحوه عملکرد سیستم خبره و امکان اضافه کردن قواعد جدید بدون تغییر قواعد قبلی اشاره نمود.
معایب این روش شامل کارایی پایین، نامناسب بودن برای حجم زیاد دادهها و بیان ترتیب در قواعد میباشد[1].
روشهای مبتنی بر گذار حالت
این روش توسط گراف مدل میشود و از مفهوم حالت سیستم و گذار تکنیکهای انطباق الگو استفاده میشود.
سرعت زیاد از ویژگی این روش است الگوی حمله از حالت امن اولیه به سمت حالت خطرناک نهایی با گذر از چندین حالت است.
2-4-9-2 روش پيادهسازی تشخيص ناهنجاریروشهای مبتنی بر کاربر: تولید نمایه از رفتار کاربران و مقایسه رفتار واقعی کاربران با نمایهها و یافتن رفتارهای غیر نرمال کاربران، برای پیاده سازی تشخیص ناهنجاری استفاده میکند.
روشهای پیادهسازی تشخیص ناهنجاری مبتنی بر کاربر
تحلیل کمی
بیان نمایه با معیارهای عددی تعداد مجاز ورود ناموفق برای کاربر A، n است.
تحلیل آماری
بیان نمایه با معیارهای آماری ورودی ناموفق برای کاربر A، تابع توزیع نرمال a است., IDES NIDE ,Haystack از این دستهاند.
روشهای مبتنی بر قاعده
بیان معیارهای آماری با مجموعهای از قواعد که از استفاده سیستم خبره برای بیان نمایهها استفاده میشود.
شبکه عصبی
استخراج نمایه از سابقه سیستم
الگوریتم ژنتیک
تعریف بردار فرضی نفوذ یا عدم نفوذ برای واقعه، آزمون اعتبار فرض، اصلاح و بهبود فرض
2-5 تعاريف برخی مقادير ارزيابی مورد استفاده در سيستم داده کاوی:در ادامه برای بررسی دقیق معیارها در زیر جدول آورده شده است که بطور دقیق معیارها را نشان میدهد که مخصوص دادهکاوی است[4].
داده برچسب بصورت مثبت یا منفی است که در دسته بندی مورد استفاده قرار میگیرد.
جدول 2-1: تعریف معیارها[4]
دادههای پش بینی شده توسط سیستم دادهکاوی مجموعه دادههای واقعی مثبت مثبت True Positive(TP)
مثبت منفی False Positive(FP)
منفی منفی True Negative(TN)
منفی مثبت False Negative(FN)
مثبت واقعی
دادهای را که در واقع مثبت بوده بطور صحیح مثبت تشخیص داده است.
مثبت غلط
دادهای را که در واقع منفی بوده بطور غلط مثبت تشخیص داده است.
منفی واقعی
دادهای را که در واقع منفی بوده بطور درست منفی تشخیص داده است.
منفی غلط
دادهای را که در واقع مثبت بوده بطور غلط منفی تشخیص داده است..
2-5-1Confusion matrix:یک معیار ارزیابی برای دسته بندی بصورت ماتریس است که TPوTN نشان دهنده دستهبندی درست را نشان میدهند. وFP وFN دستهبندی غلط را نشان میدهد.
جدول 2-2: ماتریس [4] confusion
Predicted class Total no yes Accualclass
P FN TP yes N TN FP no P+N N,P,Total N,:تعداد رکوردهای ی که برچسب منفی خورده اند.
: P, تعداد رکوردهای ی که برچسب مثبت خورده اند.
2-5-2 درستیدرصدی از رکوردها که بصورت صحیح دسته بندی شده اند که به آن نرخ شناسایی نیز میگویند و بصورت رابطه 2-24 تعریف میشود:
رابطه2-24
acuracy=TP+TNP+N2-5-3 ميزان خطادرصد از رکوردها که بطور نادرست دستهبندی شدهاند. و بصورت رابطه 2-25 تعریف میشود
رابطه2-25
errorrate=FP+FNP+N2-5-4 حساسيت، ميزان مثبت واقعی، ياد آوریتعداد رکوردهای ی مثبت که بطور صحیح شناسایی شدهاند.(واقعا مثبت هستند) و بصورت رابطه 2-26 تعریف میشود.
رابطه2-26
Recall=TPTP+FN=TPP2-5-5 ويژگی، ميزان منفی واقعیتعداد رکوردهای منفی که بطور دقیق شناسایی شدهاند. و بصورت رابطه 2-27 تعریف میشود.
رابطه2-27
pecificity=TNN2-5-6 حساسيت:تعداد رکوردهای مثبت که بطور دقیق شناسایی شدهاند. و به آن نرخ شناخت نیز میگوییم. و بصورت رابطه 2-28 تعریف میشود.
رابطه2-28
Sentivity=TPPبا توجه به تعریف بالا نرخ درستی میتوانیم بصورت رابطه 2-29 تعریف کنیم
رابطه2-29
Acuuracy=sentivityPP+N+specificityNP+N2-5-7دقترکوردهایی که بطور صحیح برچسب مثبت خوردهاند. و بصورت رابطه 2-30 تعریف میشود.
رابطه2-30
Precision=TPTP+FP2-5-8 معيار F: با ترکیب معیار PrecisionوRecall معیارF بوجود میآید که بصورت رابطه 2-31 تعریف میشود و میانگین حسابی این دو معیار است. مقدار این پارامتر بین بازه 0 تا 1 است. مقدار 1 نشان میدهد که نرخ خطا صفر و همه حملات به درستی تشخیص داده شدهاند. مقدار نزدیک به 1 مقدار قابل قبولی میباشد.
رابطه2-31
F=2*Precision*RecallPrecision+Recallجدول 2-3: معیارهای مختلف ارزیابی و فرمول آنهاREF _Ref373604892 \r \h‎[4]
معیارهای ارزیابی فرمول
درستی، نرخ شناسایی TP+TNP+Nمیزان خطا FP+FNP+Nحساسیت، میزان مثبت واقعی، یاد آوری TPPویژگی، میزان منفی واقعی TNNدقت TPTP+FPمعیار F 2*Precision*RecallPrecision+Recall2-6 پژوهشهای انجام شده در اين زمينه:در این بخش به بررسی کارهای انجام شده می پردازیم بیشتر مباحث شامل روش های دسته بندی با نظارت، بی نظارت وقوانین انجمنی است. مقایسه بین روشهای بانظارت در اجرا و همچنین شناسایی داده غیرنرمال با استفاده از روشهای خوشهبندی و استفاده ازقوانین انجمنی برای تشخیص تقلب محورهای اصلی مورد بررسی است.
2-6-1 پژوهش اول: کشف تقلب در سيستمهای مالیبا استفاده از دادهکاوی2-6-1-1 هدف پژوهش:هدف اینکار همان طور که در مقاله ذکر شده است جلوگیری از تقلب نیست چون متقلب خود را با شرایط وقف میدهد هدف شناسایی تقلب با استفاده از الگوریتم دادهکاوی است. شناسایی تقلب با استفاده از روش بررسی نرمال کار سختی است دلیل اصلی کمبود دانش ما نسبت به تقلب است و دلیل دیگر اینکه تجربه کافی برای اینکه با این روش بتوانیم تقلب را تشخیص بدهیم نداریم به همین دلیل از روشهای آماری و دادهکاوی استفاده میکنیم[7].
2-6-2-2 رويکرد پژوهش:در این مقاله از رویکرد ستنی دادهکاوی شامل جمعآوری دادهها، یکپارچه سازی دادهها، پیش پردازش دادهها، دادهکاوی و ارزیابی استفاده شده است. در این مقاله نیز همین چارچوب را نویسندگان برای کشف تقلب درسیستم های مالی پیشنهاد کرده اند. این مقاله یک مرور جامع بر کارهایی است که در زمینه تقلب در سیستم های مالی شده است[7].

شکل 2-10: چارچوب کلی دادهکاوی برای کشف تقلب[7]
ویژگی مجموعه داده استفاده شده:
مفروضات آزمایش:
توزیع دادهها : دادههای مربوط به سیستم مدیریت تقلب مالی به دو دسته توزیع میشوند دادههای کمپانی با تقلب و بدن تقلب، دادههای بازبینی شده و شرکتهای دولتی
توزیع دادهها: بیشتر تحقیقات بر شناسایی تقلب در دادههای تقلب و غیر تقلب کاربرد دارد.
نوع یادگیری: دو نوع یادگیری بانظارت و بینظارت مورد بررسی قرار گرفت. بیشتر الگوریتمهای تشخیص تقلب مالی بر پایه یادگیری بانظارت است.
الگوریتمهای دادهکاوی: کارهای ابتدایی دادهکاوی شامل دستهبندی، خوشهبندی، قواعد انجمنی و پیشبینی است. بیشتر الگوریتمهای تشخیص تقلب مالی بر اساس دستهبندی است.
تکنیکهای دادهکاوی: الگوریتمهای تشخیص تقلب مالی با توجه تکنیکهای دادهکاوی به پنج دسته تقسیم میشوند رگرسیون، شبکهعصبی، درخت تصمیم ، شبکه بردار پشتیبان و شبکه بیزین
نتیجه آزمایش: در رهیافت تشخیص تقلب مالی ازروشهای بانظارت نوع دستهبندی و بیشتر از الگوریتمهای رگرسیون و شبکهعصبی استفاده میشود.
2-6-2 پژوهش دوم: کشف تقلب در کارت اعتباری با استفاده از شبکه عصبی و بيزين2-6-2-1 هدف پژوهش:هدف پژوهش شناسایی تقلب در کارت اعتباری و همچنین مقایسه بین شبکه عصبی و بیزین است که با توجه به مجموعه داده و همچنین کاربرد خاص شبکه بیزین عملکرد بهتری دارد[8].
2-6-2-2 رويکرد پژوهش:در این رویکرد از یکسری داده مورد استفاده از شرکت international waterschoot at europay گرفته شده است. این مجموعه دادهها دارای ویژگیهای و اطلاعات مفید درباره هر تراکنش هست که با Fi نشان میدهیم.
در استفاده از شبکه عصبی پیشپردازش خیلی مهم است برای نمایش بهتر ارزیابی که مستقل ازیادگیری است ما از receive Operating Curve استفاده میکنیم.
بعد از آموزش بوسیله شبکهعصبی ما با مجموعه ویژگی که تاکنون ندیدهایم برخورد میکنیم وتراکنشها در یک مجموعه دسته بندی مینماییم. اما باید مشخص کنیم چه مقدار تراکنش در هر دسته واقعا درست هستند همچنین باید مشخص شود چند درصد از تراکنش ها واقعا متقلب هستند.
از دو نرخ بنام نرخ قطعی درست و نرخ قطعی غلط استفاده میکنیم
نرخ قطعی درست: چه مقدار تراکنش متقلب بطور صحیح متقلب تشخیص داده شده است.
نرخ قطعی غلط: چه مقدار تراکنش درست بطور غلط متلقب تشخیص داده شده است.
در منحنیROC ضلع X نرخ قطعی غلط و ضلع Y نرخ قطعی درست را نشان میدهد.
تشخیص تقلب با شبکهعصبی:
مهم بودن پیشپردازش برای کارایی شبکهعصبی بسیار مهم است در شکل 2-11 دو منحنیROC وجود دارد که از اجرا روی مجموعه داده ها با 10 ویژگی بدست آمده است.
ROC پررنگ: که نتیجه بهتری است پیشپردازش شامل نرمالسازی و مقادیر مورد انتظار دارای انحراف کمی از مقادیر واقعی است دارای نرخ قطعی درست 70% و نرخ غلط 15% است.
ROC روشن: پیش پردازش پیش پردازش شامل نرمالسازی و مقادیر مورد انتظار دارای انحراف کمی از مقادیر واقعی است و دارای نرخ قطعی درست 60% و نرخ غلط 15% است [8].

شکل 2-11:مقایسه خروجیها با استفاده از نمودار [8] ROC
تشخیص تقلب با شبکه بیزین: در شکل همچنان که دیدید ROC وابسته به ساختار است و با بهتر کردن ساختار میتوان نتیجه بهتری گرفت.
ارزیابی :
در ارزیابی که در جدول 2-4 آمده است شبکه بیزین دارای عمکرد بهتری نسبت به شبکه عصبی است.
جدول 2-4: مقایسه نتیجه بین شبکهعصبی و شبکه بیزین[8]
نرخ قطعی غلط ±15 نرخ قطعی غلط ±10 تست
70 % نرخ قطعی درست 60% نرخ قطعی درست شبکه عصبی(a)
58%نرخ قطعی درست 47% نرخ قطعی درست شبکه عصبی(b)
70%نرخ قطعی درست 60% نرخ قطعی درست شبکه عصبی(c)
74%نرخ قطعی درست 68% نرخ قطعی درست شبکه بیزین(e)
74%نرخ قطعی درست 68% نرخ قطعی درست شبکه بیزین(f)
نتیجه گیری: شبکه بیزین در این مثال خاص و با این مجموعه داده دارای نتیجهگیری بهتری نسبت به شبکه عصبی است.
پژوهش سوم: شناسايی تقلب بيمه با استفاده از تکنيکهای دادهکاوی2-6-3-1 هدف پژوهش:در این پژوهش با استفاده از الگوریتمهای برپایه قوانین، شبکه بیزین و درخت تصمیم برای تشخیص تقلب در بیمه اتومبیل استفاده میکنیم[9].
2-6-3-2 رويکرد پژوهش:در شبکه بیزین سعی بر این است که مدل رفتاری را، تحت این فرض که راننده متقلب یا راننده دارای عملکرد صحیح است ایجاد مینماییم با وارد کردن شاهد در این شبکه ما می توانیم احتمال E را تحت فرضیات ذکرشده بدست بیاوریم. محاسبه بصورت روابط 2-32 و 2-33 و 2-34 و 2-35 میباشد.
رابطه232
P(output = fraud | E)= [P(E | output = fraud) P(output = fraud)] / P(E)و رابطه233
P(output = legal | E)= [P(E | output =legal) P(output = legal)] / P(E)P(E|OUTPUT=LEGAL) و P(E|OUTPUT=FRAUD)در شبکه بیزین برای محاسبه احتمال P(fraud)=di/d که d نشان دهنده کل رکورد و di نشان دهنده تعداد رکورد تقلب است.
رابطه234
pEOUTPUT=FRAUD) =K=1NPXKOUTPUT=FRAUDرابطهSTYLEREF 1 \s‏0235
PE|OUTPUT=LEGAL=K=1NPXK|OUPUT=LEGALPXK |OUTPUT=FRAUD=dikdidik تعداد رکوردهایی از خروجی که برابر fraud است و دارای xk مقدار برای هرصفت است.
در جدول 2-5 برایE=(Policyholder=1,driverrating=0,report field=0.33)
با توجه به پایگاه داده مربوط به داده ها داریم :
pfraud=320=0.15plegal=1720=0.85گامهای الگوریتم:
ppolicyhoder=1ouput=fraud=33=1pE|output=fraud=k=1np(xk|output=fraud)=0اما محاسبه legal:
ppolicyhoder=1ouput=legal=1217=0.706pE|output=legal=k=1np(xk|output=legal)=0.0068بنابراین
pE|output=fraud*pE|output=fraud=0pE|output=legal*pE|output=legal=0.0058بر پایه محاسبات ما رکورد جدید را درست میدانیم.
با توجه به تخمین لاپلاس ومحاسبات صورت گرفته و افزودن یک فیلد جدید، رکورد جدید در جدول زیر به عنوان رکورد متقلب است.
جدول 2-5: داده برای دستهبندی بیزین[9]
خروجی گزارشات سرعت رانندگی سیاست پلیس موارد
legal 0 0 1 1
fraud 1 1 1 2
legal 0 0 0 3
legal 1 0.33 1 4
legal 0 0.66 1 5
? 0.33 0 1 E

جدول 2-6: داده برای دستهبندی بیزینREF _Ref373693391 \r \h‎[9]
خروجی قیمت و سن خودرو گزارشات سرعت رانندگی سیاست پلیس موارد
legal 0.33 0 0 1 1
fraud 0.5 1 1 1 2
legal 0.75 0 0 0 3
legal 0.5 1 0.33 1 4
legal 0.5 0 0.66 1 5
? 0.5 0.33 0 1 E
با توجه به الگوریتم درخت تصمیم و C4.5 نتایج زیر بدست می آید. آنتروپی و مقادیر مورد انتظار ازرابطه 2-36 و 2-37 بدست می آید.
رابطهSTYLEREF 1 \s‏0236
PFRAUD ,LEGAL=-FRAUDINSTANCEINSTANCElog2FRAUDINSTANCEINSTANCE-LEGALINSTANCEINSTANCElog2LEGALINSTANCEINSTANCEرابطهSTYLEREF 1 \s‏0237
EA=FRAUDINSTANCEINSTANCE+LEGALINSTANCEINSTANCE*EFRAUDATTRIBUTE ,LEGALATTRIBUTEاحتمالات برابرentropy=-0.1log0.1-0.9log0.9 =0.469E(vehicleAgePrice) = (9/20) entropy(1, 8) = (9/20) (-1/9 log2 1/9 – 8/9 log2 8/9) = .225 information gain=0.469 – [(9/20) (-1/9 log2 1/9 – 8/9 log2 8/9)] = 0.244 prob(output = fraud) = 2/20 = 0.1 giniindex=1-jprobj2=0.12+0.92=0.18محاسبات نشان میدهد صفت vehicle age price باید دربرگ قرار گیرد.
الگوریتم مبتنی بر rule ها:
این الگوریتم بر اساس if-then است که ازدرخت تصمیم استخراج میشود.

شکل 2-12: الگوریتم استخراج شده از درخت تصمیمREF _Ref373693391 \r \h‎[9]
برای مدل ارزیابی از ماتریس Confusion استفاده میشود که نتایج آن به درجدول 2-7 آمده است.
جدول 2-7: ارزیابی درخت تصمیم[9]
Accuracy:0.78 fraud legal Recall:0.86 1125 3100 Legal
Precision:0.70 2380 395 fraud
2-6-4 پژوهش چهارم: استفاده از الگوريتم ژنتيک برای تشخيص تست نفوذ2-6-4-1 هدف پژوهش:استفاده و الهامگیری ازطبیعت برای تشخیص تست نفوذ
2-6-4-2 رويکرد پژوهش:الگوریتم ژنتیک در واقع در شکل 2-13 نشان داده شده است مهمترین کار در این الگوریتم انتخاب تابع برازندگی مناسب است. در هر الگوریتم ژنتیک 3 مورد بسیار مهم است[10].
انتخاب تابع برازندگی
مقدار پارامترها
نشان دادن جمعیت انفرادی

شکل 2-13: عملکرد الگوریتم ژنتیک REF _Ref373693843 \r \h ‎[10]
در کل اگر قانونی بصورت if-then باشد تابع برازش آن نیز باید مشخص شود در شکل 2-14 این قانون آمده است.

شکل 2-14: قاعده استخراج شده از الگورِیتم ژنتیکREF _Ref373693843 \r \h‎[10]
توابع به صورت آنچه در شکل 2-15 آمده است تعریف میشود:

شکل 2-15: توابع مربوط به الگوریتم ژنتیک و مقدار دهی آنها[10]
N: تعداد ارتباطات درشبکه است.
|A |: شمار ارتباطاتی که با شرط A تطابق دارند.
|A and B|: شمار ارتباطاتی که با شرط اگر A سپس B تطابق دارد.
W1 و W2 برای کنترل تعادل میان confidence و support بکار میرود. بعد از به کار بردن این الگوریتم قوانین جدیدی به مجموعه قوانین اضافه میشود.

شکل 2-16: معماری الگوریتم ژنتیک برای تست نفوذ [10]
بعد از جمع آوری داده ازشبکه، داده مورد پردازش قرار میگیرد و به فرمت مناسب برای الگوریتم ژنتیک تبدیل میشود سپس ازتابع برازندگی استفاده میشود تا مجموعه قوانین در پایگاه داده ذخیره شود. [10].
2-6-5 پژوهش پنجم: شناسايی ترافيک غيرنرمال در شبکه با الگوريتم خوشه بندی2-6-5-1 هدف پژوهش:در این مقاله با استفاده از الگوریتم خوشه بندیk-means بستههای موجود در شبکه را به دو دسته نرمال و غیرنرمال تقسیم میکند[11].
2-6-5-2 رويکرد پژوهش:
در این تحقیق داده ها دارای 3 خصیصه اصلی هستند که شامل موارد زیر میباشد..
جمع کل بستههایی که ازیک پورت فرستاده میشود.
جمع کل بایتهایی که ازیک پورت فرستاده میشود.
تعداد جفت منبع-مقصد متفاوت
انگیزه اصلی این کار تعداد بایتها و بستههایی است که در شبکه رد و بدل میشود با توجه به ماهیت k_means و مفروضات مسئله فاصله بصورت زیر تعریف میشود.
رابطه238
dx,y=i=1mxi-yisi2که si فاکتور است که بستگی به ویژگیi ام دارد. که بطور تجربی بدست میآید. ضرایب برای بسته و بایت و جفت فرستنده-گیرنده بدین بصورت است:
Spacket=Sbyte=5 , Ssrc-dist=1
با مقدار دهیk=2 و دو نوع بسته داده داریم
در ادامه خوشهبندی با دو جفت (پروتکل،پورت) انجام شده است.
مورد اول: خوشهبندی در این مورد بدین صورت است که داده به مرکز هر خوشه نزدیکتر باشد در آن خوشه قرار میگیرد در شکل 2-17 شیp به خوشه نرمال نزدیکتر است پس به خوشه نرمال تعلق میگیرد.

شکل 2-17: خوشه بندی برایk=2 [11]
اما در ادامه برای شناسایی داده غیرنرمال که در ادامه آماده است برای شناسایی آن، فاصله با مرکز داده نرمال مورد اندازه گیری قرار میگیرد اگر فاصله بین این داده و نرمال بزرگتر از dmax تعریف شده بود به عنوان داده غیرنرمال تشخیص داده میشود در شکل 2- 18p2 و p3 به عنوان داده غیرنرمال هستند.
ترکیب خوشهبندی و داده غیرنرمال: با ترکیب همزمان خوشهبندی و داده غیرنرمال میتوان داده غیرنرمال را تشخیص داد. اگر دو روش همزمان اجرا کنیم آن داده ای که نسبت به داده اصلی غیرنرمال است در دسته داده غیر نرمال قرار میگیرد.
در شکل 2-19 با توجه به dmaxدو داده p1 و p2 غیرنرمال هستند که با توجه به روش بالا p1 به مرکز خوشه غیر عادی و p2به مرکز خوشه عادی نزدیکتر است.

شکل 2-18: شناسایی داده غیرنرمال[11]

شکل 2-19: ترکیب دستهبندی و شناسایی غیرنرمالREF _Ref373694900 \r \h‎[11]

Related posts:

92

تحقیق -پایان نامه

No description. Please update your profile.

LEAVE COMMENT

نوشته‌های تازه

آخرین دیدگاه‌ها

    بایگانی

    دسته‌ها

    اطلاعات




    :: بازدید از این مطلب : 222
    |
    امتیاز مطلب : 0
    |
    تعداد امتیازدهندگان : 0
    |
    مجموع امتیاز : 0
    ن : پایان نامه ها
    ت : یک شنبه 12 شهريور 1396
    مطالب مرتبط با این پست
    می توانید دیدگاه خود را بنویسید


    (function(i,s,o,g,r,a,m){i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){ (i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.createElement(o), m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m) })(window,document,'script','//www.google-analytics.com/analytics.js','ga'); ga('create', 'UA-52170159-2', 'auto'); ga('send', 'pageview');