11.07.2015 Views

Lojistik Regresyon ile Bilgisayar Ağlarında Anomali Tespiti

Lojistik Regresyon ile Bilgisayar Ağlarında Anomali Tespiti

Lojistik Regresyon ile Bilgisayar Ağlarında Anomali Tespiti

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Lojistik</strong> <strong>Regresyon</strong> <strong>ile</strong> <strong>Bilgisayar</strong> Ağlarında <strong>Anomali</strong> <strong>Tespiti</strong>Ġdris BudakBaha ġenMehmet Zahid Yıldırım1 / 61


ĠÇĠNDEKĠLER Ağ Güvenliği ve Saldırı Tespit Sistemleri Veri veya DeğiĢken ÇeĢitleri <strong>Regresyon</strong> Analizi ve En Küçük Kareler <strong>Lojistik</strong> <strong>Regresyon</strong>2 / 61


Bilgi çağının en önemli unsurları: Bilginin üretilmesi Korunması EriĢilmesiAMAÇBu Unsurlar Ġçin <strong>Bilgisayar</strong> ağlarında Gerekli ġartlar:‣ Hız‣ Güvenlik‣ SüreklilikBu yüzden ağdaki düzensizliklerin zamanında tespit edilip önlemlerinalınması gerekmektedir.3 / 61


Bu çalıĢmadaki amaç bilgisayar ağlarındaki anomali tespitinde Binary<strong>Lojistik</strong> <strong>Regresyon</strong> tekniğinin uygulanabilirliğini incelemektir.Bu amaçla Saldırı Tespit Sistemleriyle ilgili çalıĢmalarda en sık kullanılanveri setlerinden olan KDD Cup’99 veri seti kullanılarak bir matematikselmodel oluĢturulup bu modelin uygunluğu test edilmiĢtir.4 / 61


Ağ Güvenliği ve Saldırı Tespit Sistemleri- Bir güvenlik modeli, 3 ana amaca hizmet etmelidir.* Confidentiality(Gizlilik): Bilginin doğrulanmıĢ kiĢ<strong>ile</strong>r haricindeokunmaması.* Integrity(Bütünlük): Bilginin yetkisi olmayanlarca modifiyeedilmemesi.* Availability(EriĢ<strong>ile</strong>bilirlik): <strong>Bilgisayar</strong> kaynaklarının hizmetvermesinin engellenmesine karĢı korunma.CIA kısaltması, bilgisayar güvenliğindeki üç amacı simgeleyen kolayhatırlanabilir bir kelime. [20]5 / 61


Güvenliği Sınıflandırmak:Bilgi sistemleri güvenliğini üç ana bölüme ayırabiliriz:- Mantıksal güvenlik: ĠletiĢim ağlarından gelecek tehlikeler.- Fiziksel güvenlik: Bilgi sistemlerini barındıran fiziksel altyapınıngüvenliği. sunucu ve istemci donanımları, sistem odası.- Çevre güvenliği: Bilgi sistemini barındıran bina veya kampüs alanınınsınırlarında alınacak fiziksel güvenlik önlemleridir. [21]6 / 61


<strong>Bilgisayar</strong> ağlarında alınab<strong>ile</strong>cek 4 temel önlem:1- Kurumsal politika ve bilinçlendirme çalıĢmaları:BGYS, ISO 27001.2- Kullanıcı <strong>Bilgisayar</strong>larında Alınab<strong>ile</strong>cek Temel Önlemler:Antivirüs, yamalar, paylaĢım, web.3- Ağ Cihazlarında alınab<strong>ile</strong>cek temel önlemler:Fiziksel, Ağ Topolojisi, 802.1x.4- Güvenlik Yazılımlarının kullanılması:VPN , Firewall, Saldırı Tespit ve Engelleme Sistemleri7 / 61


Saldırı Tespit Sistemleri(Intrusion Detection System) Ağ hizmetleri, altyapı sorunları veya ağı kötüye kullanma yada ağüzerinde düzensizlik yaratılarak kesintiye uğratılabilir. Bunların önüne geçmek için ağ trafiğini izlemek ve analiz etmekönem kazanmaktadır. STS’ler; Saldırıyı durdurma giriĢiminde bulunmayan ve olasıgüvenlik ihlali durumlarında, ilgili yazılım veya sistem güvenlikçalıĢanlarına uyarı mesajı (alarm) veren sistemlerdir. Bir STS, olası güvenlik açıklarını belirleyebilmek için bilgisayarveya ağ içerisinde değiĢik alanlardan bilg<strong>ile</strong>ri toplar ve analiz eder. Güvenlik duvarının statik izleme kabiliyetini tamamlayan dinamikizleme elemanıdır.8 / 61


[33]9 / 61


STS’lerin geliĢtirilmesinde istatistiksel yöntemlerin dıĢında: kural tabanlı (rule based), eĢik değeri belirleme (threshold value), durum geçiĢ diyagramları (state transition diagrams), yapay sinir ağları (artificial neural networks), veri madenciliği (data mining), yapay bağıĢıklık sistemi (artificial immune system), uzman sistemler, örüntü eĢleme, bulanık mantık (fuzzy logic)10 / 61


Saldırı Tespit Yöntemi STS’lerde, saldırı tespit yöntemi olarak anormallik tespiti vekötüye kullanım tespiti olmak üzere iki farklı yaklaĢım kullanılır. Anormallik tespitine dayanan yaklaĢım, sistemdeki kullanıcıdavranıĢlarını modellerken, kötüye kullanım (imza) tespitinedayanan yaklaĢım, saldırganların davranıĢlarını modeller. Anormallik tespitinde, bütün kötü davranıĢlar tespit edilmeyeçalıĢılır. Kötüye kullanım tespiti, yöntemi kötü olarak bilinen davranıĢlarıtanımaya çalıĢır. Her iki yöntemin avantajlarını bir araya toplayan hibrityaklaĢımlardan faydalanmak daha uygun sonuçlar vermektedir.11 / 61


Ġstatistik Yöntemlerle <strong>Anomali</strong> <strong>Tespiti</strong>Ağ trafiğinde oluĢan düzensizliği inceleyen çalıĢmaların çoğundaistatistiki yöntemler ve trafik örnekleme (sampling) kullanılarak sonuçelde edilmeye çalıĢılmıĢtır. Ġstatistik yöntemler genel olarak iki baĢlıkaltında toplanmıĢtır;A) En Çok ve Baz Değer. B) Ġz EĢleĢtirme.A. En Çok ve Baz Değer Baz değer , geçmiĢte kayded<strong>ile</strong>n ağ trafiğine göre oluĢturulmuĢĢablondur. Bu Ģablon normal ağ trafiğini temsil eder. Ağ trafiğindemeydana gelen ve baz değerden farklı olan her türlü trafik düzensizolarak kabul edilir. En çok yönteminde, meydana gelen düzensizlikleri tespit ederkeniki ayrı yöntem izlenebilir:12 / 61


En çok oturum: belirli bir zaman dilimindeki oturum sayısı (session).En çok veri: belirli bir zaman diliminde aktarılan veri miktarı (byte).B. Ġz EĢleĢtirmeAğda bilinen servis ve ip bloklarının akıĢ ver<strong>ile</strong>ri bir veritabanınakaydedilir. Veri tabanında bulunmayan port veya ip adreslerine gelenveya giden trafik Ģüpheli olarak değerlendir<strong>ile</strong>bilir.Örneğin sadece 80 portundan hizmet veren bir sunucunun 3306 portunabir istek gönderildiğinde uyarı sistemi devreye girip Ģüpheli durumubildirebilir. Bu yöntem ağ tarama tespitinde kolayca kullanılabilir.13 / 61


VERĠ VEYA DEĞĠġKEN ÇEġĠTLERĠMedeni hali , Göz rengi: KategorikHisse senedine yatırım yapar mısınız?:Kategorik[34]Sınıftaki çocuk sayısı: KesikBoy uzunluğu: Sürekli [36]14 / 61


<strong>Regresyon</strong> Analizi <strong>Regresyon</strong> analizi: değiĢkenler arasındaki iliĢkinin varlığı, eğer iliĢkivar ise bunun gücünü belirlemektir. DeğiĢkenlerden birinin değeri bilindiğinde diğeri hakkında kestirimyapılmasını sağlar. Örneğin, bir ziraatçı buğday verimi ve gübre miktarı arasındakiiliĢkiyi, bir mühendis, basınç ve sıcaklık, bir ekonomist gelir düzeyi vetüketim harcamaları, bir eğitimci öğrenc<strong>ile</strong>rin devamsızlık gösterdiğigün sayıları ve baĢarı dereceleri arasındaki iliĢkiyi bilmek isteyebilir. DeğiĢkenlerden biri bağımlı diğerleri bağımsız değiĢken olmalıdır. DeğiĢkenler arasındaki iliĢkiyi açıklamak için kullanılan matematikselmodele regresyon modeli denir.15 / 61


<strong>Regresyon</strong> analizinde en çok sık yöntemlerden biri en küçük kareler.Tanım: y i - f (x i )farklarından her birinebir artık denir.Tanım: Bir veritablosuna en iyi uyandoğrusal fonksiyonungrafiği olan doğruyaregresyon doğrusuveya en küçük karelerdoğrusu denir.16 / 61


Formülümüzü biraz daha açıklayacak olursak:Gerçek değer(y) <strong>ile</strong> teorik değer(y t ) arasındaki fark ∆y <strong>ile</strong> gösterilirse,∆y = y – y t (1)olur. N tane deneysel nokta için,olmalıdır. Burada:y t = a + bx (3)dir. EĢitlik-2 <strong>ile</strong> ver<strong>ile</strong>n ifadenin minumum olma Ģartını sağlayan a ve bsabitleri, matematiksel kural gereğince aynı eĢitliğin a ve b’ ye göretürevlerinin sıfıra eĢitlenmesi <strong>ile</strong> bulunur. Yani;17 / 61


ulunur. Bu eĢitliklerden a ve b çek<strong>ile</strong>rek regresyon doğrusu bulunur. [15]18 / 61


LOJĠSTĠK REGRESYON<strong>Lojistik</strong> regresyonda da bazı değiĢken değerlerine dayanarak kestirimyapılmaya çalılır, ancak iki yöntem arasında 3 önemli fark vardır:1- Doğrusal regresyon analizinde tahmin ed<strong>ile</strong>cek olan bağımlı değiĢkensürekli iken, lojistik regresyonda bağmlı değiĢken kategoriktir ve kesiklibir değer olmalıdır.2- Doğrusal regresyon analizinde bağımlı değiĢkenin değeri, lojistikregresyonda ise bağımlı değiĢkenin alab<strong>ile</strong>ceği değerlerden biriningerçekleĢme olasılığı kestirilir.3- Doğrusal regresyon analizinde bağımsız değiĢkenlerin çoklu normaldağılım göstermesi koĢulu aranırken, lojistik regresyonun uygulanabilmesiiçin bağımsız değiĢkenlerin dağılımına iliĢkin hiçbir ön koĢul yoktur.19 / 61


Logistic <strong>Regresyon</strong> genel olarak üçe ayrılır:1- Ġkili (Binary) lojistik regresyon:Bağımlı değiĢken iki düzeyli olduğunda kullanılır(Var-Yok, Evet-Hayır).2- Sıralı (Ordinal) lojistik regresyon:Bağımlı değiĢken sıralı nitel veri tipinde (hafif-orta-Ģiddetli vb.) olduğundakullanılır.3- Multinomial lojistik regresyon:Bağımlı değiĢken ikiden çok düzeyli sıralı olmayan nitel veri tipindeolduğunda kullanılır.20 / 61


Nitelik bağımlı değiĢken:[40]21 / 61


[59]22 / 61


[55]Bazı nicel değiĢkenler de regresyon modellerinde nitel olarakkullanılabilmektedir.Örneğin öğrenim düzeyi yıl bazında nicel olarak ele alınab<strong>ile</strong>ceği gibi,ilköğretim, lise, üniversite ve üniversite üstü olmak üzere dört Ģıklı birnitel değiĢken olarak da ele alınabilir.23 / 61


Odds: Görülme olasılığının “p”, görülmeme olasılığına “1-p” oranıdır.Odds ratio (OR): Ġki odds’un birbirine oranıdır.Lojit: Odds ratio’nun doğal logaritmasıdır.Riskli olanlarda hastalığa yakalanmaodds’u: 35/16= 2.18,Risksiz olanlarda hastalığa yakalanmaodds’u: 25/61= 0.41’dir.Bu iki odds’un birbirine oranı oddsratio’yu verir:Odds ratio=2.18/ 0.41 = 5.3Yorum: Risk altında olanların hastalığa yakalanma riski, risk altındaolmayanlara göre 5.3 kat daha fazladır.[40]24 / 61


<strong>Lojistik</strong> <strong>Regresyon</strong>da Dikkat Edilmesi Gerekenler:• Uygun Tüm Bağımsız DeğiĢkenler Modele Dahil Edilmelidir.• Uygun Olmayan Tüm Bağımsız DeğiĢkenler DıĢlanmalıdır.• Aynı birey üzerinde bir kez gözlem yapılmalı, tekrarlayan ölçümlerolmamalıdır.• Bağımsız DeğiĢkenlerde Ölçüm Hatası Küçük olmalıdır.• Bağımsız DeğiĢkenler Arasında Çoklu Bağlantı (Multicollinearity)olmamalıdır.• AĢırı Değerler olmamalıdır.• Örneklem Büyüklüğü yeterli olmalıdır.• Beklenen ve Gözlenen Varyanslar arasındaki fark büyük olmamalı:25 / 61


<strong>Lojistik</strong> regresyon analizinde değiĢken seçimi:- Bir regresyon eĢitliğine girecek değiĢken sayısı ne kadar çok olursa,eĢitlik o kadar küçük hata taĢımaktadır.- Bağımlı değiĢkeni açıklayamayan değiĢkenlerin denklemde tutulmasılojistik regresyon denkleminin etkinliğini ve tahmin gücünüdüĢürmektedir.Denklemde önemli etkide bulunmayan bağımsız değiĢkenleri elemekiçin en sık kullanılan istatistik yöntemleri:“<strong>ile</strong>ri doğru seçim” (forward selection), “geriye doğru eleme”(backward elemination) ve “tüm olası regresyon yaklaĢımı” (all possibleregression) gibi değiĢik yaklaĢımları mevcut olan adımsal regresyon(stepwise), ve en iyi regresyon modeli bulma (best regression)yöntemleridir.26 / 61


LOJĠSTĠK REGRESYON MODELLERĠĠki değerli (kesikli) bağımlı değiĢkenleri açıklamada en çok:Log-lineer, Logit , Probit ve Tobit Modeller kullanılır.Bu modellerde standart regresyondan farklı olarak: Sıradan En KüçükKareler tahmini yerine Maksimum Benzerlik (En Çok Olabilirlik)tahmini kullanılır.* Log-lineer analizde bağımlı değiĢken y’nin logaritması* Logit analizde bahis oranının (odds ratio) doğal logaritması* Probitte ise standart normal birikimli dağılım fonksiyonunun tersi- <strong>Lojistik</strong> regresyon analizi sonucunda elde ed<strong>ile</strong>n modelin uygun olupolmadığı “model ki-kare” testi <strong>ile</strong>,- Her bir bağımsız değiĢkenin modelde varlığının anlamlı olup olmadığıise Wald istatistiği <strong>ile</strong> test edilir.27 / 61


Logit ModelLogit: odd değerinin doğal logaritmasıdır. Yani π olasılığı göstermeküzere, logit;Logit, kendi parametrelerinde doğrusal bir ölçüdür.Logit model, bağımlı değiĢkenin tahmini değerlerini olasılık olarakhesaplayarak olasılık kurallarına uygun sınıflama yapma imkanı veren,tablolaĢtırılmıĢ ya da ham veri setlerini analiz eden bir istatistikselyöntemdir.Logit model, bağımsız değiĢken değeri sonsuza gittiği zaman, bağımlıdeğiĢkenin 1’e asimptot olduğu matematiksel bir fonksiyondur.28 / 61


Logit modellerinde olasılıklar 0 <strong>ile</strong> 1 arasında sınırlandırılmıĢlardır.Olasılıklar ve tahmin edici değiĢken arasındaki iliĢki doğrusal değildirve S Ģeklinde bir eğridir.<strong>Lojistik</strong> regresyon modeli olasılıklara bir dönüĢüm uygulamaktadır; budönüĢüm, tahmin edici değiĢkenler <strong>ile</strong> olasılıkların doğrusal bir iliĢkiiçerisinde sonuçlanmasını sağlamaktadır.[58]29 / 61


<strong>Lojistik</strong> <strong>Regresyon</strong> Formülü:Hem teorik hem de deneysel incelemeler bağımlı değiĢken iki sonuçluiken cevap fonksiyonunun Ģeklinin S veya ters S Ģeklinde olacağınıgöstermiĢtir.<strong>Lojistik</strong> fonksiyonun 0 <strong>ile</strong> 1 arasında bir değiĢim aralığına sahip olmasılojistik fonksiyonun tercih edilmesindeki ilk önemli nedendir.[41]30 / 61


0-1 aralığında sınırlandırılmıĢ iliĢkiyi tanımlamak için lojistik regresyonyöntemi lojistik eğrisini kullanmaktadır(ġekil 3.2).[46]31 / 61


Formülü biraz daha detaylandıracak olursak:β0: Bağımsız değiĢkenler sıfır değerinialdığında bağımlı değiĢkenin değerinibaĢka bir ifadeyle sabiti,P : Ġncelenen olayıngözlenme olasılığı,β1 β2..... βk : Bağımsız değiĢkenlerinregresyon katsayılarını,X1 X2.... Xk : Bağımsız değiĢkenleri,k: Bağımsız değiĢken sayısını,e: 2.71 sayısıBağımsız değiĢkenlerin en düĢük düzeylerinde olasılık 0’a yaklaĢıyor,fakat hiç bir zaman 0’a eĢitlenmiyor.Tersi durumda ise eğim giderek azalmaya baĢlıyor ve sonuçta 1’eyaklaĢmasına rağmen, hiç bir zaman 1’e eĢitlenmiyor.32 / 61


<strong>Lojistik</strong> <strong>Regresyon</strong> Katsayı Parametre Tahmin Yöntemleri:Doğrusal regresyonda bilinmeyen parametreleri tahmin etmek için en sıkkullanılan yöntem En Küçük Kareler (EKK) yöntemidir.<strong>Lojistik</strong> regresyon modelinde parametrelerin tahmininde yaygın olarakkullanılan yöntem, en çok olabilirlik (Maximum Likelihood Estimator,MLE) yöntemidir.Parametre tahmini için “En çok olabilirlik yöntemi” haricinde:- "Yeniden AğırlıklandırılmıĢ Ġteratif En Küçük Kareler Yöntemi" ,- "Minimum Logit Ki-Kare Yöntemi"ve bunların haricinde çok özel durumlarda kullanılan kestirim yöntemleride bulunmaktadır.33 / 61


<strong>Lojistik</strong> regresyon analizi uygulanırken izlenecek iĢlem sırası:- Katsayıların en çok olabilirlik tahmin edicisi (Maximum likelihood, ML)yardımıyla tahmin edilmesi,- Katsayıların yorumlanması,- Katsayılara ait hipotez kontrollerinin yapılması,- Modelin baĢarısının değerlendirilmesi.<strong>Lojistik</strong> analiz için kullanılan paket program örnekleri:Minitab, SPSS, SAS, Systat, NCSS ve S-Plus34 / 61


Örnek:TOTAL BYTE PROTOKOL PORT ANOMALĠ NORMALGönder<strong>ile</strong>n veri > 150byte ise 1 değilse 0TCP = 1UDP = 0Login portu ise 1değilse 0Saldırı BağlantısıSayısı0 0 0 9 1680 1 0 35 2751 0 0 8 37Normal BağlantıSayısı1 1 1 19 58Web sunucusuna yapılan(destination ip'ler sunucunun , source'lar farklıolabilir) bağlantılar yukardaki gibiyse aĢağıdaki ver<strong>ile</strong>rin gözlendiği biranda saldırı olma ihtimali nedir?Toplam oturum sayısı: 350Protokol: TCPPORT: 21 (FTP login)Gönder<strong>ile</strong>n veri: 200 byte35 / 61


Cevap:Denklemimizde bağımlı değiĢkenimiz saldırı olması. BağımsızdeğiĢkenlerimiz:"TOTAL BYTE" kısaca X 1 diyelim."PROTOKOL" kısaca X 2 diyelim."PORT" kısaca X 3 diyelim.Sabitimize de kısaca β 0 diyelim.Ġlk aĢamada bulacağımız regresyon eĢitliği aĢağıdaki gibi olacaktır:g(x) = β 0 + β 1 . X 1 + β 2 . X 2 + β 3 . X 336 / 61


ġimdi ilk satırdan baĢlayarak denklemlerimizi yazalım:TOTAL BYTE PROTOKOLPORT ANOMALĠ NORMAL LOGITGönder<strong>ile</strong>n veri >150 byte ise 1değilse 0TCP = 1UDP = 0Loginportu ise 1değilse 0SaldırıBağlantıSayısıNormalBağlantıSayısıln(<strong>Anomali</strong>/Normal)X 1 = 0 X 2 = 0 X 3 = 0 9 168 Ln(9/168) = -2.9267X 1 = 0 X 2 = 1 X 3 = 0 35 275 Ln(35/275) = -2.0614X 1 = 1 X 2 = 0 X 3 = 0 8 37 Ln(8/37) = -1.5315X 1 = 1 X 2 = 1 X 3 = 1 19 58 Ln(19/58) = -1.1160Yukardaki tablodan ilk satırdan baĢlayarak her satır için 1 denklem olmaküzere aĢağıdaki denklemleri elde ederiz:β 0 + β 1 .0 + β 2 .0 + β 3 .0 = -2.9267β 0 + β 1 .0 + β 2 .1 + β 3 .0 = -2.0614β 0 + β 1 .1 + β 2 .0 + β 3 .0 = -1.5315β 0 + β 1 .1 + β 2 .1 + β 3 .1 = -1.116037 / 61


Yukardaki denklemleri ortak olarak çözdüğümüzde katsayıları aĢağıdakigibi buluruz:β 0 = -2.9267β 1 = 1.3952β 2 = 0.8683β 3 = -0.4498<strong>Regresyon</strong> eĢitliğimiz:g(x) = β 0 + β 1 . X 1 + β 2 . X 2 + β 3 . X 3g(x) = -2.9267 + 1.3952. X 1 + 0.8683. X 2 + -0.4498. X 3Soruda bizden olasılığı sorulan ver<strong>ile</strong>ri aĢağıdaki tabloda görebiliriz:TOTAL BYTE PROTOKOL PORTGönder<strong>ile</strong>n veri > 150 byte ise 1 değilse 0 TCP = 1 UDP = 0 Login portu = 1 değilse 0350 > 150 TCP 21 (FTP login)X 1 = 1 X 2 = 1 X 3 = 138 / 61


Bulduğumuz g(x) eĢitliğinde yukardaki ver<strong>ile</strong>ri yerine koyarsak:g(x) = -2.9267 + 1.3952*1 + 0.8683*1 + -0.4498*1 = −1.113ġimdi de aĢağıda olduğu gibi olasılığı hesaplayalım :P = 1/(1 + e -g(x) ) = 1/(1 + e 1.113 ) = 0.2473Yani ver<strong>ile</strong>n bağlantı bilg<strong>ile</strong>rinin bir saldırı olma olasılığı yaklaĢık olarak¼ tür. (Bu da düĢük bir ihtimali göstermektedir.)39 / 61


Kullandığımız Veri Seti:DARPA 1998 ve 1999KDD Cup’99Saldırının hedefi olan bir iç ağSaldırıyı gerçekleĢtiren bir dıĢĠç ağ içerisinde(Hava kuvvetleri) dört “kurban” makineSunOS, Solaris, Linux, ve Windows NT koĢmaktadır. (1998 veri setlerindesadece UNIX makinalar kullanılmıĢtır.)Trafik oluĢturucular yüzlerce sunucuyu ve çeĢitli uygulamalarıçalıĢtıran Ġnternet kullanıcılarını simüle etmektedir.2 noktadan veri toplanmıĢtır: iç ve dıĢ ağ yoklayıcısıSaldırı yazılımları internetten ve hacker sitelerinden toplanmıĢ.40 / 61


[68]41 / 61


DARPA ver<strong>ile</strong>ri <strong>ile</strong> çalıĢırken matlab ya da sql sunucularla birliktetcpdump çıktılarını wireshark(Eski adı ethereal) programıyla dainceleyebiliriz.Ağ dinleyicisi iki yönlü paketleri yakaladığı için kurban makinalara gelenpaketler için varıĢ ip adresi 172.16.x.x olan paketler olarak süzülmelidir.Örnek bir filtre:(ip.dst == 172.16.0.0/16) and !(ip.src == 172.16.0.0/16) and !(ntp) and!(rip) and !(loop) and !(arp) and !(nbns) [68]42 / 61


[68]43 / 61


Veri Setinin Hazırlanması:“kddcup.data_10_ percent_corrected” dosya ismi <strong>ile</strong> internette.kddCupp-99 veri seti’nin 10%75Mb500bin kayıt.Ġlk 250bin kaydı model için kalanı ise test için44 / 61


Veri setinde toplam 41 adet değiĢken bulunmaktadır. Biz aĢağıdakiprensiplere uyarak bu sayıyı 9’a indirdik:- Paketlerin sadece baĢlık bilgisine değil içeriğine de bakılarakanlaĢılacak alanlar da alınmıĢtır.(Örneğin bu yüzden hot, su_attempted gibialanlar alımıĢtır.)- Parametrelerin birbirlerinden bağımsız olanları seçilmiĢtir. Örneğinroot_shell, su_attempted, num_root alanlarının tümü birden alınmak yerinesu_attempted alanı alınmıĢtır.- Parametrelerin bağımlı değiĢkeni etk<strong>ile</strong>meyecek olanları seçilmemiĢtir.Örneğin src_bytes ve dst_bytes alanları bu yüzden alınmamıĢtır.45 / 61


Ver<strong>ile</strong>ri incelemek ve binary hale getirmek için öncelikle ver<strong>ile</strong>ri sqlsunucusuna alıp aĢağıdaki kurallara uygun olarak ikili hale getirdik:protocol_type: tcp=1 ; udp veya icmp=0.Bağlantının(connection, datasetteki her satır bir bağlantıdır.)service: smtp, ftp, pop_3, ldap, login, imap4, auth, IRC, telnet, sql_net,exec, shell, klogin, kshell = 1 , diğerleri = 0 .Hedefteki ağ servisini gösterir(network service on the destination).flag: SF veya OTH = 0 ; diğerleri 1.SF bağlantının normal bir Ģekilde sonlandığını, OTH ise bağlantı takipiĢinin bağlantının ortasında baĢladığını gösterir.land: Hedef ve kaynak ip/port bilg<strong>ile</strong>ri aynı ise = 1; değilse 0.wrong_fragment: sıfır ise=0; değilse=1.Hatalı fragment sayısını gösterir.46 / 61


hot: sıfırdan büyük ise 1 ; değilse 0 .Bir bağlantıda çalıĢtırılan kritik komut sayısını gösterir. Örneğin sistemklasörüne girmek, programlar oluĢturup çalıĢtırmak gibi.num_fa<strong>ile</strong>d_logins: sıfırsa 0 ; değilse 1 .YanlıĢ login iĢlemleri sayısını gösterir.su_attempted: “su root” komutu denenmiĢse 1 diğer durumda 0.num_access_f<strong>ile</strong>s: sıfırdan büyük ise 1 ; değilse 0 .Kontrol ya da eriĢim izinlerini tutan kritik dosyalarda yapılan iĢlem sayısı.47 / 61


protocol_typeserviceflaglandwrong_fragmenthotnum_fa<strong>ile</strong>d_loginssu_attemptednum_access_f<strong>ile</strong>slabelTablo2: Veri Seti Örnek Görüntüsü1 1 0 0 1 1 1 0 1 11 0 0 1 0 0 0 1 1 10 0 1 1 1 0 0 0 1 00 1 1 0 0 1 1 0 0 148 / 61


Modelin OluĢturulması:Veri setimizin SPSS binary logistic regresyon <strong>ile</strong> analiz sonucu:Tablo3: Durum ĠĢleme ÖzetiUnweighted Cases a N PercentSelectedCasesIncluded in Analysis250000 100,0Missing Cases 0 ,0Total 250000 100,0Unselected Cases 0 ,0Total 250000 100,049 / 61


Tablo4: Bağımlı DeğiĢken KodlamasıOriginal Value Internal Value0 01 1Ġncelemek istediğimiz konu saldırı olma durumu.Saldırı var = 1.Saldırı yok = 0.Tercihe bağlıdır, tersi de seç<strong>ile</strong>bilirdi.Sonuçların yorumunun kolay olması için genelde asıl ilg<strong>ile</strong>ndiğimiz cevapiçin “1” kullanmamız iĢimizi daha kolaylaĢtırır.50 / 61


1StepTablo5: Sınıflandırma TablosuObservedlabelPredicted0 1PercentageCorrectlabel 0 59805 11420 841 736 178039 99,6OverallPercentage95,1a. The cut value is 0,5Tablo5’e baktığımızda Saldırı olmayan birbirinden farklı toplam59.805+11.420=71.225 adet kayıt olduğunu ve bunların 59.805 tanesiniyani 84%’ünü modelimizin doğru tahmin ettiğini görüyoruz.51 / 61


Tablo6: EĢitlikteki DeğiĢkenlerB S.E. Wald Sig. Exp(B)S protocol_type -7,133 ,039 3,380E4 ,000 ,0011 a land 34,951 3,446E7 ,000 1,000 1,509E15tservice -1,372 ,068 401,313 ,000 ,254ep flag 6,882 ,041 2,811E4 ,000 974,877wrong_fragment 34,700 6,372E6 ,000 1,000 1,175E15hot 6,454 ,071 8,375E3 ,000 635,420num_fa<strong>ile</strong>d_login 3,803 ,889 18,313 ,000 44,854ssu_attempted 2,610 1,434 3,315 ,069 13,602num_access_f<strong>ile</strong>s -,267 ,486 ,302 ,583 ,765Constant 2,843 ,012 5,856E4 ,000 17,17552 / 61


S.E değerine göre “land” ve “wrong_fragment” stabiliteyi bozuyor.Wald istatistiğine gore “land” ve “wrong_fragment” gereksiz.Sig. değeri 1 olan “land” ve “wrong_fragment” anlamsız.”protocol_type” en büyük mutlak katsayıyla en büyük belirleyici rolde.” num_access_f<strong>ile</strong>s” en küçük mutlak katsayıyla en az belirleyici rolde.53 / 61


Buna göre nihai modelmiz aĢağıdaki gibi olacaktır:<strong>Regresyon</strong> eĢitliği aĢağıdaki gibi olmak üzere:g(x) = β 0 + β 1 . X 1 + β 2 . X 2 +…+ β k . X kg(x) = 2,843 + protocol_type*(-7,133) + service*(-1,372 ) + flag*6,882+ hot*6,454 + num_fa<strong>ile</strong>d_logins*3,803 + su_attempted*2,610 +num_access_f<strong>ile</strong>s*(-0,267)P = 1/(1 + e -g(x) )54 / 61


5.3 Modelin Uygulaması:Örnek kayıt:protocol_type=tcp, service=telnet, flag=S0, hot=0,num_fa<strong>ile</strong>d_logins=0, su_attempted=0, num_access_f<strong>ile</strong>s=0 ,label=neptune.Kaydın label yani saldırı olup olmadığı <strong>ile</strong> ilgili bilgi alacağımız alanında“neptune” yazmaktadır. Yani bu bir neptune saldırısıdır.Her parametreyi iki kategorili hale çevirip g(x) fonksiyonunda yerinekoyarsak :g(x) = 2,843 + 1*(-7,133) + 1*(-1,372 ) + 1*6,882 + 0*6,454 + 0*3,803+ 0*2,610 + 0*(-0,267) = 1,22P = 1/(1 + e -g(x) ) = 1/(1 + e -1,22 ) = 0.772155 / 61


Tablo7: Test Verisi Sınıflandırma Tablosu SQL sonuçlarıGerçeklabelTahminimiz0 1DoğrulukYüzdesilabel 0 10912 15141 421 11 217957 99,9Toplam Yüzde 93,8Tahminimiz >= 0,5 ise saldırı kabul ettik.Modelimizin uygunluğunun testi için yukarda görülen sql sonuçlarına ekolarak ayrıca Model Ki-Kare testi de yapılmıĢ ve model veri setinde(land ve wrong_fragment) dahil tüm değiĢkenlerin Sig değeri 0,05’tenküçük çıkmıĢ, test veri setinde ise sadece land değiĢkenimiz 0,5 çıkarakanlamsız olduğu görülmüĢtür.56 / 61


Sonuç ve Öner<strong>ile</strong>r:Modelimizin BaĢarısı:Gerçekte saldırı olan bir kayıtta 99%un üzerinde.Gerçekte saldırı olanmayan bir kayıtta 63% .(model veri setinde 84%. Test veri setinde ise 42%)Modelimiz güvenlik seviyesi çok yüksek olması gereken ve yanlıĢalarmlarla (false-pozitif) uğraĢacak yeterli elemanı olan, kritik önemesahip ağ iĢletim merkezleri için uygun.Bir sonraki çalıĢmamızda aynı veri seti ve parametreleri kullanarak yapaysinir ağları <strong>ile</strong> de bir model oluĢturup iki modelin karĢılaĢtırılmasınısağlayacağız.57 / 61


TEġEKKÜRLERĠLETĠġĠM:Ġdris Budak 1 , Baha ġen 2 , Mehmet Zahid Yıldırım 31 Karabük Üniversitesi, Fen Bilimleri Enstitüsü <strong>Bilgisayar</strong> Müh.2Yıldırım Beyazıt Üniversitesi Mühendislik ve Doğa Bilimleri Fakültesi<strong>Bilgisayar</strong> Müh.3 Karabük Üniversitesi, Fen Bilimleri Enstitüsü <strong>Bilgisayar</strong> Müh. Bölümüidrisbudak@karabuk.edu.tr , bsen@ybu.edu.tr , m.zahidyildirim@karabuk.edu.tr58 / 61


KAYNAKLAR[1] D.Gucarati (çev. Ümit ġenesen), Temel Ekonometri[2] A.M. Legendre (1805), Nouvelles méthodeĢ pour la détermination des orbites des comètes. “Sur la Méthode des moindres quarrés” bir ek bölümde bulunur.[3] C.F. Gauss (1809), Theoria Motus Corporum CoeleĢtium in Sectionibüs Conicis ġölem Ambientum.[4] C.F. Gauss (1821/1823). Theoria çombinationis observationum erroribüs minimiĢ obnoxiae.[5] Francis Galton (1877), "Typical laws of heredity", Nature 15, 492-495, 512-514, 532-533. (Galton burada bezelyelerle yaptığı kalıtım deneyi sonucunda reversionterimi kullanır.)[6] Francis Galton (1885) Presidential address, Section H, Anthropology.(Burada insanlarin boylari uzerinde yaptigi arastirma sonucu icin "regression" terimi kullanir.)[7] G. Udny Yule (1897) "On the Theory of Correlation", J. Royal Statist. Soç., 1897, p. 812-54.[8] Karl Pearson, G.U.Yüle, Norman Blanchard, and Alice Lee (1903). "The Law of Ancestral Heredity", Biometrika[9] R.A. Fisher (1922), "The goodness of fit of regression formulae, and the distribution of regression çoefficients", J. Royal Statist. Soç., 85, 597-612[10] R.A. Fisher (1925),Statistical Methods för Research Workers[11] http://www.fvcpsikiyatri.com/hizmetlerimiz-regresyon-terapisi[12] http://tr.wikipedia.org/wiki/<strong>Regresyon</strong>_analizi[13] www.fikretgultekin.com[14] http://www.baskent.edu.tr/~afet/dersler/genel_matematik_2/dersnotlari_listesi/DERS_%207.pdf[15] "ATOM FĠZĠĞĠ LABORATUVARI DENEY KLAVUZU" , Prof. Dr. Mustafa TAN, Dr. Mustafa KARADAĞ , ANKARA 2004[16] http://en.wikipedia.org/wiki/Derivative[17] http://www.emathzone.com/tutorials/math-results-and-formulas/basic-formulas-of-derivatives.html[18] http://istatistikanaliz.com/regresyon_analizi.asp[19] http://www.akademikdestek.net/info/korelasyon_regresyon.doc[20] http://hs.com.tr/tag/ag-guvenligi-ders-notlari/[21] "BĠR KURULUġUN BĠLGĠ SĠSTEMĠ GÜVENLĠĞĠ ĠÇĠN BĠR YAKLAġIM" Hakan Tan, Prof. Dr. A. Ziya AktaĢ[22] "KURUMSAL AĞLARDA ZARARLI YAZILIMLARLA MÜCADELE YÖNTEMLERĠ" Enis KARAARSLAN, Gökhan AKIN ve Hüsnü DEMĠR "ULAK-CSIRT"[23] KAMPÜS AĞ YÖNETĠMĠ - Ar.Gör.Enis Karaarslan Ege Üniversitesi -BĠTAM Kampüs Network Yönetim Grubu[24] http://hs.com.tr/2011/11/odevler/ag-guvenligi-ders-notlari/[25] Özel Sanal Ağ ve Servis Kalitesi(VPN- Virtual Private Network QoS- Quality of Service) Serkan GÖNEN[26] http://www.redbilisim.com/sayfa.aspx?id=4259 / 61


[27] http://tr.wikipedia.org/wiki/Virtual_Private_Network[28] http://www.alliancedatacom.com/how-vpn-works.asp[29]http://www.cisco.com/en/US/products/hw/vpndevc/ps2030/products_configuration_example09186a008046f307.shtml[30] http://cehturkiye.com/fw-dmz.png[31] http://www.avfirewalls.com/images/FortiGate/deployment-enterprise.gif[32] http://www.mshowto.org/fortigate-110c-firewall-nasil-kurulur-ayarlari-nasil-yapilir.html[33] http://www.interactivesys.net/intrusion-detection.html[34] "PARAMETRĠK OLMAYAN ĠSTATĠSTĠKSEL TEKNĠKLER" Prof. Dr. Ali ġEN[35] "BĠLĠM FELSEFESĠ" ÖĞRETĠM GÖREVLĠSĠ NAZAN ġAK[36] "TEMEL ĠSTATĠSTĠK YÖNTEMLER" Dr. Mehmet AKSARAYLI[37] "LOJĠSTĠK REGRESYON ANALĠZĠNĠN ĠNCELENMESĠ VE DĠġ HEKĠMLĠĞĠNDE BĠR UYGULAMASI" Sibel COġKUN , Doç.Dr.Mahmut KARTAL,Yrd.Doç.Dr.Akın COġKUN, Yrd.Doç.Dr.Hüdaverdi BĠRCAN[38] LOJĠSTĠK REGRESYON ANALĠZĠ : ÖĞRENCĠLERĠN SĠGARA ĠÇME ALIġKANLIĞI ÜZERĠNE BĠR UYGULAMA "Yrd. Doç. Dr. Cengiz AKTA"[39] Tramvay Yolcu Memnuniyetinin <strong>Lojistik</strong> <strong>Regresyon</strong> Analiziyle Ölçülmesi: Estram Örneği "Yrd. Doç. Dr. Nuray GĠRGĠNER" , "Bülent CANKUġ"[40] http://78.189.53.61/-/bs/ess/k_sumbuloglu.pdf[41] <strong>Lojistik</strong> <strong>Regresyon</strong> Analizi: Tıp Ver<strong>ile</strong>ri Üzerine Bir Uygulama "Hüdaverdi Bircan"[42] “Kuzey Kıbrıs Geni Bant Kullanıcılarının DavranıĢları” , "Devrim Seral" , "BiliĢim Sistemleri Mühendisliği Bölümü, Uluslararası Kıbrıs Üniversitesi, Kıbrıs"[43] "Saldırı Tespit Sistemleri Üzerine Bir Ġnceleme" Esra N. GÜVEN, ġeref SAĞIROĞLU[44] "Pasif Ağ Ver<strong>ile</strong>ri Üzerinden Düzensizlik <strong>Tespiti</strong>" Devrim SERAL, Beyhan ÇALISKAN[45] "KURUMSAL AĞLARDA ZARARLI YAZILIMLARLA MÜCADELE YÖNTEMLERĠ" Enis KARAARSLAN, Gökhan AKIN ve Hüsnü DEMĠR "ULAK-CSIRT"[46] YEMEKLĠK YAĞ SEKTÖRÜNDE TÜKETĠCĠ DAVRANIġLARINI ETKĠLEYEN FAKTÖRLERĠN ANALĠZĠ “Dr. Flora POLAT”[47] ANALĠTĠK VERĠLERĠN DEĞERLENDĠRĠLMESĠ "Prof. Dr. Mustafa DEMĠR"[48] "OGU TIP FAK. BĠYOĠSTATĠSTĠK VE BĠLGĠSAYAR" "DAĞILIM ÖLÇÜLERĠ" Doç. Dr. K. Setenay ÖNER[49] http://mimoza.marmara.edu.tr/~cahit/Yayin/belge/ista/index.html[50] http://tr.wikipedia.org/wiki/Standart_hata_%28istatistik%29[51] http://istatistik.yasar.edu.tr/wp-content/uploads/2011/10/TSTAT11.pdf[52] www.akademikdestek.net/kutuphane/genel/geneldosyalar/arastirmalarda_kullanilan_ista_yont.doc[53] "Doğrusal Olasılık ve Logit Modelleri <strong>ile</strong> Parametre Tahmini" "M. Emin Ġnal" , "DerviĢ Topuz" , "Okyay Uçan"[54] "AraĢtırma Tasarımları ve Ġstatistiğe GiriĢ" Prof.Dr.Önder Ergönül[55] http://www.simafore.com/blog/bid/99443/Understand-3-critical-steps-in-developing-logistic-regression-models[56] YAPAY BAĞIMLI DEĞĠġKENLĠ TAHMĠN MODELLERĠ VE BĠR UYGULAMA TUĞBA ALTINTAġ "YÜKSEK LĠSANS TEZĠ" "ĠSTATĠSTĠK ANABĠLĠM60 / 61


DALI"[57] MULTINOMIAL LOGIT MODELLER VE BĠR UYGULAMA SEVĠLAY KARAHAN "Biyoistatistik Programı" YÜKSEK LĠSANS TEZĠ[58] http://www.acikders.org.tr/pluginf<strong>ile</strong>.php/3496/mod_resource/content/2/Kredi_Riski.pdfDr. Göknur Büyükkara[59] "ÇOKLU BAĞLANTI DURUMUNDA ĠKĠLĠ (BĠNARY) LOJĠSTĠK REGRESYON MODELĠNDE GERÇEKLEġEN I. TĠP HATA VE TESTĠN GÜCÜ" "YelizKAġKO" "ZOOTEKNĠ ANABĠLĠM DALI"[60] "ĠSTATĠSTĠKSEL UYGULAMALARDA LOJĠSTĠK REGRESYON ANALĠZĠ" Ersan ÜRÜK , YÜKSEK LĠSANS TEZĠ[61] "Random effects logistic regression model for anomaly detection" , “MinSeokMok, SoYoungSohn ,YongHanJu” , Department of Information and IndustrialEngineering, Yonsei University, 134Shinchon-dong, Seoul120-749, RepublicofKorea[62] "Protocol-Based Classification for Intrusion Detection" "Kun-Ming Yu , Ming-Feng Wu, Wai-Tak Wong" Chung Hua University, Taiwan.[63] "Scan Detection on Very Large Networks Using Logistic Regression Modeling" , “Carrie Gates, Joshua J. McNutt, Joseph B. Kadane, and Marc I. Kellner” CarnegieMellon University, Pittsburgh, USA.[64] "HoneyStat: Local Worm Detection Using Honeypots" "David Dagon, Xinzhou Qin, Guofei Gu, Wenke Lee, Julian Grizzard, john Levine, Henry Owen" GeorgiaInstitue of Technology[65] "Ali Ġhsan DARĠGA" En Küçük Kareler Yöntemi[66] http://dl.acm.org[67] http://wenke.gtisc.gatech.edu/[68] Saldırı Tespit Sistemlerinde Ġstatistiksel Anormallik Belirleme Kullanımı "Bahar 2005" Yük. Müh. Melike Erol61 / 61

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!