10.07.2015 Views

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Görevdeş (P2P) Ağlarda Sık Bulunan Öğelerin Belirlenmesine Dağıtık YaklaşımEmrah Çem, Öznur ÖzkasapPopüler öğelerin belirlenmesi problemi sadecegörevdeş ağlarda değil, ayrıca veritabanı uygulamalarında,algılayıcı ağlarda [4]; hatta bazıgerçek senaryolarda da kullanilabilir. Örneğin,bir anayoldaki araç sayısı eşik değerini geçtiğindeveya bir bölgede sınırı geçen asker sayısınıneşik değerinin üstüne çıktığında uyarıverilmesi [8]. Ayrıca bir bölgedeki sıcaklık algılayıcılarısayesinde o bölgedeki atmosfer bozukluklarınınbelirlenmesinde de kullanılabilir[5]. Bu örneklerin ortak özellikleri yerel verilerineşlerde bulunması ancak istenilen bilgininbu verilerin yorumlanmasıyla elde edilebilecekbir sistem bilgisi olmasıdır. Bunların dışındaönbellek yönetimi, internet solucanlarının veDOS ataklarının belirlenmesi, ağ ilinge eniyilemesi(network topology optimization) gibiuygulamalara da uyarlanabilir [<strong>10</strong>].Bu bildiri, şu şekilde düzenlenmiştir. 2. bölümde….. , kümeleme ve sık öğelerin belirlenmesikonusunda literaturdeki çalışmalardan bahsedilmiştir.3. Bölümde ise kendi önerdiğimizdağıtık yaklaşım anlatılıp yaklaşımın uygulandığıbir örnek senaryo gösterilmiştir.2.Yöntemler2.1 KümelemeKümeleme işlemi, toplam, aritmetik ortalama,minimum, maksimum gibi sistem geneli bilgilerinibelirleme işlemlerine verilen genel birisimdir. Kümeleme işlemi sık öğelerin belirlenmesindeönemli bir işlemdir çünkü öğelerinsık olup olmaması kararı verilirken kümelemeişleminin sonucu direk olarak kullanılmaktadır.Kümeleme yöntemi ağdaki eşlerin haberleşmetürüne göre 2 gruba ayrılabilir.Epidemik (Gossip) Tabanlı KümelemeBu yöntemde eşlerin hepsine aynı görev verilir.Özelleşmiş görevlere sahip veya herhangi birsıradüzen içerisinde yer alan eşler bulunmaz.Epidemik yönteme dayalı algoritmalar devirlerden(round) oluşmaktadır ve her devirdeher eş ya kendinde bulunan bilgiyi hedeflediğidiğer bir kaç eşe bildirir (push-based) ya da138hedeflediği eşlerden içerikleri hakkında bilgialırlar (pull-based). Her ikisinin de tek bir devirdeyapılması da(pull-push based) mümkündür.Algoritma belirli bir devir sayısına ulaştığızaman her eş kendi bilgisini tüm sistemeyaymış olur. Yöntem ne kadar fazla devirdenoluşursa, bütün bilgilerin tüm sisteme yayılmaolasılığı o kadar artar. Bu yöntem eşlerinsistemden ayrılmasına veya kopmasına karşıesnek bir yöntemdir. Bu nedenle görevdeş ağlardaveya bağlantı kopma oranı yüksek olankablosuz ağlarda sık tercih edilen bir yöntemdir.Epidemik yöntemler işlevselliği açısındanüç gruba ayrılabilir:1. Eşlerin içeriklerinin tüm sistemedağıtılması2. Yinelenmiş verilerin (replicated data)tamir edilmesi3. KümelemeEpidemik yöntemlerin belli başlı yararları basitliği,ölçeklenebilirliği, hataya karşı dayanıklılığınınyüksek olmasıdır [1]. Bu yöntemdeelde edilen sonuçlar sıradüzensel yönteminaksine olasılıklıdır (probabilistic), belirleyici(deterministic) değildir.Bir çok araştırmacı epidemik yönteme dayalıdağıtık kümele işlemi hakkında çalışmalaryapmıştır. Kempe [7] bir ağda dağıtılmış olarakbulunan değerlerin epidemik yöntem ilekümeleme değerlerinin hesaplanması için merkeziolmayan bir yöntem önermiştir. Örneğin,toplam ve aritmetik ortalama hesaplamalarınıO(log n) devirde ve O(n log n) mesaj ile gerçekleştirenbir teknik ortaya koymuştur. Bununyanı sıra, derecelendirme (rank) ve örnekleme(sampling) hesaplamaları da önerilen teknikile O(log 2 n) devirde ve O(n log 2 n) mesajile gerçekleştirilmektedir. Kashyap [6] minimum,maximum, toplam, aritmetik ortalma vederecelendirme(rank) gibi kümeleme işlemleriniO(n log log n) mesaj ile ve O(log n loglog n) devirde hesaplayabilen ilk algoritmayıgeliştirmiştir. Boyd [2] ise düzensiz epidemikyönteme dayalı kümeleme işlemi yapan birteknik geliştirmiştir. Bu çalışmaya göre eş inin komşusu j ile haberleşmesi ihtimali Pij dir.Chen [3] kablosuz sensör ağlarda kümelemehesaplaması için epidemik yönteme dayalı biralgoritma geliştirmiştir. Bu algoritmanın performansınındiğer algoritmalara göre daha iyiolmasına rağmen, algoritmada kablosuz sensörağlara has yayım (broadcasting) yöntemi kullanıldığıiçin uygulama alanı kısıtlıdır.Sıradüzensel KümelemeBu yöntemde eşler arasında bir sıradüzen oluşturulur.Ancak bu yöntemin en önemli problemi,sıradüzenin üst katmanlarında yer alaneşlerden birinin ağdan ayrılması veya ağdankopması durumunda hesaplamalarda büyükkayıplar oluşmasıdır (single point of failure).Başka bir deyişle, tek bir eşin bile ağdan ayrılmasıdurumunda çok büyük bir bilgi kaybınauğraması problemidir. Gossip yöntemi ile karşılaştırıldığındabu yöntem ölçeklenirlik açısındangeride kalmaktadır.Li [<strong>10</strong>] kümeleme bilgisini hesaplamak için eşlerarasında bir sıradüzen oluşturmuştur ve busıradüzenin en üst katmanına ağdaki en dayanıklıeş konulur. Bu eşin komşuları bir alt katmandayer alır. Onların komşuları ise bir sonrakikatmanda yer alır ve bütün eşler sıradüzenedahil olduğu zaman bu işlem sonlanmış olur.Bir eşin sıradüzene katılabilmesi için dayanıklıolarak nitelendirilmiş olması gerekir. Dayanıklıolmayan eşler yerel bilgilerini ait oldukları eşgrubunun lideri konumunda olan dayanıklı eşeiletmekle görevlidir. Bu çalışmada, diğer çalışmalardanfarklı olarak teorik olarak kesin hatapayı olmayan bir çözüm sunulmuştur. Manjhi[11] de veri akışında sık bulunan öğeleri belirlerkenaynı şekilde bir sıradüzen oluşturmuştur.Bu sıradüzende bir kaç haberci (monitor)eş ve bir temel eş bulunmaktadır. Haberci eşler,kendilerine gelen bilgileri belirli aralıklarlatemel eşe haber verirler. Temel eş ise gelenbilgileri kullanarak belirli bir doğruluk payıiçerisinde kümeleme hesaplamasını gerçekleştirir.Keralapura [8] uzak mevki (remote site)diye adlandırdığı ağdaki bazı eşlere belirli bir<strong>Akademik</strong> Bilişim’<strong>10</strong> - XII. <strong>Akademik</strong> Bilişim Konferansı Bildirileri<strong>10</strong> - <strong>12</strong> Şubat 20<strong>10</strong> Muğla Üniversitesi139eş grubunun bilgilerini toplama görevi vermistir.Ağda bir de eşgüdümcü mevki (coordinatorsite) mevcuttur, eşgüdümcü mevki uzak mevkilerden,belirli koşullar sağlandığında ( örn.eşik değerinin aşılması) güncel bilgileri alır.Sıradüzensel yöntemlerin hepsinde de özelleşmişbir eşin sistemden ayrılması veya kopmasıdurumunda önemli bir bilgi kaybı olacağından,hesapların güvenilirliği ciddi bir şekilde azalıro yüzden eş giriş çıkışlarının sık olduğu ağlardasıradüzensel yöntemin kullanımı güvenilirolmamaktadır.2.2 Sık Öğelerin BelirlenmesiÖnceki çalışmalar gözönünde bulundurulduğundagörevdeş ağlarda popüler öğelerin belirlenmesinde‘epidemik’ yöntem ‘sıradüzensel’yönteme nazaran daha nadir kullanılmıştır.Misra ve Gries [13] veri akışında sık bulunanöğelerin belirlenmesi konusunda ilk belirleyiciçalışmayı yapmışlardır. Veri akışında n/k denfazla bulunan öğelerin belirlenmesi için üçtane algoritma önerisinde bulunmuşlardır. Buradan veri yapısının büyüklüğü, k ise kullanıcıtarafından tanımlanan bir parametredir ve 2≤k ≤ n eşitsizliğini sağlamak zorundalar. Bu çalışmadaayrıca problemin O(n log k) zamandaçözülebilmesi için uygun olan veri yapısınınAVL ağaç yapısı olduğunu ve bu zamanın dabu problem için bir alt sınır olduğu göstermişlerdir.Manku and Motwani [<strong>12</strong>] ise kullanıcıtarafından belirlenen eşik değerinden fazla bulunanöğelerinin belirlenmesi için iki farklı algoritmaortaya koymuşlardır. Bu algoritmalardaöğelerin yaklaşık sıklık değerleri hesaplanırve hata payı kullanıcı tarafından belirlenen birparametre ile sınırlanır. Birinci algoritma yapışkanörnekleme (sticky sampling) kullanıcıtarafından belirlenen parametreler ile kontroledilir. Bu parametreler destek değeri s , hataoranı ε, ve bozukluk olasılığı ∆ dır.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!