10.07.2015 Views

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Görevdeş (P2P) Ağlarda Sık Bulunan Öğelerin Belirlenmesine Dağıtık YaklaşımEmrah Çem, Öznur ÖzkasapAlgoritma 1- Yapışkan ÖrneklemeVeri akışının uzunluğunun N, kullanılan veriyapısınn isminin S ve içeriğinin öğe-sıklık ikililerindenoluştuğunu varsayalım. İlk olarak Sboştur ve örnekleme oranı 1 1 dir. Algoritmada(Algoritma-1) belirtilen r değerinin hesaplanmasışu şekilde olmaktadır: t= 1/(ε log(s -1 δ -1 ))olduğunu varsayalım. İlk 2t öğe için r=1, sonraki2t öğe için r=2, sonraki 4t öğe için r=4, vebu şekilde devam etmektedir. Bunun dışında,örnekleme oranında herhangi bir değişiklik olduğundaher bir öğenin sıklık değeri k değerikadar azaltılır, burada k değeri geometrik dağılımasahip bir değişkendir. Bu azaltma işlemisayesinde öğelerin örnekleme oranı sanki başındanberi o anki r oranı ile hesaplanıyormuşgibi olmaktadır. Sistemde sık bulunan öğelerlistelenirken sıklık değeri (s-ε)N ve üzerindeolan öğeler seçilir.Diğer algoritma ise kayıplı sayım (lossy counting)olarak adlandırılır. Yapışkan örneklemedenen belirgin farkı, bu algoritmanın olasılıklıdeğil deterministik olmasıdır. Bu algoritmadaveri akışı, genişliği w= ceil(1/e) olan kovalarkümesi olarak algılanır. Kullanılan veri yapısıD (e,f, ∆ ) üçlülerinden oluşmaktadır. ∆ , fteki en büyük hata oranını temsil eder. Toplamceil(N/w) tane kova mevcuttur ve yürürlüktekikova b currentile temsil edilir.1 Örnekleme oranının r olması, bir öğeninseçilme ihtimalinin 1/r olduğu anlamına gelir.140Algoritma 2-Kayıplı SayımBu algoritmada kovanın sınırında yer alan 2öğeler aşağıdaki eşitsizliği sağlıyorsa, o öğelersilinir.Manku ve Motwani ayrıca bu problemi tek birdevirde çözecek bir algoritma da ortaya koymuşlardır.Ancak, öğelerin dağılımının çarpık(skewed) olması durumunda algoritma büyükhatalar yapmaktadır. Önerilen algoritmalar verimliolsada dağıtık olmamasından dolayı görevdeşağlarda uygulanabilir olduğu söylenemez.Veri akışlarındaki sık öğelerin belirlenmesialanındaki diğer bir çalışma da Manjhi [11]tarafından yapılmıştır. Bu çalışmada [<strong>12</strong>] denfarklı olarak, öğeler dağıtık bir sistemde mevcutolduğu için önerilen algoritmanın görevdeşağlara uygulanabilirliği vardır. Çalışmanınamacı sistem genelinde belirli bir eşik değerindenfazla sıklık değerine sahip öğelerin kullanıcıtarafından belirlenen maksimum bir hatapayı dahilinde belirli periyotlar (T) ile belirlenmesidir.T değeri s*N olarak hesaplanır, s [0,1]değişkeni kullanıcının belirlediği destek değerinitemsil eder. Sistemde m adet S 1,S 2, ..., S mveri akımı olduğunu, ve veri akımı Si nin (o i1,t i1),( o i2, t i2), gibi öğe-frekans ikililerinden oluştuğunuvarsayalım. Sistemde ayrıca her bir veriakımını izleyen toplam m adet monitör eşlerolduğunu da varsayalım. Monitör eşler sistemdebir adet bulunan temel eşi bilginlendirmekile görevlidir. Öğelerin sıklık değeri aşağidakigibi hesaplanır:2 Sınırda yer almak N=0 mod w anlamına gelir.t nowşuanki zamanı temsil ederken, a dengelemkatsayısının agresifliğini temsil eder. Bu çalışmanındiğer çalışmalardan farkı, yakın zamandagörülmüş olan öğelerin sıklık değeri üzerindekietkisi daha eski öğelere göre daha fazla olmasıdır.Bu çalışmada da eşler arasında sıradüzenselbir yapı mevcuttur. Temel eş ağacın en tepesindeyer alırken, onun komşuları bir alt seviyede,komşularının komşuları ise daha alt seviyedeyer alır. Bütün eşler bu sıradüzene dahil olanakadar bu yordam devam eder. Bu sıranın en altkatmanında bulunan düğümler yaprak düğümler(leaf nodes), orta katmanda yer alan öğelerise ara düğümler (intermediate nodes) olarakadlandırılırlar. Her bir katmana ait bir hata oranıε ivardır. Sonucun doğru bir şekilde temeleşe iletilmesi için bu hata oranının sıradüzeninalt katmanından üst katmanına doğru azalmasıgerekmektedir. Bu yaklaşıma duyarlık meğili(precision gradient) adı verilmektedir.Bir grup çalışma [2,14] eşikli sayımları dağıtıkizleme konusunda bir algoritma önerisindebulunmuşlardır. Dağıtımlı izleme probleminin,sonucun tek bir eşte toplanması açısından sıköğelerin belirlenmesi problemine uyarlanmasımümkün değildir. Popüler öğelerin belirlenmesiprobleminde her eşin sistem genelindekisık öğeleri bilmesi gerekir. Bu özelliğe sahipalgoritmalar tedbirli (proactive) algoritmalarolarak adlandırılırken, [8] ve [14] teki çalışmalardaönerilen algoritmalar tepkili (reactive)algoritmalar olarak adlandırılmaktadır.<strong>Akademik</strong> Bilişim’<strong>10</strong> - XII. <strong>Akademik</strong> Bilişim Konferansı Bildirileri<strong>10</strong> - <strong>12</strong> Şubat 20<strong>10</strong> Muğla Üniversitesi141Diğer bir çalışmada [<strong>10</strong>], görevdeş ağlarda sıkbulunan öğelerin belirlenmesine sıradüzenselbir yaklaşım ile in-network filtering adında biralgoritma önerilmektedir. Bu algoritma 2 aşamadanoluşmaktadır. Birinci aşama aday süzme(candidate filtering) olarak adlandırılır vebu aşamada eşler arasında gruplar oluşturulurve bu gruplarda sık görülen öğeler ilk elemedengeçerler. İlk elemeden geçen öğeler ikinciaşama olan aday doğrulama (candidate verification)aşamasına geçer. Bu aşamada ise herbir öğenin sıklık değeri, oluşturulan sıradüzenaracılığı ile hesaplanır ve kulanıcı tarafındanbelirlenen eşik değerinin üstünde sıklık değeriolan öğeler sık öğeler olarak belirlenir.Lahiri ve Tirthapura [9] bu alanda epidemikyöntemi kullanan tek çalışmayı yapmışlardır.Bu çalışmada ‘birörnek (uniform) epidemikalgoritma kullanılmıştır ve ağdaki her bir eşinsadece bir öğe bulundurabileceği baz alınmıştır.Bu durum algoritmanın uygulanabilirliğiniazaltmaktadır.3. Önerdiğimiz Dağıtık YaklaşımN eşten oluşan tasarsız bağlantılı (connected)bir görevdeş ağın olduğunu varsayalım ve ağdakieşleriP={P 1, P 2,...,P N}kümesi olarak, öğeleri iseD={d 1, d 2, d 3,..., d t}kümesi ile adlandıralım. Burada t değeri tümağda kaç farklı öğe olduğunu gösterir. Her biröğenin sistem genelinde kaç adet bulunduğunuise g(d i), i={1,2,...,t} olarak gösterelim. AyrıcaP j’nin öğe içeriğini de S j={s j1, s j2,..., s jm,..., s jk}olarak gösterelim, burada k değeri, o eşte kaçtane farklı öğe bulunduğunu gösterir ve S j ⊂ Ddir. Eş j’de bulunan herhangi bir öğenin, s molduğunuvarsayalım, yerel sıklık değerini v(s jm)ve tanımlayıcısını da id(s jm) olarak gösterelim.Bu durumda öğelerin sıklık değerleri şu şekildeyazılabilir.N∑g ( d ) = v(), i = { 1,2,..., t}is j ij=1Elde etmeye çalıştığımız sonuç, algoritma sonucundaher eşin, sistem genelindeki tüm öğelerinsayısını( g(d i) , i={1,2,...,t} ) hesaplamış

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!