10.07.2015 Views

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Veri Madenciliğinde Temel Bileşenler Analizi ve Negatifsiz Matris Çarpanlarına Ayırma Tekniklerinin Karşılaştırmalı AnaliziKazım Yıldız, Yılmaz Çamurcu, Buket DoğanLAB yazılımı ile uygulaması gerçekleştirilmiştir.Son bölümde ise sonuç ve öneriler verilmiştir.2. Kümeleme AnaliziLiteratürde kümeleme analizini açıklayan birçoktanım bulunmaktadır[1,4-8]. En genel tanımıylakümeleme; heterojen bir veri grubunun,küme adı verilen homojen alt gruplara bölümlenmesiolarak tanımlanabilir [2]. Bir küme debirbirlerine benzeyen ama diğer kümelerin elemanlarınabenzemeyen verilerden oluşan birkoleksiyondur [3].2.1 KmeansEn eski kümeleme algoritmalarından olank-means 1967 yılında J.B. MacQueen tarafındangeliştirilmiştir [<strong>10</strong>]. En yaygın kullanılangözetimsiz öğrenme yöntemlerinden biridir.K-means’in atama mekanizması her verinin sadecebir kümeye ait olabilmesine izin verir [11].Eşit büyüklükte küresel kümeleri bulmayaeğilimlidir [22]. K-means algoritması n tanenesneyi k tane kümeye böler. Öncelikle girişparametresi olarak k değerinin verilmesigerekmektedir. Küme içi benzerliğin yüksekfakat kümeler arası benzerliğin düşük olmasıamaçlanır. Küme benzerliği bir kümedeki nesnelerinortalama değeri ile ölçülmektedir, buda kümenin ağırlık merkezidir [1].K-means algoritmasının çalışma mekanizmasınagöre öncelikle her biri bir kümenin merkeziniveya ortalamasını temsil etmek üzere k tanenesne seçilir. Kalan diğer nesneler, kümelerinortalama değerlerine olan uzaklıkları dikkatealınarak en benzer oldukları kümelere dahiledilir. Daha sonra, her bir kümenin ortalamadeğeri hesaplanarak yeni küme merkezleri belirlenirve tekrar nesne-merkez uzaklıkları incelenir.Şekil 1’ de görüldüğü gibi kümelerdeherhangi bir değişim olmayıncaya kadar algoritmaötelenmeye devam eder.K-means kümeleme yönteminin değerlendirilmesindeen yaygın olarak karesel hata kriteri208SSE kullanılır. En düşük SSE değerine sahipkümeleme sonucu en iyi sonucu verir. Nesnelerinbulundukları demedin merkez noktalarınaolan uzaklıklarının karelerinin toplamı aşağıdakiformülle hesaplanmaktadır [18,16].K∑ ∑( m , x)2SSE = dist(1)i= 1 x∈Cix : C ikümesinde bulunan bir nesne,m i: C ikümesinin merkez noktasıBu kriterleme sonucu k tane kümenin olabildiğinceyoğun ve birbirinden ayrı sonuçlanmasıhedeflenmeye çalışılır. Algoritma, karesel-hatafonksiyonunu azaltacak k parçayı belirlemeyegayret eder [19].Şekil 1 K-means algoritmasının (a) k=2için; (b)k=3 için ötelenişi[<strong>12</strong>]iBu algoritmanın avantajları uygulanabilirliğininkolay olması ve büyük veri kümelerinde hızlıçalışabilmesidir.Büyük veri setlerini işlerken nispetenölçeklenebilir ve verimlidir. Çünküalgoritmanın işlemsel karmaşıklığı O(nkt)’dir[1]. n, nesne sayısı, k küme sayısı, t’deöteleme sayısıdır. Genelde k

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!