10.07.2015 Views

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Akademik</strong> Bilişim’<strong>10</strong> - XII. <strong>Akademik</strong> Bilişim Konferansı Bildirileri<strong>10</strong> - <strong>12</strong> Şubat 20<strong>10</strong> Muğla ÜniversitesiVeri Madenciliğinde Temel Bileşenler Analizi veNegatifsiz Matris Çarpanlarına Ayırma TekniklerininKarşılaştırmalı AnaliziKazım Yıldız, Yılmaz Çamurcu, Buket DoğanMarmara Üniversitesi, Elektronik-Bilgisayar Eğitimi Bölümü, İstanbulkazim.yildiz@marmara.edu.tr, camurcu@marmara.edu.tr, buketb@marmara.edu.trÖzet: Teknolojinin hızla gelişmesi sonucu yüksek boyutlu veriler ile çalışma zorunluluğu ortayaçıkmıştır. Geleneksel kümeleme algoritmaları yüksek boyutlu veriler ile uygulandığındakümeleme işleminin sonucu istenildiği gibi olmamaktadır. Yüksek boyutlu veriler üzerinde bualgoritmalar yetersiz kalmaktadır. Bu yüzden yüksek boyutlu veri setleri üzerinde etkili olabilecekalgoritmalar geliştirilmeli veya veri setleri üzerinde boyut indirgeme yoluna gidilmelidir. Buçalışmada boyut azaltma metotlarından temel bileşen analizi ve negatifsiz matris çarpanlarınaayırma metotları geleneksel kümeleme algoritmaları ile beraber kullanılmakta elde edilen sonuçlarınkarşılaştırılması küme saflık ve ortak bilgi değerlerine göre yapılmaktadır.Anahtar Sözcükler: Veri Madenciliği, Yüksek Boyutlu Veri, Yüksek Boyutlu KümelemeA Comperative Analize of Principal Component Analysis andNon-Negative Matrix Factorization Techniques in Data MiningAbstract: As a result of the rapidly developing technology, the necessity of working with highdimension datas have turned up. When the classical clustering algorithms apply to the high dimensiondatas, the clustering result don’t be in the way of the desired. These algorithms areinadequate on the high dimension datas. Therefore, some algorithms, which can be efficient onthe high dimension data sets, must be improved or dimensional reduction techniques on data setsmust be chosen. In this project Principal Component Analysis and Non Negative Matrix Factorizationthat are dimension reduction techniques used with traditional clustering algorithms andresults are compare according to purity and mutual info.Keywords: Data Mining, High Dimensional Data, High Dimensional Clustering2061. GirişTeknolojinin hızla gelişmesi ve artan veri miktarınedeniyle geleneksel kümeleme algoritmalarıyüksek boyutlu veriler ile uygulandığındaetkisiz kalmaktadır. Kümeleme işlemi sonucunitelikli olmamakta ayrıca kümeleme işlemi,özellikle yüksek sayıda attribute (özellik) içerenverilerde, çok uzun süre almaktadır. Eldeedilen küme sonuçlarının doğruya yakın olmasıve de hızlı sonuç elde etmek için boyut207indirgeme metotlarının veri madenciliğindekullanılması zorunlu hale gelmiştir.Bu çalışmada ikinci bölümde kısaca kümelemeanalizinden bahsedilmiş, Kmeans ve Fuzzycmeans algoritmaları açıklanmış, boyut indirgememetotlarından Temel Bileşen Analizi ( PCA-Princpal Component Analysis) ve NegatifsizMatris Çarpanlarına Ayırma NNMF-Non NegativeMatrix Factorization) hakkında bilgiler verilmiş,üçüncü bölümde ise bu çalışmanın MAT-

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!