10.07.2015 Views

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Veri Madenciliğinde Temel Bileşenler Analizi ve Negatifsiz Matris Çarpanlarına Ayırma Tekniklerinin Karşılaştırmalı AnaliziKazım Yıldız, Yılmaz Çamurcu, Buket Doğan<strong>Akademik</strong> Bilişim’<strong>10</strong> - XII. <strong>Akademik</strong> Bilişim Konferansı Bildirileri<strong>10</strong> - <strong>12</strong> Şubat 20<strong>10</strong> Muğla Üniversitesilemi yapmadan elde edilen kümelerin saflık veortak bilgi değerleri ile benzer sonuçlar eldeedilmiştir.İris veri setine boyut azaltma işleminden sonraFuzzy Cmeans algoritması uygulandığındaelde edilen sonuçlarda NNMF algoritmasınınboyut azaltma işleminde daha etkili olduğugözlenmiştir.Vehicle veri setinde boyut sayısı biraz daha arttığıiçin Kmeans algoritmasının kümeleri tespitetmede yetersiz kaldığı gözlenmiştir. Boyutazaltma işlemi yapıldıktan sonra ise kümelerinsaflık değerleri çok fazla artmasa da azaltmaişleminden önceki sonuçların benzeri daha kısasürede elde edilmiştir.Vehicle veri setine Fuzzy Cmeans algoritmasıuygulandığında algoritmanın Kmeans’e nazarandaha iyi çalıştığı gözlenmiştir. Boyut azaltma işlemindensonra ise elde edilen sonuçlara görePCA ile elde edilen yeni düşük boyutlu veri setinde,Fuzzy Cmeans algoritması sonuçları dahadoğru ve ideale yakın tespit edebilmiştir.4. Sonuç ve ÖnerilerKmeans ve Fuzzy Cmeans algoritmaları ile eldeedilen sonuçlar üçüncü bölümde verilmiştir.Veri setlerinde boyut sayısı arttıkça gelenekselalgoritmaların etkisi azalmakta ve yapılan uygulamalariçin çok fazla süre gerekmektedir. Buyüzden veri madenciliğinde yüksek boyutlu verisetleri indirgendikten sonra geleneksel kümelemealgoritmalarının, elde edilen bu veri setleriüzerinde daha etkili oldukları gözlenmiştir.Yapılan çalışmadaki sonuçlara görePCA(Principal Component Analysis, TemelBileşenler Analizi) yüksek boyutlu veri setlerininindirgenmesinde ilgili ve gerekli noktalarıboyut azaltma işlemi sırasında koruduğundankümeleme sonuçlarının yeni veri seti üzerindedaha etkili olduğu gözlenmektedir. Böylecealgoritmalar ile yapılan deneylerde büyük verisetleri üzerinde kümeleme işlemi için çok fazlasüre gereksinimi, yüksek boyutlu veri setlerindekikümelerin doğru bir şekilde tespit edilememesigibi sorunlar ortadan kaldırılmıştır.Sonuçlara göre Fuzzy Cmeans algoritmasıKmeans’e nazaran kümelemede daha etkili biralgoritmadır. Boyut azaltma metotları ile verisetlerinin sahip olduğu özellikler kaybedilmedendoğru ve hızlı sonuçlar üretilebilmektedir.Boyut azaltma metotları ile çok daha yüksekboyutlu veri setlerindeki kümeler boyut azaltmaişleminden sonra geleneksel kümeleme algoritmalarıile de doğru bir şekilde tespit edilebilmektedir.Böylece geleneksel kümelemealgoritmaları ile boyut azaltma teknikleri beraberindirgeme işleminden sonra veri setlerindeetkili bir şekilde kullanılabilir.Burada yapılan çalışmada geleneksel kümelememetotlarının yüksek boyutlu veri setlerindeuygulaması yapılmış ardından boyut azaltmaişlemi yapılarak elde edilen sonuçlar ile karşılaştırılmıştır.Veri madenciliğinde boyut azaltmatekniklerinin bundan sonraki benzer çalışmalardada kullanılması mümkündür.5. Kaynaklar[1] Han, J.; Kamber, M.: “Data Mining Conceptsand Techniques.”, MorganKauffmannPublishers Inc.,(Ağustos 2001).[2]. Berry, M., J., A.; Linoff, G. S.: Data MiningTechniques, Wiley Publishing, Inc., Indiana,USA, (2004)[3] Larose, D., T.: Discovering Knowledge inData - An Introduction to Data Mining, JohnWiley & Sons, Inc., New Jersey, USA, (2005)[4]Karypis,G.;Han,E.H.;Kumar,V.:“CHAMELEON: A hierarchical clusteringalgorithm usingdynamic modeling”, IEEE Computer 32(8),(Ağustos 1999)68-75.[5] Jain,A.K.; Dubes,R.C.: ”Algorithms ForClustering Data”, Prentice Hall,EnglewoodCliffs, New Jersey, 07632,(1988)[6] Boutsinas,B.; Gnardellis,T.: “On DistributingThe Clustering Process”, PatternRecognitionLetters 23, (2002), 999-<strong>10</strong>08.[7] Berkhin,P. : “Survey of Clustering Data MiningTechniques.”, Accrue SoftwareInc., SanJose,California,USA (2002)[8] Jain, A.K.; Murty, M.N.; Flynn, P.J.: “DataClustering: A Review”, ACM ComputingSurveys, Vol. 31, No. 3., (September 1999)[9] Bilgin, T.T.: “Çok Boyutlu Uzayda GörselVeri Madenciliği için Üç Yeni Çatı Tasarımı veUygulamaları”, Doktora Tezi, Marmara ÜniversitesiFen Bilimleri Enstitüsü, İstanbul,Türkiye, (2007)[<strong>10</strong>] Mucha, J, M; Sofyan, H: “NonhierarchicalClustering”,http://www.quantlet.com/mdstat/scripts/xag/ html/xaghtmlframe149.htm (ErişimTarihi : Ekim 2009)[11] Davidson, I, Y.: “Understanding K-meansNon-hierarchical Clustering”, Technical Report,Computer Science Department of StateUniversity of New York (SUNY)–Albany, (Şubat2002).[<strong>12</strong>] Everts, J:“Clustering Algorithms”,www.ai.rug.nl/ki2/slides/ki2-s07-clusteringalgorithms.ppt(Erişim Tarihi :Ekim 2009)[13] Ng, R. T. and Han, J.: “Clarans: A methodfor clustering objects for spatial data mining”,IEEE Trans. on KDE, 14(5), 2002.[14] http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/cmeans.htm(ErişimTarihi: Ekim 2009)[15] Azem, Z: “A Comprehensive Cluster ValidityFramework For Clustering Algorithms”,MSc Thesis, The University of Guelph, Canada,(2003) 15-19[16] Lee, DD & Seung, HS. Unsupervised learningby convex and conic coding (1997). Proceedingsof the Conference on Neural InformationProcessing Systems 9, 515–521.[17] Lee, DD & Seung, HS (1999). Learningthe parts of objects by non-negative matrix factorization.Nature 401, 788–791.[18] Pang-Ning Tan, P.N.; Steinbach, M.; Kumar,V.: “Introduction to Data Mining”., AddisonWesley (2005)[19] Han, J.; Kamber, M.; Tung, A. K. H.: ‘’Spatial Clustering Methods in Data Mining: ASurvey’’, in H. Miller and J. Han (eds.), GeographicData Mining and Knowledge Discovery,Taylor and Francis, (2001).[20] Öğüdücü, Ş.:“Veri Madenciliği, Demetleme Yöntemleri”, www.cs.itu.edu.tr/ ~gunduz/courses/verimaden/slides/d5.pdf (Erişim Tarihi: Kasım 2005)[21] Moertini, V.S.: “Introduction To FiveClustering Algorithms”, Integral, Vol. 7, No. 2,(Ekim 2002)[22] “An Introduction to Cluster Analysisfor DataMining”,http://www.users.cs.umn.edu/~han/dmclass/clustersurvey<strong>10</strong>0200.pdf(Erişim Tarihi: Ekim 2009)2<strong>12</strong>213

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!