Akademik BiliÅim '10 10 - 12 Åubat 2010 MuÄla

More documents

Recommendations

Info

Akademik Bilişim’10 - XII. Akademik Bilişim Konferansı Bildirileri10 - 12 Şubat 2010 Muğla ÜniversitesiVeri Madenciliğinde Temel Bileşenler Analizi veNegatifsiz Matris Çarpanlarına Ayırma TekniklerininKarşılaştırmalı AnaliziKazım Yıldız, Yılmaz Çamurcu, Buket DoğanMarmara Üniversitesi, Elektronik-Bilgisayar Eğitimi Bölümü, İstanbulkazim.yildiz@marmara.edu.tr, camurcu@marmara.edu.tr, buketb@marmara.edu.trÖzet: Teknolojinin hızla gelişmesi sonucu yüksek boyutlu veriler ile çalışma zorunluluğu ortayaçıkmıştır. Geleneksel kümeleme algoritmaları yüksek boyutlu veriler ile uygulandığındakümeleme işleminin sonucu istenildiği gibi olmamaktadır. Yüksek boyutlu veriler üzerinde bualgoritmalar yetersiz kalmaktadır. Bu yüzden yüksek boyutlu veri setleri üzerinde etkili olabilecekalgoritmalar geliştirilmeli veya veri setleri üzerinde boyut indirgeme yoluna gidilmelidir. Buçalışmada boyut azaltma metotlarından temel bileşen analizi ve negatifsiz matris çarpanlarınaayırma metotları geleneksel kümeleme algoritmaları ile beraber kullanılmakta elde edilen sonuçlarınkarşılaştırılması küme saflık ve ortak bilgi değerlerine göre yapılmaktadır.Anahtar Sözcükler: Veri Madenciliği, Yüksek Boyutlu Veri, Yüksek Boyutlu KümelemeA Comperative Analize of Principal Component Analysis andNon-Negative Matrix Factorization Techniques in Data MiningAbstract: As a result of the rapidly developing technology, the necessity of working with highdimension datas have turned up. When the classical clustering algorithms apply to the high dimensiondatas, the clustering result don’t be in the way of the desired. These algorithms areinadequate on the high dimension datas. Therefore, some algorithms, which can be efficient onthe high dimension data sets, must be improved or dimensional reduction techniques on data setsmust be chosen. In this project Principal Component Analysis and Non Negative Matrix Factorizationthat are dimension reduction techniques used with traditional clustering algorithms andresults are compare according to purity and mutual info.Keywords: Data Mining, High Dimensional Data, High Dimensional Clustering2061. GirişTeknolojinin hızla gelişmesi ve artan veri miktarınedeniyle geleneksel kümeleme algoritmalarıyüksek boyutlu veriler ile uygulandığındaetkisiz kalmaktadır. Kümeleme işlemi sonucunitelikli olmamakta ayrıca kümeleme işlemi,özellikle yüksek sayıda attribute (özellik) içerenverilerde, çok uzun süre almaktadır. Eldeedilen küme sonuçlarının doğruya yakın olmasıve de hızlı sonuç elde etmek için boyut207indirgeme metotlarının veri madenciliğindekullanılması zorunlu hale gelmiştir.Bu çalışmada ikinci bölümde kısaca kümelemeanalizinden bahsedilmiş, Kmeans ve Fuzzycmeans algoritmaları açıklanmış, boyut indirgememetotlarından Temel Bileşen Analizi ( PCA-Princpal Component Analysis) ve NegatifsizMatris Çarpanlarına Ayırma NNMF-Non NegativeMatrix Factorization) hakkında bilgiler verilmiş,üçüncü bölümde ise bu çalışmanın MAT-
Veri Madenciliğinde Temel Bileşenler Analizi ve Negatifsiz Matris Çarpanlarına Ayırma Tekniklerinin Karşılaştırmalı AnaliziKazım Yıldız, Yılmaz Çamurcu, Buket DoğanLAB yazılımı ile uygulaması gerçekleştirilmiştir.Son bölümde ise sonuç ve öneriler verilmiştir.2. Kümeleme AnaliziLiteratürde kümeleme analizini açıklayan birçoktanım bulunmaktadır[1,4-8]. En genel tanımıylakümeleme; heterojen bir veri grubunun,küme adı verilen homojen alt gruplara bölümlenmesiolarak tanımlanabilir [2]. Bir küme debirbirlerine benzeyen ama diğer kümelerin elemanlarınabenzemeyen verilerden oluşan birkoleksiyondur [3].2.1 KmeansEn eski kümeleme algoritmalarından olank-means 1967 yılında J.B. MacQueen tarafındangeliştirilmiştir [10]. En yaygın kullanılangözetimsiz öğrenme yöntemlerinden biridir.K-means’in atama mekanizması her verinin sadecebir kümeye ait olabilmesine izin verir [11].Eşit büyüklükte küresel kümeleri bulmayaeğilimlidir [22]. K-means algoritması n tanenesneyi k tane kümeye böler. Öncelikle girişparametresi olarak k değerinin verilmesigerekmektedir. Küme içi benzerliğin yüksekfakat kümeler arası benzerliğin düşük olmasıamaçlanır. Küme benzerliği bir kümedeki nesnelerinortalama değeri ile ölçülmektedir, buda kümenin ağırlık merkezidir [1].K-means algoritmasının çalışma mekanizmasınagöre öncelikle her biri bir kümenin merkeziniveya ortalamasını temsil etmek üzere k tanenesne seçilir. Kalan diğer nesneler, kümelerinortalama değerlerine olan uzaklıkları dikkatealınarak en benzer oldukları kümelere dahiledilir. Daha sonra, her bir kümenin ortalamadeğeri hesaplanarak yeni küme merkezleri belirlenirve tekrar nesne-merkez uzaklıkları incelenir.Şekil 1’ de görüldüğü gibi kümelerdeherhangi bir değişim olmayıncaya kadar algoritmaötelenmeye devam eder.K-means kümeleme yönteminin değerlendirilmesindeen yaygın olarak karesel hata kriteri208SSE kullanılır. En düşük SSE değerine sahipkümeleme sonucu en iyi sonucu verir. Nesnelerinbulundukları demedin merkez noktalarınaolan uzaklıklarının karelerinin toplamı aşağıdakiformülle hesaplanmaktadır [18,16].K∑ ∑( m , x)2SSE = dist(1)i= 1 x∈Cix : C ikümesinde bulunan bir nesne,m i: C ikümesinin merkez noktasıBu kriterleme sonucu k tane kümenin olabildiğinceyoğun ve birbirinden ayrı sonuçlanmasıhedeflenmeye çalışılır. Algoritma, karesel-hatafonksiyonunu azaltacak k parçayı belirlemeyegayret eder [19].Şekil 1 K-means algoritmasının (a) k=2için; (b)k=3 için ötelenişi[12]iBu algoritmanın avantajları uygulanabilirliğininkolay olması ve büyük veri kümelerinde hızlıçalışabilmesidir.Büyük veri setlerini işlerken nispetenölçeklenebilir ve verimlidir. Çünküalgoritmanın işlemsel karmaşıklığı O(nkt)’dir[1]. n, nesne sayısı, k küme sayısı, t’deöteleme sayısıdır. Genelde k
Page 4 and 5:
Tıp Bilişiminde Mobilite Uygulama
Page 6 and 7:
İnternet ve Sanat, Yeni Medya ve n
Page 9 and 10:
Page 11 and 12:
Page 14 and 15:
Akademik Bilişim’10 - XII. Akade
Page 17 and 18:
Öğrenci ve Öğretim Elemanının
Page 19 and 20:
Lise Öğrencilerinin Mesleki Yönl
Page 21 and 22:
Lise Öğrencilerinin Mesleki Yönl
Page 23 and 24:
Telsiz Duyarga Ağları ile Bir Nes
Page 25 and 26:
Page 27 and 28:
Kablosuz Algılayıcı Ağlar ve G
Page 29 and 30:
Page 31 and 32:
Çizge Teorisi, Dağıtık Algoritm
Page 33 and 34:
Uzaktan Eğitimde Sistem Odası Tas
Page 35 and 36:
Hizmet İçi Eğitime Farklı Bir Y
Page 37 and 38:
Hizmet İçi Eğitime Farklı Bir Y
Page 39 and 40:
Orta Öğretimden Üniversiteye Gel
Page 41 and 42:
Orta Öğretimden Üniversiteye Gel
Page 43 and 44:
Uzaktan Eğitimde Yeni Bir Yaklaş
Page 45 and 46:
Page 47 and 48:
Erişim Ağlarında WIMAX’ın Opt
Page 49 and 50:
Page 51 and 52:
Türk ve Dünya Hukukunda Bilişim
Page 53 and 54: Akademik Bilişim’10 - XII. Akade
Page 55 and 56: Mekânsal Bilişime Ontolojik Bir Y
Page 61 and 62: Temel Bilişim Eğitiminde Enformat
Page 63 and 64: Mobi̇ l Peer-To-Pee (P2P) Ağlarda
Page 65 and 66: Mobi̇ l Peer-To-Pee (P2P) Ağlarda
Page 67 and 68: Bulut Hesaplama Teknolojisi: Mimari
Page 69 and 70: Bulut Hesaplama Teknolojisi: Mimari
Page 71 and 72: Görevdeş (P2P) Ağlarda Sık Bulu
Page 73 and 74: Görevdeş (P2P) Ağlarda Sık Bulu
Page 75 and 76: Çevrimiçi Web Analiz Yazılımlar
Page 77 and 78: Web Sitelerinde Kullanılabilirlik
Page 81 and 82: Akademik Profil Web SayfasıMehmet
Page 83 and 84: Mekansal Veritabanlarında Hızlı
Page 85 and 86: Mekansal Veritabanlarında Hızlı
Page 87 and 88: Öncül Parola Denetimi Yöntemiyle
Page 89 and 90: Öncül Parola Denetimi Yöntemiyle
Page 91 and 92: Yazılım Geliştirme Süreçleri v
Page 93 and 94: Yazılım Geliştirme Süreçleri v
Page 95 and 96: Web Tabanlı CMMI Süreç Yönetimi
Page 99 and 100: Geleneksel Yazılım Mühendisliği
Page 101 and 102: Geleneksel Yazılım Mühendisliği
Page 103: Veriambarı Yazılım Geliştirme S
Page 107 and 108: Veri Madenciliğinde Temel Bileşen
Page 109 and 110: İş Zekası Çözümleri için Ço
Page 111 and 112: İş Zekası Çözümleri için Ço
Page 113 and 114: Görüntü İşlemede Yeni Bir Solu
Page 115 and 116: Görüntü İşlemede Yeni Bir Solu
Page 117 and 118: Bağlantısız Web Uygulamalarını
Page 119 and 120: Bağlantısız Web Uygulamalarını
Page 121 and 122: Web 2.0 Yeniliklerinin Eğitimde Ku
Page 123 and 124: Kurumsal Kimlik Yönetiminde Günce
Page 125 and 126: Kurumsal Kimlik Yönetiminde Günce
Page 127 and 128: Nesneye Dayalı Programlarla Nesne
Page 129 and 130: Normatif Çoklu Etmen Sistemlerinde
Page 131 and 132: Normatif Çoklu Etmen Sistemlerinde
Page 133 and 134: Birbirleriyle Etkileşim Halinde Bu
Page 135 and 136: Birbirleriyle Etkileşim Halinde Bu
Page 137 and 138: Gezgin Satıcı Probleminin İkili
Page 139 and 140: Gezgin Satıcı Probleminin İkili
Page 143 and 144: Web Tabanlı Sayısal Yarıgrup Hes
Page 145 and 146: Web 2.0 Uygulamalarının E-Öğren
Page 147 and 148: Web 2.0 Uygulamalarının E-Öğren
Page 149 and 150: İstatistiksel Yazılım Geliştirm
Page 151 and 152: Arama Motoru OptimizasyonuCoşkun A
Page 153 and 154: Arama Motoru OptimizasyonuCoşkun A
Page 155 and 156:
Üst Seviye Ontolojileri Üzerine B
Page 157 and 158:
Üst Seviye Ontolojileri Üzerine B
Page 159 and 160:
Anlamsal Web Politika Dillerinin Ka
Page 161 and 162:
Anlamsal Web Politika Dillerinin Ka
Page 163 and 164:
Kural ve Sorgu Örüntülerinin Dü
Page 165 and 166:
Page 167 and 168:
Eğitimde bir Günlük Uygulaması:
Page 169 and 170:
Eğitimde bir Günlük Uygulaması:
Page 171 and 172:
Web 2.0 Teknolojilerinin Eğitim Ü
Page 173 and 174:
Türkçe Hayat Bilgisi Veri Tabanı
Page 175 and 176:
Türkçe Hayat Bilgisi Veri Tabanı
Page 177 and 178:
Türkiye’de İşe Alım Sürecini
Page 179 and 180:
Page 181 and 182:
Türkiye’de Bilim ve Teknoloji Po
Page 183 and 184:
Türkiye’de Bilim ve Teknoloji Po
Page 185 and 186:
Türkiye’de Planlı Kalkınma ve
Page 187 and 188:
Türkiye’de Planlı Kalkınma ve
Page 189 and 190:
Bilişim Şuraları, Teknoloji Poli
Page 191 and 192:
Bilişim Şuraları, Teknoloji Poli
Page 193 and 194:
Düşük Maliyetli Web Tabanlı Uza
Page 195 and 196:
Düşük Maliyetli Web Tabanlı Uza
Page 197 and 198:
Mobil Öğrenme Teknolojileri ve Ar
Page 199 and 200:
Page 201 and 202:
Öğretim Teknolojileri: Tanımı v
Page 203 and 204:
Page 205 and 206:
Braille Alfabesi ile Yazılmış Ka
Page 207 and 208:
Bilgi Güvenliğinde El YazısıBor
Page 209 and 210:
Güvenli İnternet Bankacılığı
Page 211 and 212:
Güvenli İnternet Bankacılığı
Page 213 and 214:
SMTP Protokolü ve Spam Mail Proble
Page 215 and 216:
SMTP Protokolü ve Spam Mail Proble
Page 217 and 218:
Sembolik Hesaplamalar için Mathema
Page 219 and 220:
Genişband Gezgin Haberleşmede Yen
Page 221 and 222:
Üç Boyutlu Çerçeve Yapıların
Page 223 and 224:
Üç Boyutlu Çerçeve Yapıların
Page 225 and 226:
Değişken Kalınlıklı İzotrop P
Page 227 and 228:
Değişken Kalınlıklı İzotrop P
Page 229 and 230:
Katsayıları Özellikli Bant Matri
Page 231 and 232:
Page 233 and 234:
Beykent Üniversitesi Yazılım Mü
Page 235 and 236:
Beykent Üniversitesi Yazılım Mü
Page 237 and 238:
Kampüs Ağlarında Etkin Bant Geni
Page 239 and 240:
Kampüs Ağlarında Etkin Bant Geni
Page 241 and 242:
Yabancı Dilde Lisans Öğrenimi i
Page 243 and 244:
Pardus’un 64 bit Mimarisine Port
Page 245 and 246:
Page 247 and 248:
İnternetteki Etkileşim Merkezi So
Page 249 and 250:
Page 251 and 252:
Desert Dune Dynamics And ProcessesL
Page 253 and 254:
Uydu Kentlerin Tasarımı için Bir
Page 255 and 256:
Uydu Kentlerin Tasarımı için Bir
Page 257 and 258:
Kent Kaynaklarının Etkin ve Verim
Page 259 and 260:
Kent Kaynaklarının Etkin ve Verim
Page 261 and 262:
Anadolu Liselerine Öğretmen Atama
Page 263 and 264:
Akıllı Trafik Denetimi ve Yöneti
Page 265 and 266:
Akıllı Trafik Denetimi ve Yöneti
Page 267 and 268:
3-Boyutlu Sanal Üniversite Oryanta
Page 269 and 270:
Page 271 and 272:
Metin İçerikli Türkçe Dokümanl
Page 273 and 274:
Page 275 and 276:
Uygurcada Biçimbilimsel Belirsizli
Page 277 and 278:
Sosyal Ağlar ve Profil Yönetimine
Page 279 and 280:
Sosyal Ağlar ve Profil Yönetimine
Page 281 and 282:
Mimarlıkta Yapı Bilgi Modelleme v
Page 283 and 284:
Mimarlıkta Yapı Bilgi Modelleme v
Page 285 and 286:
Kan Damarı Genişliği Değişimin
Page 287 and 288:
Diş Hekimliği Fakültesi Hastanel
Page 289 and 290:
Diş Hekimliği Fakültesi Hastanel
Page 291 and 292:
Ulusal Aşı Bilgi Sistemi: Bir Dur
Page 293 and 294:
Ulusal Aşı Bilgi Sistemi: Bir Dur
Page 295 and 296:
Dermatolojide Tanı Belirlemeye Yar
Page 297 and 298:
Türkiye’de B2B e-Ticaret’i Uyg
Page 299 and 300:
Türkiye’de B2B e-Ticaret’i Uyg
Page 301 and 302:
Bazı Kamu Kurumlarında Elektronik
Page 303 and 304:
Bazı Kamu Kurumlarında Elektronik
Page 305 and 306:
Page 307 and 308:
Açık Kaynak Kodlu Bilgisayar Enva
Page 309 and 310:
Dicle Üniversitesi Bilgi İşlem O
Page 311 and 312:
Aluminyum Kütle İçerisinde İler
Page 313 and 314:
Aluminyum Kütle İçerisinde İler
Page 315 and 316:
İş Akış Çizelgeleme Problemi
Page 317 and 318:
Meslek Liselerinde Mesleki Eğitimi
Page 319 and 320:
Meslek Liselerinde Mesleki Eğitimi
Page 321 and 322:
ActiveX ile Eğitsel Bir Web Sayfas
Page 323 and 324:
Eğitim Amaçlı Debian Web, FTP ve
Page 325 and 326:
Page 327 and 328:
Yeni Nesil Mobil Öğrenme Aracı:
Page 329 and 330:
Geoteknik Rapor Hazırlanmasında S
Page 331 and 332:
Geoteknik Rapor Hazırlanmasında S
Page 333 and 334:
Excel VBA ile Ankrajlı ve Ankrajs
Page 335 and 336:
Excel VBA ile Ankrajlı ve Ankrajs
Page 337 and 338:
Nüfus Tahmin Metotlarının ve Gel
Page 339 and 340:
Nüfus Tahmin Metotlarının ve Gel
show all

Akademik BiliÅim '10 10 - 12 Åubat 2010 MuÄla

Create successful ePaper yourself

Delete template?

Save as template?

Akademik BiliÅim '10 10 - 12 Åubat 2010 MuÄla