Dergi_89

Dergi_89 Dergi_89

14.01.2015 Views

Yrd. Doç. Dr. Haşmet Sarıgül çok farklı olan kümelerin bulunması ve veri tabanındaki kayıtların bu farklı kümelere (gruplara) bölünmesidir. Kümeleme analizi bağımlı ve bağımsız değişkenler arasında fark ya da üstünlük gözetmez. Tersine birbirine bağımlı tüm ilişkileri inceler. Aynı grup içinde yer alan nesneler; değişkenler bakımından nispeten birbirlerine benzerlik gösterirken diğer gruptaki nesnelerden ise farklıdırlar. Kümeleme analizi; birkaç adımdan oluşan bir çözüm sürecidir. Veri girişi analizin ilk aşamasıdır. Yani ilk olarak doğal sınıflamaları hakkında kesin bilgilerin bulunmadığı ana kütlelerden alınan n sayıda birimin incelenen p sayıda değişkene ilişkin gözlem sonucu değerleri elde edilir. Böylece veri matrisi oluşturulmuş olur. Daha sonra verinin ölçüm tipine uygun bir benzerlik ölçüsü ile nesnelerin yakınlık matrisi elde edilir. Uygun kümeleme tekniği seçilir ve uygulanır. Tekniğin uygulanması sonucu nesneler kümelere ayrılmış olur. Kümeleme sonuçlarının anlamlılığının yorumlandığı asama ise analizin son aşamasıdır. Kümeleme analizi sonucunda kümeleri oluşturan elemanlar birbirine benzerlik, başka kümelerin elemanlarından farklılık gösterirler. Kümeleme işlemi başarılı olursa, bir geometrik çizim yapıldığında birimler küme içerisinde birbirlerine çok yakın, kümeler ise birbirlerinden uzak olacaktır (Akın, 2008, s.6). Kümeleme analizinde eşdeğer ölçekteki ölçeklerin kullanılması önemlidir. Bu bağlamda, çalışmada kümeleme tekniklerinin uygulanmasından önce tüm veriler önce Z-skor yöntemi ile bütün veri yığınlarındaki birimlerin, ortak bir birim aralığına yığılmasını sağlanmış ve standart hale getirilmiştir. Kümeleme analizinde kullanılan başlıca benzerlik veya uzaklık ölçüleri; Öklidyen, Manhattan, Minkowski ve Mahalanobis ölçüleridir. Değişkenlerin kesikli ya da sürekli olmalarına ya da değişkenlerin nominal, ordinal, aralık ya da oransal ölçekte olmalarına göre hangi ölçünün kullanılacağına karar verilmektedir. Çalışmamızda; kullanılan değişkenler oransal ve aralıklı ölçekle ölçülmüş olması nedeniyle öklid uzaklık ölçüsünden yararlanılmıştır. İki nokta arasındaki öklid uzaklığı, noktalarının koordinatları arasındaki farkların kareleri toplamının karekökü olarak tanımlanmaktadır. Kümeleme analizinde birey ya da nesneler arasındaki uzaklıkları hesaplamak için en yaygın kullanılan uzaklık ölçüsü olan öklid uzaklığı iki nokta arasına çizilecek bir düz doğrunun uzunluğunu temel alır. Kümeleme analizinde kullanılan üç ana yöntem; K-ortalamalar kümeleme tekniği, iki aşamalı kümeleme tekniği ve hiyerarşik kümeleme tekniğidir. Hiyerarşik olmayan bir yapıya sahip olan K-ortalamalar kümeleme yöntemi bir x veri setine ait d adet değişkeni ve n adet özellik vektörünü c adet kümeye ayırma ve sınıflandırma özelliğine sahiptir. K-ortalamalar kümeleme yöntemi, yaklaşık 200 ila 100.000 adet gözleme dayanan veri büyüklükleri için tasarlanmıştır ve küme sayısı önceden belirlenmiş olan çalışmalarda kullanılması önerilmektedir. Hiyerarşik olmayan bir diğer kümeleme analiz yöntemi olan İki Aşamalı Kümeleme Analizi, Ward’ın Minimum Varyans Yöntemi ile “K-ortalamaları” yönteminden oluşan hibrid bir yaklaşımıdır. İki aşamadan oluşan bu yöntemde önce gözlemler teker teker işleme alınarak ön kümelere gruplamakta, ikinci aşamada bu ön kümelere standart aşamalı kümeleme yaklaşımları uygulanmaktadır. Chiu, Fang, Chen, Wang ve Jeris, C. (2001) tarafından geliştirilen bu yöntemin en önemli özelliği, büyük veri setlerinde çok etkili olması ve başarıyla uygulanabilmesidir. Hiyerarşik Kümeleme ise, kümelerden bir eleman silme ya da eklemeyle bir ağaca benzeyen yapı gösteren aşamalar grubudur. Bu yöntem, kümelerin bir ana küme olarak ele alınması ve sonra aşamalı olarak içerdiği alt kümelere ayrılması veya ayrı ayrı ele alınan kümelerin aşamalı olarak bir küme biçiminde birleştirilmesi esasına dayanır (Özkan, 2008, s.131-148). Hiyerarşik Kümeleme temel olarak birleştirici hiyerarşik kümeleme yöntemleri ve 46

Bankacılar Dergisi ayrıştırıcı hiyerarşik kümeleme yöntemleri olmak üzere başlıca iki türe sahiptir. Birleştirici hiyerarşik kümeleme yönteminde başlangıçta her bir gözlem, bağımsız bir küme olarak değerlendirilir ve daha sonra tekrarlı bir biçimde, bütün gözlemleri içeren tek bir küme elde edilene kadar, her bir gözlem veya gözlem kümesinin, kendisine en yakın olan gözlem ya da gözlem kümesi ile bir küme oluşturması sağlanır. Ayrıştırıcı hiyerarşik kümelemede ise, başlangıçta bütün gözlemler tek bir küme olarak değerlendirilir ve daha sonra tekrarlı bir biçimde, bütün gözlemler birbirlerinden bağımsız tek bir küme oluncaya kadar, her bir gözlem ya da gözlem kümesi, kendisine en uzak olan gözlem ya da gözlem kümesinden ayrılıp, yeni bir küme oluşturacak şekilde ayrıştırılır (Yeşilbudak, Kahraman ve Karacan, 2011, s.29). Hiyerarşik Kümeleme yönteminde hesaplamalar oldukça hızlı olmasına karşın çok büyük örnekleri analiz etmede uygun değildir (Hair, Anderson, Tatham ve Black, 1998, s.498). Çalışmada incelenen örneğin çok sayıda olmamasından dolayı birbirine benzer il gruplarını belirleyebilmek amacıyla Birleştirici Hiyerarşik Kümeleme Yöntemi tercih edilmiştir. Bu yöntemde kümeler aşağıdan merkeze doğru oluşturulmakta, başlangıçta her biri ayrı küme kabul edilen gözlemlerden aralarında en fazla benzerlik olan i kümesi ile j kümesi aşamalarla birleştirilmekte ve bu işlem tek bir küme elde edilene kadar tekrarlanmaktadır. Aralarında en fazla benzerlik bulunan değişkenlerin bir kümede toplanmasında ise bağlantı fonksiyonları kullanılmaktadır. Literatürde çok sayıda bağlantı yöntemi bulunmakla birlikte en yaygın kullanılanlar; Tek Bağlantı Kümeleme Yöntemi, Tam Bağlantı Kümeleme Yöntemi ve Ortalama Bağlantı Kümeleme Yöntemidir. Tek Bağlantı Kümeleme Yöntemi, küme elemanları arasındaki en düşük uzaklık değeri temel alınarak kümelerin oluşturulması esasına dayanır. Kümeler, her biri ayrı bir küme olarak kabul edilen birimlerin birleştirilmesiyle oluşturulur. En yakın komşular, yani minimum uzaklığa ya da maksimum benzerliğe sahip olan küme çiftleri bir araya getirilir. Tam Bağlantı Kümeleme Yöntemi iki kümenin elemanları arasındaki en yüksek uzaklığın minimum değerini temel alır. Bu yöntem tek bağlantı tekniği ile benzer özellikler göstermektedir. İki tekniği birbirinden ayıran en önemli fark ise tek bağlantı tekniğindeki minimum uzaklık yerine, tam bağlantı tekniğinde iki nesne arasındaki maksimum uzaklığın kullanılmasıdır. Ortalama Bağlantı Kümeleme Yöntemi kümeler arasındaki ortalama uzaklığın en düşük değerini temel alır. Tek bağlantılı teknikte işlemlerin uzun sürmesi, tam bağlantılı teknikte ise, aynı küme içerisindeki bireylerin uzaklıklarının belli bir değerden küçük olması durumunda tüm kümelerin sağlıklı oluşturulmasının garanti edilememesi gibi nedenlerle ortalama bağlantı yönteminin kullanılması alternatif olarak önerilmektedir. Çalışmada kullanılan Ortalama Bağlantı Kümeleme tekniğinde iki küme arası mesafe, her biri bir gruptan olacak olan tüm nesne çiftleri arasındaki ortalama mesafedir. Çalışmada Hiyerarşik Kümeleme sonuçlarını göstermede ise Dendrogram Yöntemi kullanılmıştır. Hiyerarşik kümeleme tekniğiyle elde edilen kümelerin görselleştirilmesini sağlayan dendogramın yapısı kökler, iç düğüm ve yapraklardan oluşur. Dendogram kökü tüm birimlerin bir araya gelmesiyle oluşan ana kümeyi, yaprakları bir araya getirilmeyen tek bir birimden oluşan kümeleri içerir. İç düğümleri ise, birimlerin bir araya gelerek oluşturdukları kümeyi gösterir. Ölçek üzerinde kümelerin birleşme noktaları, hangi grupların oluştuğunu ortaya koyduğu gibi aynı zamanda aralarındaki mesafeyi de göstermektedir. Birimler arasındaki mesafeler eşittir. Araştırmada bu yöntemin uygulanması ile iller 0-25 birim arasındaki ölçeklendirilmiş mesafelerde gruplandırılmıştır. Dendrogramdaki yatay çizgiler mesafeyi, dikey çizgiler ise birleşen kümeleri göstermektedir. 47

Yrd. Doç. Dr. Haşmet Sarıgül<br />

çok farklı olan kümelerin bulunması ve veri tabanındaki kayıtların bu farklı kümelere<br />

(gruplara) bölünmesidir.<br />

Kümeleme analizi bağımlı ve bağımsız değişkenler arasında fark ya da üstünlük<br />

gözetmez. Tersine birbirine bağımlı tüm ilişkileri inceler. Aynı grup içinde yer alan nesneler;<br />

değişkenler bakımından nispeten birbirlerine benzerlik gösterirken diğer gruptaki<br />

nesnelerden ise farklıdırlar. Kümeleme analizi; birkaç adımdan oluşan bir çözüm sürecidir.<br />

Veri girişi analizin ilk aşamasıdır. Yani ilk olarak doğal sınıflamaları hakkında kesin bilgilerin<br />

bulunmadığı ana kütlelerden alınan n sayıda birimin incelenen p sayıda değişkene ilişkin<br />

gözlem sonucu değerleri elde edilir. Böylece veri matrisi oluşturulmuş olur. Daha sonra<br />

verinin ölçüm tipine uygun bir benzerlik ölçüsü ile nesnelerin yakınlık matrisi elde edilir.<br />

Uygun kümeleme tekniği seçilir ve uygulanır. Tekniğin uygulanması sonucu nesneler<br />

kümelere ayrılmış olur. Kümeleme sonuçlarının anlamlılığının yorumlandığı asama ise<br />

analizin son aşamasıdır. Kümeleme analizi sonucunda kümeleri oluşturan elemanlar birbirine<br />

benzerlik, başka kümelerin elemanlarından farklılık gösterirler. Kümeleme işlemi başarılı<br />

olursa, bir geometrik çizim yapıldığında birimler küme içerisinde birbirlerine çok yakın,<br />

kümeler ise birbirlerinden uzak olacaktır (Akın, 2008, s.6).<br />

Kümeleme analizinde eşdeğer ölçekteki ölçeklerin kullanılması önemlidir. Bu<br />

bağlamda, çalışmada kümeleme tekniklerinin uygulanmasından önce tüm veriler önce Z-skor<br />

yöntemi ile bütün veri yığınlarındaki birimlerin, ortak bir birim aralığına yığılmasını sağlanmış<br />

ve standart hale getirilmiştir.<br />

Kümeleme analizinde kullanılan başlıca benzerlik veya uzaklık ölçüleri; Öklidyen,<br />

Manhattan, Minkowski ve Mahalanobis ölçüleridir. Değişkenlerin kesikli ya da sürekli<br />

olmalarına ya da değişkenlerin nominal, ordinal, aralık ya da oransal ölçekte olmalarına göre<br />

hangi ölçünün kullanılacağına karar verilmektedir. Çalışmamızda; kullanılan değişkenler<br />

oransal ve aralıklı ölçekle ölçülmüş olması nedeniyle öklid uzaklık ölçüsünden<br />

yararlanılmıştır. İki nokta arasındaki öklid uzaklığı, noktalarının koordinatları arasındaki<br />

farkların kareleri toplamının karekökü olarak tanımlanmaktadır. Kümeleme analizinde birey<br />

ya da nesneler arasındaki uzaklıkları hesaplamak için en yaygın kullanılan uzaklık ölçüsü<br />

olan öklid uzaklığı iki nokta arasına çizilecek bir düz doğrunun uzunluğunu temel alır.<br />

Kümeleme analizinde kullanılan üç ana yöntem; K-ortalamalar kümeleme tekniği, iki<br />

aşamalı kümeleme tekniği ve hiyerarşik kümeleme tekniğidir. Hiyerarşik olmayan bir yapıya<br />

sahip olan K-ortalamalar kümeleme yöntemi bir x veri setine ait d adet değişkeni ve n adet<br />

özellik vektörünü c adet kümeye ayırma ve sınıflandırma özelliğine sahiptir. K-ortalamalar<br />

kümeleme yöntemi, yaklaşık 200 ila 100.000 adet gözleme dayanan veri büyüklükleri için<br />

tasarlanmıştır ve küme sayısı önceden belirlenmiş olan çalışmalarda kullanılması<br />

önerilmektedir.<br />

Hiyerarşik olmayan bir diğer kümeleme analiz yöntemi olan İki Aşamalı Kümeleme<br />

Analizi, Ward’ın Minimum Varyans Yöntemi ile “K-ortalamaları” yönteminden oluşan hibrid bir<br />

yaklaşımıdır. İki aşamadan oluşan bu yöntemde önce gözlemler teker teker işleme alınarak<br />

ön kümelere gruplamakta, ikinci aşamada bu ön kümelere standart aşamalı kümeleme<br />

yaklaşımları uygulanmaktadır. Chiu, Fang, Chen, Wang ve Jeris, C. (2001) tarafından<br />

geliştirilen bu yöntemin en önemli özelliği, büyük veri setlerinde çok etkili olması ve başarıyla<br />

uygulanabilmesidir.<br />

Hiyerarşik Kümeleme ise, kümelerden bir eleman silme ya da eklemeyle bir ağaca<br />

benzeyen yapı gösteren aşamalar grubudur. Bu yöntem, kümelerin bir ana küme olarak ele<br />

alınması ve sonra aşamalı olarak içerdiği alt kümelere ayrılması veya ayrı ayrı ele alınan<br />

kümelerin aşamalı olarak bir küme biçiminde birleştirilmesi esasına dayanır (Özkan, 2008,<br />

s.131-148). Hiyerarşik Kümeleme temel olarak birleştirici hiyerarşik kümeleme yöntemleri ve<br />

46

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!