Veri madencili¤i yöntemleriyle <strong>mikrodizilim</strong> <strong>gen</strong> <strong>ifade</strong> <strong>analizi</strong><strong>gen</strong>ler arasındaki ilişkileri anlaşılabilir hale getirir. Bunuşu şekilde yapar: Doğrusal olarak sınıflanabilen <strong>veri</strong>leribirbirinden ayırt edebilmek için olası pek çok doğrusalfonksiyon içerisinden marjini en büyük olanı belirler.Herhangi bir şekilde doğrusal olarak sınıflanamayan <strong>veri</strong>leridaha yüksek boyutlu uzaya aktarır ve marjini en büyükolan hiper-düzlemleri bulur. Veriler bu ayırt edici hiper-düzlemegöre sınıflara atanır (Şekil 4). Buna ek olarak,<strong>veri</strong> setine yeni giren <strong>veri</strong>lerin hangi sınıfta olduğu dakestirilebilir. Verileri çok boyutlu uzayda kategorilere ayırmakiçin farklı çekirdek fonksiyonlar kullanılabilir. En sıkkullanılan çekirdek fonksiyonları: Doğrusal, çokterimli,radyal temel fonksiyonu (RTF) ve sigmoiddir [34,35].Karar ağacı yöntemleri:• Sınıflama ve regresyon ağaçları yöntemi (classification andregression tree: CART): CART sayısal veya kategorik değişkenleri,yine bir grup sayısal veya kategorik faktör etkisindentahmin etmeye yarayan bir algoritmadır. Genekspresyonu <strong>veri</strong>leriyle doz tahmini yapılmak istendiğindekullanılabilecek yöntemlerdendir. Ağaç yapısındaolup bir olayın sonuçlandırılmasında sorunun yanıtınagöre hareket eder. Kullandığı bilgi ölçütü “gini indeksi”dir.Girdi değişkenler ağacın bölünme aşamasında sadece2’ye bölünebilir. Bu nedenle fazla sayıda kategoriiçeren girdi değişken varlığında dezavantaja sahiptir.ngini indeksi (D) = 1 - ∑j=1• C4.5 algoritması: ID.3 karar ağacı algoritmasınındevamı olan bu yöntemde bölünme kriteri “gain ratio”dur.Özellikle çok fazla girdi değişkene sahip <strong>veri</strong> tabanlarındaID.3 yönteminin bölünme kriteri olan “informationgain”in yanlı bölünmeler yapma olasılığıyükseldiğinden, bu yöntem son derece kullanışlıdır.Şekil 4. Destek vektör makinesi algoritması problem çözümü.Cilt 42 • Say› 4 • 2011Ρ 2jaltdüzlemGain ratio = SplitInfo A(D) = -v | D j|| D|• CHAID (CHi-squared automatic interaction detector):Sürekli sayısal veya kategorik değişken tipleriyle kullanılabilenbir karar ağacı algoritmasıdır. CHAID, ağacınbölünme aşamasında ki-kare istatistiğini kullanır. CHA-ID algoritması tüm girdi ve çıktı değişkenler için çapraztablolar hazırlar ve en anlamlı olandan (en küçük p değeri)en az anlamlı olana doğru ağaç bölünmeye başlar.Amaç, ağacın yapraklarının, sadece ikili değil, daha fazlasayıda bölünebilmesini sağlamaktır. Bu açıdan diğerkarar ağaçlarından ayrılmaktadır.Boosted ağaç (tree) yöntemi (BT): Boosting tree algoritması,boosting yönteminin regresyon ağaçlarına uygulanmasısonucu ortaya çıkmıştır. Bu nedenle iki algoritmakullanır: Boosting ve CART. Danışmanlı (supervised)yöntemlerdendir. BRT yöntemi binlerce ağaç üretir. Ancakdiğer “ağaç tabanlı” yöntemlerden farkı, ürettiği heryeni ağacı, bir önceki ağacın artıklarını fit ederek yapar.Elde edilen sonuç modeli regresyon denklemi gibidir.Denklemdeki her bir değişken <strong>gen</strong>lerden oluşur. Böylece“yansız ve kesin” tahminler yapabilen son sınıflama/regresyonmodeli oluşturulmuş olur. Bu yaklaşıma “stagewise”adı <strong>veri</strong>lmiştir (Şekil 5). Kanser araştırmalarında yapılanmodelleme hatasını en aza indirgediği için yüksekdoğrulukta sonuçlar verdiği bilinmektedir [15].Danışmansız öğrenme (kümeleme) yöntemleriBu kısımda sadece <strong>veri</strong> madenciliği kapsamındaki“Kohonen Map” kümeleme yöntemine odaklanılmıştır.Bu yöntemin daha çok bilinen ve bazı <strong>gen</strong>etik araştırmalardahalen kullanılan “K-ortalama” yöntemine göreavantajı ise: K-Ortalama yöntemindeki en az küme sayısı2, en fazla küme sayısı ise gözlem sayısına eşit ya dadaha az olacak şekilde belirleme zorunluluğunun olmamasıdır[36]. K-Ortalama yönteminin bu varsayımı özellikle<strong>gen</strong>etik araştırmalarda “az hasta çok <strong>gen</strong>” senaryosuile çok sık karşılaşıldığından zorlayıcıdır. Bununla birlikteK-Ortalama yönteminin çok sayıda “aykırı” gözleminbulunduğu <strong>gen</strong> ekspresyon <strong>veri</strong>lerinde başarılı olamadığıönceki çalışmalarda rapor edilmiştir [37].Kohonen map kümeleme yöntemi: Kohonen Map, SelfOrganizing Map, olarak da bilinen, kümeleme amaçlıkullanılan, yapay sinir ağı çeşididir. Bu network algoritması,analizden önce hangi grupta olduğu bilinmeyen<strong>veri</strong>leri, birbirinden bağımsız kümelere ayırmakta kullanılır.Kümelerin varyansları kendi içinde küçük, birbirleriarasında ise büyüktür. Analizde temel nokta “nöron”lardır.Bu nöronlar iki tabakadan oluşur: Girdi veçıktı nöronlar (Şekil 6). Tüm girdi nöronlar, çıktı nöronlarile bağlıdır. Bu bağlar, “Güç” veya “Ağırlık” ola-∑j=1| D j|x log 2( )| D|185
Coflgun ve Karaa¤ao¤luBRT Toplumsal Model(STAGEWISE)1. Ağaç2. Ağaç1. Ağacın artıklarınıfit etmeye çalışıyor2. Ağacın artıklarınıfit etmeye çalışıyor3. AğaçReg. Model: sabit+a* 1. Ağaç + b* 2. Ağaç + ..........+ t* M. AğaçŞekil 5. Boosted tree algoritması.Şekil 6. Kohonen map algoritması akış şeması.Çıktı tabakasıGirdi tabakasırak adlandırılan ölçülerle <strong>ifade</strong> edilir. Algoritma çalıştığındaçıktı nöronlar, en çok <strong>veri</strong>yi kendilerine bağlamakiçin yarışır. “Çıktı haritası”, nöronların iki boyutlu,birbirleriyle ilişkisiz grid yapısında görünüme sahipbir haritasıdır. Herhangi bir hedef değişkene ihtiyaçduymamasından dolayı, danışmansız öğrenme tekniklerindendir[4,7,27,38]. Algoritma, öncelikle tüm girdinöronlar için, çıktı nöronlara rastgele olarak ağırlıklaratar. En güçlü ağırlığa göre <strong>veri</strong>leri çıktı nöronlara atar.Analiz sonunda, benzer <strong>veri</strong>ler grid üzerinde aynı yerde,farklı olanlar ise, uzak gridlere ayrılır.4. PERFORMANS KARfiILAfiTIRMA KR‹TERLER‹Veri madenciliğinde <strong>gen</strong> ekspresyon <strong>veri</strong>leriyle bireylerinsınıflanması sık görülen uygulamalardandır.Ancak <strong>veri</strong> madenciliğinde her <strong>veri</strong> setinde “en iyi” sınıflamasonucunu verecek bir yöntem yoktur. Çalışılanpopülasyon, yaş grubu ya da hastalık, analiz edilen <strong>veri</strong>setindeki <strong>gen</strong> sayısı, hasta sayısı, <strong>gen</strong>ler için sinyal ortalamave varyansı, <strong>gen</strong>ler arasındaki korelasyon gözönüne alındığında farklı yöntemler daha güvenilir veyüksek doğrulukta sonuçlar verebilir. Bu nedenle olasıtüm yöntemler ya da yöntemler bütünü denenmeli veen iyi sonucu veren yaklaşım tercih edilmelidir. Peki buyöntemleri birbirinden nasıl ayırt edebiliriz? İkiden çokhasta grubunun olduğu çalışmalarda (çok sınıflı-sınıflamaçalışmaları) doğruluk (accuracy, doğru sınıflananbireylerin sayısının tüm bireylerin sayısına oranı) ölçüsününkullanılması önerilir. Çalışma türü ve grubunagöre değişmekle birlikte %75’lik doğruluk kabul edilebilirbir orandır.Olgu-kontrol çalışmalarında (iki sınıflı-sınıflama çalışmaları)<strong>gen</strong> ekspresyon <strong>veri</strong>siyle tanı tahmini yapılmasıplanlanıyorsa doğruluk değeri gibi standart bir kriterindışında <strong>veri</strong> madenciliğine özel kullanılan alternatifperformans karşılaştırma kriterleri mevcuttur. Bunlar:ROC eğrisi altında kalan (AUC: Area Under ROC Curve)ROC eğrisi bir tanı testine ilişkin duyarlılık ve özgüllükdeğerleri arasındaki ilişkiyi grafiksel olarak gösterir.ROC eğrisi yanlış pozitif orana (duyarlılık) karşın doğrupozitif oranların (1-seçicilik) noktalanarak çizilmesiyleelde edilir [39]. Bu eğrinin altında kalan alanın hesaplanmasıylaAUC elde edilir.AUC, <strong>veri</strong> madenciliği literatüründe çok sık kullanılansıralamaya dayalı (ranking) bir performans kriteridir[33,39-42] (Şekil 7). AUC, <strong>veri</strong> madenciliği sınıflayıcımodelinin hasta ve sağlıklı kişilerden rastgele seçilmişiki kişiyi doğru tanımlayabilme olasılığı olarak <strong>ifade</strong>edilebilir [33]. 0 ile 1 arasında değerler alabilir; 0.5değeri rastgele bir tahmin olduğunu, 1’e yakın değerlermodelin tahmin gücünün yüksek olduğunu gösterir.186H ACETTEPE T IP D ERG‹S‹