11.07.2015 Views

veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Coflgun ve Karaa¤ao¤luBRT Toplumsal Model(STAGEWISE)1. Ağaç2. Ağaç1. Ağacın artıklarınıfit etmeye çalışıyor2. Ağacın artıklarınıfit etmeye çalışıyor3. AğaçReg. Model: sabit+a* 1. Ağaç + b* 2. Ağaç + ..........+ t* M. AğaçŞekil 5. Boosted tree algoritması.Şekil 6. Kohonen map algoritması akış şeması.Çıktı tabakasıGirdi tabakasırak adlandırılan ölçülerle <strong>ifade</strong> edilir. Algoritma çalıştığındaçıktı nöronlar, en çok <strong>veri</strong>yi kendilerine bağlamakiçin yarışır. “Çıktı haritası”, nöronların iki boyutlu,birbirleriyle ilişkisiz grid yapısında görünüme sahipbir haritasıdır. Herhangi bir hedef değişkene ihtiyaçduymamasından dolayı, danışmansız öğrenme tekniklerindendir[4,7,27,38]. Algoritma, öncelikle tüm girdinöronlar için, çıktı nöronlara rastgele olarak ağırlıklaratar. En güçlü ağırlığa göre <strong>veri</strong>leri çıktı nöronlara atar.Analiz sonunda, benzer <strong>veri</strong>ler grid üzerinde aynı yerde,farklı olanlar ise, uzak gridlere ayrılır.4. PERFORMANS KARfiILAfiTIRMA KR‹TERLER‹Veri madenciliğinde <strong>gen</strong> ekspresyon <strong>veri</strong>leriyle bireylerinsınıflanması sık görülen uygulamalardandır.Ancak <strong>veri</strong> madenciliğinde her <strong>veri</strong> setinde “en iyi” sınıflamasonucunu verecek bir yöntem yoktur. Çalışılanpopülasyon, yaş grubu ya da hastalık, analiz edilen <strong>veri</strong>setindeki <strong>gen</strong> sayısı, hasta sayısı, <strong>gen</strong>ler için sinyal ortalamave varyansı, <strong>gen</strong>ler arasındaki korelasyon gözönüne alındığında farklı yöntemler daha güvenilir veyüksek doğrulukta sonuçlar verebilir. Bu nedenle olasıtüm yöntemler ya da yöntemler bütünü denenmeli veen iyi sonucu veren yaklaşım tercih edilmelidir. Peki buyöntemleri birbirinden nasıl ayırt edebiliriz? İkiden çokhasta grubunun olduğu çalışmalarda (çok sınıflı-sınıflamaçalışmaları) doğruluk (accuracy, doğru sınıflananbireylerin sayısının tüm bireylerin sayısına oranı) ölçüsününkullanılması önerilir. Çalışma türü ve grubunagöre değişmekle birlikte %75’lik doğruluk kabul edilebilirbir orandır.Olgu-kontrol çalışmalarında (iki sınıflı-sınıflama çalışmaları)<strong>gen</strong> ekspresyon <strong>veri</strong>siyle tanı tahmini yapılmasıplanlanıyorsa doğruluk değeri gibi standart bir kriterindışında <strong>veri</strong> madenciliğine özel kullanılan alternatifperformans karşılaştırma kriterleri mevcuttur. Bunlar:ROC eğrisi altında kalan (AUC: Area Under ROC Curve)ROC eğrisi bir tanı testine ilişkin duyarlılık ve özgüllükdeğerleri arasındaki ilişkiyi grafiksel olarak gösterir.ROC eğrisi yanlış pozitif orana (duyarlılık) karşın doğrupozitif oranların (1-seçicilik) noktalanarak çizilmesiyleelde edilir [39]. Bu eğrinin altında kalan alanın hesaplanmasıylaAUC elde edilir.AUC, <strong>veri</strong> madenciliği literatüründe çok sık kullanılansıralamaya dayalı (ranking) bir performans kriteridir[33,39-42] (Şekil 7). AUC, <strong>veri</strong> madenciliği sınıflayıcımodelinin hasta ve sağlıklı kişilerden rastgele seçilmişiki kişiyi doğru tanımlayabilme olasılığı olarak <strong>ifade</strong>edilebilir [33]. 0 ile 1 arasında değerler alabilir; 0.5değeri rastgele bir tahmin olduğunu, 1’e yakın değerlermodelin tahmin gücünün yüksek olduğunu gösterir.186H ACETTEPE T IP D ERG‹S‹

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!