veri madenciliÄi yÃ¶ntemleriyle mikrodizilim gen ifade analizi ...

More documents

Recommendations

Info

Veri madencili¤i yöntemleriyle mikrodizilim gen ifade analizigenler arasındaki ilişkileri anlaşılabilir hale getirir. Bunuşu şekilde yapar: Doğrusal olarak sınıflanabilen verileribirbirinden ayırt edebilmek için olası pek çok doğrusalfonksiyon içerisinden marjini en büyük olanı belirler.Herhangi bir şekilde doğrusal olarak sınıflanamayan verileridaha yüksek boyutlu uzaya aktarır ve marjini en büyükolan hiper-düzlemleri bulur. Veriler bu ayırt edici hiper-düzlemegöre sınıflara atanır (Şekil 4). Buna ek olarak,veri setine yeni giren verilerin hangi sınıfta olduğu dakestirilebilir. Verileri çok boyutlu uzayda kategorilere ayırmakiçin farklı çekirdek fonksiyonlar kullanılabilir. En sıkkullanılan çekirdek fonksiyonları: Doğrusal, çokterimli,radyal temel fonksiyonu (RTF) ve sigmoiddir [34,35].Karar ağacı yöntemleri:• Sınıflama ve regresyon ağaçları yöntemi (classification andregression tree: CART): CART sayısal veya kategorik değişkenleri,yine bir grup sayısal veya kategorik faktör etkisindentahmin etmeye yarayan bir algoritmadır. Genekspresyonu verileriyle doz tahmini yapılmak istendiğindekullanılabilecek yöntemlerdendir. Ağaç yapısındaolup bir olayın sonuçlandırılmasında sorunun yanıtınagöre hareket eder. Kullandığı bilgi ölçütü “gini indeksi”dir.Girdi değişkenler ağacın bölünme aşamasında sadece2’ye bölünebilir. Bu nedenle fazla sayıda kategoriiçeren girdi değişken varlığında dezavantaja sahiptir.ngini indeksi (D) = 1 - ∑j=1• C4.5 algoritması: ID.3 karar ağacı algoritmasınındevamı olan bu yöntemde bölünme kriteri “gain ratio”dur.Özellikle çok fazla girdi değişkene sahip veri tabanlarındaID.3 yönteminin bölünme kriteri olan “informationgain”in yanlı bölünmeler yapma olasılığıyükseldiğinden, bu yöntem son derece kullanışlıdır.Şekil 4. Destek vektör makinesi algoritması problem çözümü.Cilt 42 • Say› 4 • 2011Ρ 2jaltdüzlemGain ratio = SplitInfo A(D) = -v | D j|| D|• CHAID (CHi-squared automatic interaction detector):Sürekli sayısal veya kategorik değişken tipleriyle kullanılabilenbir karar ağacı algoritmasıdır. CHAID, ağacınbölünme aşamasında ki-kare istatistiğini kullanır. CHA-ID algoritması tüm girdi ve çıktı değişkenler için çapraztablolar hazırlar ve en anlamlı olandan (en küçük p değeri)en az anlamlı olana doğru ağaç bölünmeye başlar.Amaç, ağacın yapraklarının, sadece ikili değil, daha fazlasayıda bölünebilmesini sağlamaktır. Bu açıdan diğerkarar ağaçlarından ayrılmaktadır.Boosted ağaç (tree) yöntemi (BT): Boosting tree algoritması,boosting yönteminin regresyon ağaçlarına uygulanmasısonucu ortaya çıkmıştır. Bu nedenle iki algoritmakullanır: Boosting ve CART. Danışmanlı (supervised)yöntemlerdendir. BRT yöntemi binlerce ağaç üretir. Ancakdiğer “ağaç tabanlı” yöntemlerden farkı, ürettiği heryeni ağacı, bir önceki ağacın artıklarını fit ederek yapar.Elde edilen sonuç modeli regresyon denklemi gibidir.Denklemdeki her bir değişken genlerden oluşur. Böylece“yansız ve kesin” tahminler yapabilen son sınıflama/regresyonmodeli oluşturulmuş olur. Bu yaklaşıma “stagewise”adı verilmiştir (Şekil 5). Kanser araştırmalarında yapılanmodelleme hatasını en aza indirgediği için yüksekdoğrulukta sonuçlar verdiği bilinmektedir [15].Danışmansız öğrenme (kümeleme) yöntemleriBu kısımda sadece veri madenciliği kapsamındaki“Kohonen Map” kümeleme yöntemine odaklanılmıştır.Bu yöntemin daha çok bilinen ve bazı genetik araştırmalardahalen kullanılan “K-ortalama” yöntemine göreavantajı ise: K-Ortalama yöntemindeki en az küme sayısı2, en fazla küme sayısı ise gözlem sayısına eşit ya dadaha az olacak şekilde belirleme zorunluluğunun olmamasıdır[36]. K-Ortalama yönteminin bu varsayımı özelliklegenetik araştırmalarda “az hasta çok gen” senaryosuile çok sık karşılaşıldığından zorlayıcıdır. Bununla birlikteK-Ortalama yönteminin çok sayıda “aykırı” gözleminbulunduğu gen ekspresyon verilerinde başarılı olamadığıönceki çalışmalarda rapor edilmiştir [37].Kohonen map kümeleme yöntemi: Kohonen Map, SelfOrganizing Map, olarak da bilinen, kümeleme amaçlıkullanılan, yapay sinir ağı çeşididir. Bu network algoritması,analizden önce hangi grupta olduğu bilinmeyenverileri, birbirinden bağımsız kümelere ayırmakta kullanılır.Kümelerin varyansları kendi içinde küçük, birbirleriarasında ise büyüktür. Analizde temel nokta “nöron”lardır.Bu nöronlar iki tabakadan oluşur: Girdi veçıktı nöronlar (Şekil 6). Tüm girdi nöronlar, çıktı nöronlarile bağlıdır. Bu bağlar, “Güç” veya “Ağırlık” ola-∑j=1| D j|x log 2( )| D|185
Coflgun ve Karaa¤ao¤luBRT Toplumsal Model(STAGEWISE)1. Ağaç2. Ağaç1. Ağacın artıklarınıfit etmeye çalışıyor2. Ağacın artıklarınıfit etmeye çalışıyor3. AğaçReg. Model: sabit+a* 1. Ağaç + b* 2. Ağaç + ..........+ t* M. AğaçŞekil 5. Boosted tree algoritması.Şekil 6. Kohonen map algoritması akış şeması.Çıktı tabakasıGirdi tabakasırak adlandırılan ölçülerle ifade edilir. Algoritma çalıştığındaçıktı nöronlar, en çok veriyi kendilerine bağlamakiçin yarışır. “Çıktı haritası”, nöronların iki boyutlu,birbirleriyle ilişkisiz grid yapısında görünüme sahipbir haritasıdır. Herhangi bir hedef değişkene ihtiyaçduymamasından dolayı, danışmansız öğrenme tekniklerindendir[4,7,27,38]. Algoritma, öncelikle tüm girdinöronlar için, çıktı nöronlara rastgele olarak ağırlıklaratar. En güçlü ağırlığa göre verileri çıktı nöronlara atar.Analiz sonunda, benzer veriler grid üzerinde aynı yerde,farklı olanlar ise, uzak gridlere ayrılır.4. PERFORMANS KARfiILAfiTIRMA KR‹TERLER‹Veri madenciliğinde gen ekspresyon verileriyle bireylerinsınıflanması sık görülen uygulamalardandır.Ancak veri madenciliğinde her veri setinde “en iyi” sınıflamasonucunu verecek bir yöntem yoktur. Çalışılanpopülasyon, yaş grubu ya da hastalık, analiz edilen verisetindeki gen sayısı, hasta sayısı, genler için sinyal ortalamave varyansı, genler arasındaki korelasyon gözönüne alındığında farklı yöntemler daha güvenilir veyüksek doğrulukta sonuçlar verebilir. Bu nedenle olasıtüm yöntemler ya da yöntemler bütünü denenmeli veen iyi sonucu veren yaklaşım tercih edilmelidir. Peki buyöntemleri birbirinden nasıl ayırt edebiliriz? İkiden çokhasta grubunun olduğu çalışmalarda (çok sınıflı-sınıflamaçalışmaları) doğruluk (accuracy, doğru sınıflananbireylerin sayısının tüm bireylerin sayısına oranı) ölçüsününkullanılması önerilir. Çalışma türü ve grubunagöre değişmekle birlikte %75’lik doğruluk kabul edilebilirbir orandır.Olgu-kontrol çalışmalarında (iki sınıflı-sınıflama çalışmaları)gen ekspresyon verisiyle tanı tahmini yapılmasıplanlanıyorsa doğruluk değeri gibi standart bir kriterindışında veri madenciliğine özel kullanılan alternatifperformans karşılaştırma kriterleri mevcuttur. Bunlar:ROC eğrisi altında kalan (AUC: Area Under ROC Curve)ROC eğrisi bir tanı testine ilişkin duyarlılık ve özgüllükdeğerleri arasındaki ilişkiyi grafiksel olarak gösterir.ROC eğrisi yanlış pozitif orana (duyarlılık) karşın doğrupozitif oranların (1-seçicilik) noktalanarak çizilmesiyleelde edilir [39]. Bu eğrinin altında kalan alanın hesaplanmasıylaAUC elde edilir.AUC, veri madenciliği literatüründe çok sık kullanılansıralamaya dayalı (ranking) bir performans kriteridir[33,39-42] (Şekil 7). AUC, veri madenciliği sınıflayıcımodelinin hasta ve sağlıklı kişilerden rastgele seçilmişiki kişiyi doğru tanımlayabilme olasılığı olarak ifadeedilebilir [33]. 0 ile 1 arasında değerler alabilir; 0.5değeri rastgele bir tahmin olduğunu, 1’e yakın değerlermodelin tahmin gücünün yüksek olduğunu gösterir.186H ACETTEPE T IP D ERG‹S‹
Page 3 and 4: Coflgun ve Karaa¤ao¤lu1. [R][R],
Page 5: Coflgun ve Karaa¤ao¤luçok küç
Page 10: Veri madencili¤i yöntemleriyle mi

veri madenciliÄi yÃ¶ntemleriyle mikrodizilim gen ifade analizi ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?

veri madenciliÄi yÃ¶ntemleriyle mikrodizilim gen ifade analizi ...