11.07.2015 Views

veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Veri madencili¤i yöntemleriyle <strong>mikrodizilim</strong> <strong>gen</strong> <strong>ifade</strong> <strong>analizi</strong><strong>gen</strong>ler arasındaki ilişkileri anlaşılabilir hale getirir. Bunuşu şekilde yapar: Doğrusal olarak sınıflanabilen <strong>veri</strong>leribirbirinden ayırt edebilmek için olası pek çok doğrusalfonksiyon içerisinden marjini en büyük olanı belirler.Herhangi bir şekilde doğrusal olarak sınıflanamayan <strong>veri</strong>leridaha yüksek boyutlu uzaya aktarır ve marjini en büyükolan hiper-düzlemleri bulur. Veriler bu ayırt edici hiper-düzlemegöre sınıflara atanır (Şekil 4). Buna ek olarak,<strong>veri</strong> setine yeni giren <strong>veri</strong>lerin hangi sınıfta olduğu dakestirilebilir. Verileri çok boyutlu uzayda kategorilere ayırmakiçin farklı çekirdek fonksiyonlar kullanılabilir. En sıkkullanılan çekirdek fonksiyonları: Doğrusal, çokterimli,radyal temel fonksiyonu (RTF) ve sigmoiddir [34,35].Karar ağacı yöntemleri:• Sınıflama ve regresyon ağaçları yöntemi (classification andregression tree: CART): CART sayısal veya kategorik değişkenleri,yine bir grup sayısal veya kategorik faktör etkisindentahmin etmeye yarayan bir algoritmadır. Genekspresyonu <strong>veri</strong>leriyle doz tahmini yapılmak istendiğindekullanılabilecek yöntemlerdendir. Ağaç yapısındaolup bir olayın sonuçlandırılmasında sorunun yanıtınagöre hareket eder. Kullandığı bilgi ölçütü “gini indeksi”dir.Girdi değişkenler ağacın bölünme aşamasında sadece2’ye bölünebilir. Bu nedenle fazla sayıda kategoriiçeren girdi değişken varlığında dezavantaja sahiptir.ngini indeksi (D) = 1 - ∑j=1• C4.5 algoritması: ID.3 karar ağacı algoritmasınındevamı olan bu yöntemde bölünme kriteri “gain ratio”dur.Özellikle çok fazla girdi değişkene sahip <strong>veri</strong> tabanlarındaID.3 yönteminin bölünme kriteri olan “informationgain”in yanlı bölünmeler yapma olasılığıyükseldiğinden, bu yöntem son derece kullanışlıdır.Şekil 4. Destek vektör makinesi algoritması problem çözümü.Cilt 42 • Say› 4 • 2011Ρ 2jaltdüzlemGain ratio = SplitInfo A(D) = -v | D j|| D|• CHAID (CHi-squared automatic interaction detector):Sürekli sayısal veya kategorik değişken tipleriyle kullanılabilenbir karar ağacı algoritmasıdır. CHAID, ağacınbölünme aşamasında ki-kare istatistiğini kullanır. CHA-ID algoritması tüm girdi ve çıktı değişkenler için çapraztablolar hazırlar ve en anlamlı olandan (en küçük p değeri)en az anlamlı olana doğru ağaç bölünmeye başlar.Amaç, ağacın yapraklarının, sadece ikili değil, daha fazlasayıda bölünebilmesini sağlamaktır. Bu açıdan diğerkarar ağaçlarından ayrılmaktadır.Boosted ağaç (tree) yöntemi (BT): Boosting tree algoritması,boosting yönteminin regresyon ağaçlarına uygulanmasısonucu ortaya çıkmıştır. Bu nedenle iki algoritmakullanır: Boosting ve CART. Danışmanlı (supervised)yöntemlerdendir. BRT yöntemi binlerce ağaç üretir. Ancakdiğer “ağaç tabanlı” yöntemlerden farkı, ürettiği heryeni ağacı, bir önceki ağacın artıklarını fit ederek yapar.Elde edilen sonuç modeli regresyon denklemi gibidir.Denklemdeki her bir değişken <strong>gen</strong>lerden oluşur. Böylece“yansız ve kesin” tahminler yapabilen son sınıflama/regresyonmodeli oluşturulmuş olur. Bu yaklaşıma “stagewise”adı <strong>veri</strong>lmiştir (Şekil 5). Kanser araştırmalarında yapılanmodelleme hatasını en aza indirgediği için yüksekdoğrulukta sonuçlar verdiği bilinmektedir [15].Danışmansız öğrenme (kümeleme) yöntemleriBu kısımda sadece <strong>veri</strong> madenciliği kapsamındaki“Kohonen Map” kümeleme yöntemine odaklanılmıştır.Bu yöntemin daha çok bilinen ve bazı <strong>gen</strong>etik araştırmalardahalen kullanılan “K-ortalama” yöntemine göreavantajı ise: K-Ortalama yöntemindeki en az küme sayısı2, en fazla küme sayısı ise gözlem sayısına eşit ya dadaha az olacak şekilde belirleme zorunluluğunun olmamasıdır[36]. K-Ortalama yönteminin bu varsayımı özellikle<strong>gen</strong>etik araştırmalarda “az hasta çok <strong>gen</strong>” senaryosuile çok sık karşılaşıldığından zorlayıcıdır. Bununla birlikteK-Ortalama yönteminin çok sayıda “aykırı” gözleminbulunduğu <strong>gen</strong> ekspresyon <strong>veri</strong>lerinde başarılı olamadığıönceki çalışmalarda rapor edilmiştir [37].Kohonen map kümeleme yöntemi: Kohonen Map, SelfOrganizing Map, olarak da bilinen, kümeleme amaçlıkullanılan, yapay sinir ağı çeşididir. Bu network algoritması,analizden önce hangi grupta olduğu bilinmeyen<strong>veri</strong>leri, birbirinden bağımsız kümelere ayırmakta kullanılır.Kümelerin varyansları kendi içinde küçük, birbirleriarasında ise büyüktür. Analizde temel nokta “nöron”lardır.Bu nöronlar iki tabakadan oluşur: Girdi veçıktı nöronlar (Şekil 6). Tüm girdi nöronlar, çıktı nöronlarile bağlıdır. Bu bağlar, “Güç” veya “Ağırlık” ola-∑j=1| D j|x log 2( )| D|185

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!