11.07.2015 Views

veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Coflgun ve Karaa¤ao¤luçok küçük <strong>veri</strong> setlerinden bile doğru yanıtlar alınabilmekte,büyük <strong>veri</strong> setlerinde ise klasik istatistik sonuçlarlaparalellik sağlanmakta ve hemen hemen tüm istatistikleranaliz edilebilmektedir.Çapraz geçerlilikGen ekspresyon <strong>veri</strong> setlerinde olduğu gibi olgu sayısınınaz olduğu deney düzenlerinde kullanışlı bir <strong>gen</strong>elleştirmearacıdır. Mikrodizilim <strong>veri</strong>leri üzerinde yapılandanışmanlı öğrenme analizlerinde sıklıkla kullanılmaktadır[25,26]. Genel olarak “10-parça çapraz geçerlilik”yöntemi tercih edilmektedir. Bu yöntemde <strong>veri</strong> kümesirastgele 10 eşit parçaya ayrılır. İlk aşamada birinci parçatest <strong>veri</strong> seti olarak bırakılır, geriye kalan dokuz parçaeğitim seti olarak kullanılır. İkinci aşamada ise ikinciparça test <strong>veri</strong> seti olarak kullanılır, geriye kalan dokuzparça ile model bulunmaya çalışılır. Bu süreç 10 parçaayrı ayrı test seti olarak kullanılıncaya kadar devameder. Çapraz geçerlilik sonunda her parçadan elde edilendoğru sınıflama ya da ROC eğrisi altında kalan alan gibiperformans değerlerinin ortalaması alınır. Bu sonuç, ilgiliyöntemin <strong>gen</strong>el performansını <strong>ifade</strong> eder.3. DANIfiMANLI ve DANIfiMANSIZ Ö⁄RENMEYÖNTEMLER‹Danışmanlı öğrenme yöntemleriRandom forest: Son yıllarda <strong>gen</strong> ekspresyon <strong>veri</strong>lerinin<strong>analizi</strong>nde en çok kullanılan yöntemlerden birisi derandom foresttir. En önemli avantajı çok gerekli olmasınarağmen, eğer araştırmacı boyut indirgeme <strong>analizi</strong>niyapmazsa random forest algoritması çok sayıdaki <strong>gen</strong>eait ekspresyon <strong>veri</strong>sini kullanarak iyi bir sınıflama ve tahminalgoritması oluşturabilir [16-18,27-30]. Gen ekspresyon<strong>veri</strong>lerinde tek bir karar ağacı algoritmasından çokdaha başarılı sonuçlar verdiği ispatlanmıştır [28]. Randomforest birçok (binlerce) karar ağacından meydanagelen bir yapıdır. Bu analiz sırasında random foresttekiher bir ağaç için bootstrap yöntemiyle <strong>veri</strong> setinden örneklemseçilir ve seçilen <strong>veri</strong>lerin 2/3’ü ağaç oluşturmakiçin kullanılır ve bir sınıflama yapar (Şekil 3). Bu sınıflamalar“oy (vote)” alır. Random forest algoritması ise “forest”içindeki tüm ağaçlardan en çok oy alanı seçer veonun sınıflamasını kullanır. Düşük hata oranına sahipağaç daha iyi sınıflayıcıdır. Random forestte hata oranıiki şeye bağlıdır:i) İki ağaç arasındaki korelasyona, korelasyon arttıkçahata oranı artar.ii) Her ağacın kendi hata oranı.Random forestin bazı avantajları ise şu şekildedir:1. Random forestte aşırı uyum olmaz.2. İstediğiniz kadar ağaç türetebilirsiniz.3. Hızlı bir algoritmadır.4. Elde edilen random forest diğer <strong>veri</strong> setlerindekullanılmak üzere saklanabilir.5. Eksik <strong>veri</strong> analizlerinde çok etkili bir yöntemdir,doğru sınıflama oranı eksik <strong>veri</strong>ler olsa da devam eder.6. Binlerce <strong>gen</strong> herhangi bir eleme yapmadan kullanabilir.7. Danışmansız (Unsupervised) kümeleme yöntemindekullanılabilir.Destek vektör makinesi: Gen ekspresyon <strong>veri</strong>lerinin enbüyük sorunu doğrusal olmayan ilişkiye sahip <strong>veri</strong>leriiçermesidir [31-33]. Genler arasındaki bağlantıları belirlemekbu nedenle çok zordur. Bu durum göz önüne alınmadanyapılacak analizler yanlı olabilmektedir. Destekvektör makinesi yöntemi bu sorunu en iyi çözen yöntemlerdendir.Kullandığı çekirdek fonksiyonlar sayesindeTüm <strong>veri</strong>Eğitim <strong>veri</strong> setiTest <strong>veri</strong> setiIn Bag (eğitimsetinin 2/3’ü)Out of Bag(eğitim setinin1/3’ü)Şekil 3. Random forest algoritması akış şeması.184H ACETTEPE T IP D ERG‹S‹

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!