veri madenciliÄi yÃ¶ntemleriyle mikrodizilim gen ifade analizi ...

More documents

Recommendations

Info

Veri madencili¤i yöntemleriyle mikrodizilim gen ifade analizilerinden Bağımsız Bileşenler Analizi (IndependentComponent Analizi)”nin daha iyi bir faktörizasyon sağladığıgözlemlenmiştir [5,23,24].Bağımsız bileşenler analiziCilt 42 • Say› 4 • 20111. Boyut indirgeme2. Genelleştirme yöntemlerinin seçimi3. Danışmanlı ya da danışmansızöğrenme ile veri analizi4. Performans kriterlerine göre karşılaştırma5. Gen ontoloji analiziŞekil 2. Mikrodizilim gen ifade veri analizi akış şeması.Bağımsız bileşenler analizi, rastgele değişken, ölçümya da sinyalleri göz önüne alarak, veri setlerindeki gizlifaktörleri ortaya çıkarmayı hedefleyen istatistiksel bir tekniktir.Genel olarak büyük veri setlerinde, birden çok değişkenyardımıyla model oluşturmaya odaklanır. Modelde,değişkenler biraraya gelerek gizli faktörleri ortaya çıkarır.Gizli faktörler için en önemli varsayım, normal dağılımgöstermemesi ve birbirlerinden tamamen bağımsızolmalarıdır. Bağımsız bileşenler analizinin, temel bileşenleranalizi ve faktör analizi ile ortak yönleri bulunmaktadır.Ancak özellikle veri setinin büyümesiyle bağımsız bileşenleranalizi, gizli faktörleri ortaya çıkarmada daha etkilisonuçlar vermektedir. Bağımsız bileşenler analizi sayesindeçok boyutlu verilerde, boyut indirgemesi yapılarak,daha etkili analizler yapılmaktadır. Çoğu zaman tek başınakullanılsa da, sınıflama ve kümeleme yöntemleriylebirlikte kullanımı giderek tercih edilmeye başlanmıştır.Özellikle mikrodizilim veri setlerin boyut indirgeme aşamasındaalternatif yöntemlere göre (temel bileşenler analizi,faktör analizi) daha güvenilir sonuçlar vermektedir.Boyut indirgeme ile birlikte, yanlılığı ortadan kaldırmada(Whitening) ve öz değer dekompozisyonla verileri merkezileştirmedekullanılmaktadır.Bağımsız bileşenler analizini açıklarken verilebileceken iyi örnek “Kokteyl Parti Problemi”dir. Bir kokteyldebirçok ses vardır (müzik, dışarıdan gelen ses, insanlarınsesleri). Eğer iki kişinin sesi diğer seslerdenayırt edilmek istenirse, en az iki mikrofon, kişilere eşitmesafeye yerleştirilir. Daha sonra her bir mikrofondangelen sesler birer model olarak analiz edilir. Her modeldeiki değişken olmak üzere, faktörler ortaya çıkarılır.Bu örneği gen ekspresyon verileri için de genelleyebiliriz.Her gen, ayrı bir bilgi taşır. Bu genleri ayırt etmedekullanılacak istatistiksel bir model oluşturmak için bağımsızbileşenler analizi çok hızlı ve doğru sonuçlar verenbir yöntemdir.2. GENELLEfiT‹RME YÖNTEMLER‹N‹N SEÇ‹M‹Gen ekspresyon analizinin en temel adımlarındanbiri analizlerin genelleştirilmesidir. “Genelleştirme” ileanlatılmak istenen: Veri madenciliği yöntemleri ayırımolmaksızın “model tabanlı”dır. Eğer sınıflama yapılacaksaönce bir sınıflama modeli oluşturulur sonra bumodele göre yeni gelen hastaya ait ekspresyon düzeyitahmin edilmeye ya da hasta belirli bir gruba atanmayaçalışılır. Eğer veri setindeki hastaların tamamına ait verilerbir kerede analiz edilirse, sonuçların şansa bağlı olmaolasılığı yüksek olur. Başka bir deyişle algoritma verisetine göre model oluşturduğu için, hasta grubunutanır ve sadece o hasta grubunda işe yarayan bir modeloluşturur. Bu hasta grubuna uymayan ancak aynı popülasyondangelen hastalarda yanlış sonuçlar verir.Bu nedenle hastaların bir kısmı dışarıda bırakılıpanaliz modelleri oluşturulmalı, daha sonra dışarıda kalankısım ile elde edilen modeller test edilmelidir. Bunuyapabilmek için kullanılan en popüler iki yöntem şunlardır:BootstrapBootstrap yöntemi standart sapma, güven aralığıgibi istatistiklerde ve parametrik olmayan tahminproblemlerinde kullanılan basit ve güvenilir bir yöntemdir.Bu yöntem belirli bir veri seti içinden, yerinekoyarak tekrar tekrar örneklem çekme temeline dayanır.Herhangi büyüklükteki bir veri setinde gözlemlerinşansa bağlı olarak yer değiştirilerek yeniden örneklenmesiyleçeşitli miktarda ve büyüklükte veri setlerioluşturulabilmektedir. Böylece mevcut veri setindenmümkün olabildiğince fazla miktarda bilgi alınabilmektedir.Söz konusu yöntem Bootstrap (resampling)yöntemi olarak tanımlanmaktadır. Bootstrap yöntemiuygulanma kolaylığı ve yararlılığının yanı sıra başkaavantajlara da sahiptir. Klasik istatistikte, incelenendeğişkenlerin normal dağılım gösterdiği varsayımınadayalı olarak tahmin yapılmaktadır. Bootstrap yöntemindeise veri setinden şansa bağlı örnekler alınarakistatistiksel tahminler yapılmaktadır. Bu yöntemle,183
Coflgun ve Karaa¤ao¤luçok küçük veri setlerinden bile doğru yanıtlar alınabilmekte,büyük veri setlerinde ise klasik istatistik sonuçlarlaparalellik sağlanmakta ve hemen hemen tüm istatistikleranaliz edilebilmektedir.Çapraz geçerlilikGen ekspresyon veri setlerinde olduğu gibi olgu sayısınınaz olduğu deney düzenlerinde kullanışlı bir genelleştirmearacıdır. Mikrodizilim verileri üzerinde yapılandanışmanlı öğrenme analizlerinde sıklıkla kullanılmaktadır[25,26]. Genel olarak “10-parça çapraz geçerlilik”yöntemi tercih edilmektedir. Bu yöntemde veri kümesirastgele 10 eşit parçaya ayrılır. İlk aşamada birinci parçatest veri seti olarak bırakılır, geriye kalan dokuz parçaeğitim seti olarak kullanılır. İkinci aşamada ise ikinciparça test veri seti olarak kullanılır, geriye kalan dokuzparça ile model bulunmaya çalışılır. Bu süreç 10 parçaayrı ayrı test seti olarak kullanılıncaya kadar devameder. Çapraz geçerlilik sonunda her parçadan elde edilendoğru sınıflama ya da ROC eğrisi altında kalan alan gibiperformans değerlerinin ortalaması alınır. Bu sonuç, ilgiliyöntemin genel performansını ifade eder.3. DANIfiMANLI ve DANIfiMANSIZ Ö⁄RENMEYÖNTEMLER‹Danışmanlı öğrenme yöntemleriRandom forest: Son yıllarda gen ekspresyon verilerininanalizinde en çok kullanılan yöntemlerden birisi derandom foresttir. En önemli avantajı çok gerekli olmasınarağmen, eğer araştırmacı boyut indirgeme analiziniyapmazsa random forest algoritması çok sayıdaki geneait ekspresyon verisini kullanarak iyi bir sınıflama ve tahminalgoritması oluşturabilir [16-18,27-30]. Gen ekspresyonverilerinde tek bir karar ağacı algoritmasından çokdaha başarılı sonuçlar verdiği ispatlanmıştır [28]. Randomforest birçok (binlerce) karar ağacından meydanagelen bir yapıdır. Bu analiz sırasında random foresttekiher bir ağaç için bootstrap yöntemiyle veri setinden örneklemseçilir ve seçilen verilerin 2/3’ü ağaç oluşturmakiçin kullanılır ve bir sınıflama yapar (Şekil 3). Bu sınıflamalar“oy (vote)” alır. Random forest algoritması ise “forest”içindeki tüm ağaçlardan en çok oy alanı seçer veonun sınıflamasını kullanır. Düşük hata oranına sahipağaç daha iyi sınıflayıcıdır. Random forestte hata oranıiki şeye bağlıdır:i) İki ağaç arasındaki korelasyona, korelasyon arttıkçahata oranı artar.ii) Her ağacın kendi hata oranı.Random forestin bazı avantajları ise şu şekildedir:1. Random forestte aşırı uyum olmaz.2. İstediğiniz kadar ağaç türetebilirsiniz.3. Hızlı bir algoritmadır.4. Elde edilen random forest diğer veri setlerindekullanılmak üzere saklanabilir.5. Eksik veri analizlerinde çok etkili bir yöntemdir,doğru sınıflama oranı eksik veriler olsa da devam eder.6. Binlerce gen herhangi bir eleme yapmadan kullanabilir.7. Danışmansız (Unsupervised) kümeleme yöntemindekullanılabilir.Destek vektör makinesi: Gen ekspresyon verilerinin enbüyük sorunu doğrusal olmayan ilişkiye sahip verileriiçermesidir [31-33]. Genler arasındaki bağlantıları belirlemekbu nedenle çok zordur. Bu durum göz önüne alınmadanyapılacak analizler yanlı olabilmektedir. Destekvektör makinesi yöntemi bu sorunu en iyi çözen yöntemlerdendir.Kullandığı çekirdek fonksiyonlar sayesindeTüm veriEğitim veri setiTest veri setiIn Bag (eğitimsetinin 2/3’ü)Out of Bag(eğitim setinin1/3’ü)Şekil 3. Random forest algoritması akış şeması.184H ACETTEPE T IP D ERG‹S‹
Page 3: Coflgun ve Karaa¤ao¤lu1. [R][R],
Page 7: Coflgun ve Karaa¤ao¤luBRT Toplums
Page 10: Veri madencili¤i yöntemleriyle mi

veri madenciliÄi yÃ¶ntemleriyle mikrodizilim gen ifade analizi ...

Create successful ePaper yourself

Delete template?

Save as template?

veri madenciliÄi yÃ¶ntemleriyle mikrodizilim gen ifade analizi ...