Veri madencili¤i yöntemleriyle <strong>mikrodizilim</strong> <strong>gen</strong> <strong>ifade</strong> <strong>analizi</strong>lerinden Bağımsız Bileşenler Analizi (IndependentComponent Analizi)”nin daha iyi bir faktörizasyon sağladığıgözlemlenmiştir [5,23,24].Bağımsız bileşenler <strong>analizi</strong>Cilt 42 • Say› 4 • 20111. Boyut indirgeme2. Genelleştirme yöntemlerinin seçimi3. Danışmanlı ya da danışmansızöğrenme ile <strong>veri</strong> <strong>analizi</strong>4. Performans kriterlerine göre karşılaştırma5. Gen ontoloji <strong>analizi</strong>Şekil 2. Mikrodizilim <strong>gen</strong> <strong>ifade</strong> <strong>veri</strong> <strong>analizi</strong> akış şeması.Bağımsız bileşenler <strong>analizi</strong>, rastgele değişken, ölçümya da sinyalleri göz önüne alarak, <strong>veri</strong> setlerindeki gizlifaktörleri ortaya çıkarmayı hedefleyen istatistiksel bir tekniktir.Genel olarak büyük <strong>veri</strong> setlerinde, birden çok değişkenyardımıyla model oluşturmaya odaklanır. Modelde,değişkenler biraraya gelerek gizli faktörleri ortaya çıkarır.Gizli faktörler için en önemli varsayım, normal dağılımgöstermemesi ve birbirlerinden tamamen bağımsızolmalarıdır. Bağımsız bileşenler <strong>analizi</strong>nin, temel bileşenler<strong>analizi</strong> ve faktör <strong>analizi</strong> ile ortak yönleri bulunmaktadır.Ancak özellikle <strong>veri</strong> setinin büyümesiyle bağımsız bileşenler<strong>analizi</strong>, gizli faktörleri ortaya çıkarmada daha etkilisonuçlar vermektedir. Bağımsız bileşenler <strong>analizi</strong> sayesindeçok boyutlu <strong>veri</strong>lerde, boyut indirgemesi yapılarak,daha etkili analizler yapılmaktadır. Çoğu zaman tek başınakullanılsa da, sınıflama ve kümeleme yöntemleriylebirlikte kullanımı giderek tercih edilmeye başlanmıştır.Özellikle <strong>mikrodizilim</strong> <strong>veri</strong> setlerin boyut indirgeme aşamasındaalternatif yöntemlere göre (temel bileşenler <strong>analizi</strong>,faktör <strong>analizi</strong>) daha güvenilir sonuçlar vermektedir.Boyut indirgeme ile birlikte, yanlılığı ortadan kaldırmada(Whitening) ve öz değer dekompozisyonla <strong>veri</strong>leri merkezileştirmedekullanılmaktadır.Bağımsız bileşenler <strong>analizi</strong>ni açıklarken <strong>veri</strong>lebileceken iyi örnek “Kokteyl Parti Problemi”dir. Bir kokteyldebirçok ses vardır (müzik, dışarıdan gelen ses, insanlarınsesleri). Eğer iki kişinin sesi diğer seslerdenayırt edilmek istenirse, en az iki mikrofon, kişilere eşitmesafeye yerleştirilir. Daha sonra her bir mikrofondangelen sesler birer model olarak analiz edilir. Her modeldeiki değişken olmak üzere, faktörler ortaya çıkarılır.Bu örneği <strong>gen</strong> ekspresyon <strong>veri</strong>leri için de <strong>gen</strong>elleyebiliriz.Her <strong>gen</strong>, ayrı bir bilgi taşır. Bu <strong>gen</strong>leri ayırt etmedekullanılacak istatistiksel bir model oluşturmak için bağımsızbileşenler <strong>analizi</strong> çok hızlı ve doğru sonuçlar verenbir yöntemdir.2. GENELLEfiT‹RME YÖNTEMLER‹N‹N SEÇ‹M‹Gen ekspresyon <strong>analizi</strong>nin en temel adımlarındanbiri analizlerin <strong>gen</strong>elleştirilmesidir. “Genelleştirme” ileanlatılmak istenen: Veri madenciliği yöntemleri ayırımolmaksızın “model tabanlı”dır. Eğer sınıflama yapılacaksaönce bir sınıflama modeli oluşturulur sonra bumodele göre yeni gelen hastaya ait ekspresyon düzeyitahmin edilmeye ya da hasta belirli bir gruba atanmayaçalışılır. Eğer <strong>veri</strong> setindeki hastaların tamamına ait <strong>veri</strong>lerbir kerede analiz edilirse, sonuçların şansa bağlı olmaolasılığı yüksek olur. Başka bir deyişle algoritma <strong>veri</strong>setine göre model oluşturduğu için, hasta grubunutanır ve sadece o hasta grubunda işe yarayan bir modeloluşturur. Bu hasta grubuna uymayan ancak aynı popülasyondangelen hastalarda yanlış sonuçlar <strong>veri</strong>r.Bu nedenle hastaların bir kısmı dışarıda bırakılıpanaliz modelleri oluşturulmalı, daha sonra dışarıda kalankısım ile elde edilen modeller test edilmelidir. Bunuyapabilmek için kullanılan en popüler iki yöntem şunlardır:BootstrapBootstrap yöntemi standart sapma, güven aralığıgibi istatistiklerde ve parametrik olmayan tahminproblemlerinde kullanılan basit ve güvenilir bir yöntemdir.Bu yöntem belirli bir <strong>veri</strong> seti içinden, yerinekoyarak tekrar tekrar örneklem çekme temeline dayanır.Herhangi büyüklükteki bir <strong>veri</strong> setinde gözlemlerinşansa bağlı olarak yer değiştirilerek yeniden örneklenmesiyleçeşitli miktarda ve büyüklükte <strong>veri</strong> setlerioluşturulabilmektedir. Böylece mevcut <strong>veri</strong> setindenmümkün olabildiğince fazla miktarda bilgi alınabilmektedir.Söz konusu yöntem Bootstrap (resampling)yöntemi olarak tanımlanmaktadır. Bootstrap yöntemiuygulanma kolaylığı ve yararlılığının yanı sıra başkaavantajlara da sahiptir. Klasik istatistikte, incelenendeğişkenlerin normal dağılım gösterdiği varsayımınadayalı olarak tahmin yapılmaktadır. Bootstrap yöntemindeise <strong>veri</strong> setinden şansa bağlı örnekler alınarakistatistiksel tahminler yapılmaktadır. Bu yöntemle,183
Coflgun ve Karaa¤ao¤luçok küçük <strong>veri</strong> setlerinden bile doğru yanıtlar alınabilmekte,büyük <strong>veri</strong> setlerinde ise klasik istatistik sonuçlarlaparalellik sağlanmakta ve hemen hemen tüm istatistikleranaliz edilebilmektedir.Çapraz geçerlilikGen ekspresyon <strong>veri</strong> setlerinde olduğu gibi olgu sayısınınaz olduğu deney düzenlerinde kullanışlı bir <strong>gen</strong>elleştirmearacıdır. Mikrodizilim <strong>veri</strong>leri üzerinde yapılandanışmanlı öğrenme analizlerinde sıklıkla kullanılmaktadır[25,26]. Genel olarak “10-parça çapraz geçerlilik”yöntemi tercih edilmektedir. Bu yöntemde <strong>veri</strong> kümesirastgele 10 eşit parçaya ayrılır. İlk aşamada birinci parçatest <strong>veri</strong> seti olarak bırakılır, geriye kalan dokuz parçaeğitim seti olarak kullanılır. İkinci aşamada ise ikinciparça test <strong>veri</strong> seti olarak kullanılır, geriye kalan dokuzparça ile model bulunmaya çalışılır. Bu süreç 10 parçaayrı ayrı test seti olarak kullanılıncaya kadar devameder. Çapraz geçerlilik sonunda her parçadan elde edilendoğru sınıflama ya da ROC eğrisi altında kalan alan gibiperformans değerlerinin ortalaması alınır. Bu sonuç, ilgiliyöntemin <strong>gen</strong>el performansını <strong>ifade</strong> eder.3. DANIfiMANLI ve DANIfiMANSIZ Ö⁄RENMEYÖNTEMLER‹Danışmanlı öğrenme yöntemleriRandom forest: Son yıllarda <strong>gen</strong> ekspresyon <strong>veri</strong>lerinin<strong>analizi</strong>nde en çok kullanılan yöntemlerden birisi derandom foresttir. En önemli avantajı çok gerekli olmasınarağmen, eğer araştırmacı boyut indirgeme <strong>analizi</strong>niyapmazsa random forest algoritması çok sayıdaki <strong>gen</strong>eait ekspresyon <strong>veri</strong>sini kullanarak iyi bir sınıflama ve tahminalgoritması oluşturabilir [16-18,27-30]. Gen ekspresyon<strong>veri</strong>lerinde tek bir karar ağacı algoritmasından çokdaha başarılı sonuçlar verdiği ispatlanmıştır [28]. Randomforest birçok (binlerce) karar ağacından meydanagelen bir yapıdır. Bu analiz sırasında random foresttekiher bir ağaç için bootstrap yöntemiyle <strong>veri</strong> setinden örneklemseçilir ve seçilen <strong>veri</strong>lerin 2/3’ü ağaç oluşturmakiçin kullanılır ve bir sınıflama yapar (Şekil 3). Bu sınıflamalar“oy (vote)” alır. Random forest algoritması ise “forest”içindeki tüm ağaçlardan en çok oy alanı seçer veonun sınıflamasını kullanır. Düşük hata oranına sahipağaç daha iyi sınıflayıcıdır. Random forestte hata oranıiki şeye bağlıdır:i) İki ağaç arasındaki korelasyona, korelasyon arttıkçahata oranı artar.ii) Her ağacın kendi hata oranı.Random forestin bazı avantajları ise şu şekildedir:1. Random forestte aşırı uyum olmaz.2. İstediğiniz kadar ağaç türetebilirsiniz.3. Hızlı bir algoritmadır.4. Elde edilen random forest diğer <strong>veri</strong> setlerindekullanılmak üzere saklanabilir.5. Eksik <strong>veri</strong> analizlerinde çok etkili bir yöntemdir,doğru sınıflama oranı eksik <strong>veri</strong>ler olsa da devam eder.6. Binlerce <strong>gen</strong> herhangi bir eleme yapmadan kullanabilir.7. Danışmansız (Unsupervised) kümeleme yöntemindekullanılabilir.Destek vektör makinesi: Gen ekspresyon <strong>veri</strong>lerinin enbüyük sorunu doğrusal olmayan ilişkiye sahip <strong>veri</strong>leriiçermesidir [31-33]. Genler arasındaki bağlantıları belirlemekbu nedenle çok zordur. Bu durum göz önüne alınmadanyapılacak analizler yanlı olabilmektedir. Destekvektör makinesi yöntemi bu sorunu en iyi çözen yöntemlerdendir.Kullandığı çekirdek fonksiyonlar sayesindeTüm <strong>veri</strong>Eğitim <strong>veri</strong> setiTest <strong>veri</strong> setiIn Bag (eğitimsetinin 2/3’ü)Out of Bag(eğitim setinin1/3’ü)Şekil 3. Random forest algoritması akış şeması.184H ACETTEPE T IP D ERG‹S‹