11.07.2015 Views

veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Coflgun ve Karaa¤ao¤lu1. [R][R], <strong>veri</strong> madenciliği çalışan her araştırmacı içinstandart olan, açık kaynak kodlu ve ücretsiz bir yazılımdır.[R] programının mantığı her analiz için kullanılabilecek“analiz paketlerine” sahip olmasıdır. Kullanıcılaryapmak istedikleri analize ait paketi indirdikten sonrailgili paketin kullanım kılavuzuna göre analizlere devameder. [R]’nin en önemli avantajı diğer paket programlaragöre çok hızlı olmasıdır. Standart bir bilgisayarkonfigürasyonu ile (örn. 2 GB RAM ve 2.13 GHz işlemci)çok büyük <strong>veri</strong> setleri kısa sürede analiz edilebilir. Buprograma ait tüm bilgiye “http://www.r-project.org/“bağlantısından yöntemlerin paketlerine ait tam listeyeise: “http://cran.r-project. org/src/contrib/PACKA-GES.html” bağlantısından ulaşılabilir. Bu çalışma kapsamındaki<strong>veri</strong> madenciliği yöntemlerine ait [R] paketleriTablo 1’de <strong>veri</strong>lmiştir. Bu paketlerin dışında ilgiliyöntemler için kullanılabilecek başka kaynak paketlerde bulunabilir.2. WEKATablo 1. Çalışma kapsamında kullanılması önerilen [R] paketleriAnaliz[R] paketiGen ontolojisitopGO, GOSimBootstrapboot, bootstrapRandom forestrandomForestDestek vektör makinesi e1071,Sınıflama ve regresyon ağaçları (CART) rpartC 4.5RWekaCHAIDrpartBoosted tree yöntemigbmKohonen mapkohonenBağımsız bileşenler <strong>analizi</strong>fastICAVeri madenciliği çalışmalarında kullanılan bir diğeraçık kaynak kodlu ve ücretsiz program WEKA’dır [21].WEKA’nın en önemli avantajı Java dilinde yazılmış olmasıdır.Bu nedenle hemen hemen tüm işletim sistemlerinde(Linux, Mac, Sun, Windows) çalışabilmektedir.WEKA çok zengin bir içeriğe sahiptir. Bu çalışma kapsamındada bahsedilen danışmanlı ve danışmansız öğrenmeteknikleri, kümeleme, birliktelik kuralları gibi birçokyönteme ait paketlere sahiptir. Çapraz geçerlilik ve bootstrapanalizleri için özel komutları içerir. Son dönemdegetirdiği yeniliklerden biri de “Perl” ve “R” programlamadillerinin komutlarını doğrudan çalıştırabilmesidir.Bu yazılım ile ilgili ayrıntılı bilgiye “http://www.cs.waikato.ac.nz/ml/weka” bağlantısından ulaşılabilir.3. ORANGEÜcretsiz şekilde ulaşılabilen bir diğer yazılım daORANGE’dir [22]. ORANGE’yi diğer yazılımlardan ayıranen önemli nokta görsel bir analiz penceresine sahipolmasıdır. Yöntemler ve araçlar küçük “ikonlar” halindedir.Kullanıcılar yapmak istedikleri analizlere aitikonları “canvas” denilen çalışma alanına taşırlar veanaliz modellerini bu ikonlar arası “bağlantı yolları”kurarak oluştururlar. “R” ve “WEKA”nın aksine kullanıcı,çok fazla programlama bilgisine sahip olmasa da <strong>veri</strong>madenciliği yapabilir. Bu nedenle son yıllarda giderekartan bir kullanım oranına sahiptir. ORANGE yazılımınınbir diğer avantajı ise, <strong>mikrodizilim</strong> <strong>veri</strong>lerin <strong>analizi</strong>ndekullanılan “heat map” ve “GO- Gene Ontology”analiz araçlarını içermesidir. Yazılıma ve ayrıntılı bilgiyebu linkten ulaşılabilir: http://www. ailab.si/orangeVER‹ MADENC‹L‹⁄‹ YÖNTEMLER‹ ileM‹KROD‹Z‹L‹M VER‹ ANAL‹Z‹Veri madenciliği yöntemleri ile <strong>mikrodizilim</strong> <strong>veri</strong><strong>analizi</strong> beş temel adımdan oluşur. Bunlar sırasıyla Şekil2’de belirtilmiştir.Kısa not: Çalışmaya katılan bireylere ait sınıflamadeğerinin bilinmesi durumuna danışmanlı öğrenme(supervised learning) denir. Örneğin; hasta/hasta değilbilgisi biliniyorsa algoritma sınıflamayı sağlayacakmodeli daha gerçekçi ve yansız şekilde kestirebilir. Bubilgi yoksa aynen kümeleme analizlerinde olduğu gibiuzaklık ölçülerini kullanarak tamamen matematikseltahminler yapılıyorsa bu yaklaşıma danışmansızöğrenme (unsupervised kearning) denir.1. BOYUT ‹ND‹RGEMEDoğası gereği çok boyutlu olan bu <strong>veri</strong> türlerinin <strong>analizi</strong>ndeatılması gereken ilk adım doğrusal olan ya da olmayanilişkileri ortaya çıkarmak için <strong>veri</strong>nin boyutunuindirgemektir. Bu yaklaşımı şu şekilde açıklayabiliriz. Örneğin;elimizde 20 hastaya ait 6000 <strong>gen</strong>in ekspresyon değerivarsa, bu <strong>veri</strong>yi doğrudan analiz etmek yanlıştır. Çünkü<strong>gen</strong>ler arasında bilinen ya da bilinmeyen birçok ilişkimevcuttur. Eğer bu ilişkiler giderilmeden kümeleme, sınıflamagibi analizler yapılırsa, sonuçlar yanlı ve yanlışolacaktır. Bu nedenle, örneğimizdeki 6000 <strong>gen</strong>e ait bilgiyiiçeren daha az sayıdaki, <strong>gen</strong>elde <strong>gen</strong> sayısının karekökükadar, “faktör”e indirgemek gerekmektedir. Elde edilenher faktör, belirli bir grup <strong>gen</strong>e ait bilgiyi temsil eder.Boyut indirgeme üzerine yapılan birçok çalışma sonunda,çok bilinen “Temel Bileşenler Analizi (PrincipalComponent Analizi)” yerine <strong>veri</strong> madenciliği yöntem-182H ACETTEPE T IP D ERG‹S‹


Veri madencili¤i yöntemleriyle <strong>mikrodizilim</strong> <strong>gen</strong> <strong>ifade</strong> <strong>analizi</strong>lerinden Bağımsız Bileşenler Analizi (IndependentComponent Analizi)”nin daha iyi bir faktörizasyon sağladığıgözlemlenmiştir [5,23,24].Bağımsız bileşenler <strong>analizi</strong>Cilt 42 • Say› 4 • 20111. Boyut indirgeme2. Genelleştirme yöntemlerinin seçimi3. Danışmanlı ya da danışmansızöğrenme ile <strong>veri</strong> <strong>analizi</strong>4. Performans kriterlerine göre karşılaştırma5. Gen ontoloji <strong>analizi</strong>Şekil 2. Mikrodizilim <strong>gen</strong> <strong>ifade</strong> <strong>veri</strong> <strong>analizi</strong> akış şeması.Bağımsız bileşenler <strong>analizi</strong>, rastgele değişken, ölçümya da sinyalleri göz önüne alarak, <strong>veri</strong> setlerindeki gizlifaktörleri ortaya çıkarmayı hedefleyen istatistiksel bir tekniktir.Genel olarak büyük <strong>veri</strong> setlerinde, birden çok değişkenyardımıyla model oluşturmaya odaklanır. Modelde,değişkenler biraraya gelerek gizli faktörleri ortaya çıkarır.Gizli faktörler için en önemli varsayım, normal dağılımgöstermemesi ve birbirlerinden tamamen bağımsızolmalarıdır. Bağımsız bileşenler <strong>analizi</strong>nin, temel bileşenler<strong>analizi</strong> ve faktör <strong>analizi</strong> ile ortak yönleri bulunmaktadır.Ancak özellikle <strong>veri</strong> setinin büyümesiyle bağımsız bileşenler<strong>analizi</strong>, gizli faktörleri ortaya çıkarmada daha etkilisonuçlar vermektedir. Bağımsız bileşenler <strong>analizi</strong> sayesindeçok boyutlu <strong>veri</strong>lerde, boyut indirgemesi yapılarak,daha etkili analizler yapılmaktadır. Çoğu zaman tek başınakullanılsa da, sınıflama ve kümeleme yöntemleriylebirlikte kullanımı giderek tercih edilmeye başlanmıştır.Özellikle <strong>mikrodizilim</strong> <strong>veri</strong> setlerin boyut indirgeme aşamasındaalternatif yöntemlere göre (temel bileşenler <strong>analizi</strong>,faktör <strong>analizi</strong>) daha güvenilir sonuçlar vermektedir.Boyut indirgeme ile birlikte, yanlılığı ortadan kaldırmada(Whitening) ve öz değer dekompozisyonla <strong>veri</strong>leri merkezileştirmedekullanılmaktadır.Bağımsız bileşenler <strong>analizi</strong>ni açıklarken <strong>veri</strong>lebileceken iyi örnek “Kokteyl Parti Problemi”dir. Bir kokteyldebirçok ses vardır (müzik, dışarıdan gelen ses, insanlarınsesleri). Eğer iki kişinin sesi diğer seslerdenayırt edilmek istenirse, en az iki mikrofon, kişilere eşitmesafeye yerleştirilir. Daha sonra her bir mikrofondangelen sesler birer model olarak analiz edilir. Her modeldeiki değişken olmak üzere, faktörler ortaya çıkarılır.Bu örneği <strong>gen</strong> ekspresyon <strong>veri</strong>leri için de <strong>gen</strong>elleyebiliriz.Her <strong>gen</strong>, ayrı bir bilgi taşır. Bu <strong>gen</strong>leri ayırt etmedekullanılacak istatistiksel bir model oluşturmak için bağımsızbileşenler <strong>analizi</strong> çok hızlı ve doğru sonuçlar verenbir yöntemdir.2. GENELLEfiT‹RME YÖNTEMLER‹N‹N SEÇ‹M‹Gen ekspresyon <strong>analizi</strong>nin en temel adımlarındanbiri analizlerin <strong>gen</strong>elleştirilmesidir. “Genelleştirme” ileanlatılmak istenen: Veri madenciliği yöntemleri ayırımolmaksızın “model tabanlı”dır. Eğer sınıflama yapılacaksaönce bir sınıflama modeli oluşturulur sonra bumodele göre yeni gelen hastaya ait ekspresyon düzeyitahmin edilmeye ya da hasta belirli bir gruba atanmayaçalışılır. Eğer <strong>veri</strong> setindeki hastaların tamamına ait <strong>veri</strong>lerbir kerede analiz edilirse, sonuçların şansa bağlı olmaolasılığı yüksek olur. Başka bir deyişle algoritma <strong>veri</strong>setine göre model oluşturduğu için, hasta grubunutanır ve sadece o hasta grubunda işe yarayan bir modeloluşturur. Bu hasta grubuna uymayan ancak aynı popülasyondangelen hastalarda yanlış sonuçlar <strong>veri</strong>r.Bu nedenle hastaların bir kısmı dışarıda bırakılıpanaliz modelleri oluşturulmalı, daha sonra dışarıda kalankısım ile elde edilen modeller test edilmelidir. Bunuyapabilmek için kullanılan en popüler iki yöntem şunlardır:BootstrapBootstrap yöntemi standart sapma, güven aralığıgibi istatistiklerde ve parametrik olmayan tahminproblemlerinde kullanılan basit ve güvenilir bir yöntemdir.Bu yöntem belirli bir <strong>veri</strong> seti içinden, yerinekoyarak tekrar tekrar örneklem çekme temeline dayanır.Herhangi büyüklükteki bir <strong>veri</strong> setinde gözlemlerinşansa bağlı olarak yer değiştirilerek yeniden örneklenmesiyleçeşitli miktarda ve büyüklükte <strong>veri</strong> setlerioluşturulabilmektedir. Böylece mevcut <strong>veri</strong> setindenmümkün olabildiğince fazla miktarda bilgi alınabilmektedir.Söz konusu yöntem Bootstrap (resampling)yöntemi olarak tanımlanmaktadır. Bootstrap yöntemiuygulanma kolaylığı ve yararlılığının yanı sıra başkaavantajlara da sahiptir. Klasik istatistikte, incelenendeğişkenlerin normal dağılım gösterdiği varsayımınadayalı olarak tahmin yapılmaktadır. Bootstrap yöntemindeise <strong>veri</strong> setinden şansa bağlı örnekler alınarakistatistiksel tahminler yapılmaktadır. Bu yöntemle,183


Coflgun ve Karaa¤ao¤luçok küçük <strong>veri</strong> setlerinden bile doğru yanıtlar alınabilmekte,büyük <strong>veri</strong> setlerinde ise klasik istatistik sonuçlarlaparalellik sağlanmakta ve hemen hemen tüm istatistikleranaliz edilebilmektedir.Çapraz geçerlilikGen ekspresyon <strong>veri</strong> setlerinde olduğu gibi olgu sayısınınaz olduğu deney düzenlerinde kullanışlı bir <strong>gen</strong>elleştirmearacıdır. Mikrodizilim <strong>veri</strong>leri üzerinde yapılandanışmanlı öğrenme analizlerinde sıklıkla kullanılmaktadır[25,26]. Genel olarak “10-parça çapraz geçerlilik”yöntemi tercih edilmektedir. Bu yöntemde <strong>veri</strong> kümesirastgele 10 eşit parçaya ayrılır. İlk aşamada birinci parçatest <strong>veri</strong> seti olarak bırakılır, geriye kalan dokuz parçaeğitim seti olarak kullanılır. İkinci aşamada ise ikinciparça test <strong>veri</strong> seti olarak kullanılır, geriye kalan dokuzparça ile model bulunmaya çalışılır. Bu süreç 10 parçaayrı ayrı test seti olarak kullanılıncaya kadar devameder. Çapraz geçerlilik sonunda her parçadan elde edilendoğru sınıflama ya da ROC eğrisi altında kalan alan gibiperformans değerlerinin ortalaması alınır. Bu sonuç, ilgiliyöntemin <strong>gen</strong>el performansını <strong>ifade</strong> eder.3. DANIfiMANLI ve DANIfiMANSIZ Ö⁄RENMEYÖNTEMLER‹Danışmanlı öğrenme yöntemleriRandom forest: Son yıllarda <strong>gen</strong> ekspresyon <strong>veri</strong>lerinin<strong>analizi</strong>nde en çok kullanılan yöntemlerden birisi derandom foresttir. En önemli avantajı çok gerekli olmasınarağmen, eğer araştırmacı boyut indirgeme <strong>analizi</strong>niyapmazsa random forest algoritması çok sayıdaki <strong>gen</strong>eait ekspresyon <strong>veri</strong>sini kullanarak iyi bir sınıflama ve tahminalgoritması oluşturabilir [16-18,27-30]. Gen ekspresyon<strong>veri</strong>lerinde tek bir karar ağacı algoritmasından çokdaha başarılı sonuçlar verdiği ispatlanmıştır [28]. Randomforest birçok (binlerce) karar ağacından meydanagelen bir yapıdır. Bu analiz sırasında random foresttekiher bir ağaç için bootstrap yöntemiyle <strong>veri</strong> setinden örneklemseçilir ve seçilen <strong>veri</strong>lerin 2/3’ü ağaç oluşturmakiçin kullanılır ve bir sınıflama yapar (Şekil 3). Bu sınıflamalar“oy (vote)” alır. Random forest algoritması ise “forest”içindeki tüm ağaçlardan en çok oy alanı seçer veonun sınıflamasını kullanır. Düşük hata oranına sahipağaç daha iyi sınıflayıcıdır. Random forestte hata oranıiki şeye bağlıdır:i) İki ağaç arasındaki korelasyona, korelasyon arttıkçahata oranı artar.ii) Her ağacın kendi hata oranı.Random forestin bazı avantajları ise şu şekildedir:1. Random forestte aşırı uyum olmaz.2. İstediğiniz kadar ağaç türetebilirsiniz.3. Hızlı bir algoritmadır.4. Elde edilen random forest diğer <strong>veri</strong> setlerindekullanılmak üzere saklanabilir.5. Eksik <strong>veri</strong> analizlerinde çok etkili bir yöntemdir,doğru sınıflama oranı eksik <strong>veri</strong>ler olsa da devam eder.6. Binlerce <strong>gen</strong> herhangi bir eleme yapmadan kullanabilir.7. Danışmansız (Unsupervised) kümeleme yöntemindekullanılabilir.Destek vektör makinesi: Gen ekspresyon <strong>veri</strong>lerinin enbüyük sorunu doğrusal olmayan ilişkiye sahip <strong>veri</strong>leriiçermesidir [31-33]. Genler arasındaki bağlantıları belirlemekbu nedenle çok zordur. Bu durum göz önüne alınmadanyapılacak analizler yanlı olabilmektedir. Destekvektör makinesi yöntemi bu sorunu en iyi çözen yöntemlerdendir.Kullandığı çekirdek fonksiyonlar sayesindeTüm <strong>veri</strong>Eğitim <strong>veri</strong> setiTest <strong>veri</strong> setiIn Bag (eğitimsetinin 2/3’ü)Out of Bag(eğitim setinin1/3’ü)Şekil 3. Random forest algoritması akış şeması.184H ACETTEPE T IP D ERG‹S‹


Veri madencili¤i yöntemleriyle <strong>mikrodizilim</strong> <strong>gen</strong> <strong>ifade</strong> <strong>analizi</strong><strong>gen</strong>ler arasındaki ilişkileri anlaşılabilir hale getirir. Bunuşu şekilde yapar: Doğrusal olarak sınıflanabilen <strong>veri</strong>leribirbirinden ayırt edebilmek için olası pek çok doğrusalfonksiyon içerisinden marjini en büyük olanı belirler.Herhangi bir şekilde doğrusal olarak sınıflanamayan <strong>veri</strong>leridaha yüksek boyutlu uzaya aktarır ve marjini en büyükolan hiper-düzlemleri bulur. Veriler bu ayırt edici hiper-düzlemegöre sınıflara atanır (Şekil 4). Buna ek olarak,<strong>veri</strong> setine yeni giren <strong>veri</strong>lerin hangi sınıfta olduğu dakestirilebilir. Verileri çok boyutlu uzayda kategorilere ayırmakiçin farklı çekirdek fonksiyonlar kullanılabilir. En sıkkullanılan çekirdek fonksiyonları: Doğrusal, çokterimli,radyal temel fonksiyonu (RTF) ve sigmoiddir [34,35].Karar ağacı yöntemleri:• Sınıflama ve regresyon ağaçları yöntemi (classification andregression tree: CART): CART sayısal veya kategorik değişkenleri,yine bir grup sayısal veya kategorik faktör etkisindentahmin etmeye yarayan bir algoritmadır. Genekspresyonu <strong>veri</strong>leriyle doz tahmini yapılmak istendiğindekullanılabilecek yöntemlerdendir. Ağaç yapısındaolup bir olayın sonuçlandırılmasında sorunun yanıtınagöre hareket eder. Kullandığı bilgi ölçütü “gini indeksi”dir.Girdi değişkenler ağacın bölünme aşamasında sadece2’ye bölünebilir. Bu nedenle fazla sayıda kategoriiçeren girdi değişken varlığında dezavantaja sahiptir.ngini indeksi (D) = 1 - ∑j=1• C4.5 algoritması: ID.3 karar ağacı algoritmasınındevamı olan bu yöntemde bölünme kriteri “gain ratio”dur.Özellikle çok fazla girdi değişkene sahip <strong>veri</strong> tabanlarındaID.3 yönteminin bölünme kriteri olan “informationgain”in yanlı bölünmeler yapma olasılığıyükseldiğinden, bu yöntem son derece kullanışlıdır.Şekil 4. Destek vektör makinesi algoritması problem çözümü.Cilt 42 • Say› 4 • 2011Ρ 2jaltdüzlemGain ratio = SplitInfo A(D) = -v | D j|| D|• CHAID (CHi-squared automatic interaction detector):Sürekli sayısal veya kategorik değişken tipleriyle kullanılabilenbir karar ağacı algoritmasıdır. CHAID, ağacınbölünme aşamasında ki-kare istatistiğini kullanır. CHA-ID algoritması tüm girdi ve çıktı değişkenler için çapraztablolar hazırlar ve en anlamlı olandan (en küçük p değeri)en az anlamlı olana doğru ağaç bölünmeye başlar.Amaç, ağacın yapraklarının, sadece ikili değil, daha fazlasayıda bölünebilmesini sağlamaktır. Bu açıdan diğerkarar ağaçlarından ayrılmaktadır.Boosted ağaç (tree) yöntemi (BT): Boosting tree algoritması,boosting yönteminin regresyon ağaçlarına uygulanmasısonucu ortaya çıkmıştır. Bu nedenle iki algoritmakullanır: Boosting ve CART. Danışmanlı (supervised)yöntemlerdendir. BRT yöntemi binlerce ağaç üretir. Ancakdiğer “ağaç tabanlı” yöntemlerden farkı, ürettiği heryeni ağacı, bir önceki ağacın artıklarını fit ederek yapar.Elde edilen sonuç modeli regresyon denklemi gibidir.Denklemdeki her bir değişken <strong>gen</strong>lerden oluşur. Böylece“yansız ve kesin” tahminler yapabilen son sınıflama/regresyonmodeli oluşturulmuş olur. Bu yaklaşıma “stagewise”adı <strong>veri</strong>lmiştir (Şekil 5). Kanser araştırmalarında yapılanmodelleme hatasını en aza indirgediği için yüksekdoğrulukta sonuçlar verdiği bilinmektedir [15].Danışmansız öğrenme (kümeleme) yöntemleriBu kısımda sadece <strong>veri</strong> madenciliği kapsamındaki“Kohonen Map” kümeleme yöntemine odaklanılmıştır.Bu yöntemin daha çok bilinen ve bazı <strong>gen</strong>etik araştırmalardahalen kullanılan “K-ortalama” yöntemine göreavantajı ise: K-Ortalama yöntemindeki en az küme sayısı2, en fazla küme sayısı ise gözlem sayısına eşit ya dadaha az olacak şekilde belirleme zorunluluğunun olmamasıdır[36]. K-Ortalama yönteminin bu varsayımı özellikle<strong>gen</strong>etik araştırmalarda “az hasta çok <strong>gen</strong>” senaryosuile çok sık karşılaşıldığından zorlayıcıdır. Bununla birlikteK-Ortalama yönteminin çok sayıda “aykırı” gözleminbulunduğu <strong>gen</strong> ekspresyon <strong>veri</strong>lerinde başarılı olamadığıönceki çalışmalarda rapor edilmiştir [37].Kohonen map kümeleme yöntemi: Kohonen Map, SelfOrganizing Map, olarak da bilinen, kümeleme amaçlıkullanılan, yapay sinir ağı çeşididir. Bu network algoritması,analizden önce hangi grupta olduğu bilinmeyen<strong>veri</strong>leri, birbirinden bağımsız kümelere ayırmakta kullanılır.Kümelerin varyansları kendi içinde küçük, birbirleriarasında ise büyüktür. Analizde temel nokta “nöron”lardır.Bu nöronlar iki tabakadan oluşur: Girdi veçıktı nöronlar (Şekil 6). Tüm girdi nöronlar, çıktı nöronlarile bağlıdır. Bu bağlar, “Güç” veya “Ağırlık” ola-∑j=1| D j|x log 2( )| D|185


Coflgun ve Karaa¤ao¤luBRT Toplumsal Model(STAGEWISE)1. Ağaç2. Ağaç1. Ağacın artıklarınıfit etmeye çalışıyor2. Ağacın artıklarınıfit etmeye çalışıyor3. AğaçReg. Model: sabit+a* 1. Ağaç + b* 2. Ağaç + ..........+ t* M. AğaçŞekil 5. Boosted tree algoritması.Şekil 6. Kohonen map algoritması akış şeması.Çıktı tabakasıGirdi tabakasırak adlandırılan ölçülerle <strong>ifade</strong> edilir. Algoritma çalıştığındaçıktı nöronlar, en çok <strong>veri</strong>yi kendilerine bağlamakiçin yarışır. “Çıktı haritası”, nöronların iki boyutlu,birbirleriyle ilişkisiz grid yapısında görünüme sahipbir haritasıdır. Herhangi bir hedef değişkene ihtiyaçduymamasından dolayı, danışmansız öğrenme tekniklerindendir[4,7,27,38]. Algoritma, öncelikle tüm girdinöronlar için, çıktı nöronlara rastgele olarak ağırlıklaratar. En güçlü ağırlığa göre <strong>veri</strong>leri çıktı nöronlara atar.Analiz sonunda, benzer <strong>veri</strong>ler grid üzerinde aynı yerde,farklı olanlar ise, uzak gridlere ayrılır.4. PERFORMANS KARfiILAfiTIRMA KR‹TERLER‹Veri madenciliğinde <strong>gen</strong> ekspresyon <strong>veri</strong>leriyle bireylerinsınıflanması sık görülen uygulamalardandır.Ancak <strong>veri</strong> madenciliğinde her <strong>veri</strong> setinde “en iyi” sınıflamasonucunu verecek bir yöntem yoktur. Çalışılanpopülasyon, yaş grubu ya da hastalık, analiz edilen <strong>veri</strong>setindeki <strong>gen</strong> sayısı, hasta sayısı, <strong>gen</strong>ler için sinyal ortalamave varyansı, <strong>gen</strong>ler arasındaki korelasyon gözönüne alındığında farklı yöntemler daha güvenilir veyüksek doğrulukta sonuçlar verebilir. Bu nedenle olasıtüm yöntemler ya da yöntemler bütünü denenmeli veen iyi sonucu veren yaklaşım tercih edilmelidir. Peki buyöntemleri birbirinden nasıl ayırt edebiliriz? İkiden çokhasta grubunun olduğu çalışmalarda (çok sınıflı-sınıflamaçalışmaları) doğruluk (accuracy, doğru sınıflananbireylerin sayısının tüm bireylerin sayısına oranı) ölçüsününkullanılması önerilir. Çalışma türü ve grubunagöre değişmekle birlikte %75’lik doğruluk kabul edilebilirbir orandır.Olgu-kontrol çalışmalarında (iki sınıflı-sınıflama çalışmaları)<strong>gen</strong> ekspresyon <strong>veri</strong>siyle tanı tahmini yapılmasıplanlanıyorsa doğruluk değeri gibi standart bir kriterindışında <strong>veri</strong> madenciliğine özel kullanılan alternatifperformans karşılaştırma kriterleri mevcuttur. Bunlar:ROC eğrisi altında kalan (AUC: Area Under ROC Curve)ROC eğrisi bir tanı testine ilişkin duyarlılık ve özgüllükdeğerleri arasındaki ilişkiyi grafiksel olarak gösterir.ROC eğrisi yanlış pozitif orana (duyarlılık) karşın doğrupozitif oranların (1-seçicilik) noktalanarak çizilmesiyleelde edilir [39]. Bu eğrinin altında kalan alanın hesaplanmasıylaAUC elde edilir.AUC, <strong>veri</strong> madenciliği literatüründe çok sık kullanılansıralamaya dayalı (ranking) bir performans kriteridir[33,39-42] (Şekil 7). AUC, <strong>veri</strong> madenciliği sınıflayıcımodelinin hasta ve sağlıklı kişilerden rastgele seçilmişiki kişiyi doğru tanımlayabilme olasılığı olarak <strong>ifade</strong>edilebilir [33]. 0 ile 1 arasında değerler alabilir; 0.5değeri rastgele bir tahmin olduğunu, 1’e yakın değerlermodelin tahmin gücünün yüksek olduğunu gösterir.186H ACETTEPE T IP D ERG‹S‹


Coflgun ve Karaa¤ao¤luŞekil 8. ORANGE programında <strong>gen</strong> ontoloji seçenekleri.SONUÇ ve ÖNER‹LERHastalıkların tedavisi, yeni ilaç keşifleri ve hastalıklarıönlemeye yönelik çalışmalarda <strong>gen</strong>etik <strong>veri</strong>lerinönemi giderek artmaktadır. Ülkemizde de “biyobanka”larınyaygınlaşması ve <strong>gen</strong>etik araştırmalara ayrılankaynakların artmasıyla bu alanda ciddi ilerlemeler kaydedilmiştir.Yeni <strong>gen</strong>lerin ve tedavilerin bulunmasıbunlardan sadece birkaçıdır. Araştırıcılarımızın başarılıçalışmalarının sonuca ulaşması ve hastalara doğrudanetki edebilmesi için <strong>gen</strong>etik araştırmalardan karmaşıkbilgi birikimini çıkarmak gerekmektedir. Bu nedenle ülkemizdede biyoistatistik ve biyoinformatik uzmanlarınaduyulan gereksinim artmaktadır. Hem biyolojik bilgiyehakim hem de hangi analiz yöntemini ne zamankullanacağını bilen uzmanlarla çok daha geçerli tedaviyöntemlerinin bulunacağı açıktır.Analizi yapacak araştırmacı bu çalışmada sunulanadımları sırasıyla ve doğru şekilde uygularsa <strong>veri</strong>denmümkün olan en fazla bilgiyi çıkaracaktır. Tüm bunlarlabirlikte elde edilecek <strong>veri</strong> madenciliği modelleri sayesinde“kişiye özel” tedavinin de yolu açılacaktır. Bu sonuçbile uzun vadede <strong>veri</strong> madenciliğine kadar gerekduyulduğunu göstermektedir.Ayrıca, günümüzde araştırmalara harcanan paranınbüyük kısmı yazılım alımına ayrılmaktadır. Ancak alınanyazılımların çoğu kullanıcıları kısıtlamakta ve kendideney planlarını yapmasına engel olmaktadır. Hattabirçoğu bu çalışmada da açıklanan yeni nesil <strong>veri</strong> madenciliğiyöntemlerini içermemektedir. Bu çalışmanın<strong>gen</strong>etik araştırmalarda çalışan uzmanlara analizlerindedaha özgür davranabilmelerini sağlayacak “açık kaynakkodlu-ücretsiz” programları tanıtmak adına da önemliolduğunu düşünmekteyiz. Bu mantıktan hareketle “Gene3E”adlı [R] yazılımının kodlarını kullanan java analizaracını da geliştirmiş ve araştırıcıların kullanımınasunmuş bulunmaktayız [44]. Çalışmamızda <strong>gen</strong>etik <strong>veri</strong>türlerinden “Mikrodizilim Gen İfade” <strong>veri</strong>lerinin <strong>analizi</strong>ndetakip edilmesi gereken yol açıklanmıştır. Bu <strong>veri</strong>türü dışında “SNP, Exon Array ve Next Generation Dizi”<strong>veri</strong> türleri için de farklı birçok yazılım ve <strong>veri</strong> madenciliğiyöntemi bulunmaktadır. Özellikle günümüzde maliyetolarak daha makul seviyelere gelen “Genome WideAssociation Study (GWAS)” çalışmaları da <strong>veri</strong> madenciliğiiçin önemli bir çalışma alanıdır. Bundan sonraki çalışmamızdabu <strong>veri</strong>lerin türlerini de kapsayacak ayrıntılıanaliz akış şemalarının çıkarılması planlanmaktadır.188Kaynaklar1. Cosgun E, Limdi N, Duarte CW. High dimensional pharmaco<strong>gen</strong>eticprediction of a continuous trait using machinelearning techniques with application to warfarin dose predictionin African American. Bioinformatics 2011;27:10:1384-9.2. Cosgun E, Karaagaoğlu E. The new hybrid method for classificationof patients by <strong>gen</strong>e expression profiling. In: SuhSang C, Gurupur Vadadraj P, Tanik Murat M (eds). BiomedicalEngineering: Healthcare Systems, Technology andTechniques, Springer. 1 st ed. 2011: 255-65.3. Parrish RS, Spencer HJ, Xu P. Distribution modelling and simulationof <strong>gen</strong>e expression data. Computational Statisticsand Data Analysis, 2009.4. Tamayo P, Slonim D, Mesirov J, Zhu Q, et al. Interpretingpatterns of <strong>gen</strong>e expression with self-organizing maps: methodsand application to hematopoietic differentiation.Proc Natl Acad Sci 1999; 96:2907-12.5. Lee SI, Batzoglou S. An Application of Independent ComponentAnalysis to Microarrays, Genome Biology, 2003; 4:R76.6. Han J. How Can Data Mining Help Bio-Data Analysis?Workshop on Data Mining in Bioinformatics 2002.7. Zhang K, Zhao H. Assessing reliability of <strong>gen</strong>e clusters from<strong>gen</strong>e expression data. Functional Integrated Genomics2000: 156-73.8. Dettling M, Buhlmann P. Boosting for tumor classificationwith <strong>gen</strong>e expression data. Bioinformatics 2003; 3:1061-9.9. Wang LY, Tu Z., Lung tumor diagnosis and subtype discoveryby <strong>gen</strong>e expression profiling, Conf Proc IEEE Eng MedBiol Soc 2006; 1:5868-71.10. Coşgun E, Karabulut E, Karaağaoğlu E. Random Forest (RF)ve SVM ile Mikrodizilim Verilerde Gen Seçimi, VI. Ulusal İstatistikKongresi, 29 Nisan-3 Mayıs 2009, Antalya, Türkiye.11. Yeung KY, Medvedovic M, Bumgarner RE. Clustering GeneExpression Data With Repeated Measurements, GenomeBiology 2003; 4:R74.12. Park HS, Jun CH, Yoo JY. Classifying <strong>gen</strong>es according topredefined patterns by controlling false discovery rate. ExpertSystems with Applications 2009; 36:11753-9.13. Ruffino E, Muselli M, Valentini G. Biological specificationsfor a synthetic <strong>gen</strong>e expression data <strong>gen</strong>eration model, lecturenotes in computer. Science 2006; 3849:277-83.14. Chin YL, Deris S. A study on <strong>gen</strong>e selection and classificationalgorithms for classification of microarray <strong>gen</strong>e expressiondata. Jurnal Teknologi 2005; 43:111-24.15. Li L, Weinberg CR, Darden TA, Pedersen LG. Gene selectionfor sample classification based on <strong>gen</strong>e expression data:study of sensitivity to choice of parameters of the GA/KNNmethod. Bioinformatics 2001; 17:1131-42.16. Dudoit S, Fridlyand J, Speed TP. Comparison of discriminationmethodsfor the classification of tumors using <strong>gen</strong>eexpression data. 2000. Technical Report 576, Departmentof Statistics, University of California, Berkeley.H ACETTEPE T IP D ERG‹S‹


Veri madencili¤i yöntemleriyle <strong>mikrodizilim</strong> <strong>gen</strong> <strong>ifade</strong> <strong>analizi</strong>17. Ben-Dor A, Bruhn L, Friedman N, Nachman I, SchummerM, Yakhini N. Tissue classification with <strong>gen</strong>e expressionprofiles. Journal of Computational Biology 2000; 7:559-83.18. Jagota A. Microarray Data Analysis and Visualization, Bioinformaticsby the Bay Press, Santa Cruz, 2001.19. DNA Mikroarray/DNA Mikrodizilimi: Hematolojide KullanımAlanlar, Tayfun ÖZÇELIK, XXX. Ulusal HematolojiKongresi, Mezuniyet Sonrası Eğitim Kursu Dokümanı. Erişimadresi: http://www.thd.org.tr/doc/kurs_pdf/dna.pdf,Erişim tarihi: 16.11.2011.20. Doç. Dr. Hatice Mer<strong>gen</strong> kişisel internet sayfası. Erişim tarihi:10 Eylül 2011. Erişim adresi: http://yunus. hacettepe.edu.tr/~mer<strong>gen</strong>/derleme/d_microarray.pdf21. Frank E, Hall MA, Holmes G, Kirkby R, Pfahringer B. Witten,TriggL. Weka-a machine learning workbench for datamining. In: Maimon O, Rokach L (eds). The Data Miningand Knowledge Discovery Handbook, Springer 2005: 1305-14.22. Demsar J, Leban G, Zupan B, FreeViz. An Intelli<strong>gen</strong>t VisualizationApproach for Class-Labeled Multidimensional DataSets, Intelli<strong>gen</strong>t Data Analysis in Medicine and PharmacologyWorkshop-2005-Scotland, UK.23. Hyvärinen A, Oja E. Independent component analysis: algorithmsand application. Neural Networks 2000; 13:411-30.24. International Journal of Innovative Computing, Informationand Control ICIC International, Independent ComponentAnalysis for Classification of Remotely Sensed Images,2006; 2:31349-4198.25. Ulisses M. Braga-Neto1,3 and Edward R. Dougherty, Iscross-validation valid for small-sample microarray classification?Bioinformatics 2004; 20:374-80. doi: 10.1093/ bioinformatics/btg41926. Boulesteix AL, Strimmer K. Predicting transcription factoractivities from combined analysis of microarray and ChIPdata: a partial least squares approach, heoretical. Biologyand Medical Modelling 2005; 2:23.27. Jin X, Bie R. Random Forest and PCA for Self-OrganizingMaps Based Automatic Music Genre Discrimination, Conferenceon Data Mining, 2006: 414-7.28. Leo B. Random forests. Machine Learning 2001; 45:5-32.29. Shi T, Horvath S. Unsupervised learning with random forestpredictors. Journal of Computational and GraphicalStatistics 2006; 15:118-38.30. Amaratunga D, Cabrera J, Lee YS. Enriched random forests.Bioinformatic 2008; 24:2010-4.31. Huerta M, Cedano J, Querol E. Analysis of nonlinear relationsbetween expression profiles by the principal curves oforiented-points approach. J Bioinform Comput Biol 2008;6:367-86.32. Brier GW. Verification of forecasts expressed in terms ofprobability. Monthly weather review 1950; 78:1-3.33. Airola A. A comparison of AUC estimators in small-samplestudies. Machine Learning in Systems Biology 2010; 8:3-13.34. Vapnik V. Estimation of Dependences Based on EmpiricalData [in Russian]. Nauka, Moscow, 1979. (English translation:Springer, New York, 1982).35. Karabulut E, Karaağaoglu E. Biyoinformatik ve biyoistatistik.Hacettepe Tıp Dergisi 2010; 41:162-70.36. Alpar CR. Uygulamalı Çok Değişkenli İstatistiksel YöntemlereGiriş, Nobel Yayın Evi, Ocak 2003; ISBN: 9755914315.37. Bação F, Lobo V, Painho M. Self-organizing maps as substitutesfor K-Means Clusteringö Lecture Notes in Computer Science,2005; 3516/2005, 9-28, DOI: 10.1007/11428862_65.38. Wehrens R, Buydens LMC. Self and super-organizing mapsin R: the kohonen package. J Stat Soft 2007; 21:1-19.39. Bradley AP. The use of the area under the ROC curve in theevaluation of machine learning algorithms. Pattern Recognition1997; 30:1145:59.40. Vanderlooy S, Hullermeier E. A critical analysis of variantsof the AUC. Machine Learning 2008; 72:247:62.41. Waegeman W, De Baets B, Boullart L. ROC analysis in ordinalregression learning. Pattern Recognition Letters 2008;29:1:9.42. Baker S, Kramer B. Identifying <strong>gen</strong>es that contribute mostto good classification in microarrays. BMC Bioinformatics2006; 7:407.43. Gevaert O, Smet FD, Timmerman D, Moreau Y, Moor BD.Predicting the prognosis of breast cancer by integrating clinicaland microarray data with bayesian networks. Bioinformatics2006; 22:184-90.44. Cosgun E, Aksarı Y. GENE 3E: a new bioinformatics tool for<strong>gen</strong>etic data mining, Society for Design and Process Conference,June 12-16 2011, Jeju, South Korea.Cilt 42 • Say› 4 • 2011189

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!