veri madenciliÄi yÃ¶ntemleriyle mikrodizilim gen ifade analizi ...

Coflgun ve Karaa¤ao¤lu1. [R][R], veri madenciliği çalışan her araştırmacı içinstandart olan, açık kaynak kodlu ve ücretsiz bir yazılımdır.[R] programının mantığı her analiz için kullanılabilecek“analiz paketlerine” sahip olmasıdır. Kullanıcılaryapmak istedikleri analize ait paketi indirdikten sonrailgili paketin kullanım kılavuzuna göre analizlere devameder. [R]’nin en önemli avantajı diğer paket programlaragöre çok hızlı olmasıdır. Standart bir bilgisayarkonfigürasyonu ile (örn. 2 GB RAM ve 2.13 GHz işlemci)çok büyük veri setleri kısa sürede analiz edilebilir. Buprograma ait tüm bilgiye “http://www.r-project.org/“bağlantısından yöntemlerin paketlerine ait tam listeyeise: “http://cran.r-project. org/src/contrib/PACKA-GES.html” bağlantısından ulaşılabilir. Bu çalışma kapsamındakiveri madenciliği yöntemlerine ait [R] paketleriTablo 1’de verilmiştir. Bu paketlerin dışında ilgiliyöntemler için kullanılabilecek başka kaynak paketlerde bulunabilir.2. WEKATablo 1. Çalışma kapsamında kullanılması önerilen [R] paketleriAnaliz[R] paketiGen ontolojisitopGO, GOSimBootstrapboot, bootstrapRandom forestrandomForestDestek vektör makinesi e1071,Sınıflama ve regresyon ağaçları (CART) rpartC 4.5RWekaCHAIDrpartBoosted tree yöntemigbmKohonen mapkohonenBağımsız bileşenler analizifastICAVeri madenciliği çalışmalarında kullanılan bir diğeraçık kaynak kodlu ve ücretsiz program WEKA’dır [21].WEKA’nın en önemli avantajı Java dilinde yazılmış olmasıdır.Bu nedenle hemen hemen tüm işletim sistemlerinde(Linux, Mac, Sun, Windows) çalışabilmektedir.WEKA çok zengin bir içeriğe sahiptir. Bu çalışma kapsamındada bahsedilen danışmanlı ve danışmansız öğrenmeteknikleri, kümeleme, birliktelik kuralları gibi birçokyönteme ait paketlere sahiptir. Çapraz geçerlilik ve bootstrapanalizleri için özel komutları içerir. Son dönemdegetirdiği yeniliklerden biri de “Perl” ve “R” programlamadillerinin komutlarını doğrudan çalıştırabilmesidir.Bu yazılım ile ilgili ayrıntılı bilgiye “http://www.cs.waikato.ac.nz/ml/weka” bağlantısından ulaşılabilir.3. ORANGEÜcretsiz şekilde ulaşılabilen bir diğer yazılım daORANGE’dir [22]. ORANGE’yi diğer yazılımlardan ayıranen önemli nokta görsel bir analiz penceresine sahipolmasıdır. Yöntemler ve araçlar küçük “ikonlar” halindedir.Kullanıcılar yapmak istedikleri analizlere aitikonları “canvas” denilen çalışma alanına taşırlar veanaliz modellerini bu ikonlar arası “bağlantı yolları”kurarak oluştururlar. “R” ve “WEKA”nın aksine kullanıcı,çok fazla programlama bilgisine sahip olmasa da verimadenciliği yapabilir. Bu nedenle son yıllarda giderekartan bir kullanım oranına sahiptir. ORANGE yazılımınınbir diğer avantajı ise, mikrodizilim verilerin analizindekullanılan “heat map” ve “GO- Gene Ontology”analiz araçlarını içermesidir. Yazılıma ve ayrıntılı bilgiyebu linkten ulaşılabilir: http://www. ailab.si/orangeVER‹ MADENC‹L‹⁄‹ YÖNTEMLER‹ ileM‹KROD‹Z‹L‹M VER‹ ANAL‹Z‹Veri madenciliği yöntemleri ile mikrodizilim verianalizi beş temel adımdan oluşur. Bunlar sırasıyla Şekil2’de belirtilmiştir.Kısa not: Çalışmaya katılan bireylere ait sınıflamadeğerinin bilinmesi durumuna danışmanlı öğrenme(supervised learning) denir. Örneğin; hasta/hasta değilbilgisi biliniyorsa algoritma sınıflamayı sağlayacakmodeli daha gerçekçi ve yansız şekilde kestirebilir. Bubilgi yoksa aynen kümeleme analizlerinde olduğu gibiuzaklık ölçülerini kullanarak tamamen matematikseltahminler yapılıyorsa bu yaklaşıma danışmansızöğrenme (unsupervised kearning) denir.1. BOYUT ‹ND‹RGEMEDoğası gereği çok boyutlu olan bu veri türlerinin analizindeatılması gereken ilk adım doğrusal olan ya da olmayanilişkileri ortaya çıkarmak için verinin boyutunuindirgemektir. Bu yaklaşımı şu şekilde açıklayabiliriz. Örneğin;elimizde 20 hastaya ait 6000 genin ekspresyon değerivarsa, bu veriyi doğrudan analiz etmek yanlıştır. Çünkügenler arasında bilinen ya da bilinmeyen birçok ilişkimevcuttur. Eğer bu ilişkiler giderilmeden kümeleme, sınıflamagibi analizler yapılırsa, sonuçlar yanlı ve yanlışolacaktır. Bu nedenle, örneğimizdeki 6000 gene ait bilgiyiiçeren daha az sayıdaki, genelde gen sayısının karekökükadar, “faktör”e indirgemek gerekmektedir. Elde edilenher faktör, belirli bir grup gene ait bilgiyi temsil eder.Boyut indirgeme üzerine yapılan birçok çalışma sonunda,çok bilinen “Temel Bileşenler Analizi (PrincipalComponent Analizi)” yerine veri madenciliği yöntem-182H ACETTEPE T IP D ERG‹S‹

Veri madencili¤i yöntemleriyle mikrodizilim gen ifade analizilerinden Bağımsız Bileşenler Analizi (IndependentComponent Analizi)”nin daha iyi bir faktörizasyon sağladığıgözlemlenmiştir [5,23,24].Bağımsız bileşenler analiziCilt 42 • Say› 4 • 20111. Boyut indirgeme2. Genelleştirme yöntemlerinin seçimi3. Danışmanlı ya da danışmansızöğrenme ile veri analizi4. Performans kriterlerine göre karşılaştırma5. Gen ontoloji analiziŞekil 2. Mikrodizilim gen ifade veri analizi akış şeması.Bağımsız bileşenler analizi, rastgele değişken, ölçümya da sinyalleri göz önüne alarak, veri setlerindeki gizlifaktörleri ortaya çıkarmayı hedefleyen istatistiksel bir tekniktir.Genel olarak büyük veri setlerinde, birden çok değişkenyardımıyla model oluşturmaya odaklanır. Modelde,değişkenler biraraya gelerek gizli faktörleri ortaya çıkarır.Gizli faktörler için en önemli varsayım, normal dağılımgöstermemesi ve birbirlerinden tamamen bağımsızolmalarıdır. Bağımsız bileşenler analizinin, temel bileşenleranalizi ve faktör analizi ile ortak yönleri bulunmaktadır.Ancak özellikle veri setinin büyümesiyle bağımsız bileşenleranalizi, gizli faktörleri ortaya çıkarmada daha etkilisonuçlar vermektedir. Bağımsız bileşenler analizi sayesindeçok boyutlu verilerde, boyut indirgemesi yapılarak,daha etkili analizler yapılmaktadır. Çoğu zaman tek başınakullanılsa da, sınıflama ve kümeleme yöntemleriylebirlikte kullanımı giderek tercih edilmeye başlanmıştır.Özellikle mikrodizilim veri setlerin boyut indirgeme aşamasındaalternatif yöntemlere göre (temel bileşenler analizi,faktör analizi) daha güvenilir sonuçlar vermektedir.Boyut indirgeme ile birlikte, yanlılığı ortadan kaldırmada(Whitening) ve öz değer dekompozisyonla verileri merkezileştirmedekullanılmaktadır.Bağımsız bileşenler analizini açıklarken verilebileceken iyi örnek “Kokteyl Parti Problemi”dir. Bir kokteyldebirçok ses vardır (müzik, dışarıdan gelen ses, insanlarınsesleri). Eğer iki kişinin sesi diğer seslerdenayırt edilmek istenirse, en az iki mikrofon, kişilere eşitmesafeye yerleştirilir. Daha sonra her bir mikrofondangelen sesler birer model olarak analiz edilir. Her modeldeiki değişken olmak üzere, faktörler ortaya çıkarılır.Bu örneği gen ekspresyon verileri için de genelleyebiliriz.Her gen, ayrı bir bilgi taşır. Bu genleri ayırt etmedekullanılacak istatistiksel bir model oluşturmak için bağımsızbileşenler analizi çok hızlı ve doğru sonuçlar verenbir yöntemdir.2. GENELLEfiT‹RME YÖNTEMLER‹N‹N SEÇ‹M‹Gen ekspresyon analizinin en temel adımlarındanbiri analizlerin genelleştirilmesidir. “Genelleştirme” ileanlatılmak istenen: Veri madenciliği yöntemleri ayırımolmaksızın “model tabanlı”dır. Eğer sınıflama yapılacaksaönce bir sınıflama modeli oluşturulur sonra bumodele göre yeni gelen hastaya ait ekspresyon düzeyitahmin edilmeye ya da hasta belirli bir gruba atanmayaçalışılır. Eğer veri setindeki hastaların tamamına ait verilerbir kerede analiz edilirse, sonuçların şansa bağlı olmaolasılığı yüksek olur. Başka bir deyişle algoritma verisetine göre model oluşturduğu için, hasta grubunutanır ve sadece o hasta grubunda işe yarayan bir modeloluşturur. Bu hasta grubuna uymayan ancak aynı popülasyondangelen hastalarda yanlış sonuçlar verir.Bu nedenle hastaların bir kısmı dışarıda bırakılıpanaliz modelleri oluşturulmalı, daha sonra dışarıda kalankısım ile elde edilen modeller test edilmelidir. Bunuyapabilmek için kullanılan en popüler iki yöntem şunlardır:BootstrapBootstrap yöntemi standart sapma, güven aralığıgibi istatistiklerde ve parametrik olmayan tahminproblemlerinde kullanılan basit ve güvenilir bir yöntemdir.Bu yöntem belirli bir veri seti içinden, yerinekoyarak tekrar tekrar örneklem çekme temeline dayanır.Herhangi büyüklükteki bir veri setinde gözlemlerinşansa bağlı olarak yer değiştirilerek yeniden örneklenmesiyleçeşitli miktarda ve büyüklükte veri setlerioluşturulabilmektedir. Böylece mevcut veri setindenmümkün olabildiğince fazla miktarda bilgi alınabilmektedir.Söz konusu yöntem Bootstrap (resampling)yöntemi olarak tanımlanmaktadır. Bootstrap yöntemiuygulanma kolaylığı ve yararlılığının yanı sıra başkaavantajlara da sahiptir. Klasik istatistikte, incelenendeğişkenlerin normal dağılım gösterdiği varsayımınadayalı olarak tahmin yapılmaktadır. Bootstrap yöntemindeise veri setinden şansa bağlı örnekler alınarakistatistiksel tahminler yapılmaktadır. Bu yöntemle,183

Coflgun ve Karaa¤ao¤luçok küçük veri setlerinden bile doğru yanıtlar alınabilmekte,büyük veri setlerinde ise klasik istatistik sonuçlarlaparalellik sağlanmakta ve hemen hemen tüm istatistikleranaliz edilebilmektedir.Çapraz geçerlilikGen ekspresyon veri setlerinde olduğu gibi olgu sayısınınaz olduğu deney düzenlerinde kullanışlı bir genelleştirmearacıdır. Mikrodizilim verileri üzerinde yapılandanışmanlı öğrenme analizlerinde sıklıkla kullanılmaktadır[25,26]. Genel olarak “10-parça çapraz geçerlilik”yöntemi tercih edilmektedir. Bu yöntemde veri kümesirastgele 10 eşit parçaya ayrılır. İlk aşamada birinci parçatest veri seti olarak bırakılır, geriye kalan dokuz parçaeğitim seti olarak kullanılır. İkinci aşamada ise ikinciparça test veri seti olarak kullanılır, geriye kalan dokuzparça ile model bulunmaya çalışılır. Bu süreç 10 parçaayrı ayrı test seti olarak kullanılıncaya kadar devameder. Çapraz geçerlilik sonunda her parçadan elde edilendoğru sınıflama ya da ROC eğrisi altında kalan alan gibiperformans değerlerinin ortalaması alınır. Bu sonuç, ilgiliyöntemin genel performansını ifade eder.3. DANIfiMANLI ve DANIfiMANSIZ Ö⁄RENMEYÖNTEMLER‹Danışmanlı öğrenme yöntemleriRandom forest: Son yıllarda gen ekspresyon verilerininanalizinde en çok kullanılan yöntemlerden birisi derandom foresttir. En önemli avantajı çok gerekli olmasınarağmen, eğer araştırmacı boyut indirgeme analiziniyapmazsa random forest algoritması çok sayıdaki geneait ekspresyon verisini kullanarak iyi bir sınıflama ve tahminalgoritması oluşturabilir [16-18,27-30]. Gen ekspresyonverilerinde tek bir karar ağacı algoritmasından çokdaha başarılı sonuçlar verdiği ispatlanmıştır [28]. Randomforest birçok (binlerce) karar ağacından meydanagelen bir yapıdır. Bu analiz sırasında random foresttekiher bir ağaç için bootstrap yöntemiyle veri setinden örneklemseçilir ve seçilen verilerin 2/3’ü ağaç oluşturmakiçin kullanılır ve bir sınıflama yapar (Şekil 3). Bu sınıflamalar“oy (vote)” alır. Random forest algoritması ise “forest”içindeki tüm ağaçlardan en çok oy alanı seçer veonun sınıflamasını kullanır. Düşük hata oranına sahipağaç daha iyi sınıflayıcıdır. Random forestte hata oranıiki şeye bağlıdır:i) İki ağaç arasındaki korelasyona, korelasyon arttıkçahata oranı artar.ii) Her ağacın kendi hata oranı.Random forestin bazı avantajları ise şu şekildedir:1. Random forestte aşırı uyum olmaz.2. İstediğiniz kadar ağaç türetebilirsiniz.3. Hızlı bir algoritmadır.4. Elde edilen random forest diğer veri setlerindekullanılmak üzere saklanabilir.5. Eksik veri analizlerinde çok etkili bir yöntemdir,doğru sınıflama oranı eksik veriler olsa da devam eder.6. Binlerce gen herhangi bir eleme yapmadan kullanabilir.7. Danışmansız (Unsupervised) kümeleme yöntemindekullanılabilir.Destek vektör makinesi: Gen ekspresyon verilerinin enbüyük sorunu doğrusal olmayan ilişkiye sahip verileriiçermesidir [31-33]. Genler arasındaki bağlantıları belirlemekbu nedenle çok zordur. Bu durum göz önüne alınmadanyapılacak analizler yanlı olabilmektedir. Destekvektör makinesi yöntemi bu sorunu en iyi çözen yöntemlerdendir.Kullandığı çekirdek fonksiyonlar sayesindeTüm veriEğitim veri setiTest veri setiIn Bag (eğitimsetinin 2/3’ü)Out of Bag(eğitim setinin1/3’ü)Şekil 3. Random forest algoritması akış şeması.184H ACETTEPE T IP D ERG‹S‹

Veri madencili¤i yöntemleriyle mikrodizilim gen ifade analizigenler arasındaki ilişkileri anlaşılabilir hale getirir. Bunuşu şekilde yapar: Doğrusal olarak sınıflanabilen verileribirbirinden ayırt edebilmek için olası pek çok doğrusalfonksiyon içerisinden marjini en büyük olanı belirler.Herhangi bir şekilde doğrusal olarak sınıflanamayan verileridaha yüksek boyutlu uzaya aktarır ve marjini en büyükolan hiper-düzlemleri bulur. Veriler bu ayırt edici hiper-düzlemegöre sınıflara atanır (Şekil 4). Buna ek olarak,veri setine yeni giren verilerin hangi sınıfta olduğu dakestirilebilir. Verileri çok boyutlu uzayda kategorilere ayırmakiçin farklı çekirdek fonksiyonlar kullanılabilir. En sıkkullanılan çekirdek fonksiyonları: Doğrusal, çokterimli,radyal temel fonksiyonu (RTF) ve sigmoiddir [34,35].Karar ağacı yöntemleri:• Sınıflama ve regresyon ağaçları yöntemi (classification andregression tree: CART): CART sayısal veya kategorik değişkenleri,yine bir grup sayısal veya kategorik faktör etkisindentahmin etmeye yarayan bir algoritmadır. Genekspresyonu verileriyle doz tahmini yapılmak istendiğindekullanılabilecek yöntemlerdendir. Ağaç yapısındaolup bir olayın sonuçlandırılmasında sorunun yanıtınagöre hareket eder. Kullandığı bilgi ölçütü “gini indeksi”dir.Girdi değişkenler ağacın bölünme aşamasında sadece2’ye bölünebilir. Bu nedenle fazla sayıda kategoriiçeren girdi değişken varlığında dezavantaja sahiptir.ngini indeksi (D) = 1 - ∑j=1• C4.5 algoritması: ID.3 karar ağacı algoritmasınındevamı olan bu yöntemde bölünme kriteri “gain ratio”dur.Özellikle çok fazla girdi değişkene sahip veri tabanlarındaID.3 yönteminin bölünme kriteri olan “informationgain”in yanlı bölünmeler yapma olasılığıyükseldiğinden, bu yöntem son derece kullanışlıdır.Şekil 4. Destek vektör makinesi algoritması problem çözümü.Cilt 42 • Say› 4 • 2011Ρ 2jaltdüzlemGain ratio = SplitInfo A(D) = -v | D j|| D|• CHAID (CHi-squared automatic interaction detector):Sürekli sayısal veya kategorik değişken tipleriyle kullanılabilenbir karar ağacı algoritmasıdır. CHAID, ağacınbölünme aşamasında ki-kare istatistiğini kullanır. CHA-ID algoritması tüm girdi ve çıktı değişkenler için çapraztablolar hazırlar ve en anlamlı olandan (en küçük p değeri)en az anlamlı olana doğru ağaç bölünmeye başlar.Amaç, ağacın yapraklarının, sadece ikili değil, daha fazlasayıda bölünebilmesini sağlamaktır. Bu açıdan diğerkarar ağaçlarından ayrılmaktadır.Boosted ağaç (tree) yöntemi (BT): Boosting tree algoritması,boosting yönteminin regresyon ağaçlarına uygulanmasısonucu ortaya çıkmıştır. Bu nedenle iki algoritmakullanır: Boosting ve CART. Danışmanlı (supervised)yöntemlerdendir. BRT yöntemi binlerce ağaç üretir. Ancakdiğer “ağaç tabanlı” yöntemlerden farkı, ürettiği heryeni ağacı, bir önceki ağacın artıklarını fit ederek yapar.Elde edilen sonuç modeli regresyon denklemi gibidir.Denklemdeki her bir değişken genlerden oluşur. Böylece“yansız ve kesin” tahminler yapabilen son sınıflama/regresyonmodeli oluşturulmuş olur. Bu yaklaşıma “stagewise”adı verilmiştir (Şekil 5). Kanser araştırmalarında yapılanmodelleme hatasını en aza indirgediği için yüksekdoğrulukta sonuçlar verdiği bilinmektedir [15].Danışmansız öğrenme (kümeleme) yöntemleriBu kısımda sadece veri madenciliği kapsamındaki“Kohonen Map” kümeleme yöntemine odaklanılmıştır.Bu yöntemin daha çok bilinen ve bazı genetik araştırmalardahalen kullanılan “K-ortalama” yöntemine göreavantajı ise: K-Ortalama yöntemindeki en az küme sayısı2, en fazla küme sayısı ise gözlem sayısına eşit ya dadaha az olacak şekilde belirleme zorunluluğunun olmamasıdır[36]. K-Ortalama yönteminin bu varsayımı özelliklegenetik araştırmalarda “az hasta çok gen” senaryosuile çok sık karşılaşıldığından zorlayıcıdır. Bununla birlikteK-Ortalama yönteminin çok sayıda “aykırı” gözleminbulunduğu gen ekspresyon verilerinde başarılı olamadığıönceki çalışmalarda rapor edilmiştir [37].Kohonen map kümeleme yöntemi: Kohonen Map, SelfOrganizing Map, olarak da bilinen, kümeleme amaçlıkullanılan, yapay sinir ağı çeşididir. Bu network algoritması,analizden önce hangi grupta olduğu bilinmeyenverileri, birbirinden bağımsız kümelere ayırmakta kullanılır.Kümelerin varyansları kendi içinde küçük, birbirleriarasında ise büyüktür. Analizde temel nokta “nöron”lardır.Bu nöronlar iki tabakadan oluşur: Girdi veçıktı nöronlar (Şekil 6). Tüm girdi nöronlar, çıktı nöronlarile bağlıdır. Bu bağlar, “Güç” veya “Ağırlık” ola-∑j=1| D j|x log 2( )| D|185

Coflgun ve Karaa¤ao¤luBRT Toplumsal Model(STAGEWISE)1. Ağaç2. Ağaç1. Ağacın artıklarınıfit etmeye çalışıyor2. Ağacın artıklarınıfit etmeye çalışıyor3. AğaçReg. Model: sabit+a* 1. Ağaç + b* 2. Ağaç + ..........+ t* M. AğaçŞekil 5. Boosted tree algoritması.Şekil 6. Kohonen map algoritması akış şeması.Çıktı tabakasıGirdi tabakasırak adlandırılan ölçülerle ifade edilir. Algoritma çalıştığındaçıktı nöronlar, en çok veriyi kendilerine bağlamakiçin yarışır. “Çıktı haritası”, nöronların iki boyutlu,birbirleriyle ilişkisiz grid yapısında görünüme sahipbir haritasıdır. Herhangi bir hedef değişkene ihtiyaçduymamasından dolayı, danışmansız öğrenme tekniklerindendir[4,7,27,38]. Algoritma, öncelikle tüm girdinöronlar için, çıktı nöronlara rastgele olarak ağırlıklaratar. En güçlü ağırlığa göre verileri çıktı nöronlara atar.Analiz sonunda, benzer veriler grid üzerinde aynı yerde,farklı olanlar ise, uzak gridlere ayrılır.4. PERFORMANS KARfiILAfiTIRMA KR‹TERLER‹Veri madenciliğinde gen ekspresyon verileriyle bireylerinsınıflanması sık görülen uygulamalardandır.Ancak veri madenciliğinde her veri setinde “en iyi” sınıflamasonucunu verecek bir yöntem yoktur. Çalışılanpopülasyon, yaş grubu ya da hastalık, analiz edilen verisetindeki gen sayısı, hasta sayısı, genler için sinyal ortalamave varyansı, genler arasındaki korelasyon gözönüne alındığında farklı yöntemler daha güvenilir veyüksek doğrulukta sonuçlar verebilir. Bu nedenle olasıtüm yöntemler ya da yöntemler bütünü denenmeli veen iyi sonucu veren yaklaşım tercih edilmelidir. Peki buyöntemleri birbirinden nasıl ayırt edebiliriz? İkiden çokhasta grubunun olduğu çalışmalarda (çok sınıflı-sınıflamaçalışmaları) doğruluk (accuracy, doğru sınıflananbireylerin sayısının tüm bireylerin sayısına oranı) ölçüsününkullanılması önerilir. Çalışma türü ve grubunagöre değişmekle birlikte %75’lik doğruluk kabul edilebilirbir orandır.Olgu-kontrol çalışmalarında (iki sınıflı-sınıflama çalışmaları)gen ekspresyon verisiyle tanı tahmini yapılmasıplanlanıyorsa doğruluk değeri gibi standart bir kriterindışında veri madenciliğine özel kullanılan alternatifperformans karşılaştırma kriterleri mevcuttur. Bunlar:ROC eğrisi altında kalan (AUC: Area Under ROC Curve)ROC eğrisi bir tanı testine ilişkin duyarlılık ve özgüllükdeğerleri arasındaki ilişkiyi grafiksel olarak gösterir.ROC eğrisi yanlış pozitif orana (duyarlılık) karşın doğrupozitif oranların (1-seçicilik) noktalanarak çizilmesiyleelde edilir [39]. Bu eğrinin altında kalan alanın hesaplanmasıylaAUC elde edilir.AUC, veri madenciliği literatüründe çok sık kullanılansıralamaya dayalı (ranking) bir performans kriteridir[33,39-42] (Şekil 7). AUC, veri madenciliği sınıflayıcımodelinin hasta ve sağlıklı kişilerden rastgele seçilmişiki kişiyi doğru tanımlayabilme olasılığı olarak ifadeedilebilir [33]. 0 ile 1 arasında değerler alabilir; 0.5değeri rastgele bir tahmin olduğunu, 1’e yakın değerlermodelin tahmin gücünün yüksek olduğunu gösterir.186H ACETTEPE T IP D ERG‹S‹

Coflgun ve Karaa¤ao¤luŞekil 8. ORANGE programında gen ontoloji seçenekleri.SONUÇ ve ÖNER‹LERHastalıkların tedavisi, yeni ilaç keşifleri ve hastalıklarıönlemeye yönelik çalışmalarda genetik verilerinönemi giderek artmaktadır. Ülkemizde de “biyobanka”larınyaygınlaşması ve genetik araştırmalara ayrılankaynakların artmasıyla bu alanda ciddi ilerlemeler kaydedilmiştir.Yeni genlerin ve tedavilerin bulunmasıbunlardan sadece birkaçıdır. Araştırıcılarımızın başarılıçalışmalarının sonuca ulaşması ve hastalara doğrudanetki edebilmesi için genetik araştırmalardan karmaşıkbilgi birikimini çıkarmak gerekmektedir. Bu nedenle ülkemizdede biyoistatistik ve biyoinformatik uzmanlarınaduyulan gereksinim artmaktadır. Hem biyolojik bilgiyehakim hem de hangi analiz yöntemini ne zamankullanacağını bilen uzmanlarla çok daha geçerli tedaviyöntemlerinin bulunacağı açıktır.Analizi yapacak araştırmacı bu çalışmada sunulanadımları sırasıyla ve doğru şekilde uygularsa veridenmümkün olan en fazla bilgiyi çıkaracaktır. Tüm bunlarlabirlikte elde edilecek veri madenciliği modelleri sayesinde“kişiye özel” tedavinin de yolu açılacaktır. Bu sonuçbile uzun vadede veri madenciliğine kadar gerekduyulduğunu göstermektedir.Ayrıca, günümüzde araştırmalara harcanan paranınbüyük kısmı yazılım alımına ayrılmaktadır. Ancak alınanyazılımların çoğu kullanıcıları kısıtlamakta ve kendideney planlarını yapmasına engel olmaktadır. Hattabirçoğu bu çalışmada da açıklanan yeni nesil veri madenciliğiyöntemlerini içermemektedir. Bu çalışmanıngenetik araştırmalarda çalışan uzmanlara analizlerindedaha özgür davranabilmelerini sağlayacak “açık kaynakkodlu-ücretsiz” programları tanıtmak adına da önemliolduğunu düşünmekteyiz. Bu mantıktan hareketle “Gene3E”adlı [R] yazılımının kodlarını kullanan java analizaracını da geliştirmiş ve araştırıcıların kullanımınasunmuş bulunmaktayız [44]. Çalışmamızda genetik veritürlerinden “Mikrodizilim Gen İfade” verilerinin analizindetakip edilmesi gereken yol açıklanmıştır. Bu veritürü dışında “SNP, Exon Array ve Next Generation Dizi”veri türleri için de farklı birçok yazılım ve veri madenciliğiyöntemi bulunmaktadır. Özellikle günümüzde maliyetolarak daha makul seviyelere gelen “Genome WideAssociation Study (GWAS)” çalışmaları da veri madenciliğiiçin önemli bir çalışma alanıdır. Bundan sonraki çalışmamızdabu verilerin türlerini de kapsayacak ayrıntılıanaliz akış şemalarının çıkarılması planlanmaktadır.188Kaynaklar1. Cosgun E, Limdi N, Duarte CW. High dimensional pharmacogeneticprediction of a continuous trait using machinelearning techniques with application to warfarin dose predictionin African American. Bioinformatics 2011;27:10:1384-9.2. Cosgun E, Karaagaoğlu E. The new hybrid method for classificationof patients by gene expression profiling. In: SuhSang C, Gurupur Vadadraj P, Tanik Murat M (eds). BiomedicalEngineering: Healthcare Systems, Technology andTechniques, Springer. 1 st ed. 2011: 255-65.3. Parrish RS, Spencer HJ, Xu P. Distribution modelling and simulationof gene expression data. Computational Statisticsand Data Analysis, 2009.4. Tamayo P, Slonim D, Mesirov J, Zhu Q, et al. Interpretingpatterns of gene expression with self-organizing maps: methodsand application to hematopoietic differentiation.Proc Natl Acad Sci 1999; 96:2907-12.5. Lee SI, Batzoglou S. An Application of Independent ComponentAnalysis to Microarrays, Genome Biology, 2003; 4:R76.6. Han J. How Can Data Mining Help Bio-Data Analysis?Workshop on Data Mining in Bioinformatics 2002.7. Zhang K, Zhao H. Assessing reliability of gene clusters fromgene expression data. Functional Integrated Genomics2000: 156-73.8. Dettling M, Buhlmann P. Boosting for tumor classificationwith gene expression data. Bioinformatics 2003; 3:1061-9.9. Wang LY, Tu Z., Lung tumor diagnosis and subtype discoveryby gene expression profiling, Conf Proc IEEE Eng MedBiol Soc 2006; 1:5868-71.10. Coşgun E, Karabulut E, Karaağaoğlu E. Random Forest (RF)ve SVM ile Mikrodizilim Verilerde Gen Seçimi, VI. Ulusal İstatistikKongresi, 29 Nisan-3 Mayıs 2009, Antalya, Türkiye.11. Yeung KY, Medvedovic M, Bumgarner RE. Clustering GeneExpression Data With Repeated Measurements, GenomeBiology 2003; 4:R74.12. Park HS, Jun CH, Yoo JY. Classifying genes according topredefined patterns by controlling false discovery rate. ExpertSystems with Applications 2009; 36:11753-9.13. Ruffino E, Muselli M, Valentini G. Biological specificationsfor a synthetic gene expression data generation model, lecturenotes in computer. Science 2006; 3849:277-83.14. Chin YL, Deris S. A study on gene selection and classificationalgorithms for classification of microarray gene expressiondata. Jurnal Teknologi 2005; 43:111-24.15. Li L, Weinberg CR, Darden TA, Pedersen LG. Gene selectionfor sample classification based on gene expression data:study of sensitivity to choice of parameters of the GA/KNNmethod. Bioinformatics 2001; 17:1131-42.16. Dudoit S, Fridlyand J, Speed TP. Comparison of discriminationmethodsfor the classification of tumors using geneexpression data. 2000. Technical Report 576, Departmentof Statistics, University of California, Berkeley.H ACETTEPE T IP D ERG‹S‹

Veri madencili¤i yöntemleriyle mikrodizilim gen ifade analizi17. Ben-Dor A, Bruhn L, Friedman N, Nachman I, SchummerM, Yakhini N. Tissue classification with gene expressionprofiles. Journal of Computational Biology 2000; 7:559-83.18. Jagota A. Microarray Data Analysis and Visualization, Bioinformaticsby the Bay Press, Santa Cruz, 2001.19. DNA Mikroarray/DNA Mikrodizilimi: Hematolojide KullanımAlanlar, Tayfun ÖZÇELIK, XXX. Ulusal HematolojiKongresi, Mezuniyet Sonrası Eğitim Kursu Dokümanı. Erişimadresi: http://www.thd.org.tr/doc/kurs_pdf/dna.pdf,Erişim tarihi: 16.11.2011.20. Doç. Dr. Hatice Mergen kişisel internet sayfası. Erişim tarihi:10 Eylül 2011. Erişim adresi: http://yunus. hacettepe.edu.tr/~mergen/derleme/d_microarray.pdf21. Frank E, Hall MA, Holmes G, Kirkby R, Pfahringer B. Witten,TriggL. Weka-a machine learning workbench for datamining. In: Maimon O, Rokach L (eds). The Data Miningand Knowledge Discovery Handbook, Springer 2005: 1305-14.22. Demsar J, Leban G, Zupan B, FreeViz. An Intelligent VisualizationApproach for Class-Labeled Multidimensional DataSets, Intelligent Data Analysis in Medicine and PharmacologyWorkshop-2005-Scotland, UK.23. Hyvärinen A, Oja E. Independent component analysis: algorithmsand application. Neural Networks 2000; 13:411-30.24. International Journal of Innovative Computing, Informationand Control ICIC International, Independent ComponentAnalysis for Classification of Remotely Sensed Images,2006; 2:31349-4198.25. Ulisses M. Braga-Neto1,3 and Edward R. Dougherty, Iscross-validation valid for small-sample microarray classification?Bioinformatics 2004; 20:374-80. doi: 10.1093/ bioinformatics/btg41926. Boulesteix AL, Strimmer K. Predicting transcription factoractivities from combined analysis of microarray and ChIPdata: a partial least squares approach, heoretical. Biologyand Medical Modelling 2005; 2:23.27. Jin X, Bie R. Random Forest and PCA for Self-OrganizingMaps Based Automatic Music Genre Discrimination, Conferenceon Data Mining, 2006: 414-7.28. Leo B. Random forests. Machine Learning 2001; 45:5-32.29. Shi T, Horvath S. Unsupervised learning with random forestpredictors. Journal of Computational and GraphicalStatistics 2006; 15:118-38.30. Amaratunga D, Cabrera J, Lee YS. Enriched random forests.Bioinformatic 2008; 24:2010-4.31. Huerta M, Cedano J, Querol E. Analysis of nonlinear relationsbetween expression profiles by the principal curves oforiented-points approach. J Bioinform Comput Biol 2008;6:367-86.32. Brier GW. Verification of forecasts expressed in terms ofprobability. Monthly weather review 1950; 78:1-3.33. Airola A. A comparison of AUC estimators in small-samplestudies. Machine Learning in Systems Biology 2010; 8:3-13.34. Vapnik V. Estimation of Dependences Based on EmpiricalData [in Russian]. Nauka, Moscow, 1979. (English translation:Springer, New York, 1982).35. Karabulut E, Karaağaoglu E. Biyoinformatik ve biyoistatistik.Hacettepe Tıp Dergisi 2010; 41:162-70.36. Alpar CR. Uygulamalı Çok Değişkenli İstatistiksel YöntemlereGiriş, Nobel Yayın Evi, Ocak 2003; ISBN: 9755914315.37. Bação F, Lobo V, Painho M. Self-organizing maps as substitutesfor K-Means Clusteringö Lecture Notes in Computer Science,2005; 3516/2005, 9-28, DOI: 10.1007/11428862_65.38. Wehrens R, Buydens LMC. Self and super-organizing mapsin R: the kohonen package. J Stat Soft 2007; 21:1-19.39. Bradley AP. The use of the area under the ROC curve in theevaluation of machine learning algorithms. Pattern Recognition1997; 30:1145:59.40. Vanderlooy S, Hullermeier E. A critical analysis of variantsof the AUC. Machine Learning 2008; 72:247:62.41. Waegeman W, De Baets B, Boullart L. ROC analysis in ordinalregression learning. Pattern Recognition Letters 2008;29:1:9.42. Baker S, Kramer B. Identifying genes that contribute mostto good classification in microarrays. BMC Bioinformatics2006; 7:407.43. Gevaert O, Smet FD, Timmerman D, Moreau Y, Moor BD.Predicting the prognosis of breast cancer by integrating clinicaland microarray data with bayesian networks. Bioinformatics2006; 22:184-90.44. Cosgun E, Aksarı Y. GENE 3E: a new bioinformatics tool forgenetic data mining, Society for Design and Process Conference,June 12-16 2011, Jeju, South Korea.Cilt 42 • Say› 4 • 2011189

veri madenciliÄi yÃ¶ntemleriyle mikrodizilim gen ifade analizi ...

Create successful ePaper yourself

Delete template?

Save as template?

veri madenciliÄi yÃ¶ntemleriyle mikrodizilim gen ifade analizi ...