veri madenciliÄi yÃ¶ntemleriyle mikrodizilim gen ifade analizi ...

11.07.2015 Views
Coflgun ve Karaa¤ao¤lu1. [R][R], veri madenciliği çalışan her araştırmacı içinstandart olan, açık kaynak kodlu ve ücretsiz bir yazılımdır.[R] programının mantığı her analiz için kullanılabilecek“analiz paketlerine” sahip olmasıdır. Kullanıcılaryapmak istedikleri analize ait paketi indirdikten sonrailgili paketin kullanım kılavuzuna göre analizlere devameder. [R]’nin en önemli avantajı diğer paket programlaragöre çok hızlı olmasıdır. Standart bir bilgisayarkonfigürasyonu ile (örn. 2 GB RAM ve 2.13 GHz işlemci)çok büyük veri setleri kısa sürede analiz edilebilir. Buprograma ait tüm bilgiye “http://www.r-project.org/“bağlantısından yöntemlerin paketlerine ait tam listeyeise: “http://cran.r-project. org/src/contrib/PACKA-GES.html” bağlantısından ulaşılabilir. Bu çalışma kapsamındakiveri madenciliği yöntemlerine ait [R] paketleriTablo 1’de verilmiştir. Bu paketlerin dışında ilgiliyöntemler için kullanılabilecek başka kaynak paketlerde bulunabilir.2. WEKATablo 1. Çalışma kapsamında kullanılması önerilen [R] paketleriAnaliz[R] paketiGen ontolojisitopGO, GOSimBootstrapboot, bootstrapRandom forestrandomForestDestek vektör makinesi e1071,Sınıflama ve regresyon ağaçları (CART) rpartC 4.5RWekaCHAIDrpartBoosted tree yöntemigbmKohonen mapkohonenBağımsız bileşenler analizifastICAVeri madenciliği çalışmalarında kullanılan bir diğeraçık kaynak kodlu ve ücretsiz program WEKA’dır [21].WEKA’nın en önemli avantajı Java dilinde yazılmış olmasıdır.Bu nedenle hemen hemen tüm işletim sistemlerinde(Linux, Mac, Sun, Windows) çalışabilmektedir.WEKA çok zengin bir içeriğe sahiptir. Bu çalışma kapsamındada bahsedilen danışmanlı ve danışmansız öğrenmeteknikleri, kümeleme, birliktelik kuralları gibi birçokyönteme ait paketlere sahiptir. Çapraz geçerlilik ve bootstrapanalizleri için özel komutları içerir. Son dönemdegetirdiği yeniliklerden biri de “Perl” ve “R” programlamadillerinin komutlarını doğrudan çalıştırabilmesidir.Bu yazılım ile ilgili ayrıntılı bilgiye “http://www.cs.waikato.ac.nz/ml/weka” bağlantısından ulaşılabilir.3. ORANGEÜcretsiz şekilde ulaşılabilen bir diğer yazılım daORANGE’dir [22]. ORANGE’yi diğer yazılımlardan ayıranen önemli nokta görsel bir analiz penceresine sahipolmasıdır. Yöntemler ve araçlar küçük “ikonlar” halindedir.Kullanıcılar yapmak istedikleri analizlere aitikonları “canvas” denilen çalışma alanına taşırlar veanaliz modellerini bu ikonlar arası “bağlantı yolları”kurarak oluştururlar. “R” ve “WEKA”nın aksine kullanıcı,çok fazla programlama bilgisine sahip olmasa da verimadenciliği yapabilir. Bu nedenle son yıllarda giderekartan bir kullanım oranına sahiptir. ORANGE yazılımınınbir diğer avantajı ise, mikrodizilim verilerin analizindekullanılan “heat map” ve “GO- Gene Ontology”analiz araçlarını içermesidir. Yazılıma ve ayrıntılı bilgiyebu linkten ulaşılabilir: http://www. ailab.si/orangeVER‹ MADENC‹L‹⁄‹ YÖNTEMLER‹ ileM‹KROD‹Z‹L‹M VER‹ ANAL‹Z‹Veri madenciliği yöntemleri ile mikrodizilim verianalizi beş temel adımdan oluşur. Bunlar sırasıyla Şekil2’de belirtilmiştir.Kısa not: Çalışmaya katılan bireylere ait sınıflamadeğerinin bilinmesi durumuna danışmanlı öğrenme(supervised learning) denir. Örneğin; hasta/hasta değilbilgisi biliniyorsa algoritma sınıflamayı sağlayacakmodeli daha gerçekçi ve yansız şekilde kestirebilir. Bubilgi yoksa aynen kümeleme analizlerinde olduğu gibiuzaklık ölçülerini kullanarak tamamen matematikseltahminler yapılıyorsa bu yaklaşıma danışmansızöğrenme (unsupervised kearning) denir.1. BOYUT ‹ND‹RGEMEDoğası gereği çok boyutlu olan bu veri türlerinin analizindeatılması gereken ilk adım doğrusal olan ya da olmayanilişkileri ortaya çıkarmak için verinin boyutunuindirgemektir. Bu yaklaşımı şu şekilde açıklayabiliriz. Örneğin;elimizde 20 hastaya ait 6000 genin ekspresyon değerivarsa, bu veriyi doğrudan analiz etmek yanlıştır. Çünkügenler arasında bilinen ya da bilinmeyen birçok ilişkimevcuttur. Eğer bu ilişkiler giderilmeden kümeleme, sınıflamagibi analizler yapılırsa, sonuçlar yanlı ve yanlışolacaktır. Bu nedenle, örneğimizdeki 6000 gene ait bilgiyiiçeren daha az sayıdaki, genelde gen sayısının karekökükadar, “faktör”e indirgemek gerekmektedir. Elde edilenher faktör, belirli bir grup gene ait bilgiyi temsil eder.Boyut indirgeme üzerine yapılan birçok çalışma sonunda,çok bilinen “Temel Bileşenler Analizi (PrincipalComponent Analizi)” yerine veri madenciliği yöntem-182H ACETTEPE T IP D ERG‹S‹

Page 4 and 5: Veri madencili¤i yöntemleriyle mi

Page 6 and 7: Veri madencili¤i yöntemleriyle mi

Page 9 and 10: Coflgun ve Karaa¤ao¤luŞekil 8. O

veri

ekspresyon

mikrodizilim

analizi

analiz

ifade

analysis

fazla

ortaya

elde

www.yumpu.com

veri madenciliÄi yÃ¶ntemleriyle mikrodizilim gen ifade analizi ...

veri madenciliÄi yÃ¶ntemleriyle mikrodizilim gen ifade analizi ... ... View more veri madenciliÄi yÃ¶ntemleriyle mikrodizilim gen ifade analizi ...

Delete template?

Save as template ?

veri madenciliÄi yÃ¶ntemleriyle mikrodizilim gen ifade analizi ...

veri madenciliÄi yÃ¶ntemleriyle mikrodizilim gen ifade analizi ... veri madenciliÄi yÃ¶ntemleriyle mikrodizilim gen ifade analizi ...