veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ... veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

tip.hacettepe.edu.tr
from tip.hacettepe.edu.tr More from this publisher
11.07.2015 Views

Coflgun ve Karaa¤ao¤lu1. [R][R], veri madenciliği çalışan her araştırmacı içinstandart olan, açık kaynak kodlu ve ücretsiz bir yazılımdır.[R] programının mantığı her analiz için kullanılabilecek“analiz paketlerine” sahip olmasıdır. Kullanıcılaryapmak istedikleri analize ait paketi indirdikten sonrailgili paketin kullanım kılavuzuna göre analizlere devameder. [R]’nin en önemli avantajı diğer paket programlaragöre çok hızlı olmasıdır. Standart bir bilgisayarkonfigürasyonu ile (örn. 2 GB RAM ve 2.13 GHz işlemci)çok büyük veri setleri kısa sürede analiz edilebilir. Buprograma ait tüm bilgiye “http://www.r-project.org/“bağlantısından yöntemlerin paketlerine ait tam listeyeise: “http://cran.r-project. org/src/contrib/PACKA-GES.html” bağlantısından ulaşılabilir. Bu çalışma kapsamındakiveri madenciliği yöntemlerine ait [R] paketleriTablo 1’de verilmiştir. Bu paketlerin dışında ilgiliyöntemler için kullanılabilecek başka kaynak paketlerde bulunabilir.2. WEKATablo 1. Çalışma kapsamında kullanılması önerilen [R] paketleriAnaliz[R] paketiGen ontolojisitopGO, GOSimBootstrapboot, bootstrapRandom forestrandomForestDestek vektör makinesi e1071,Sınıflama ve regresyon ağaçları (CART) rpartC 4.5RWekaCHAIDrpartBoosted tree yöntemigbmKohonen mapkohonenBağımsız bileşenler analizifastICAVeri madenciliği çalışmalarında kullanılan bir diğeraçık kaynak kodlu ve ücretsiz program WEKA’dır [21].WEKA’nın en önemli avantajı Java dilinde yazılmış olmasıdır.Bu nedenle hemen hemen tüm işletim sistemlerinde(Linux, Mac, Sun, Windows) çalışabilmektedir.WEKA çok zengin bir içeriğe sahiptir. Bu çalışma kapsamındada bahsedilen danışmanlı ve danışmansız öğrenmeteknikleri, kümeleme, birliktelik kuralları gibi birçokyönteme ait paketlere sahiptir. Çapraz geçerlilik ve bootstrapanalizleri için özel komutları içerir. Son dönemdegetirdiği yeniliklerden biri de “Perl” ve “R” programlamadillerinin komutlarını doğrudan çalıştırabilmesidir.Bu yazılım ile ilgili ayrıntılı bilgiye “http://www.cs.waikato.ac.nz/ml/weka” bağlantısından ulaşılabilir.3. ORANGEÜcretsiz şekilde ulaşılabilen bir diğer yazılım daORANGE’dir [22]. ORANGE’yi diğer yazılımlardan ayıranen önemli nokta görsel bir analiz penceresine sahipolmasıdır. Yöntemler ve araçlar küçük “ikonlar” halindedir.Kullanıcılar yapmak istedikleri analizlere aitikonları “canvas” denilen çalışma alanına taşırlar veanaliz modellerini bu ikonlar arası “bağlantı yolları”kurarak oluştururlar. “R” ve “WEKA”nın aksine kullanıcı,çok fazla programlama bilgisine sahip olmasa da verimadenciliği yapabilir. Bu nedenle son yıllarda giderekartan bir kullanım oranına sahiptir. ORANGE yazılımınınbir diğer avantajı ise, mikrodizilim verilerin analizindekullanılan “heat map” ve “GO- Gene Ontology”analiz araçlarını içermesidir. Yazılıma ve ayrıntılı bilgiyebu linkten ulaşılabilir: http://www. ailab.si/orangeVER‹ MADENC‹L‹⁄‹ YÖNTEMLER‹ ileM‹KROD‹Z‹L‹M VER‹ ANAL‹Z‹Veri madenciliği yöntemleri ile mikrodizilim verianalizi beş temel adımdan oluşur. Bunlar sırasıyla Şekil2’de belirtilmiştir.Kısa not: Çalışmaya katılan bireylere ait sınıflamadeğerinin bilinmesi durumuna danışmanlı öğrenme(supervised learning) denir. Örneğin; hasta/hasta değilbilgisi biliniyorsa algoritma sınıflamayı sağlayacakmodeli daha gerçekçi ve yansız şekilde kestirebilir. Bubilgi yoksa aynen kümeleme analizlerinde olduğu gibiuzaklık ölçülerini kullanarak tamamen matematikseltahminler yapılıyorsa bu yaklaşıma danışmansızöğrenme (unsupervised kearning) denir.1. BOYUT ‹ND‹RGEMEDoğası gereği çok boyutlu olan bu veri türlerinin analizindeatılması gereken ilk adım doğrusal olan ya da olmayanilişkileri ortaya çıkarmak için verinin boyutunuindirgemektir. Bu yaklaşımı şu şekilde açıklayabiliriz. Örneğin;elimizde 20 hastaya ait 6000 genin ekspresyon değerivarsa, bu veriyi doğrudan analiz etmek yanlıştır. Çünkügenler arasında bilinen ya da bilinmeyen birçok ilişkimevcuttur. Eğer bu ilişkiler giderilmeden kümeleme, sınıflamagibi analizler yapılırsa, sonuçlar yanlı ve yanlışolacaktır. Bu nedenle, örneğimizdeki 6000 gene ait bilgiyiiçeren daha az sayıdaki, genelde gen sayısının karekökükadar, “faktör”e indirgemek gerekmektedir. Elde edilenher faktör, belirli bir grup gene ait bilgiyi temsil eder.Boyut indirgeme üzerine yapılan birçok çalışma sonunda,çok bilinen “Temel Bileşenler Analizi (PrincipalComponent Analizi)” yerine veri madenciliği yöntem-182H ACETTEPE T IP D ERG‹S‹

Coflgun ve Karaa¤ao¤lu1. [R][R], <strong>veri</strong> madenciliği çalışan her araştırmacı içinstandart olan, açık kaynak kodlu ve ücretsiz bir yazılımdır.[R] programının mantığı her analiz için kullanılabilecek“analiz paketlerine” sahip olmasıdır. Kullanıcılaryapmak istedikleri analize ait paketi indirdikten sonrailgili paketin kullanım kılavuzuna göre analizlere devameder. [R]’nin en önemli avantajı diğer paket programlaragöre çok hızlı olmasıdır. Standart bir bilgisayarkonfigürasyonu ile (örn. 2 GB RAM ve 2.13 GHz işlemci)çok büyük <strong>veri</strong> setleri kısa sürede analiz edilebilir. Buprograma ait tüm bilgiye “http://www.r-project.org/“bağlantısından yöntemlerin paketlerine ait tam listeyeise: “http://cran.r-project. org/src/contrib/PACKA-GES.html” bağlantısından ulaşılabilir. Bu çalışma kapsamındaki<strong>veri</strong> madenciliği yöntemlerine ait [R] paketleriTablo 1’de <strong>veri</strong>lmiştir. Bu paketlerin dışında ilgiliyöntemler için kullanılabilecek başka kaynak paketlerde bulunabilir.2. WEKATablo 1. Çalışma kapsamında kullanılması önerilen [R] paketleriAnaliz[R] paketiGen ontolojisitopGO, GOSimBootstrapboot, bootstrapRandom forestrandomForestDestek vektör makinesi e1071,Sınıflama ve regresyon ağaçları (CART) rpartC 4.5RWekaCHAIDrpartBoosted tree yöntemigbmKohonen mapkohonenBağımsız bileşenler <strong>analizi</strong>fastICAVeri madenciliği çalışmalarında kullanılan bir diğeraçık kaynak kodlu ve ücretsiz program WEKA’dır [21].WEKA’nın en önemli avantajı Java dilinde yazılmış olmasıdır.Bu nedenle hemen hemen tüm işletim sistemlerinde(Linux, Mac, Sun, Windows) çalışabilmektedir.WEKA çok zengin bir içeriğe sahiptir. Bu çalışma kapsamındada bahsedilen danışmanlı ve danışmansız öğrenmeteknikleri, kümeleme, birliktelik kuralları gibi birçokyönteme ait paketlere sahiptir. Çapraz geçerlilik ve bootstrapanalizleri için özel komutları içerir. Son dönemdegetirdiği yeniliklerden biri de “Perl” ve “R” programlamadillerinin komutlarını doğrudan çalıştırabilmesidir.Bu yazılım ile ilgili ayrıntılı bilgiye “http://www.cs.waikato.ac.nz/ml/weka” bağlantısından ulaşılabilir.3. ORANGEÜcretsiz şekilde ulaşılabilen bir diğer yazılım daORANGE’dir [22]. ORANGE’yi diğer yazılımlardan ayıranen önemli nokta görsel bir analiz penceresine sahipolmasıdır. Yöntemler ve araçlar küçük “ikonlar” halindedir.Kullanıcılar yapmak istedikleri analizlere aitikonları “canvas” denilen çalışma alanına taşırlar veanaliz modellerini bu ikonlar arası “bağlantı yolları”kurarak oluştururlar. “R” ve “WEKA”nın aksine kullanıcı,çok fazla programlama bilgisine sahip olmasa da <strong>veri</strong>madenciliği yapabilir. Bu nedenle son yıllarda giderekartan bir kullanım oranına sahiptir. ORANGE yazılımınınbir diğer avantajı ise, <strong>mikrodizilim</strong> <strong>veri</strong>lerin <strong>analizi</strong>ndekullanılan “heat map” ve “GO- Gene Ontology”analiz araçlarını içermesidir. Yazılıma ve ayrıntılı bilgiyebu linkten ulaşılabilir: http://www. ailab.si/orangeVER‹ MADENC‹L‹⁄‹ YÖNTEMLER‹ ileM‹KROD‹Z‹L‹M VER‹ ANAL‹Z‹Veri madenciliği yöntemleri ile <strong>mikrodizilim</strong> <strong>veri</strong><strong>analizi</strong> beş temel adımdan oluşur. Bunlar sırasıyla Şekil2’de belirtilmiştir.Kısa not: Çalışmaya katılan bireylere ait sınıflamadeğerinin bilinmesi durumuna danışmanlı öğrenme(supervised learning) denir. Örneğin; hasta/hasta değilbilgisi biliniyorsa algoritma sınıflamayı sağlayacakmodeli daha gerçekçi ve yansız şekilde kestirebilir. Bubilgi yoksa aynen kümeleme analizlerinde olduğu gibiuzaklık ölçülerini kullanarak tamamen matematikseltahminler yapılıyorsa bu yaklaşıma danışmansızöğrenme (unsupervised kearning) denir.1. BOYUT ‹ND‹RGEMEDoğası gereği çok boyutlu olan bu <strong>veri</strong> türlerinin <strong>analizi</strong>ndeatılması gereken ilk adım doğrusal olan ya da olmayanilişkileri ortaya çıkarmak için <strong>veri</strong>nin boyutunuindirgemektir. Bu yaklaşımı şu şekilde açıklayabiliriz. Örneğin;elimizde 20 hastaya ait 6000 <strong>gen</strong>in ekspresyon değerivarsa, bu <strong>veri</strong>yi doğrudan analiz etmek yanlıştır. Çünkü<strong>gen</strong>ler arasında bilinen ya da bilinmeyen birçok ilişkimevcuttur. Eğer bu ilişkiler giderilmeden kümeleme, sınıflamagibi analizler yapılırsa, sonuçlar yanlı ve yanlışolacaktır. Bu nedenle, örneğimizdeki 6000 <strong>gen</strong>e ait bilgiyiiçeren daha az sayıdaki, <strong>gen</strong>elde <strong>gen</strong> sayısının karekökükadar, “faktör”e indirgemek gerekmektedir. Elde edilenher faktör, belirli bir grup <strong>gen</strong>e ait bilgiyi temsil eder.Boyut indirgeme üzerine yapılan birçok çalışma sonunda,çok bilinen “Temel Bileşenler Analizi (PrincipalComponent Analizi)” yerine <strong>veri</strong> madenciliği yöntem-182H ACETTEPE T IP D ERG‹S‹

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!