11.07.2015 Views

veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Veri madencili¤i yöntemleriyle <strong>mikrodizilim</strong> <strong>gen</strong> <strong>ifade</strong> <strong>analizi</strong>lerinden Bağımsız Bileşenler Analizi (IndependentComponent Analizi)”nin daha iyi bir faktörizasyon sağladığıgözlemlenmiştir [5,23,24].Bağımsız bileşenler <strong>analizi</strong>Cilt 42 • Say› 4 • 20111. Boyut indirgeme2. Genelleştirme yöntemlerinin seçimi3. Danışmanlı ya da danışmansızöğrenme ile <strong>veri</strong> <strong>analizi</strong>4. Performans kriterlerine göre karşılaştırma5. Gen ontoloji <strong>analizi</strong>Şekil 2. Mikrodizilim <strong>gen</strong> <strong>ifade</strong> <strong>veri</strong> <strong>analizi</strong> akış şeması.Bağımsız bileşenler <strong>analizi</strong>, rastgele değişken, ölçümya da sinyalleri göz önüne alarak, <strong>veri</strong> setlerindeki gizlifaktörleri ortaya çıkarmayı hedefleyen istatistiksel bir tekniktir.Genel olarak büyük <strong>veri</strong> setlerinde, birden çok değişkenyardımıyla model oluşturmaya odaklanır. Modelde,değişkenler biraraya gelerek gizli faktörleri ortaya çıkarır.Gizli faktörler için en önemli varsayım, normal dağılımgöstermemesi ve birbirlerinden tamamen bağımsızolmalarıdır. Bağımsız bileşenler <strong>analizi</strong>nin, temel bileşenler<strong>analizi</strong> ve faktör <strong>analizi</strong> ile ortak yönleri bulunmaktadır.Ancak özellikle <strong>veri</strong> setinin büyümesiyle bağımsız bileşenler<strong>analizi</strong>, gizli faktörleri ortaya çıkarmada daha etkilisonuçlar vermektedir. Bağımsız bileşenler <strong>analizi</strong> sayesindeçok boyutlu <strong>veri</strong>lerde, boyut indirgemesi yapılarak,daha etkili analizler yapılmaktadır. Çoğu zaman tek başınakullanılsa da, sınıflama ve kümeleme yöntemleriylebirlikte kullanımı giderek tercih edilmeye başlanmıştır.Özellikle <strong>mikrodizilim</strong> <strong>veri</strong> setlerin boyut indirgeme aşamasındaalternatif yöntemlere göre (temel bileşenler <strong>analizi</strong>,faktör <strong>analizi</strong>) daha güvenilir sonuçlar vermektedir.Boyut indirgeme ile birlikte, yanlılığı ortadan kaldırmada(Whitening) ve öz değer dekompozisyonla <strong>veri</strong>leri merkezileştirmedekullanılmaktadır.Bağımsız bileşenler <strong>analizi</strong>ni açıklarken <strong>veri</strong>lebileceken iyi örnek “Kokteyl Parti Problemi”dir. Bir kokteyldebirçok ses vardır (müzik, dışarıdan gelen ses, insanlarınsesleri). Eğer iki kişinin sesi diğer seslerdenayırt edilmek istenirse, en az iki mikrofon, kişilere eşitmesafeye yerleştirilir. Daha sonra her bir mikrofondangelen sesler birer model olarak analiz edilir. Her modeldeiki değişken olmak üzere, faktörler ortaya çıkarılır.Bu örneği <strong>gen</strong> ekspresyon <strong>veri</strong>leri için de <strong>gen</strong>elleyebiliriz.Her <strong>gen</strong>, ayrı bir bilgi taşır. Bu <strong>gen</strong>leri ayırt etmedekullanılacak istatistiksel bir model oluşturmak için bağımsızbileşenler <strong>analizi</strong> çok hızlı ve doğru sonuçlar verenbir yöntemdir.2. GENELLEfiT‹RME YÖNTEMLER‹N‹N SEÇ‹M‹Gen ekspresyon <strong>analizi</strong>nin en temel adımlarındanbiri analizlerin <strong>gen</strong>elleştirilmesidir. “Genelleştirme” ileanlatılmak istenen: Veri madenciliği yöntemleri ayırımolmaksızın “model tabanlı”dır. Eğer sınıflama yapılacaksaönce bir sınıflama modeli oluşturulur sonra bumodele göre yeni gelen hastaya ait ekspresyon düzeyitahmin edilmeye ya da hasta belirli bir gruba atanmayaçalışılır. Eğer <strong>veri</strong> setindeki hastaların tamamına ait <strong>veri</strong>lerbir kerede analiz edilirse, sonuçların şansa bağlı olmaolasılığı yüksek olur. Başka bir deyişle algoritma <strong>veri</strong>setine göre model oluşturduğu için, hasta grubunutanır ve sadece o hasta grubunda işe yarayan bir modeloluşturur. Bu hasta grubuna uymayan ancak aynı popülasyondangelen hastalarda yanlış sonuçlar <strong>veri</strong>r.Bu nedenle hastaların bir kısmı dışarıda bırakılıpanaliz modelleri oluşturulmalı, daha sonra dışarıda kalankısım ile elde edilen modeller test edilmelidir. Bunuyapabilmek için kullanılan en popüler iki yöntem şunlardır:BootstrapBootstrap yöntemi standart sapma, güven aralığıgibi istatistiklerde ve parametrik olmayan tahminproblemlerinde kullanılan basit ve güvenilir bir yöntemdir.Bu yöntem belirli bir <strong>veri</strong> seti içinden, yerinekoyarak tekrar tekrar örneklem çekme temeline dayanır.Herhangi büyüklükteki bir <strong>veri</strong> setinde gözlemlerinşansa bağlı olarak yer değiştirilerek yeniden örneklenmesiyleçeşitli miktarda ve büyüklükte <strong>veri</strong> setlerioluşturulabilmektedir. Böylece mevcut <strong>veri</strong> setindenmümkün olabildiğince fazla miktarda bilgi alınabilmektedir.Söz konusu yöntem Bootstrap (resampling)yöntemi olarak tanımlanmaktadır. Bootstrap yöntemiuygulanma kolaylığı ve yararlılığının yanı sıra başkaavantajlara da sahiptir. Klasik istatistikte, incelenendeğişkenlerin normal dağılım gösterdiği varsayımınadayalı olarak tahmin yapılmaktadır. Bootstrap yöntemindeise <strong>veri</strong> setinden şansa bağlı örnekler alınarakistatistiksel tahminler yapılmaktadır. Bu yöntemle,183

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!