12.07.2015 Views

High Performance Computing (HPC) in Vlaanderen - Koninklijke ...

High Performance Computing (HPC) in Vlaanderen - Koninklijke ...

High Performance Computing (HPC) in Vlaanderen - Koninklijke ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

grote hoeveelheden gegevens. Bepaalde nieuwe manieren van data <strong>in</strong>tegratieworden geconfronteerd met het probleem dat de m<strong>in</strong><strong>in</strong>g algoritmes te makenhebben met leer-problemen die NP-hard zijn (niet-determ<strong>in</strong>istische polynomiaaltijdhard) of moeilijker, dus een belangrijk onderdeel van dit vakgebied isalgoritmes te ontwikkelen die de oploss<strong>in</strong>g benaderen. De benaderbareoploss<strong>in</strong>gen zullen aanmerkelijk nauwkeuriger zijn wanneer een aanzienlijkehoeveelheid rekenkracht beschikbaar is. (M. Kuiper, UGent/VIB)• De ontwikkel<strong>in</strong>g van methodes om ‘fuzzy’ <strong>in</strong>teracties tussen TFBS te modelleren.De idee is om virtuele structuren te construeren die alle associaties tussen TFBSvoor elk van de sets van differentieel gereguleerde genen weergeven onder devorm van afstanden. Door toepass<strong>in</strong>g van het ‘distance difference matrix’ (DDM)concept uit de structurele biologie, gevolgd door ‘multidimensional scal<strong>in</strong>g’ (MDS)zijn we <strong>in</strong> staat de TFBS associaties die betrokken zijn <strong>in</strong> de regulatie van dedifferentiële genexpressie te scheiden van de willekeurige associaties die optredenmet vals positieve TFBS predicties. Het e<strong>in</strong>dresultaat is een DDM-MDS plot die opeen visueel overzichtelijke manier <strong>in</strong>formatie geeft over het betrokkenregulatorisch netwerk, meer bepaald de verschillende modules aanwezig <strong>in</strong> depromotoren van de differentieel gereguleerde genen <strong>in</strong> comb<strong>in</strong>atie met <strong>in</strong>dicatiesover de sterkte van de associaties tussen de <strong>in</strong>dividuele TFBS. Na uitvoer<strong>in</strong>g vanhet DDM-MDS protocol, berekenen we: (1) de afstand tussen de oorsprong van deMDS plot en elke TFBS op de plot. Deze afstand zal dienen als een score om demate waar<strong>in</strong> elke TFBS is oververtegenwoordigd <strong>in</strong> elke dataset te kwantificerenen (2) de afstanden tussen alle TFBS op de plot. Deze afstanden zijn een scorevoor de mate van de associaties tussen de verschillende TFBS. Vervolgens schattenwe een P-waarde voor deze scores. Hiertoe def<strong>in</strong>iëren we de nulhypothese dat eenTFBS niet participeert <strong>in</strong> associaties met andere TFBSs. Dit vereist specificatie vaneen probabilistisch model dat wordt gebruikt om de waarschijnlijkheid te schattendat dit model een afstand genereert die m<strong>in</strong>stens even groot is als dewaargenomen afstand. Willekeur kan worden geïmplementeerd <strong>in</strong> het nulmodeldoor ofwel permutatie van de promotorsequenties of door het nemen vanwillekeurig gekozen genoom- of promotorsequenties. De DDM-MDS procedurewordt toegepast op verschillende willekeurig samengestelde sets en deresulterende afstanden voor elke geprojecteerde TFBS tot de oorsprong van deMDS plot en tussen alle TFBS worden genoteerd. De P-waarde van een echteafstand kan dan worden berekend uit de fractie van het aantal keer dat een afstandvan een TFBS t.o.v. de oorsprong of t.o.v een andere TFBS <strong>in</strong> de willekeurigsamengestelde promotor set groter is dan de echte afstanden. Het spreekt vanzelfdat deze laatste stappen computationeel zeer <strong>in</strong>tensief zijn aangezien typisch 5000tot 10.000 randomisaties worden gebruikt voor de bereken<strong>in</strong>g van de P-waarden.(F. Van Roy, UGent/VIB)• De complexiteit van cellulaire systemen vereist de ontwikkel<strong>in</strong>g van mathematischemodellen om de complexiteit te visualiseren, te begrijpen en op termijnvoorspell<strong>in</strong>gen te doen hoe we een biologisch systeem kunnen be<strong>in</strong>vloeden om eengewenst effect (bijvoorbeeld het bestrijden van een ziektebeeld) te bekomen.Systeembiologie maakt gebruik grote hoeveelheden data, bijvoorkeur genoomwijd(transcriptome, metaboloom, proteoom, <strong>in</strong>teractoom, localisoom,....). Daarenbovenworden deze gegevens bijvoorkeur verzameld op zeer veel tijdpunten en naverschillende genetische (mutaties) of chemische perturbaties. Het spreekt voorzich dat het gebruik van deze enorme hoeveelheid gegevens voor het berekenenvan de het moleculaire netwerk dat cellulaire processen reguleerd zeer veelcomputertijd opslorpt. De mathematische modellen die een biologisch processbeschrijven kunnen gevisualiseerd worden <strong>in</strong> natuurgetrouwe dynamischemodellen. (S. Maere, Y. Van de Peer, Dirk Inzé, UGent/VIB)39

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!