Traitement et analyse de séries chronologiques continues de ...

Traitement et analyse de séries chronologiques continues de ... Traitement et analyse de séries chronologiques continues de ...

theses.insa.lyon.fr
from theses.insa.lyon.fr More from this publisher
14.09.2014 Views

Partie 2 – Chapitre 6 : Test des modèles Tests d’évaluation externe L’évaluation externe d’un modèle consiste à partager les observations en deux échantillons. La comparaison des performances du modèle pour les observations de calage et celles de l’évaluation permet au modélisateur d’estimer la capacité prédictive du modèle : - Des performances comparables sur les deux séries d’observation indiquent une bonne capacité prédictive : le modèle donne des résultats en prédiction à l’image de ceux obtenus en calage. - Une performance en évaluation plus faible qu’en calage met en évidence une difficulté du modèle à prédire de nouvelles observations. Les données utilisées en évaluation contiennent une part d’information non représentée dans le jeu de calage que le modèle reproduit de manière trop spécifique. Les conclusions de ce type de test dépendent de la manière dont sont réparties les données dans les deux échantillons et de leur contenu informatif. La taille et le contenu informatif du jeu d’observations disponible doivent être suffisants afin de garantir que l’échantillon de calage est suffisamment représentatif des processus simulés et de leur variabilité. Pour l’obtention de performances comparables sur les deux périodes, une répartition optimale de 60 % - 40 % des données entre calage et évaluation plutôt que le partage traditionnel 50 % - 50 % est préconisée par Mourad et al. (2005). Test d’évaluation interne Dans l’évaluation interne, les observations utilisées pour l’évaluation sont sélectionnées sur la base de techniques de rééchantillonnage. La plus simple de ces techniques consiste à effectuer la même opération qu’en évaluation externe, mais un grand nombre de fois en choisissant les échantillons de calage et d’évaluation par des tirages aléatoires sans remise dans l’échantillon de départ. La performance du modèle en prédiction est ensuite évaluée à partir des performances de chaque tirage. Parmi les méthodes de validation croisée les plus appliquées, Mourad (2005) cite les techniques de Bootsrap (Efron 1979) et le Jacknife (Caceci 1989). Plus récemment Dembélé (2010) a utilisé la technique de LOOCV (Leave-One-Out Cross Validation) (Rudemo 1982). Le principe est présenté Figure 6.1. i = 1 i = i +1 N 1 C N - Calage du modèle pour la i ème combinaison - Calcul du critère de performance - Estimation de l’observation restante avec le modèle non i = N ? oui - Estimation de la performance de calage : moyenne, variance - Estimation de la performance en prédiction Figure 6.1. Procédure d’évaluation du pouvoir prédictif d’un modèle par la technique de LOOCV (Leave-One-Out Cross validation) (Source : Dembélé, 2010) 90

Partie 2 – Chapitre 6 : Test des modèles Pour un nombre N d’observations, le principe consiste pour chacune des N combinaisons de N-1 observations parmi N, à caler le modèle avec les N-1 observations et à simuler l’observation restante avec le modèle calé. La performance globale de calage est ensuite estimée par la moyenne des N performances. La performance globale de prédiction est estimée à partir des N valeurs simulées à chaque calage. Les méthodes internes sont plutôt recommandées dans les cas où un nombre limité d’observations est disponible. En effet, elles permettent de bien mettre en évidence l’influence de chacune des observations sur la performance du modèle en calage et en évaluation. Leur utilisation pour un échantillon de grande taille n’est a priori pas adaptée, d’une part parce que les temps de calcul risquent de devenir très longs si le modèle testé est complexe et d’autre part parce que chaque observation a une influence moindre sur le calage du modèle. Cependant, dans le cas de modèles simples où les temps de calage sont faibles, leur application peut être intéressante pour la détection d’observations de type outliers ou présentant un comportement significativement différent du reste des observations. Il est important de souligner, qu’externes ou internes, ces méthodes de test sont une manière d’évaluer l’incertitude liée à la représentativité des données (cf. paragraphe 4.3.1). Cette étape d’évaluation est actuellement appliquée de manière quasi systématique dans les études de modélisation de la qualité des RUTP (e.g. Dembélé 2010; Mourad et al. 2005; Muschalla et al. 2008; Dotto et al. 2009). 6.1.2 Les critères mathématiques de performance Pour un jeu d’observations donné (calage ou évaluation), la performance du modèle est évaluée au moyen de critères mathématiques reflétant l’adéquation entre la simulation optimale et les observations. Parmi les critères possibles, nous retrouvons l’ensemble des fonctions objectif présentées dans le paragraphe 4.2.2, avec leurs avantages et leurs inconvénients. Il semble logique de choisir comme critère de performance le même critère que celui utilisé pour l’optimisation des paramètres lors du calage. Cependant, il peut ne pas convenir pour une comparaison des résultats en calage et en évaluation. Par exemple dans le cas où une analyse des incertitudes est effectuée, le critère d’optimisation est la valeur de la vraisemblance ou de son logarithme. Or, cette dernière présente le même inconvénient que le critère de la RMSE, dont la valeur dépend du type de variable simulée et du nombre d’observations utilisées. Dans ce cas, un autre type de critère peut être adopté, comme par exemple le critère de Nash utilisé dans un grand nombre d’études de modélisation de la qualité des RUTP (Gamerith et al. 2008; Dotto et al. 2009; Dembélé et Becouze 2010; Freni et al. 2010a). Suivant l’objectif du modélisateur, il peut également être pertinent de calculer plusieurs critères de performance. D’une manière générale Schaefli et Gupta (2007), stipulent, sur la base d’une analyse critique du critère de Nash et Sutcliffe (1970), qu’il n’existe pas de critères mathématiques convenant de manière universelle mais que le choix d’un critère approprié et la manière dont il est interprété dépendent plutôt du contexte et des objectifs du modélisateur. 6.1.3 Vérification des hypothèses sur les résidus Dans le cas où les incertitudes sur les paramètres ont été prises en compte lors du calage, que ce soit par la statistique classique ou bayésienne, une autre manière d’évaluer la cohérence 91

Partie 2 – Chapitre 6 : Test <strong>de</strong>s modèles<br />

Tests d’évaluation externe<br />

L’évaluation externe d’un modèle consiste à partager les observations en <strong>de</strong>ux échantillons.<br />

La comparaison <strong>de</strong>s performances du modèle pour les observations <strong>de</strong> calage <strong>et</strong> celles <strong>de</strong><br />

l’évaluation perm<strong>et</strong> au modélisateur d’estimer la capacité prédictive du modèle :<br />

- Des performances comparables sur les <strong>de</strong>ux <strong>séries</strong> d’observation indiquent une<br />

bonne capacité prédictive : le modèle donne <strong>de</strong>s résultats en prédiction à l’image<br />

<strong>de</strong> ceux obtenus en calage.<br />

- Une performance en évaluation plus faible qu’en calage m<strong>et</strong> en évi<strong>de</strong>nce une<br />

difficulté du modèle à prédire <strong>de</strong> nouvelles observations. Les données utilisées en<br />

évaluation contiennent une part d’information non représentée dans le jeu <strong>de</strong><br />

calage que le modèle reproduit <strong>de</strong> manière trop spécifique.<br />

Les conclusions <strong>de</strong> ce type <strong>de</strong> test dépen<strong>de</strong>nt <strong>de</strong> la manière dont sont réparties les données dans<br />

les <strong>de</strong>ux échantillons <strong>et</strong> <strong>de</strong> leur contenu informatif. La taille <strong>et</strong> le contenu informatif du jeu<br />

d’observations disponible doivent être suffisants afin <strong>de</strong> garantir que l’échantillon <strong>de</strong> calage est<br />

suffisamment représentatif <strong>de</strong>s processus simulés <strong>et</strong> <strong>de</strong> leur variabilité. Pour l’obtention <strong>de</strong><br />

performances comparables sur les <strong>de</strong>ux pério<strong>de</strong>s, une répartition optimale <strong>de</strong> 60 % - 40 % <strong>de</strong>s<br />

données entre calage <strong>et</strong> évaluation plutôt que le partage traditionnel 50 % - 50 % est préconisée<br />

par Mourad <strong>et</strong> al. (2005).<br />

Test d’évaluation interne<br />

Dans l’évaluation interne, les observations utilisées pour l’évaluation sont sélectionnées sur<br />

la base <strong>de</strong> techniques <strong>de</strong> rééchantillonnage. La plus simple <strong>de</strong> ces techniques consiste à effectuer<br />

la même opération qu’en évaluation externe, mais un grand nombre <strong>de</strong> fois en choisissant les<br />

échantillons <strong>de</strong> calage <strong>et</strong> d’évaluation par <strong>de</strong>s tirages aléatoires sans remise dans l’échantillon <strong>de</strong><br />

départ. La performance du modèle en prédiction est ensuite évaluée à partir <strong>de</strong>s performances <strong>de</strong><br />

chaque tirage.<br />

Parmi les métho<strong>de</strong>s <strong>de</strong> validation croisée les plus appliquées, Mourad (2005) cite les<br />

techniques <strong>de</strong> Bootsrap (Efron 1979) <strong>et</strong> le Jacknife (Caceci 1989). Plus récemment Dembélé<br />

(2010) a utilisé la technique <strong>de</strong> LOOCV (Leave-One-Out Cross Validation) (Ru<strong>de</strong>mo 1982). Le<br />

principe est présenté Figure 6.1.<br />

i = 1<br />

i = i +1<br />

N 1<br />

C <br />

N<br />

- Calage du modèle pour la i ème combinaison<br />

- Calcul du critère <strong>de</strong> performance<br />

- Estimation <strong>de</strong> l’observation restante avec le modèle<br />

non<br />

i = N ?<br />

oui<br />

- Estimation <strong>de</strong> la performance <strong>de</strong> calage : moyenne, variance<br />

- Estimation <strong>de</strong> la performance en prédiction<br />

Figure 6.1. Procédure d’évaluation du pouvoir prédictif d’un modèle par la technique <strong>de</strong> LOOCV<br />

(Leave-One-Out Cross validation) (Source : Dembélé, 2010)<br />

90

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!