25.06.2013 Views

Mémoire Modélisation stochastique et statistique ... - AgroParisTech

Mémoire Modélisation stochastique et statistique ... - AgroParisTech

Mémoire Modélisation stochastique et statistique ... - AgroParisTech

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Mémoire</strong><br />

<strong>Modélisation</strong> <strong>stochastique</strong> <strong>et</strong> <strong>statistique</strong><br />

Tests multiples <strong>et</strong> FDR<br />

Alain Celisse<br />

Université Paris XI Orsay<br />

avril-juill<strong>et</strong> 2005<br />

Enseignant responsable : Pascal Massart<br />

Maître de stage : Stéphane Robin


Table des matières<br />

1 Taux de faux positifs 9<br />

1.1 Problème de tests multiples . . . . . . . . . . . . . . . . . . . 9<br />

1.2 Taux d’erreurs de type I . . . . . . . . . . . . . . . . . . . . . 10<br />

1.3 Procédures de contrôle du FWER . . . . . . . . . . . . . . . . 11<br />

1.4 Procédure de Benjamini-Hochberg . . . . . . . . . . . . . . . 13<br />

1.5 Les diverses approches envisagées . . . . . . . . . . . . . . . . 14<br />

2 Information locale <strong>et</strong> probabilités a posteriori 17<br />

2.1 Modèle de mélange . . . . . . . . . . . . . . . . . . . . . . . . 17<br />

2.2 pFDR <strong>et</strong> q-value . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

2.2.1 Caractère global du FDR . . . . . . . . . . . . . . . . 18<br />

2.2.2 Relation entre FDR <strong>et</strong> pFDR . . . . . . . . . . . . . . 18<br />

2.2.3 Un analogue a posteriori des probabilités critiques . . 19<br />

2.3 Le FDR local : fdr . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

2.3.1 Le fdr . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

2.3.2 Estimation du FDR . . . . . . . . . . . . . . . . . . . 22<br />

3 Proportion de rej<strong>et</strong>s <strong>et</strong> processus <strong>stochastique</strong>s 25<br />

3.1 Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

3.1.1 Quelques propriétés fondamentales de R(t) <strong>et</strong> F P (t) . 25<br />

3.1.2 Estimation de la proportion . . . . . . . . . . . . . . . 26<br />

3.2 Procédure optimale à contrôle fixé . . . . . . . . . . . . . . . 29<br />

3.2.1 Procédures plug-in . . . . . . . . . . . . . . . . . . . . 29<br />

3.2.2 Optimalité des procédures plug-in . . . . . . . . . . . 32<br />

3.2.3 Convergence des seuils plug-in <strong>et</strong> dépendance faible . . 37<br />

3.3 Contrôle à seuil fixé <strong>et</strong> sous-optimalité de la procédure BH . . 41<br />

3.4 Limites de processus : normalité asymptotique <strong>et</strong> intervalles<br />

de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />

3.4.1 Préliminaires : outils de base pour l’étude des processus 42<br />

3.4.2 Asymptotique des estimateurs de π0 <strong>et</strong> F , convergence<br />

du FDP . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />

3.5 Champs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 51<br />

3.5.1 Construction d’un super-ensemble . . . . . . . . . . . 54<br />

3


3.5.2 Enveloppes de confiance . . . . . . . . . . . . . . . . . 56<br />

3.5.3 Seuils pour un contrôle donné . . . . . . . . . . . . . . 57<br />

3.6 Bilan intermédiaire . . . . . . . . . . . . . . . . . . . . . . . . 57<br />

4 Minimisation sous contrainte 59<br />

4.1 Approche asymptotique . . . . . . . . . . . . . . . . . . . . . 59<br />

4.1.1 Motivation de l’approche . . . . . . . . . . . . . . . . 59<br />

4.1.2 Heuristique . . . . . . . . . . . . . . . . . . . . . . . . 60<br />

4.2 Risque conditionnel . . . . . . . . . . . . . . . . . . . . . . . . 60<br />

4.3 Erreur de Bayes pondérée . . . . . . . . . . . . . . . . . . . . 61<br />

5 FDR <strong>et</strong> seuillage 63<br />

5.1 Minimaxité asymptotique de l’estimateur FDR . . . . . . . . 64<br />

5.1.1 Cadre mathématique du problème . . . . . . . . . . . 64<br />

5.1.2 Critère pénalisé . . . . . . . . . . . . . . . . . . . . . . 65<br />

5.1.3 Estimateur FDR <strong>et</strong> estimateur par critère pénalisé . . 66<br />

5.1.4 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . 69<br />

5.2 Comparaison seuil-FDR <strong>et</strong> seuils obtenus par critères pénalisés 71<br />

5.2.1 Pénalité de Donoho <strong>et</strong> Johnstone . . . . . . . . . . . . 72<br />

5.2.2 Approche de Birgé <strong>et</strong> Massart . . . . . . . . . . . . . . 75<br />

6 Directions de travail 81<br />

6.1 Estimation de π0 . . . . . . . . . . . . . . . . . . . . . . . . . 81<br />

6.2 Densités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81<br />

6.3 Cas de dépendance connue . . . . . . . . . . . . . . . . . . . . 82<br />

6.3.1 La propriété de PRDS . . . . . . . . . . . . . . . . . . 82<br />

6.3.2 Profils CGH . . . . . . . . . . . . . . . . . . . . . . . . 83<br />

6.4 Motifs exceptionnels . . . . . . . . . . . . . . . . . . . . . . . 85<br />

7 Annexe 87<br />

7.1 Preuve du chapitre 1 . . . . . . . . . . . . . . . . . . . . . . . 87<br />

7.2 Preuves du chapitre 3 . . . . . . . . . . . . . . . . . . . . . . 91<br />

7.2.1 Preuve du lemme 3.2 . . . . . . . . . . . . . . . . . . . 91<br />

7.2.2<br />

7.2.3<br />

Preuve du théorème 3.3 . . . . . . . . . . . . . . . . .<br />

Forme des estimateurs π<br />

92<br />

g<br />

7.2.4<br />

0 <strong>et</strong> FDRλ(t) . . . . . . . . .<br />

Relation entre a <strong>et</strong> G . . . . . . . . . . . . . . . . . .<br />

93<br />

94<br />

7.2.5 Normalité asymptotique de F DP (t) . . . . . . . . . . 95<br />

4


Introduction<br />

Origine du suj<strong>et</strong><br />

Tests multiples<br />

Assez récemment, le développement de technologies fournissant simultanément<br />

un grand nombre de données a été la source de problèmes <strong>statistique</strong>s<br />

dits ”problèmes de tests multiples”. Ainsi, le repérage d’agrégats<br />

d’étoiles sur une photo de l’espace, l’analyse d’images médicales dont le but<br />

est la recherche d’éventuelle formation tumorale, ou encore la recherche de<br />

gènes différentiellement exprimés sur les puces à ADN sont autant d’exemples<br />

d’applications de tests multiples.<br />

Puces à ADN<br />

Fondées sur la complémentarité des bases A-C-T-G, les biopuces (ou<br />

puces à ADN) perm<strong>et</strong>tent de mesurer le niveau d’expression de plusieurs milliers<br />

de gènes simultanément, chacun d’eux ayant été soumis au préalable à<br />

des conditions expérimentales spécifiques. L’objectif du statisticien est alors<br />

la recherche de la liste la plus précise possible des gènes sur- ou sous-exprimés<br />

(<strong>et</strong> donc différentiellement exprimés), afin de comprendre leur implication<br />

dans un processus biologique.<br />

Équipe Statistique <strong>et</strong> génome<br />

J’ai effectué mon stage au sein de l’équipe Statistique <strong>et</strong> génome,<br />

qui regroupe des statisticiens autour du thème de l’analyse des données<br />

de génomique <strong>et</strong> de post-génomique. C’est donc assez naturellement que<br />

celle-ci est confrontée au problème de détection de gènes différentiellement<br />

exprimés (tests multiples) dans le cadre des biopuces.<br />

C<strong>et</strong>te équipe fait partie de l’Unité Mixte de Recherche (UMR) 518 EN-<br />

GREF / INA P-G / INRA ”Mathématiques <strong>et</strong> Informatique Appliquées”<br />

(MIA) dirigée par Stéphane Robin. C<strong>et</strong>te unité est partie intégrante à la<br />

fois du département OMIP de l’INA P-G (Institut National Agronomique<br />

de Paris-Grignon) dirigé par Jean-Jacques Daudin, <strong>et</strong> du département MIA<br />

5


de l’INRA dans le cadre du CT1 (Champ Thématique ”Bioinformatique”).<br />

Créé en 1971, l’INA-PG est un établissement public d’enseignement<br />

supérieur placé sous la tutelle des ministères de l’agriculture <strong>et</strong> de la<br />

pêche, qui regroupe environ 2 000 personnes dont 1 200 étudiants, 150<br />

enseignants-chercheurs <strong>et</strong> ingénieurs, 130 chercheurs, <strong>et</strong> 470 techniciens<br />

<strong>et</strong> administratifs. Réparti sur deux sites, Paris <strong>et</strong> Grignon, c<strong>et</strong> institut se<br />

compose de 6 départements <strong>et</strong> parmi ceux-ci, à Paris, le département OMIP<br />

(http : //compact.jouy.inra.fr/compact/CONSULTER/INTER/externe<br />

/unites/toedit/518).<br />

Notations <strong>et</strong> définitions<br />

Chapitre 1 – F P (t) = ♯{ gènes H0 déclarés H1 au seuil t}, (la probabilité critique<br />

associée à chaque <strong>statistique</strong> de test considérée est comparée au seuil<br />

t en vue d’une acceptation ou d’un rej<strong>et</strong>).<br />

– F N(t) = ♯{ gènes H1 déclarés H0 au seuil t}.<br />

– R(t) = ♯{ gènes rej<strong>et</strong>és au seuil t}.<br />

– V P (t) = ♯{gènes H1 rej<strong>et</strong>és au seuil t}.<br />

– V N(t) = ♯{gènes H0 acceptés au seuil t}.<br />

Chapitre 2 – Modèle de mélange :<br />

(i)<br />

déf<br />

π0 = m0/m ·<br />

(ii) (H0(i))i iid ∼ B( 1 − π0 ) , avec H0(i) = 1, si le gène i est H1,<br />

<strong>et</strong> 0 sinon.<br />

Pi | H0(i) = 0<br />

(ii)<br />

Pi | H0(i) = 1<br />

∼<br />

∼<br />

f0(t) sur [0, 1]<br />

f1(t) sur [0, 1]<br />

, où f0 <strong>et</strong> f1 sont les<br />

densités des lois respectives. g densité des probabilités critiques.<br />

– U désigne la fonction de répartition des probabilités critiques sous<br />

H0. F désigne celle des probabilités critiques sous H1.<br />

– F0 <strong>et</strong> F1 désignent ces mêmes fonctions de répartition quand on ne<br />

suppose plus la densité des probabilités critiques sous H0 continue.<br />

– fdr(t) FDR local au seuil t.<br />

Chapitre 3 – Identifiabilité :<br />

Dans le cas d’un modèle de mélange, soit on connaît la loi des probabilités<br />

critiques sous H1, soit on suppose que F appartient à un<br />

ensemble S de fonctions de répartition. Se pose alors le problème<br />

de l’identifiabilité si la classe S est trop grande. On dira que le<br />

problème est non-identifiable si il existe (b, H) ∈ [0, 1) × S tel que<br />

F = bH + (1 − b)U.<br />

6


– Gm(t) = R(t)<br />

m<br />

tiques. Fm(t) =<br />

fonction de répartition empirique des probabilités cri-<br />

F P (t)<br />

m ·<br />

– π0(λ) estimateur de Storey de la proportion π0(λ) = m−R(λ)<br />

(1−λ)m ·<br />

– π0(λ) = 1−G(λ)<br />

1−λ ·<br />

– a(λ) = 1 − π0(λ) .<br />

– <br />

pF DR λ(γ) = F DRλ(γ)<br />

Gm(λ) .<br />

– t m α = t m α (F DRλ) = sup{t ∈ [0, 1]/ F DRλ(t) ≤ α} .<br />

– Tα = t m α (F DRλ=0) .<br />

– β = 1−απ0<br />

α(1−π0) ·<br />

– u∗ unique solution de g(u) = u/α <strong>et</strong> c∗ seuil optimal.<br />

F P (t)<br />

F N(t)<br />

– F DP (t) = R(t) <strong>et</strong> F NP (t) = m−R(t) ·<br />

<br />

1 2<br />

– ɛm est le réel défini par ɛm = 2m log( α ) ·<br />

– a valeur accessible de la proportion de gènes H1 dans le cas nonidentifiable.<br />

– F ensemble des fonctions de répartitions <strong>stochastique</strong>ment dominées<br />

par U <strong>et</strong> concaves. <br />

– a0(t) =<br />

Gm(t)−t<br />

1−t<br />

– G(t) = t ∨ Gm.<br />

+ ·<br />

Chapitre 5 – η = ηm proportion de composantes non nulles de µ.<br />

– Z variable aléatoire de même loi que |Y | (i).<br />

– kF = kF DR , tF = t bkF . µF estimateur FDR .<br />

– Θm boule à laquelle appartient µ.<br />

– R o σm (µ) = E µo σm − µ 2 2 .<br />

– w sous-ensemble de {1, . . . , m} (modèle).<br />

– M ensemble de s modèles w.<br />

– (ϕλ)λ vecteurs de la base canonique de R m .<br />

– µw projection orthogonale de µ sur Sw.<br />

– µw projection orthogonale de Y sur Sw.<br />

– Dw dimension de Sw <strong>et</strong> Lw poids portant sur le modèle w.<br />

7


Chapitre 1<br />

Taux de faux positifs<br />

Afin de fixer les idées, on se place pour ce qui suit, sauf indication<br />

contraire, dans le cadre des données obtenues à partir des biopuces.<br />

1.1 Problème de tests multiples<br />

La technologie des puces à ADN tire profit de la complémentarité des<br />

brins d’ADN <strong>et</strong> perm<strong>et</strong> d’évaluer simultanément le niveau d’expression<br />

de plusieurs milliers de gènes d’intérêt, issus d’un individu soumis à<br />

certaines conditions expérimentales. Ainsi, on isole sur l’ADN une séquence<br />

complémentaire d’une partie codant pour un gène dont on veut déterminer<br />

s’il s’exprime ou non dans une condition donnée : c<strong>et</strong>te partie est appelée<br />

sonde tandis que le gène dont elle est en théorie spécifique constitue la<br />

cible. Sur chaque puce à ADN, on dispose m sondes correspondant, par<br />

complémentarité, à m gènes cibles. Puis on évalue le niveau d’expression de<br />

ceux-ci par quantification de leur hybridation avec les sondes. Au final, on<br />

obtient m niveaux d’expression à partir desquels on calcule la valeur de m<br />

<strong>statistique</strong>s de test : xi, i = 1, . . . , m , réalisations de m variables aléatoires<br />

X1, . . . , Xm, dont on pose que m0 d’entre elles correspondent à des gènes<br />

non différentiellement exprimés. Il est à noter qu’on ne connaît pas m0,<br />

mais qu’il est néanmoins très vraisemblable que parmi tous les gènes testés,<br />

certains puissent ne pas être différentiellement exprimés, le cas le plus<br />

courant étant que la majeure partie de ces gènes soit non différentiellement<br />

exprimés.<br />

Pour chacune de ces variables, on réalise un test de H0(i) : le gène i est non<br />

différentiellement exprimé, contre H1(i) : le gène i est différentiellement<br />

exprimé. On obtient alors m probabilités critiques (pi)i=1,...,m, chacune<br />

d’elles étant définie comme la probabilité qu’une certaine <strong>statistique</strong><br />

dépasse un seuil donné, déterminé à partir de la loi de c<strong>et</strong>te <strong>statistique</strong> sous<br />

l’hypothèse nulle. Une idée naturelle consisterait à tester individuellement<br />

chaque probabilité critique au niveau α. Cependant, prenons m de l’ordre<br />

9


de 10 000, ce qui est assez courant sur les puces à ADN. Dans ces conditions,<br />

tester individuellement chaque gène au niveau α = 5%, donne en moyenne<br />

500 faux positifs parmi les 10 000 gènes testés. On voit donc ainsi la<br />

nécessité de concevoir des ”procédures” capables de détecter les gènes<br />

différentiellement exprimés malgré le grand nombre de gènes testés <strong>et</strong><br />

donnant le moins de faux positifs possibles.<br />

Convention :<br />

Dans la suite, on dira d’un gène non différentiellement exprimé qu’il est H0,<br />

tandis qu’un gène différentiellement exprimé sera dit H1.<br />

1.2 Taux d’erreurs de type I<br />

Définition 1.1 (faux positif) On dit qu’un gène est un faux positif si ce<br />

gène est H0 mais rej<strong>et</strong>é par la procédure, i.e. déclaré H1.<br />

On résume dans le tableau suivant les grandeurs d’intérêt du problème<br />

pour un seuil t donné (Bar-Hen <strong>et</strong> al.[3]) :<br />

H0 H1 total<br />

rej<strong>et</strong>és F P (t) V P (t) R(t)<br />

non-rej<strong>et</strong>és V N(t) F N(t) m − R(t)<br />

total m0 m1 = m − m0<br />

L’objectif annoncé est de déterminer parmi tous les gènes testés, ceux<br />

qui sont H1. Néanmoins, la procédure de test utilisée pour décréter un gène<br />

H0 ou H1 peut engendrer des faux positifs. On souhaite alors pour perdre<br />

le moins possible d’informations, détecter le maximum de gènes H1, tout en<br />

contrôlant le nombre de faux positifs F P (t) afin notamment de minimiser<br />

les coûts (pas ou peu d’expériences inutiles). Pour cela, on définit quatre<br />

quantités dont la majoration nous assure un certain contrôle du nombre de<br />

faux positifs (d’après Dudoit <strong>et</strong> al. [10]) :<br />

Définition 1.2 (Per Comparison Error Rate)<br />

P CER(t) =<br />

E(F P (t))<br />

,<br />

m<br />

Définition 1.3 (Per Family Error Rate)<br />

P F ER(t) = E(F P (t)),<br />

Définition 1.4 (Family Wise Error Rate)<br />

F W ER(t) = P r(F P (t) ≥ 1),<br />

10


y<br />

3<br />

2.5<br />

2<br />

Vrais Positifs<br />

VP(λ)<br />

1.5<br />

1<br />

0.5<br />

seuil λ<br />

Densité des probabilités critiques<br />

Faux Négatifs FN(λ)<br />

Vrais négatifs VN(λ)<br />

Faux Positifs<br />

FP(λ)<br />

0<br />

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1<br />

Probabilités critiques<br />

Fig. 1.1 – Densité des probabilités critiques sous H1 (proches de 0) <strong>et</strong> sous<br />

H0 (uniformément réparties).<br />

Définition 1.5 (False Discovery Rate)<br />

<br />

F P (t)<br />

F DR(t) = E<br />

.<br />

R(t) ∨ 1<br />

Remarque : le terme R(t) ∨ 1 au numérateur du FDR vient de ce que si<br />

R(t) (le nombre de gènes rej<strong>et</strong>és) vaut 0, ce qui est possible si la procédure<br />

est trop conservative, il faut que le rapport soit défini. Ici, il vaut logiquement<br />

0 puisque dans ce cas, FP(t) (nombre de gènes rej<strong>et</strong>és à tort) vaut 0.<br />

Historiquement, seules les deux dernières quantités ont suscité<br />

véritablement de l’intérêt. C’est donc seulement à ces deux-ci que nous allons<br />

nous intéresser dans la suite.<br />

1.3 Procédures de contrôle du FWER<br />

D’après la définition 1.4, on voit que contrôler le FWER revient à<br />

contrôler la probabilité d’avoir au moins un faux positif. Utiliser le FWER<br />

11


va donc avoir pour eff<strong>et</strong> de détecter moins, voire beaucoup moins de gènes<br />

H1 que si on s’autorisait quelques faux positifs tout en s’assurant que la<br />

proportion de ceux-ci sur le nombre total de gènes rej<strong>et</strong>és soit assez p<strong>et</strong>ite :<br />

c’est exactement l’interprétation du FDR.<br />

Néanmoins, ces deux types de contrôle ne sont pas forcément à opposer <strong>et</strong><br />

peuvent même être complémentaires. Par exemple, tandis qu’on peut autoriser<br />

quelques faux positifs <strong>et</strong> donc l’usage du FDR pour les contrôler lors<br />

des premières étapes de l’élaboration d’un médicament (expérimentation sur<br />

des souris), le renforcement progressif du contrôle du FDR avec l’exigence<br />

croissante de précision au fil des expérimentations aboutira à une préférence<br />

pour le FWER lors de tests sur des patients humains, où aucun faux positif<br />

n’est toléré (Benjamini <strong>et</strong> Hochberg [4]).<br />

De nombreuses procédures ont donc été développées pour contrôler le<br />

FWER, comme celles de Sidak, ou de Bonferroni. Ainsi, Sidak montre [10] :<br />

Proposition 1.1 (procédure de Sidak) Si les tests effectués sur les<br />

gènes H0 sont indépendants, alors contrôler chaque probabilité critique au<br />

niveau t donne :<br />

F W ER(t) = P r(∃ un faux positif) = 1 − (1 − t) 1<br />

m 0 ≤ 1 − (1 − t) 1<br />

m ,<br />

où m0 est inconnu.<br />

Remarque : ce point découle de la loi binomiale suivie F P (t) comme nous<br />

le verrons dans les préliminaires 3.1.1.<br />

Quant à lui, Bonferroni ne fait pas l’hypothèse d’indépendance :<br />

Proposition 1.2 (procédure de Bonferroni) Sans hypothèse d’indépendance<br />

sur les tests effectués pour les gènes H0, contrôler chaque probabilité<br />

critique Pi au niveau t donne :<br />

m0 <br />

F W ER(t) = P r(∃ un faux positif) ≤ P r(Pi ≤ t m0<br />

) ≤ t ≤ t,<br />

m m<br />

avec m0 inconnu.<br />

Remarques :<br />

– D’abord, ces deux procédures sont dites ”conservatives” en cela<br />

qu’elles offrent un contrôle optimal (cas indépendant) qui n’est pas<br />

réellement accessible puisqu’il dépend de m0, inconnu. Ainsi, le<br />

véritable <strong>et</strong> seul contrôle exploitable est n<strong>et</strong>tement moins bon. Il faut<br />

avoir recours à l’estimation de m0 pour espérer une amélioration de<br />

ce contrôle.<br />

– Ensuite asymptotiquement (m → ∞), le développement limité de 1 −<br />

(1 − t) 1<br />

m 0 t/m0 pour t < 1 <strong>et</strong> m0 → ∞, indique que la procédure<br />

de Sidak donne un contrôle du FWER qui s’apparente à celui obtenu<br />

avec Bonferroni, ceci suggérant que le cas de l’indépendance tend à<br />

être le pire pour la majoration du FWER.<br />

12<br />

i=1


1.4 Procédure de Benjamini-Hochberg<br />

De la même manière, lors de l’introduction du FDR en 1995 par Benjamini<br />

<strong>et</strong> Hochberg [4], ceux-ci ont montré par récurrence <strong>et</strong> conditionnement<br />

que la procédure dite de ”Benjamini- Hochberg”, que nous désignerons par<br />

la suite par ”procédure BH”, offre un contrôle du FDR au niveau α.<br />

procédure BH :<br />

On considère les m probabilités critiques ordonnées correspondant aux m<br />

tests :<br />

On définit ensuite :<br />

Alors, [4] nous donne :<br />

p (1) ≤ p (2) ≤ . . . ≤ p (m) .<br />

k = max{ i / p (i) ≤ iα<br />

} .<br />

m<br />

Théorème 1.1 (procédure BH) Sous hypothèse d’indépendance des probabilités<br />

critiques sous H0 <strong>et</strong> d’indépendance de celles-ci par rapport à celles<br />

sous H1, la procédure suivante<br />

– si k n’existe pas, on ne rej<strong>et</strong>te aucune hypothèse,<br />

– si k existe, rej<strong>et</strong> de H (i) , i = 1, · · · , k .<br />

fournit la relation :<br />

F DR ≤ m0<br />

α ≤ α .<br />

m<br />

Devant la difficulté de la démmonstration de Benjamini <strong>et</strong> Hochberg [4], nous<br />

avons détaillé en annexe leur preuve pour le théorème 1.1. Il est toutefois<br />

préférable, étant donnée sa complexité <strong>et</strong> sa longueur, de ne la lire qu’en<br />

seconde lecture. Une autre preuve, plus élégante sera donnée ultérieurement.<br />

On peut formuler plusieurs remarques à ce suj<strong>et</strong> :<br />

m0<br />

(i) la méconnaissance de m0 <strong>et</strong> donc du rapport π0 = m rend la<br />

procédure BH d’autant plus conservative que π0 est p<strong>et</strong>it. On peut<br />

donc se dire qu’estimer ce rapport serait un moyen d’obtenir une<br />

procédure plus puissante. En eff<strong>et</strong>, si on veut peu de faux positifs au<br />

regard du nombre de rej<strong>et</strong>s, on souhaite aussi rater le moins possible<br />

de gènes H1, ce qui signifie la meilleure puissance posssible.<br />

(ii) ce contrôle demeure sous certaines hypothèses de dépendance (voir<br />

notamment [6] <strong>et</strong> [7]). Dans la suite, nous n’aborderons que ponctuellement<br />

ces questions de dépendance avant de détailler, dans la dernière<br />

partie, le cas particulier de la propriété PRDS (Benjamini, Yekutieli<br />

[7]) qui, lorsqu’elle est vérifiée, assure un contrôle du FDR au niveau<br />

souhaité.<br />

13<br />

déf


valeurs des probabillités critiques<br />

x 10<br />

9<br />

−3<br />

8<br />

7<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

Procédure de Benjamini Hochberg (α=0.05).<br />

y= x*α/m<br />

k FDR<br />

courbe des probabilités<br />

critiques ordonnées<br />

2 4 6 8 10 12 14<br />

rang des probabilités critiques ordonnées<br />

Fig. 1.2 – Principe de la procédure BH. m0 = 100 <strong>et</strong> π0 = 0.1 . La procédure<br />

BH sélectionne donc l’entier le plus grand kF DR, avant l’instant de dernier<br />

croisement à droite des deux courbes.<br />

1.5 Les diverses approches envisagées<br />

L’étude du FDR jusqu’à présent a été réalisée essentiellement suivant<br />

trois points de vue que sont<br />

1. l’utilisation de lois a posteriori dans une structure de modèle de<br />

mélange,<br />

2. l’emploi du cadre des processus <strong>stochastique</strong>s pour obtenir des<br />

résultats asymptotiques,<br />

3. la mise en évidence de liens entre le FDR <strong>et</strong> les techniques de critères<br />

pénalisés.<br />

Nous allons donc, entre autres, présenter dans ce qui suit ces trois aspects.<br />

Dans la partie deux, nous rappelons le caractère global de l’information<br />

apportée par le FDR ou le pFDR, à la différence de celle fournie par le FDR<br />

local. De plus, le modèle de mélange constitue la trame de la deuxième<br />

partie s’avère être un cadre commode en cela qu’il perm<strong>et</strong> l’obtention de<br />

14


formules exactes pour certaines de nos quantités d’intérêt.<br />

La partie trois est dévolue à l’obtention de résultats, la plupart de nature<br />

asymptotique, grâce à une approche basée sur les processus <strong>stochastique</strong>s.<br />

Ainsi R(t)/m, la proportion de gènes rej<strong>et</strong>és est vue comme la fonction<br />

de répartition empirique des probabilités critiques G(t). De ce constat<br />

découlent de nombreux résultats concernant l’optimalité des seuils des<br />

procédures envisagées ou encore la normalité asymptotique.<br />

Bien qu’elle soit un peu plus marginale, nous avons choisi dans la quatrième<br />

partie, de rendre compte d’une approche basée sur la minimisation d’une<br />

fonctionnelle sous certaines contraintes , procédé qui a pour but notamment<br />

de fournir une procédure optimale en cela qu’elle maximise la puissance<br />

tout en maintenant un contrôle donné sur le FDR.<br />

À l’occasion de problèmes d’estimation d’une courbe à partir de la donnée<br />

d’un signal discr<strong>et</strong> <strong>et</strong> perturbé par un bruit gaussien, d’aucun ont vu dans<br />

le FDR la possibilité d’un estimateur adaptatif des coefficients de celle-ci,<br />

décomposée dans une base donnée d’ondel<strong>et</strong>tes. Ainsi, ont été mises à<br />

jours certaines propriétés asymptotiques minimax de l’estimateur FDR,<br />

propriétés déduites par le biais de la minimisation de critères pénalisés.<br />

Dans un second temps, nous présenterons les méthodes d’obtention de deux<br />

pénalités couramment utilisées que sont celle de Donoho <strong>et</strong> Johnstone <strong>et</strong><br />

celle de Birgé <strong>et</strong> Massart.<br />

Enfin, la dernière partie est consacrée à la description de certaines pistes<br />

à approfondir, ainsi qu’à des exemples de résultats qui sont dores <strong>et</strong> déjà<br />

accessibles comme c’est le cas pour les profils CGH.<br />

15


Chapitre 2<br />

Information locale <strong>et</strong><br />

probabilités a posteriori<br />

2.1 Modèle de mélange<br />

Afin d’améliorer la majoration du FDR obtenue dans le théorème 1.1,<br />

on cherche à étudier les variables aléatoires F P (t) <strong>et</strong> R(t). Pour cela, étant<br />

données nos deux populations de gènes (différentiellement exprimés ou non),<br />

un cadre assez commode est celui du modèle de mélange ([3],[12],[18],[19]<br />

par exemple) qu’on fonde sur les hypothèses que voici :<br />

Hypothèses :<br />

1. on suppose la loi des probabilités critiques sous H0 connue car d’une<br />

part l’inférence sur un modèle où les deux lois sont inconnues semble<br />

difficile (identifiabilité), <strong>et</strong> d’autre part, le simple fait de supposer la<br />

continuité de la loi des probabilités critiques sous H0 oblige celle-ci à<br />

être l’uniforme sur [0, 1].<br />

2. on se restreint au cas de probabilités critiques sous H1 identiquement<br />

distribuées puisqu’on peut s’y ramener.<br />

Remarque :<br />

Le plus souvent, on fait l’hypothèse de continuité de la loi sous H0, ce qui<br />

donne Pi | H0(i) = 0 ∼ U(0, 1). Aussi dans la suite, on se placera dans ce<br />

cadre, sauf indication contraire.<br />

On aboutit par conséquent à la fonction de répartition des Pi :<br />

G(t) = π0 U(t) + (1 − π0) F (t),<br />

avec F la fonction de répartition des probabilités critiques sous H1 <strong>et</strong> U =<br />

id [0,1].<br />

17


2.2 pFDR <strong>et</strong> q-value<br />

2.2.1 Caractère global du FDR<br />

En eff<strong>et</strong>, étant donnée une liste de gènes dont on dispose du niveau<br />

d’expression entre deux conditions données, le FDR <strong>et</strong> les procédures de<br />

tests multiples comme la procédure BH ont pour vocation de déterminer<br />

ceux des gènes qui sont H1, avec une proportion globale de faux positifs<br />

parmi ceux-ci controlée au niveau α souhaité. Cependant, le FDR ne nous<br />

renseigne pas quant à la probabilité pour un gène donné d’être un faux<br />

négatif, ou un vrai positif par exemple. Le pFDR de Storey tombe également<br />

comme nous allons le voir sous le coup de c<strong>et</strong>te remarque à la différence du<br />

FDR local, noté fdr, que nous introduirons dans la partie suivante.<br />

2.2.2 Relation entre FDR <strong>et</strong> pFDR<br />

Nous avons vu (définition1.5) que le FDR est défini comme l’espérance du<br />

rapport entre le nombre de faux positifs F P (t), <strong>et</strong> le nombre de rej<strong>et</strong>s R(t)<br />

au seuil t. Nous avons également justifié l’écriture R(t) ∨ 1 au dénominateur<br />

de ce rapport par un argument d’existence. C’est entre autres ce problème<br />

de définition qui a incité Storey en 2001 [18] à introduire la notion de pFDR<br />

qu’il définit comme suit :<br />

Définition 2.1 (positive False Discovery Rate) Avec les notations de<br />

la définition1.5, <strong>et</strong> pour un seuil t ∈ [0, 1]<br />

<br />

F P (t)<br />

pF DR(t) = E<br />

R(t)<br />

=<br />

F DR(t)<br />

P r(R(t) > 0)<br />

<br />

| R(t) > 0<br />

(si P r(R(t) > 0) > 0)·<br />

(2.1)<br />

Remarques :<br />

– Le pFDR comme le FDR prend en compte la loi du couple (F P, R).<br />

– Dans le cas où tous les gènes sont non différentiellement exprimés, le<br />

pFDR vaut 1, ce qui empêche toute possibilité de contrôle de c<strong>et</strong>te<br />

quantité à un niveau α < 1.<br />

– Si P r(R > 0) est connue, alors le pFDR perm<strong>et</strong> un contrôle plus<br />

précis de l’espérance de la proportion de faux positifs.<br />

Storey [18] donne également le théorème suivant qui établit, dans le cadre<br />

des modèles de mélange, le lien entre pFDR <strong>et</strong> probabilité a posteriori, ce qui<br />

perm<strong>et</strong> une interprétation plus commode du pFDR : il s’agit de la probabilité<br />

pour un gène donné d’être un faux positif, sachant que sa probabilité critique<br />

est inférieure au seuil fixé.<br />

18


Théorème 2.1 (Probabilité a posteriori) Avec les mêmes notations du<br />

cadre des modèles de mélange, soit F P (t) = ♯{i ∈ {1, . . . , m}/H0(i) =<br />

0 <strong>et</strong> Pi ≤ t}, <strong>et</strong> R(t) = ♯{i ∈ {1, . . . , m}/Pi ≤ t}. Alors<br />

<br />

F P (t)<br />

∀i = 1, . . . , m , pF DR(t) = E<br />

R(t)<br />

<br />

| R(t) > 0<br />

= P r(H0(i) = 0 | Pi ≤ t).<br />

Remarque : la preuve est similaire à celle d’un résultat d’estimation du<br />

FDR à partir du fdr, résultat que nous verrons en détails dans la section<br />

Estimation du FDR.<br />

Ce théorème a un corollaire montré par Storey en 2001 [19] <strong>et</strong> que nous<br />

avons choisi de mentionner sous une forme un peu différente pour illustrer<br />

la simplicité de l’expression obtenue pour le FDR.<br />

Corollaire 2.1 (Rapport des espérances) Sous les hypothèses du<br />

théorème 2.1, il vient pour un seuil t donné<br />

F DR(t) =<br />

E[F P (t)]<br />

P r(R(t) > 0) . (2.2)<br />

E[R(t)]<br />

C<strong>et</strong>te relation vient des lois binomiales suivies par F P (t) <strong>et</strong> R(t) (cf. partie<br />

3.1.1).<br />

2.2.3 Un analogue a posteriori des probabilités critiques<br />

Nous allons à présent définir la notion de q-value, introduite par Storey<br />

dès 2001 ([18], [19]) <strong>et</strong> bâtie à partir du pFDR.<br />

Soit pour tout i, Pi est la probabilité critique associée au gène i <strong>et</strong> posons<br />

tα = min{ t ∈ [0, 1]/ P r(Pi ≤ t | H0(i) = 0) = α }. Alors, on a la définition<br />

suivante :<br />

Définition 2.2 (q-value) Pour tout t dans [0, 1],<br />

q − value(t) = inf pF DR(tα).<br />

tα/t≤tα<br />

Ceci étant, grâce au théorème 2.1, il vient le<br />

Corollaire 2.2 Sous les hypothèses du théorème 2.1,<br />

q − value(t) = inf P r(H0(i) = 0 | Pi ≤ tα).<br />

tα/t≤tα<br />

Or, on peut définir la probabilité critique pi du gène i par :<br />

pi(t) = inf P r(Pi ≤ tα | H0(i) = 0).<br />

tα/t≤tα<br />

19


y<br />

0.3<br />

0.25<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

Densités du modèle de mélange : g(t) = π 0 *f 0 (t) + (1−π 0 )*f 1 (t).<br />

f 0 =N(0,2)<br />

densité du mélange<br />

−4 −3 −2 −1 0 1 2 3 4 5 6<br />

x<br />

f 1 =N(2,2)<br />

p−value(z)<br />

z<br />

q−value(z)<br />

Fig. 2.1 – Comparaison de la probabilité critique à la q-value. Ici, on a pris<br />

π0 = 0.3 pour la proportion du mélange.<br />

On voit ainsi que la q-value est l’analogue a posteriori de la probabilité<br />

critique. D’ailleurs, pour renforcer c<strong>et</strong>te interprétation, on peut regarder la<br />

signification de ces quantités sur un exemple.<br />

Sur la figure 2.1, la probabilité critique au niveau z correspond à l’aire<br />

de la queue de droite pour la densité f0, ici N (0, 2), tandis que la q-value<br />

au niveau z représente l’aire de la queue à droite pour la densité g, c’est-àdire<br />

la somme pondérée par π0 <strong>et</strong> 1 − π0 des aires des queues à droite pour<br />

respectivement f0 <strong>et</strong> f1. Ici sur le graphe, π0 = 0.3.<br />

Remarque : l’information que fournit le p-FDR est globale puisqu’il s’agit de<br />

calculer la probabilité pour un gène d’être un faux positif sachant seulement<br />

que sa probabilité critique est inférieure ou égale à un seuil donné, mais sans<br />

prendre en compte la valeur réelle de celle-ci. Le fdr en cela nous donne des<br />

renseignements plus précis. Le p-FDR semble alors peu avantageux par rapport<br />

au FDR puisque le type d’information qu’il apporte est essentiellement<br />

le même que le FDR. Par conséquent, le p-FDR demeure assez marginal.<br />

20


2.3 Le FDR local : fdr<br />

Dans notre cadre de modèle de mélange, nous allons nous intéresser<br />

au calcul d’une quantité nous apportant des informations locales, i.e.<br />

qui nous renseignent sur la probabilité pour que le gène i considéré soit<br />

différentiellement exprimé, ou soit un faux positif par exemple : il s’agit du<br />

FDR local.<br />

2.3.1 Le fdr<br />

Définition<br />

Dans son article de 2001, Efron [11] introduit le FDR local (fdr) comme<br />

une probabilité a posteriori dans un cadre de modèle de mélange :<br />

Définition 2.3 (fdr (probabilité a posteriori)) Avec les notations du<br />

modèle de mélange ci-avant, on a pour tout t dans [0, 1]<br />

f0(t)<br />

fdr(t) = π0<br />

g(t) = P r(H0(i) = 0 | Pi = t), ∀i = 1, . . . , m,<br />

avec g(t) = π0f0(t) + (1 − π0)f1(t), densité de chaque probabilité critique.<br />

Ainsi, le FDR local représente bien la probabilité, pour un gène donné,<br />

d’être un faux positif, i.e. d’être H0 sachant que la probabilité critique du<br />

test correspondant vaut t.<br />

Plus récemment, Bar-Hen, Daudin <strong>et</strong> Robin [3] ont défini le fdr comme<br />

un taux d’accroissement :<br />

Définition 2.4 On suppose que les densités sous H0 <strong>et</strong> H1 sont continues,<br />

<strong>et</strong> on pose p (1), . . . , p (n) sont des probabilités critiques ordonnées. Alors on<br />

a :<br />

fdr(p (i)) = F DR(p (i+1)) − F DR(p (i))<br />

,<br />

p (i+1) − p (i)<br />

où F DR(t) est le FDR calculé en rej<strong>et</strong>ant les probabilités critiques<br />

inférieures au niveau t.<br />

C<strong>et</strong>te définition a le mérite de m<strong>et</strong>tre en évidence le caractère local du fdr.<br />

Il est à noter que c<strong>et</strong>te définition donne des courbes assez irrégulières qu’il<br />

convient de lisser comme les auteurs le pratiquent dans ([3]).<br />

21


Approximation<br />

Toute une partie du travail de Robin <strong>et</strong> al.[17] a eu pour objectif l’estimation<br />

du fdr. Pour cela, ils cherchent en réalité à estimer la probabilité a<br />

posteriori P r(H0(i) = 1 | Pi = t) :<br />

P r(H0(i) = 1 | Pi = t) = 1 − fdr(t) (2.3)<br />

=<br />

(1 − π0)f1(t)<br />

·<br />

π0f0(t) + (1 − π0)f1(t)<br />

(2.4)<br />

La relation 2.4 nous conduit alors à penser qu’il faut estimer f1 ainsi que<br />

π0. Pour f1, on prend un estimateur à noyau<br />

∀t ∈ [0, 1], ˆ f1(t) =<br />

m i=1 ωiki(t)<br />

m i=1 ωi<br />

,<br />

<br />

1, si Pi ∼ f1<br />

où ∀i = 1, . . . , m, ωi =<br />

, <strong>et</strong> ki est le noyau choisi. Les<br />

0, sinon<br />

poids ωi étant inconnus, on les remplaces par les probabilités a posteriori<br />

τi(t) que le gène i soit H1, connaissant sa probabilité critique (équation 2.3).<br />

On tombe alors sur une équation au point fixe que doit vérifier l’estimateur<br />

de τi(t) : ˆτi(t) = Ψ(ˆτi(t)). En utilisant un estimateur de π0 <strong>et</strong> en s’appuyant<br />

sur un théorème de point fixe pour Ψ contractante, on m<strong>et</strong> en oeuvre une<br />

méthode de résolution itérative basée sur le calcul à chaque itération des<br />

valeurs des estimateurs de f1 <strong>et</strong> π0. Il est à noter que c<strong>et</strong> algorithme diffère<br />

de l’algorithme EM en cela qu’il ne comporte pas d’étape de maximisation<br />

de la vraisemblance.<br />

Toutefois, l’apparition d’un point fixe dans c<strong>et</strong>te méthode est due au<br />

choix spécifique de l’estimateur de f1 dans lequel nous avons fait intervenir<br />

les τi. De plus, les problèmes concernant la règle d’arrêt <strong>et</strong> la vitesse de<br />

convergence de ce type d’algorithme sont bien connus. Il paraît alors assez<br />

naturel de chercher à construire un autre estimateur de f1, ”meilleur” en ce<br />

sens qu’il serait adaptatif <strong>et</strong> qui, par exemple, nous inciterait par sa forme<br />

à adopter une stratégie différente de l’estimation itérative.<br />

2.3.2 Estimation du FDR<br />

Un autre intérêt du calcul du fdr est qu’il nous fournit, comme nous<br />

allons le voir, un nouvel estimateur de la fonction FDR, les lois sous H0 <strong>et</strong><br />

H1 étant supposées connues. C’est notamment l’un des résultats exprimés<br />

par Robin, Bar-Hen, Daudin <strong>et</strong> Pierre [17] :<br />

Théorème 2.2 Soit (p (i))i=1,...,m, réalisations ordonnées des probabilités<br />

critiques (Pi)i=1,...,m, <strong>et</strong> ∀i = 1, . . . , m, on pose :<br />

fdri<br />

déf<br />

= fdr(p(i))<br />

= P r(H0(j) = 0 | Pj = p (i)) , ∀j .<br />

22


Alors on a pour tout i dans {1, . . . , m}<br />

F DR(p (i))<br />

déf<br />

=<br />

=<br />

<br />

F P (p(i))<br />

E<br />

| p1, . . . , pm<br />

R(p (i))<br />

1 <br />

fdrk.<br />

i<br />

(2.5)<br />

k/Pk≤p (i)<br />

Nous avons choisi, pour conclure c<strong>et</strong>te partie, de donner une démonstration<br />

de (2.5), qui peut faire l’obj<strong>et</strong> d’erreurs d’interprétation <strong>et</strong> qui s’appuie sur<br />

des méthodes fréquemment employées.<br />

Preuve :<br />

La preuve repose sur l’hypothèse d’indépendance <strong>et</strong> de lois identiques<br />

pour les Pi. On note Aj l’événement {Pj1 = p (1), . . . , Pjm = p (m)}, où<br />

j1, . . . , jm représentent une permutation de {1, . . . , m}.<br />

F P (t) = m<br />

k=1 1 {H0(k)=0}1 {Pk≤t}<br />

De plus,<br />

R(t) = m k=1 1 Alors, il vient<br />

{Pk≤t}<br />

.<br />

F DR(p (i)) =<br />

=<br />

<br />

F P (p(i))<br />

E<br />

| p1, . . . , pm<br />

R(p (i))<br />

<br />

<br />

F P (p(i))<br />

E<br />

| Aj P r(Pj1<br />

R(p (i))<br />

j1,...,jm<br />

= p =<br />

(1), . . . , Pjm = p (m) | p1, . . . , pm)<br />

<br />

<br />

F P (p(i)) 1<br />

E<br />

| Aj<br />

i m! ,<br />

j1,...,jm<br />

(sachant Aj, il y a exactement i probabilités critiques rej<strong>et</strong>ées). Puis :<br />

<br />

<br />

E F P (p (i)) | Aj<br />

=<br />

=<br />

=<br />

m<br />

k=1<br />

E(1 {Pj k ≤p (i)}1 {H0(jk)=0} | Aj)<br />

i<br />

E(1 {H0(jk)=0} | Aj)<br />

k=1<br />

i<br />

k=1<br />

E(1 {H0(jk)=0} | Pjk<br />

= pjk ) (indépendance).<br />

Enfin, les Pk | H0(k) étant identiquement distribuées, il vient que<br />

<br />

F DR(p (i)) = 1<br />

i<br />

i<br />

P r(H0(k) = 0 | Pk = p (k)).<br />

k=1<br />

23


Chapitre 3<br />

Proportion de rej<strong>et</strong>s <strong>et</strong><br />

processus <strong>stochastique</strong>s<br />

Une autre approche du problème consiste à faire intervenir des processus<br />

empiriques dont l’étude de la convergence, quand m → ∞, perm<strong>et</strong> de<br />

déterminer le comportement asymptotique du FDR. En outre, si les résultats<br />

montrés ici sont de nature asymptotique, les quelques milliers, voire dizaines<br />

de milliers de données obtenues avec les biopuces justifient la recherche de<br />

tels résultats <strong>et</strong> fournissent même, dans une certaine mesure, un cadre d’application<br />

pour ceux-ci.<br />

Une grande partie de ce qui suit est fondé sur le constat suivant :<br />

Gm(t) = 1<br />

m<br />

m<br />

1 {Pi≤t}<br />

i=1<br />

= 1<br />

m R(t)·<br />

Grâce à ceci, nous allons réinterpréter beaucoup des quantités que nous<br />

avons étudiées jusqu’ici en termes de processus. Or ce domaine ayant été<br />

déjà largement étudié, les processus <strong>stochastique</strong>s constituent une trame<br />

intéressante que nous allons pouvoir exploiter afin de récupérer assez facilement<br />

un certain nombre de résultats.<br />

3.1 Préliminaires<br />

3.1.1 Quelques propriétés fondamentales de R(t) <strong>et</strong> F P (t)<br />

Loi binomiale<br />

Comme nous l’avons précédemment cité, nous avons d’abord la relation<br />

R(t)<br />

m = Gm(t) , (3.1)<br />

25


où Gm représente la fonction de répartition empirique des probabilités critiques.<br />

Ainsi pour un modèle de mélange, les Pi sont indépendantes <strong>et</strong> identiquement<br />

distribuées, G. Pour un seuil t donné, R(t) vérifie alors<br />

R(t) ∼ B(m, G(t)) . (3.2)<br />

En eff<strong>et</strong>, R(t) = m<br />

i=1 1 {Pi≤t} où ∀i, 1 {Pi≤t} ∼ B(G(t)).<br />

De la même façon,<br />

F P (t) =<br />

m<br />

i=1<br />

1 {Pi≤t}1 {H0(i)=0}<br />

∼ B(m0, F0(t)) , (3.3)<br />

<strong>et</strong><br />

F P (t)<br />

m = F0,m(t) . (3.4)<br />

De plus, on a la propriété suivante prouvée en annexe dans la démonstration<br />

du théorème 3.2 :<br />

F P (t) | F P (s) ∼ B(F P (s), F0(t)), ∀ 0 ≤ t < s ≤ 1. (3.5)<br />

Théorème de Glivenko-Cantelli<br />

On rappelle le résultat de convergence suivant [21] :<br />

Théorème 3.1 (Glivenko-Cantelli) Soit (Xi)N∗, une suite de variables<br />

aléatoires indépendantes <strong>et</strong> identiquement distribuées, de fonction de<br />

répartition F . On a alors que<br />

p.s.<br />

Fm − F ∞−−−−→<br />

0 . (3.6)<br />

m→∞<br />

De plus, si F est continue, alors Fm − F ∞ est libre de F .<br />

Ceci a donc pour conséquence que<br />

3.1.2 Estimation de la proportion<br />

F P (t) p.s.<br />

−−−−→<br />

m m→∞ F0(t) (3.7)<br />

R(t) p.s.<br />

−−−−→ G(t).<br />

m m→∞<br />

(3.8)<br />

Comme nous l’avons signalé à l’occasion du théorème1.1, un moyen d’obtenir<br />

des procédures plus puissantes que la procédure BH serait d’estimer<br />

π0. D’ailleurs l’estimation de c<strong>et</strong>te quantité a déjà été nécessaire dans le<br />

26


travail de Robin, Bar-Hen, Daudin <strong>et</strong> Pierre [17]. Ainsi afin de produire un<br />

tel estimateur, Storey [18] s’appuie sur le fait que les probabilités critiques<br />

sous H1 sont proches de 0 (elles ont tendance à ne pas être significatives),<br />

tandis que celles sous H0 se répartissent à peu près uniformément sur [0,1].<br />

Aussi peut-on penser qu’en s’éloignant suffisamment de 0, les seules probabilités<br />

critiques non rej<strong>et</strong>ées au niveau λ sont H0 (figure1.1). C’est pourquoi<br />

il vient :<br />

π0(λ) =<br />

m − R(λ)<br />

, (3.9)<br />

m(1 − λ)<br />

qui constitue un exemple d’estimateur parmi tant d’autres. La question est<br />

donc dans le cas présent de déterminer le λ optimal pour l’estimation de π0.<br />

Trois idées importantes peuvent être dégagées.<br />

– La première est que c<strong>et</strong> estimateur repose sur la continuité de la loi<br />

des probabilités critiques sous H0.<br />

– La seconde est que comme fonction de λ, π0(λ) est croissante par<br />

morceaux. En eff<strong>et</strong>, le numérateur est constant par morceaux tandis<br />

que le dénominateur est décroissant.<br />

– Enfin, la troisième est que π0 ≥ π0. Pour voir cela, nous allons<br />

développer succintement quelques arguments heuristiques. Ainsi, on<br />

part du fait que<br />

π0 =<br />

G(t) − F (t)<br />

t − F (t)<br />

Puis, on tient le raisonnement suivant : suffisamment loin de 0, la<br />

fonction de répartition F des probabilités critiques sous H1 vaut 1.<br />

Or, la fonction<br />

x ↦→<br />

est croissante. D’où le fait que<br />

G(t) − x<br />

t − x<br />

π0 =<br />

F (t) − G(t)<br />

F (t) − t<br />

≤<br />

1 − G(t)<br />

1 − F (t)<br />

<br />

1 − Gm(t)<br />

1 − F (t)<br />

= π0(t).<br />

·<br />

(3.10)<br />

(3.11)<br />

(3.12)<br />

Ainsi, l’estimateur de Storey π0(t) surestime π0.<br />

En conséquence, la procédure nouvellement obtenue en remplaçant dans la<br />

α<br />

procédure BH le α par bπ0(λ) sera plus puissante mais toujours conservative<br />

(cf.3.11).<br />

27


Remarques :<br />

1. La convergence de π0(λ) −−−−→<br />

m→∞<br />

1−G(λ)<br />

1−λ<br />

donne que 1−G(λ)<br />

1−λ<br />

n’est qu’un<br />

F (t)−G(t)<br />

majorant de F (t)−t = π0, ∀t. Il faut savoir que d’autres estimateurs<br />

de π0 existent, estimateurs qui sont sans biais.<br />

2. Pour ce qui est de la détermination du λ optimal, il faut voir qu’il s’agit<br />

véritablement d’un problème en soi puisque cela revient à déterminer<br />

une zone où l’hypothèse d’uniformité de la loi des probabilités critiques<br />

sous H0 est valide en sachant que près de 0, la contribution des<br />

probabilités critiques sous H1 est importante <strong>et</strong> que près de 1, l’estimation<br />

de π0 par l’estimateur de Storey est très variable. On peut<br />

noter plusieurs méthodes :<br />

(i) Il est possible de procéder par rééchantillonnage comme le fait<br />

Storey(2002)[18]. Ainsi, on cherche un estimateur bootstrap de λbest<br />

défini par<br />

<br />

<br />

λbest = argminλ∈[0,1] E [ pF 2<br />

DRλ(γ) − pF DR(γ) ] , ∀γ ∈ [0, 1],<br />

où <br />

pF DRλ(γ) désigne un estimateur du pFDR que nous allons<br />

définir dans ce qui suit.<br />

(ii) Dans leur article de 2004, Benjamini, Krieger <strong>et</strong> Yekutieli [5]<br />

mentionnent la possibilité d’une procédure en deux temps appelée<br />

ABH (Adaptive Benjamini-Hochberg procedure) : on applique la<br />

procédure BH une première fois afin d’obtenir le ˆ k, puis on calcule<br />

π0(λ) pour λ p ( ˆ k) .<br />

Bien que cela n’ait pas encore été prouvé, il est possible de constater<br />

par simulations que c<strong>et</strong>te procédure fournit un contrôle plus fin du<br />

FDR, <strong>et</strong> est bien plus puissante que la procédure BH classique.<br />

C<strong>et</strong>te partie trois est assez longue car elle reflète la grande quantité de<br />

résultats déjà très aboutis qui émanent du cadre commode <strong>et</strong> déjà rebattu<br />

des processus <strong>stochastique</strong>s. Nous allons donc dès à présent préciser plus<br />

avant sa structure afin de clarifier notre propos.<br />

L’étude du FDR donne lieu essentiellement à deux stratégies possibles. Soit<br />

on se fixe un niveau de contrôle du FDR <strong>et</strong> on tente de déterminer le seuil auquel<br />

on va rej<strong>et</strong>er les probabilités critiques <strong>et</strong> qui nous fournira la procédure<br />

la plus puissante, soit on fixe le seuil de rej<strong>et</strong> à t <strong>et</strong> on cherche à évaluer le<br />

plus précisément possible F DR(t). Ce sont ces deux points de vue que nous<br />

allons aborder dans la suite.<br />

– Conformément à ce qui vient d’être dit, pour un niveau de contrôle<br />

donné, la section suivante sera consacrée à la conception de procédures<br />

28


dites ”plug-in”. Nous étudierons ensuite leurs propriétés d’optimalité<br />

de façon d’une part à obtenir une preuve du contrôle du FDR par<br />

la procédure BH, puis d’autre part à montrer que si c<strong>et</strong>te procédure<br />

n’est pas optimale, même asymptotiquement, elle est néanmoins la<br />

meilleure parmi les procédures de dernier croisement à droite.<br />

– Dans un second temps, en travaillant à un seuil t donné, nous allons<br />

préciser l’ordre de grandeur du F DR(t) jusqu’à en donner un<br />

développement limité au voisinage de m → ∞.<br />

– C’est ensuite à la convergence de processus que nous allons nous<br />

intéresser, ce qui nous fournira d’une part des intervalles de confiance<br />

<strong>et</strong> enveloppes de confiance respectivement pour π0 <strong>et</strong> F DP (t), puis les<br />

lois limites vers lesquelles convergent a(λ) <strong>et</strong> F DP (t) quand m → ∞.<br />

– Enfin, nous mentionnerons des résultats analogues, obtenus pour<br />

des champs aléatoires. Nous signalons immédiatement que c<strong>et</strong>te<br />

généralisation semble, pour ce que nous en avons vu, tout à fait naturelle<br />

en ce sens qu’elle ne fait appel qu’à des techniques préalablement<br />

utilisées pour les processus aléatoires.<br />

3.2 Procédure optimale à contrôle fixé<br />

Il s’agit en fait de la vision qu’ont adoptée Benjamini <strong>et</strong> Hochberg en<br />

1995 [4] en introduisant le FDR.<br />

3.2.1 Procédures plug-in<br />

Nous allons donner le cheminement qui conduit aux estimateurs ”plugin”.<br />

Nous nous plaçons toujours dans le cas du modèle de mélange.<br />

Obtention d’un seuil plug-in<br />

D’abord, il faut noter que l’estimateur de Storey pour π0 nous fournit<br />

un estimateur du FDR pour t dans [0, 1] :<br />

F DRλ(t) = π0(λ)m t<br />

R(t) ∨ 1<br />

· (3.13)<br />

C<strong>et</strong> estimateur représente le rapport entre le nombre de faux positifs jusqu’au<br />

seuil t <strong>et</strong> le nombre de gènes rej<strong>et</strong>és au seuil t. Le lecteur pourra se<br />

reporter à l’annexe 7.2.3 où nous donnons l’heuristique de l’obtention de<br />

π0(λ) <strong>et</strong> F DRλ dans le cas un peu plus général où f0, densité des probabilités<br />

critiques sous H0 n’est pas continue.<br />

Remarque :<br />

29


Il peut être bon de remarquer que l’estimateur du F DR(t) mentionné ciavant<br />

n’est que croissant par morceaux en tant que fonction de t puisque<br />

son numérateur est croissant <strong>et</strong> son dénominateur, constant par morceaux.<br />

Pourtant, nous aurions plutôt espéré que celui-ci, à l’image du F DR(t), soit<br />

croissant avec t (le nombre des faux positifs croît avec le seuil de rej<strong>et</strong>).<br />

Ensuite dès 2002, Storey [18] montre, pour c<strong>et</strong> estimateur, un résultat valable<br />

dans un cadre de modèle de mélange, résultat qu’il généralise en 2004<br />

[20] <strong>et</strong> que nous donnons dans sa forme générale :<br />

Théorème 3.2 (estimateur conservatif) On suppose les probabilités<br />

critiques sous H0 indépendantes <strong>et</strong> identiquement distribuées, de densité<br />

continue sur [0, 1]. Alors,<br />

∀λ ∈ [0, 1), E( F DRλ(t)) ≥ F DR(t).<br />

Ainsi en s’appuyant sur ce résultat, trouver un seuil tα pour lequel<br />

F DRλ(tα) ≤ α implique en passant à l’espérance que F DR(tα) ≤ α. Partant<br />

de ce raisonnement <strong>et</strong> sachant que l’on souhaite une procédure la moins<br />

conservative possible, nous sommes conduits à définir<br />

t m α ( F DRλ) = sup {t ∈ [0, 1]/ F DRλ(t) ≤ α}. (3.14)<br />

À présent si on réécrit en se servant de (3.13) <strong>et</strong> (3.1), on trouve<br />

t m <br />

<br />

α ( F<br />

π0(λ)t<br />

DRλ) = sup t ∈ [0, 1]/<br />

≤ α . (3.15)<br />

Gm(t) ∨ 1/m<br />

Puis, le fait que<br />

bπ0(λ)t<br />

Gm(t)∨(1/m) −−−−→<br />

π0(λ)t<br />

m→∞ G(t)<br />

nous incite à poser :<br />

Définition 3.1 (Procédure plug-in)<br />

<br />

tα(π0, G) = sup t ∈ [0, 1]/ π0t<br />

<br />

≤ G(t) .<br />

α<br />

Le sens du mot ”plug-in” qui apparaît dans Genovese <strong>et</strong> Wasserman [13] est<br />

à comprendre comme suit : pour un jeu donné d’estimateurs de π0 <strong>et</strong> de G,<br />

nous avons immédiatement accès à une procédure pour laquelle le FDR est<br />

contrôlé au niveau α, simplement en remplaçant π0 <strong>et</strong> G par leur estimateur<br />

respectif dans tα(π0, G), d’où t m α ( F DRλ) par exemple.<br />

Remarque : Pour le cas où on ne dispose pas d’une estimation de π0, on a<br />

évidemment le même type de procédure plug-in dans laquelle π0 n’apparaît<br />

pas.<br />

Contrôle du FDR par la procédure BH<br />

En profitant de c<strong>et</strong>te trame de travail, Storey, Taylor <strong>et</strong> Siegmund [20]<br />

ont obtenu une nouvelle preuve du contrôle du FDR par la procédure BH,<br />

30


tout en m<strong>et</strong>tant en évidence que c<strong>et</strong>te dernière est la plus conservative des<br />

procédures plug-in faisant intervenir l’estimation de π0. Ce dernier point<br />

découle ainsi du<br />

Lemme 3.1 (Équivalence procédures plug-in <strong>et</strong> BH) Pour λ dans<br />

[0, 1], la procédure plug-in tα( F DRλ) est équivalente à la procédure BH où<br />

on a remplacé m par π0(λ)m.<br />

Ici, la notion d’équivalence signifie que les procédures rej<strong>et</strong>tent le même<br />

nombre de gènes. Ainsi, le lemme 3.1 établit l’équivalence entre la procédure<br />

plug-in dans le cas λ = 0 <strong>et</strong> la procédure BH classique.<br />

Nous énonçons donc le théorème qui assure le contrôle du FDR par<br />

la procédure BH. Nous avons choisi d’en donner, en annexe, la preuve<br />

détaillée. Certaines parties de celle-ci étaient succintement décrites notamment<br />

dans [20]. C<strong>et</strong>te preuve présente un intérêt double en cela qu’elle repose<br />

sur des arguments simples de loi binomiale pour une somme de Bernoulli<br />

indépendantes <strong>et</strong> qu’à la suite de la démonstration de Benjamini <strong>et</strong> Hochberg<br />

[4], elle constitue une preuve assez élégante, bâtie sur des arguments<br />

de martingale inverse.<br />

Théorème 3.3 (procédure BH (1995), plug-in) Si les probabilités critiques<br />

sous H0 sont indépendantes entre elles, <strong>et</strong> indépendantes de celles sous<br />

H1, alors<br />

Celui-ci s’appuie sur le<br />

<br />

<br />

F DR tα( F DRλ=0)<br />

= π0α ≤ α.<br />

Lemme 3.2 (Martingale inverse) On suppose les probabilités critiques<br />

sous H0 indépendantes <strong>et</strong> indépendantes de celles sous H1. Pour 0 ≤ t < 1,<br />

déf<br />

Ft = σ({1{pi≤s}/ t ≤ s ≤ 1, i = 1, . . . , m}) est une filtration inverse.<br />

De plus, pour t ≤ s,<br />

<br />

F P (t)<br />

E | Fs =<br />

t<br />

F P (s)<br />

·<br />

s<br />

Remarques :<br />

– Comme nous le verrons dans la preuve en annexe, la propriété de martingale<br />

repose sur le simple constat que pour t < s, F P (t) | F P (s) ∼<br />

B(F P (s), t<br />

s ).<br />

– Il est à noter que le même type d’argument utilisant les lois binomiales<br />

constitue la base du théorème 3.2(cf. préliminaires 3.1.1).<br />

31


3.2.2 Optimalité des procédures plug-in<br />

Les procédures plug-in définies précédemment sont certes plus puissantes<br />

que la procédure BH (lemme 3.1), mais on peut se demander si elles sont<br />

optimales, du moins asymptotiquement : il se trouve que le point de vue des<br />

processus <strong>stochastique</strong>s fournit un cadre idéal pour de tels résultats.<br />

Dans ce qui suit, nous allons procéder en deux temps. D’abord nous nous<br />

intéresserons à la limite des seuils plug-in exhibés ci-avant, puis nous aborderons<br />

le problème de l’optimalité de ces seuils.<br />

Mais avant toute chose, une remarque : comme nous l’avons vu au cours de<br />

la preuve du théorème 3.3, F DRλ=0(Tα) = α. Il est alors possible de définir<br />

la procédure plug-in par le seuil tα tel que :<br />

tα(π0, G) = sup {t ∈ [0, 1]/ π0t<br />

α<br />

= G(t)}. (3.16)<br />

Convergence du seuil de la procédure BH<br />

À partir de c<strong>et</strong>te remarque, Genovese <strong>et</strong> Wasserman [12] ont montré en<br />

2002 que<br />

– d’une part, le seuil de la procédure BH converge en probabilité, quand<br />

m → ∞, vers un seuil asymptotique u∗ qui est l’unique solution de<br />

l’équation au point fixe : G(u) = u<br />

α , sous certaines hypothèses portant<br />

sur G, la fonction de répartition des probabilités critiques.<br />

– d’autre part, ce même seuil est indépendant de la répartition des probabilités<br />

critiques au sein des deux familles qui composent le modèle<br />

de mélange considéré <strong>et</strong> se comporte asymptotiquement de façon intermédiaire<br />

entre la procédure naïve de rej<strong>et</strong> au niveau α <strong>et</strong> celle de<br />

Bonferroni. Il est important de se convaincre que ceci ne constitue pas<br />

un résultat fondamental en cela qu’il paraît clair que la procédure BH,<br />

prenant en compte l’ensemble des probabilités critiques est meilleure<br />

que la procédure naîve, tout en étant moins contraignante ou conservative<br />

que Bonferroni.<br />

Ainsi, on a le résultat suivant démontré par Genovese <strong>et</strong> Wasserman(2002)<br />

qui est vrai dans un cadre plus général que le modèle de mélange :<br />

Théorème 3.4 (Estimateur consistant du seuil asymptotique) Soit<br />

F la fonction de répartition des probabilités critiques sous H1.<br />

On suppose<br />

(i) π0 est constant par rapport à m,<br />

(ii) F est strictement concave,<br />

(iii) F est dérivable en 0 <strong>et</strong> F ′ (0) > β, où β = 1−απ0<br />

α(1−π0) ,<br />

(iv) 1 − π0 > 0.<br />

32


Soit u ∗ l’unique solution dans (0, 1] de F (u) = βu, <strong>et</strong> ˆ k l’entier de la<br />

procédure BH.<br />

Alors<br />

α ˆ k<br />

m<br />

P<br />

−−−−→<br />

m→∞ u∗ . (3.17)<br />

Remarques :<br />

– le u∗ du théorème coïncide avec l’unique solution de l’équation G(u) =<br />

u<br />

α , dont F (u) = βu n’est qu’une simple réécriture.<br />

– u∗ dépend à la fois de F , α <strong>et</strong> π0.<br />

– pour m assez grand α<br />

m ≤ u∗ ≤ α, car ∀m, α ˆ k<br />

m ≤ α.<br />

– l’hypothèse (iii) du théorème sur la dérivée a pour vocation d’assurer<br />

que l’équation F (u) − βu = 0 ait au moins une solution. Cependant,<br />

le fait que β > 1 semble assez restrictif comme on peut le voir sur la<br />

figure 3.1 en considérant le cas de l’exponentiel de paramètre λ < β<br />

qui ne vérifierait pas le critère.<br />

– il est également possible d’affaiblir les conditions sur F. Ainsi, on a les<br />

deux hypothèses suivantes :<br />

(a) u ∗ est solution de l’équation F (u) = βu,<br />

(b) F ′ (u ∗ ) = β.<br />

– on peut avoir un résultat de convergence analogue avec F = Fθ qui<br />

appartient à une famille paramétrique donnée dont le paramètre θ a<br />

une certaine dépendance en m, par exemple une famille exponentielle.<br />

À défaut de la preuve du théorème 3.2 fournie par Genovese <strong>et</strong> Wasserman<br />

[12], nous allons donner une nouvelle démonstration de ce résultat, à<br />

l’aide de Z-estimateurs, car ceux-ci constituent un cadre plus général que<br />

celui d’origine, cadre dans lequel il peut être intéressant de voir les choses.<br />

D’ailleurs, nous allons démontrer un résultat plus général que celui annoncé<br />

par Genovese <strong>et</strong> Wasserman.<br />

Mais d’abord nous m<strong>et</strong>tons en évidence le point suivant pour lequel on<br />

se base sur le lemme 3.1. Ainsi, l’équivalence des procédures indique que<br />

montrer un résultat sur le seuil de l’une signifie que le seuil asymptotique<br />

de l’autre a un comportement analogue.<br />

On commence par un rappel sur les Z-estimateurs.<br />

Définition 3.2 (Z-estimateur) Soit X1, . . . , Xm, . . . des variables<br />

aléatoires. Soit θ ∈ Θ ⊂ Rd , un paramètre <strong>et</strong> (ψθ,m)m, une suite de<br />

fonctions vectorielles connues.<br />

On pose ψm(θ) = 1 m m i=1 ψθ,m(Xi) <strong>et</strong> Ψ(θ) = Eψm(θ).<br />

Soit θ0 ∈ Θ un paramètre à estimer. On appelle Z-estimateur toute suite<br />

( θm)m d’estimateurs de θ0 telle que<br />

∀m, ψm( θm) = 0<br />

33


Valeurs de β<br />

1200<br />

1000<br />

800<br />

600<br />

400<br />

200<br />

α=0.05<br />

α=0.1<br />

Tracé de β pour 2 valeurs de α en fonction de π 0<br />

0<br />

0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1<br />

Valeurs de la proportion π<br />

0<br />

Fig. 3.1 – Tracé de β en fonction de différentes valeurs de la proportion π0,<br />

pour deux valeurs de α : 0.1 <strong>et</strong> 0.05.<br />

<strong>et</strong><br />

Ψ(θ0) = 0.<br />

Puis Van der Vaart nous donne le résultat suivant.<br />

Théorème 3.5 (Consistance des Z-estimateurs) Avec les notations<br />

ci-avant, si ∀ ɛ > 0,<br />

1. ψm − Ψ ∞,Θ P<br />

−−−−→<br />

m→∞ 0,<br />

2. inf d(θ,θ0)≥ ɛ Ψ(θ) > 0,<br />

alors<br />

3. ψm( θm) = op(1),<br />

θm<br />

P<br />

−−−−→<br />

m→∞ θ0.<br />

Ceci étant, Genovese <strong>et</strong> Wasserman [12] montrent la consistance de α b k<br />

m<br />

vers un seuil u ∗ , ce qui revient, d’après le lemme 3.1, à la consistance de<br />

34


tm α (F DRλ=0) vers u∗ = u∗ λ=0 . Pour notre part, le cadre des Z-estimateurs<br />

nous perm<strong>et</strong> une généralisation à la consistance, pour λ quelconque, de<br />

tm α (F DRλ) vers u∗ λ .<br />

Preuve du théorème 3.4 : Dans un premier temps, soit<br />

tm α = tm α ( F DRλ=0),<br />

∀m ∈ N∗ . Comme nous l’avons vu dans la preuve du<br />

théorème 3.3, t m α annule la fonction ψm = Fm(u) − βu. Or u ∗ est solution<br />

de l’équation Ψ(u) = 0, où Ψ(u) = F (u) − βu = E(Fm(u) − βu). Il apparaît<br />

ainsi d’une part que Glivenko-Cantelli donne la première hypothèse du<br />

théorème sur la consistance des Z-estimateurs, d’autre part que l’unicité de<br />

u ∗ donne la deuxième hypothèse <strong>et</strong> que la dernière vient par construction de<br />

t m α . Alors, t m α est un Z-estimateur de u ∗ , d’où la convergence en probabilité.<br />

À présent, on va considérer t m α (F DRλ) pour λ = 0. On pose ˜ β = π0(λ)(1−α)<br />

α(1−π0) ,<br />

où π0 ≤ π0(λ) = E(π0(λ)) ≤ 1. Alors les mêmes arguments restent valables<br />

pour Ψ(u) = F (u) − ˜ βu = E(Fm(u) − ˜ βu) <strong>et</strong> ψm = Fm(u) − ˜ βu. Nous<br />

obtenont ainsi la preuve dans le cas général pour t m α (λ) = t m α (F DRλ).<br />

<br />

Remarques : Étant donné ce qui vient d’être dit, il semble possible d’affaiblir<br />

les hypothèses du théorème 3.4.<br />

Ainsi, il paraît possible de ne supposer que l’existence d’une solution<br />

la plus à droite isolée (la dérivée en ce point est différente de β). Dans ces<br />

conditions, le théorème reste applicable <strong>et</strong> t m α converge en probabilité vers<br />

la solution la plus à droite (maximisation de la puissance) de l’équation<br />

au point fixe, à condition de restreindre t m α à un voisinage Θ suffisamment<br />

p<strong>et</strong>it de u ∗ . t m α,Θ (λ) = sup {t ∈ Θ/ F DRλ(t) = α}.<br />

Procédure BH : sous optimalité asymptotique <strong>et</strong> dernier croisement<br />

à droite<br />

Comme nous l’avons vu précédemment, le seuil de la procédure BH<br />

converge en probabilité quand m → ∞ vers u ∗ , qui vérifie [12], dans le<br />

cadre assez commode de modèle de mélange, la relation<br />

u∗ G(u∗ π0u∗ = α ⇔<br />

) G(u∗ ) = π0α ≤ α. (3.18)<br />

Nous voyons là un point central qui est que c<strong>et</strong>te procédure n’est pas, même<br />

asymptotiquement, optimale parmi toutes les procédures possibles. En eff<strong>et</strong>,<br />

le seuil c ∗ d’une procédure optimale devrait vérifier d’après la relation oracle<br />

(3.16) :<br />

π0c∗ G(c∗ = α · (3.19)<br />

)<br />

D’une certaine façon, on peut voir ce fait comme la contrepartie de<br />

l’insensibilité de la procédure BH à la façon dont les probabilités critiques<br />

35


sont réparties entre les deux populations. Nous reverrons ce point plus en<br />

détails dans la partie suivante en quantifiant notamment l’écart entre les<br />

deux seuils asymptotiques.<br />

Pour le moment, nous pouvons dores <strong>et</strong> déjà donner un résultat qui<br />

apparaît chez Genovese <strong>et</strong> Wasserman [12], résultat qui établit que bien que<br />

non asymptotiquement optimale parmi toutes les procédures de contrôle,<br />

la procédure BH est pourtant la meilleure parmi les procédures dites de<br />

”dernier croisement le plus à droite” (last right crossing). Nous allons à<br />

présent aborder ce point pour lequel nous mentionnons partiellement un<br />

résultat que nous reverrons dans sa version complète à l’occasion de la partie<br />

3.3.<br />

Théorème 3.6 (Développement limité de F DR(t)) Sous<br />

hypothèses que le théorème 3.4, il vient<br />

les mêmes<br />

<br />

π0t<br />

1<br />

∀t ∈ [0, 1], F DR(t) =<br />

+ O √m ·<br />

π0t + (1 − π0)F (t)<br />

(3.20)<br />

Dans un premier temps, on observe que la procédure BH établit son seuil<br />

(de rej<strong>et</strong>) au lieu du plus grand entier avant le point de dernier croisement<br />

à droite entre une courbe sur laquelle se situent les probabilités critiques<br />

représentée en fonction de leur indice <strong>et</strong> la droite l(t) = tα<br />

m (figure1.2). En<br />

eff<strong>et</strong>, la forme de l(t) = tα/m vient de l’écriture de la procédure BH.<br />

kF DR = max{i/ p (i) ≤ l(i)}.<br />

De même pour la procédure de Bonferroni, on a l(t) = α/m puisque pour<br />

tout i, on rej<strong>et</strong>te si pi ≤ l(t) = a/m.<br />

Il faut noter que seule la forme de c<strong>et</strong>te fonction t ↦→ l(t) est ici caractéristique<br />

de la procédure BH (ici une droite).<br />

Afin de montrer l’optimalité de la procédure BH parmi les procédures<br />

de dernier croisement à droite, on décide donc de représenter l’ensemble des<br />

procédures de dernier croisement à droite de façon générique par l(t). Pour<br />

chacune d’elles, on définit l’indice de la dernière probabilité critique à partir<br />

de laquelle on rej<strong>et</strong>te par<br />

kl = max{i / p (i) ≤ l(i)}, (3.21)<br />

de façon tout à fait analogue à la procédure BH. Il est ainsi possible d’obtenir<br />

le même résultat que le théorème 3.4, mais dans une version plus<br />

générale avec l(t) au lieu de αt<br />

m (figure 3.2). On obtient ainsi un u∗ qui<br />

vérifie l’équation<br />

F (u ∗ )<br />

u ∗<br />

m t/l(t) − π0<br />

= β = , (3.22)<br />

1 − π0<br />

36


avec t vérifiant π0s(t) + (1 − π0)F (s(t)) = t/m (∗), où s est une courbe sur<br />

laquelle se trouvent les probabilités critiques tracées en fonction de leurs indices.<br />

C<strong>et</strong>te relation (∗) a lieu en un point t où s(t) = l(t) <strong>et</strong> est enfin justifiée<br />

par le fait que le rapport l(t)/t remplace α dans l’équation G(u ∗ ) = u ∗ t/l(t).<br />

Puis, conformément au théorème 3.6, la condition F DR ≤ α implique que<br />

F (u ∗ )<br />

u ∗<br />

1 − α π0<br />

≥ . (3.23)<br />

α 1 − π0<br />

En eff<strong>et</strong>, on néglige le terme en O( 1<br />

√ m ) car le résultat qui nous intéresse est<br />

de nature asymptotique, i.e. à la limite, quand ce terme est nul. En associant<br />

à présent (3.22) <strong>et</strong> (3.23), il vient donc<br />

ce qui vaut si<br />

m t/l(t) − π0<br />

1 − π0<br />

≥<br />

1 − α<br />

α<br />

π0<br />

,<br />

1 − π0<br />

l(t) ≤ αt<br />

. (3.24)<br />

m<br />

Remarque : La relation que doit vérifier t dans (3.22) implique que t dépend<br />

implicitement de F notamment.<br />

La conséquence de c<strong>et</strong>te étude exposée dans [12] est la suivante. On veut<br />

une procédure parmi celles de dernier croisement à droite qui contrôle le<br />

FDR à un seuil fixé α (condition (3.23)), tout en détectant le maximum de<br />

gènes différentiellement exprimés, c’est-à-dire en prenant kl le plus grand<br />

possible (rej<strong>et</strong>er un grand nombre de gènes tout en maintenant un contrôle<br />

du FDR au niveau α accroît la puissance). Comme le montre sa définition<br />

(3.21), cela sous-entend de prendre pour chaque t, l(t) la plus grande possible<br />

(figure 3.2), puisque les probabilités critiques sont sous la courbe l(t) jusqu’à<br />

kl. Ainsi, on constate que la procédure de dernier croisement à droite qui<br />

réalise le mieux c<strong>et</strong>te condition est la procédure BH qui atteint la borne :<br />

l(t) = αt/m (relation (3.24)).<br />

En ce sens, la procédure BH est la meilleure parmi les procédures de dernier<br />

croisement à droite.<br />

3.2.3 Convergence des seuils plug-in <strong>et</strong> dépendance faible<br />

Il reste à noter que pour la majorité des résultats exposés jusque là,<br />

nous avons presque toujours requis l’indépendance des probabilités critiques<br />

associées aux gènes testés. Cependant, Storey <strong>et</strong> al.[20] ont montré que certaines<br />

de ces propriétés sont conservées dans un cadre de dépendance dite<br />

”faible”. Nous allons d’abord aborder c<strong>et</strong> aspect.<br />

Ainsi dans leur article de 2004 Storey, Taylor <strong>et</strong> Siegmund font plusieurs<br />

hypothèses afin d’étudier l’asymptotique du FDP.<br />

37


valeurs des probabilités critiques<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

x 10 −3<br />

y=α*x/m<br />

Procédure de dernier croisement à droite<br />

l(x)<br />

courbe des p−valeurs<br />

0<br />

1 2 3 4 5 6 7 8 9 10 11 12<br />

rang des probabilités critiques ordonnées<br />

Fig. 3.2 – Tracé de la courbe de t ↦→ l(t), correspondant à une procédure de<br />

dernier croisement à droite vérifiant la relation l(t) ≤ αt/m, les probabilités<br />

critiques étant ordonnées.<br />

Hypothèses : (∆)<br />

1. ∀t<br />

⎧<br />

∈ (0, 1], on a presque sûrement<br />

déf<br />

⎨<br />

F P (t)<br />

F0,m(t) = m0<br />

⎩<br />

−−−−→<br />

m→∞ F0(t),<br />

déf R(t)−F P (t)<br />

F1,m(t) = m−m0<br />

−−−−→<br />

m→∞ F1(t),<br />

où F0,m <strong>et</strong> F1,m sont les<br />

fonctions de répartition empiriques des gènes sous H0, respectivement<br />

sous H1, <strong>et</strong> F0 <strong>et</strong> F1 sont continues.<br />

2. 0 < F0(t) ≤ t, ∀t ∈ (0, 1].<br />

3. π0 = π0,m adm<strong>et</strong> une limite : π∞, quand m → ∞.<br />

Remarque :<br />

L’hypothèse de continuité qui est faite pour F0 notamment garantit<br />

l’applicabilité des résultats qui suivent au cas où f0, densité connue des<br />

probabilités critiques sous H0, ne serait que continue par morceaux.<br />

À partir de là, on peut définir la ”dépendance faible”<br />

38


Définition 3.3 (Dépendance faible) On appelle dépendance faible tout<br />

type de dépendance entre variables aléatoires pour laquelle l’hypothèse (1)<br />

de (∆)est réalisée.<br />

Des exemples de tels types de dépendance sont à chercher parmi l’ergodicité<br />

(théorème de Birkhoff-Khintchin), la dépendance par bloc fini (au-delà<br />

d’une certaine distance, une variable aléatoire n’est plus influencée par ses<br />

voisines), certaines lois de mélange.<br />

Dans ce cadre de travail, il est possible d’avoir une généralisation du<br />

théorème 3.4 obtenu par Genovese <strong>et</strong> Wasserman [12].<br />

Remarque : Il n’a pas été supposé que la densité des probabilités critiques<br />

sous H0 est continue (on a juste la continuité des limites des fonction de<br />

répartition empiriques). L’approximation que fait Storey pour obtenir son<br />

estimateur de π0 est toujours valable, à ceci près que F0(t) n’est plus égale<br />

à t <strong>et</strong> que l’estimateur de Storey change d’expression (cf. Annexe). Alors,<br />

d’une part on a l’estimateur généralisé<br />

π g m − R(λ) 1 − Gm(λ)<br />

0 (λ) = = , (3.25)<br />

m(1 − F0(λ)) (1 − F0(λ))<br />

d’autre part l’estimateur du F DR(t) qui en découle vaut<br />

F DRλ(t) = πg 0 (λ) m F0(t)<br />

R(t) ∨ 1<br />

πg 0 (λ) F0(t)<br />

= · (3.26)<br />

Gm(t) ∨ (1/m)<br />

L’idée du théorème est la même que celle qui conduit aux Z-estimateurs<br />

précédemment utilisés : ψm converge vers Ψ = E(ψm) avec m → ∞, alors<br />

on espère que le sup des valeurs tm d’annulation de ψm va converger vers<br />

la plus grande valeur d’annulation t∞ de Ψ, d’où la définition suivante : on<br />

pose<br />

∞<br />

F DRλ (t) =<br />

<br />

F0(t) (1 − F0(λ))π0<br />

π0F0(t) + (1 − π0)F1(t)<br />

1 − F0(λ) + (1 − F1(λ))(1<br />

<br />

− π0)<br />

,<br />

1 − F0(λ)<br />

<br />

= limm→∞bπ g<br />

0 (λ)<br />

qui est la quantité limite de F DRλ(t).<br />

Remarque : Nous avons choisi de donner la justification de ces trois dernières<br />

quantités puisqu’il semble qu’il y ait discordance entre le F DR ∞<br />

λ attendu <strong>et</strong><br />

celui proposé par Storey <strong>et</strong> al.[20].<br />

Il faut voir à présent que le résultat qui vient est plus fort que ceux obtenus<br />

auparavant pour les seuils plug-in en cela qu’apparaît la convergence<br />

presque-sûre qui n’est pas donnée par les Z-estimateurs. Cependant en se<br />

restreignant à la convergence en probabilité, nous pouvons appliquer les<br />

mêmes arguments de Z-estimateurs que dans le cas indépendant uniforme.<br />

Voici donc le<br />

39


Théorème 3.7 (Seuil asymptotique) On suppose que les hypothèses<br />

∞<br />

(∆) sont vérifiées. Si pour tout λ ∈ [0, 1], t ↦→ F DRλ (t) a une dérivée<br />

∞<br />

non-nulle en tα( F DRλ ) ∈ (0, 1), alors presque sûrement<br />

lim<br />

m→∞ [tα(<br />

∞<br />

F DRλ)] = tα( F DRλ ).<br />

De c<strong>et</strong> énoncé, Storey tire notamment le corollaire<br />

Corollaire 3.1 (Comparaison des seuils asymptotiques) Si les hypothèses<br />

(∆) sont vérifiées, en supposant de plus que ∀t ∈ (0, 1), F0(t) <<br />

F1(t), alors pour tout λ ∈ (0, 1), presque sûrement on a<br />

lim<br />

m→∞ [tα( F DRλ=0)]<br />

< lim<br />

m→∞ [tα( F DRλ)] < lim<br />

m→∞ [tα(F DR)],<br />

Il va de soi que tα(F DR) est par définition le seuil optimal attendu pour un<br />

contrôle de niveau α. Ce théorème confirme bien la comparaison déjà établie<br />

dans un cadre d’indépendance.<br />

Enfin, Storey <strong>et</strong> al.[20] obtiennent même sous ces hypothèses de dépendance<br />

faible un résultat de convergence uniforme sur les seuils des procédures :<br />

une certaine relation de comparaison asymptotique est vraie avec grande<br />

probabilité <strong>et</strong> ce, pour tous les seuils en même temps, pourvu que ceux-ci<br />

soient assez grands.<br />

Théorème 3.8 (Comparaison asymptotique uniforme) Sous les hypothèses<br />

(∆), ∀δ > 0<br />

lim<br />

m→∞ inft≥δ[ F DRλ(t) − F DP (t)] ≥ 0 ,<br />

lim<br />

m→∞ inft≥δ[ F DRλ(t) − F DR(t)] ≥ 0 , avec probabilité 1.<br />

Remarques :<br />

– La preuve de ce théorème repose sur deux aspects, une adaptation de<br />

la démonstration de Glivenko-Cantelli, <strong>et</strong> la convergence ponctuelle de<br />

F DP vers une fonction continue, où<br />

F DP (t) =<br />

F P (t)<br />

R(t) ∨ 1 .<br />

– Il est donc possible d’utiliser l’estimateur ponctuel de Storey pour approcher<br />

à l’infini le FDR, uniformément sur tous les seuils. On peut<br />

voir ceci aussi comme l’opportunité de contrôler le FDR de façon<br />

conservative à tous les niveaux, simultanément.<br />

40


3.3 Contrôle à seuil fixé <strong>et</strong> sous-optimalité de la<br />

procédure BH<br />

Nous allons donc aborder l’autre point de vue sur l’étude du FDR, celui<br />

de l’étude du niveau du FDR à un seuil fixé. C<strong>et</strong>te optique est celle adoptée<br />

par Storey en 2001 [19], puis prolongée par d’autres tels Genovese <strong>et</strong> Wasserman<br />

[12]. Toutefois, il est bon de réaliser que ces deux approches ne sont<br />

pas indépendantes <strong>et</strong> qu’elles sont même complémentaires comme le montre<br />

le théorème 3.6 sur lequel repose la preuve de l’optimalité en un certain sens<br />

de la procédure BH à un seuil fixé.<br />

Nous allons quantifier à présent l’écart entre le seuil asymptotique de la<br />

procédure BH <strong>et</strong> le seuil asymptotique optimal. Pour cela, on se place dans<br />

un cadre plus général que celui des modèles de mélange <strong>et</strong> conformément<br />

à [12], on isole le FDP (False discovery Proportion) <strong>et</strong> le FNP (False Nondiscovery<br />

Proportion) que nous allons étudier.<br />

Définition 3.4 (FDP / FNP) Soit Sj, j ∈ {0, 1}, l’ensemble des indices<br />

i pour lesquels le gène correspondant est Hj. Alors ∀t ∈ [0, 1], on a<br />

<br />

F DP (t) =<br />

F NP (t) =<br />

<br />

i∈S0 1 {Pi≤t}<br />

i∈S0 1 {Pi≤t} + <br />

i∈S1 1 {Pi≤t}<br />

m − ( <br />

<br />

i∈S1 1 {Pi≤t}<br />

i∈S0 1 {Pi≤t} + <br />

i∈S1 1 {Pi≤t})<br />

, (3.27)<br />

· (3.28)<br />

Remarques :<br />

– Ces deux quantités sont des processus <strong>stochastique</strong>s représentant respectivement<br />

le taux de faux positifs <strong>et</strong> le taux de faux négatifs. Ce<br />

dernier est en lien avec la puissance d’une procédure, i.e. sa capacité<br />

à reconnaître les gènes différentiellement exprimés. Plus la proportion<br />

de faux négatifs est faible, plus la puissance est grande.<br />

– De façon analogue au FDR, on définit le FNR par<br />

F NR(t) = E[ F NP (t) ]. (3.29)<br />

Conformément à la remarque précédente, c<strong>et</strong>te quantité va décroître<br />

avec la croissance de la puissance.<br />

Ceci étant, on peut donner à présent dans sa totalité l’énoncé du<br />

théorème suivant [12] qu’on n’avait que partiellement cité dans la section<br />

précédente.<br />

Théorème 3.9 (Développement asymptotique) sous les mêmes hypothèses<br />

que le théorème 3.4, ∀t ∈ [0, 1],<br />

<br />

π0t<br />

1<br />

F DR(t) =<br />

+ O √m , (3.30)<br />

π0t + (1 − π0)F (t)<br />

<br />

(1 − π0)(1 − F (t))<br />

1<br />

F NR(t) =<br />

+ O √m · (3.31)<br />

(1 − π0)(1 − F (t)) + (π0)(1 − t)<br />

41


Éléments de preuve :<br />

La preuve [12] de ces résultats repose essentiellement sur deux points dont<br />

le premier a déjà été rencontré dans la preuve du contrôle du FDR par la<br />

procédure BH (preuve du théorème 3.3 en annexe).<br />

1. <br />

i∈S0 1 {Pi≤t} ∼ B(m0, t) <strong>et</strong> <br />

i∈S1 1 {Pi≤t} ∼ B(m − m0, F (t)) ,<br />

(cf. préliminaire 3.1.1)<br />

2. F DR(t) <br />

E[F P (t)]<br />

E[R(t)] ·<br />

<br />

Comme dans la partie précédente, (3.30) <strong>et</strong> la condition E[F DR(t)] ≤ α<br />

F (t) 1−α π0<br />

1<br />

impliquent que quand m → ∞, t ≥ α = β − 1−π0 α ·<br />

D’où en appliquant à c∗ , le seuil optimal, il vient que<br />

F (u ∗ )<br />

u ∗<br />

− F (c∗ )<br />

c ∗<br />

1<br />

= · (3.32)<br />

α<br />

F (t)<br />

Remarque : Avec une hypothèse de concavité sur F, on a que t ↦→ t est<br />

décroissante, d’où u∗ < c∗ . D’ailleurs, plus α va être p<strong>et</strong>it, plus l’écart entre<br />

u∗ <strong>et</strong> c∗ va croître : la conservativité de la procédure BH est d’autant plus<br />

limitante que α est p<strong>et</strong>it.<br />

Dans la partie 3.3, nous avons défini les processus aléatoires FDP<br />

<strong>et</strong> le FNP dont nous avons tiré des renseignements en étudiant leur<br />

comportement à t fixé. L’étude quand m → ∞ de ces quantités en tant<br />

que processus nous fournit d’autres informations, à caractère plus global,<br />

quant à la qualité du contrôle exercé sur le FDR : il est possible d’obtenir<br />

les lois limites de ces processus, puis de déduire de celles-ci des intervalles<br />

ou domaines de confiance.<br />

3.4 Limites de processus : normalité asymptotique<br />

<strong>et</strong> intervalles de confiance<br />

Nous revenons à présent à la structure classique d’indépendance entre les<br />

probabilités critiques. Dans un premier temps, nous allons aborder la convergence<br />

de processus empiriques déjà mentionnés tels que (F DP (t)) t∈[0,1], vers<br />

des processus gaussiens.<br />

3.4.1 Préliminaires : outils de base pour l’étude des processus<br />

Dans la suite, nous allons nous placer dans le cas d’un modèle de mélange<br />

avec les notations de la partie 2.1.<br />

Remarque : Il est également possible tout en conservant les résultats énoncés<br />

42


ultérieurement, de travailler avec un modèle hiérarchique qui constitue un<br />

raffinement dont nous avons choisi de ne pas parler ici.<br />

De nombreux résultats de c<strong>et</strong>te partie, centrée sur l’étude de la convergence<br />

de processus, s’appuient essentiellement sur deux choses :<br />

(a) l’inégalité de Dvor<strong>et</strong>zky, Kiefer, Wolfowitz <strong>et</strong> Massart (appelée<br />

inégalité DKWM dans ce qui suit),<br />

(b) les ”approximations fortes”.<br />

Nous allons faire un rappel de ces deux points maintenant.<br />

D’abord, l’inégalité DKWM nous renseigne quant à la vitesse de convergence<br />

de la fonction de répartition empirique associée à des variables i.i.d.<br />

vers la fonction de répartition de ces variables.<br />

Théorème 3.10 (Inégalité DKWM) Soit X1, . . . , Xn, . . . des variables<br />

aléatoires sur un espace de probabilités, indépendantes <strong>et</strong> identiquement distribuées,<br />

de fonction de répartition F .<br />

Soit Fn, la fonction de répartition empirique de ces variables.<br />

Alors<br />

∀x ∈ [0, 1], P r( Fn − F ∞> x) ≤ 2e −2x2<br />

. (3.33)<br />

Remarque : On récupère ainsi le théorème de Glivenko-Cantelli grâce à ce<br />

résultat qui est beaucoup plus précis puisqu’il quantifie la probabilité de<br />

convergence à une vitesse donnée.<br />

Ensuite, on donne un résultat ”d’approximation forte”. Il s’agit d’un<br />

type d’approximation reliant processus empirique <strong>et</strong> processus gaussien. On<br />

rappelle juste avant la<br />

Définition 3.5 (Pont brownien <strong>et</strong> F-pont brownien) Un pont brownien<br />

est un processus gaussien (Bt)t = (B(t))t centré, défini sur [0, 1], de<br />

fonction de covariance<br />

∀(s, t), Γ(s, t) = cov(Bs, Bt) = s ∧ t − st.<br />

Pour F, fonction de répartition, le F-pont brownien BF est défini par<br />

BF (t) = B ◦ F (t),<br />

d’où une fonction de répartition associée<br />

On a donc le<br />

∀(s, t), Γ(s, t) = cov(BF (s), BF (t)) = F (s) ∧ F (t) − F (s)F (t).<br />

Théorème 3.11 (Approximation forte) Soit F, une fonction de<br />

répartition. Alors,<br />

43


– il existe un espace de probabilités <strong>et</strong> des variables aléatoires i.i.d.<br />

X1, . . . , Xn, . . . ∼ F sur c<strong>et</strong> espace,<br />

– il existe une suite de F-ponts browniens Bn tels que<br />

lim sup<br />

n→∞<br />

√ n<br />

(log n) 2 √ n(Fn − F ) − Bn ∞< ∞ p.s. . (3.34)<br />

Au passage, tous les éléments de la suite (Bn)n ayant même loi, ce théorème<br />

implique la convergence en loi de √ n(Fn − F ) vers un F-pont brownien<br />

(théorème de Donsker) <strong>et</strong> donne une idée de la vitesse de convergence<br />

O (log n) 2 / √ n . Nous attirons l’attention du lecteur sur le fait qu’il n’y<br />

a pas indépendance entre la suite de F-ponts browniens exhibée <strong>et</strong> les variables<br />

aléatoires (Xi) à partir desquelles ils sont construits.<br />

3.4.2 Asymptotique des estimateurs de π0 <strong>et</strong> F , convergence<br />

du FDP<br />

Identifiabilité du modèle Dans le cadre habituel de modèle de mélange,<br />

on a supposé connue F0 = U (fonction de répartition de la loi uniforme),<br />

tandis que F1 = F reste à estimer. Deux options sont alors possibles :<br />

soit on choisit une version paramétrique du modèle de mélange où F1<br />

est supposée appartenir à une ou plusieurs familles paramétriques, soit<br />

on décide d’estimer F1 de façon non-paramétrique (estimateur à noyau).<br />

Dans ce qui suit, nous allons considérer le cas non-paramétrique. Ainsi,<br />

F ∈ F, où F représente une famille donnée de fonctions de répartition :<br />

F = {H/H ≥ U, H concave}. Afin de rester assez général dans notre<br />

propos, nous allons aborder le problème de l’identifiabilité du modèle qui se<br />

pose ici dès que notamment F est trop riche.<br />

Enfin, tout ce qui suit concernant les processus est basé sur l’article de<br />

Genovese <strong>et</strong> Wasserman [13].<br />

Hypothèses <strong>et</strong> notations :<br />

On pose<br />

(i) F ∈ F,<br />

(ii) OF<br />

déf<br />

= { (b, H) ∈ [0, 1]×F/ F = (1−b)U +bH }. F est par définition<br />

”identifiable” si OF = {(1, F )}.<br />

(iii) ζ = inf{b / (b, H) ∈ OF },<br />

(iv)<br />

(v)<br />

F −(1−ζ)U<br />

F = ζ ,<br />

a = aζ où a = 1 − π0.<br />

Remarques :<br />

– (ii) indique que H dépend de b.<br />

– ζ quantifie en quelques sortes l’écart entre F <strong>et</strong> H. Si ζ = 1, H = F.<br />

44


– le passage de π0 à a perm<strong>et</strong> de localiser le problème sur le coefficient<br />

de la fonction de répartition associée à H1. De plus, a sous-estime a<br />

(ζ ≤ 1).<br />

– F est la fonction de répartition ”visible” (à laquelle on a accès) dans<br />

le cas non-identifiable, lorsqu’on ne connaît pas la proportion du<br />

mélange. En eff<strong>et</strong> dans ce cas, Genovese <strong>et</strong> Wasserman en 2004 [13]<br />

ont montré qu’on ne peut espérer mieux que d’estimer le minorant a<br />

de la proportion de gène H1.<br />

Les derniers points sont, du moins partiellement, justifiés par les égalités<br />

suivantes :<br />

G = (1 − a)U + aF ,<br />

= (1 − aζ)U + aζF ,<br />

= (1 − a)U + a F .<br />

Il est bon de remarquer pour la suite de l’exposé que nous avons également :<br />

⇒<br />

G = (1 − a)U + a F<br />

G(t) − t G(t) − t<br />

a = ≥ ·<br />

F (t) − t 1 − t<br />

(3.35)<br />

D’ailleurs, il est possible d’exprimer a en fonction de G uniquement [13].<br />

Nous avons rédigé une preuve de ce résultat en annexe.<br />

Proposition 3.1 (Grandeurs accessibles) Si la loi des probabilités critiques<br />

sous H1 est absolument continue <strong>et</strong> si F ≥ U, alors<br />

ζ = 1 − inf<br />

t F ′ (t) <strong>et</strong> a = 1 − inf<br />

t G′ (t).<br />

Remarques :<br />

– Pour justifier l’hypothèse F ≥ U, on peut remarquer que les probabilités<br />

critiques des gènes sous H1 sont proches de 0 lors du test de<br />

H0 contre H1. Ainsi, la contribution de ces probabilités critiques est<br />

la plus forte au voisinage de 0, tandis qu’elle est quasi-nulle loin de<br />

0. La fonction de répartition G vérifie G(1) = 1 <strong>et</strong> la pente de la<br />

droite vers laquelle elle tend près de 1 est π0 ≤ 1, puisque loin de 0<br />

G(t) π0t + (1 − π0). C’est pourquoi, il paraît raisonnable de poser<br />

pour G : G ≥ U = Id. Ainsi, G étant combinaison convexe de U <strong>et</strong> F,<br />

on a de même F ≥ U = Id.<br />

– On pourrait néanmoins imaginer des fonctions de répartition F pour<br />

lesqelles la condition F ≥ U ne serait pas vérifiée.<br />

– De plus, on voit bien que le lieu de pente la plus faible pour la fonction<br />

de répartition G n’est certainement pas situé au voisinage de 0.<br />

45


Intervalle de confiance pour la proportion<br />

Nous pouvons ensuite donner un intervalle de confiance pour a tout en<br />

sachant que a = a dans le cas identifiable.<br />

Théorème 3.12 Soit ˆ G(t) = (Gm(t) ∨ t), ɛm > 0 <strong>et</strong><br />

Alors,<br />

De plus,<br />

a ∗ = max<br />

t<br />

∀(a, F ), P ra,F ( a ∈ [a ∗ , 1] ) ≤ 1 − α + 2<br />

ˆG(t) − t − ɛm<br />

1 − t<br />

inf<br />

a,F P ra,F ( a ∈ [a ∗ , 1] ) ≥ 1 − α. (3.36)<br />

∞<br />

j=1<br />

·<br />

(−1) j+1 ( α<br />

2 )j2<br />

+ O<br />

<br />

(log m) 2<br />

√<br />

m<br />

(3.37)<br />

Remarques :<br />

– le terme de reste peut dépendre de a <strong>et</strong> F .<br />

– c<strong>et</strong> intervalle de confiance reste valable pour a même dans le cas nonidentifiable<br />

puisque a ≤ a.<br />

– la relation (3.36) donne un résultat d’uniformité : avec grande probabilité,<br />

a appartient à un certain intervalle de confiance, <strong>et</strong> ce, pour<br />

tout couple (a, F ).<br />

– Quant à (3.37), nous attirons l’attention du lecteur sur le fait que c<strong>et</strong>te<br />

majoration n’est pas informative contre toute apparence. En eff<strong>et</strong>, il ne<br />

faut pas se laisser prendre par l’écriture trompeuse adoptée par Genovese<br />

<strong>et</strong> Wasserman car le premier terme pour j = 1 de la somme provenant<br />

de la <strong>statistique</strong> de Kolmogorov-Smirnov vaut α <strong>et</strong> compense<br />

donc strictement le −α qui le précède. De plus, la série étant une série<br />

alternée à décroissance rapide, seuls ses premiers termes comptent.<br />

Ainsi, on obtient finalement une borne en 1 − α 4 /8, ce qui vaut quasiment<br />

1 (pour un niveau de contrôle de 10 −2 , on a une majoration en<br />

1 − 10 −8 /8) !<br />

– la forme de l’estimateur G est due à la remarque de la proposition<br />

précédente de laquelle on tire que G ≥ U. Il va alors de soi qu’une<br />

amélioration de l’estimateur Gm est possible en adoptant la forme de<br />

G requise.<br />

Preuve partielle :<br />

La preuve découle de l’inégalité DKWM pour la première relation <strong>et</strong>,<br />

pour la deuxième, à la fois du théorème 3.11 (approximation forte), <strong>et</strong> de<br />

46


la distribution asymptotique de la <strong>statistique</strong> de Kolmogorov-Smirnov que<br />

nous rappelons ci-après :<br />

∀x > 0, P r( B ∞ > x) = 2<br />

∞<br />

(−1) j+1 e −2j2x2 ,<br />

i=1<br />

où B représente un pont brownien standard.<br />

Ainsi pour ce qui est de la minoration uniforme, on a<br />

a < a ∗ ⇒ a √ √ Gm(t) − G(t)<br />

m < sup m +<br />

t 1 − t<br />

√ √<br />

G(t) − t ɛm m<br />

m −<br />

1 − t 1 − t<br />

⇒ a √ √ Gm(t) − G(t)<br />

m < sup m +<br />

t 1 − t<br />

√ ma − ɛm<br />

√<br />

m<br />

(approximation de Storey)<br />

1 − t<br />

⇒ √ √<br />

m(Gm − G) ∞> ɛm m.<br />

Remarque : La seconde implication découle de la relation (3.35).<br />

Alors, il vient<br />

P ra,F (a ≥ a ∗ ) ≥ 1−P ra,F ( √ m(Gm −G) ∞> ɛm<br />

par définition de ɛm <strong>et</strong> inégalité DKWM.<br />

<br />

Loi limite l’estimateur de Storey de la proportion<br />

√ m) ≥ 1−2e −2mɛ 2 m = α,<br />

Par ailleurs, il est possible d’obtenir un résultat de normalité asymptotique<br />

pour a0(λ) = 1 − π0(λ), ∀λ, où π0(λ) est l’estimateur de Storey de la<br />

proportion de gènes H0.<br />

Théorème 3.13 (Normalité asymptotique de a0(λ)) Soit λ ∈ (0, 1),<br />

<strong>et</strong><br />

<br />

Gm(λ) − λ<br />

a0(λ) =<br />

1 − λ<br />

·<br />

Si G(λ) > λ , alors<br />

a0(λ)<br />

<br />

√ G(λ) − λ<br />

m a0(λ) − (<br />

1 − λ )<br />

<br />

Si G(λ) = λ, on a<br />

avec N + une normale tronquée.<br />

P<br />

−−−−→<br />

m→∞<br />

N<br />

+<br />

G(λ) − λ<br />

≤ a ,<br />

1<br />

<br />

− λ<br />

G(λ)(1 − G(λ))<br />

0,<br />

(1 − λ) 2<br />

<br />

·<br />

√<br />

m a0(λ) 1<br />

2 δ0 + 1<br />

<br />

+<br />

N 0,<br />

2 λ<br />

<br />

,<br />

1 − λ<br />

47


Remarques : D’abord, la troncature de a0(λ) a pour but d’empêcher π0(λ)<br />

de dépasser 1 (proportion). Ensuite, on déduit d’une part que π0(λ) converge<br />

en probabilité vers un majorant de π0, <strong>et</strong> d’autre part nous avons des informations<br />

quant à la vitesse de convergence de π0(λ), ainsi que sur l’erreur<br />

commise en fonction de λ (terme de variance).<br />

Enfin, on peut obtenir des résultats analogues de convergence avec d’autres<br />

estimateurs de π0 à condition de renforcer les hypothèses de régularité de<br />

g, densité des probabilités critiques dans le modèle de mélange. Il faut<br />

également préciser que ces estimateurs (de Hengartner <strong>et</strong> Stark ou Swaenpoel)<br />

[13], sont consistants pour estimer a (donc a dans le cas identifiable),<br />

<strong>et</strong> non un simple minorant de a comme c’est le cas pour l’estimateur de<br />

Storey.<br />

Asymptotique de l’estimateur de F<br />

Il est très souvent utile de pouvoir estimer la fonction de répartition des<br />

probabilités critiques sous H1 : F. En eff<strong>et</strong>, nous avons vu que l’estimation de<br />

F intervient notamment lors de l’obtention d’estimateurs plug-in. De plus,<br />

outre le fait que F constitue une quantité plus facile d’accès que la densité<br />

correspondante, il peut être utile d’obtenir une estimation assez fine de F<br />

afin de déterminer le seuil λ à partir duquel F (x) = 1, ∀x ≥ λ. Enfin comme<br />

nous le verrons dans la suite, les variances dépendant de F inconnue, il peut<br />

être de bon de disposer d’un estimateur de F afin d’estimer l’erreur commise<br />

lors d’approximations asymptotiques.<br />

Pour cela, il existe diverses possibilités telles que les estimateurs à noyau,<br />

ou encore les fonctions de répartition empiriques. . . Nous avons choisi de<br />

présenter là un autre exemple d’estimateur de F fourni par Genovese <strong>et</strong><br />

Wasserman 2004 [13].<br />

Définition 3.6 (Estimateur par projection) Soit π0, un estimateur de<br />

π0. Soit G défini dans le théorème 3.12. Alors on définit<br />

F = argminH∈F G − (π0U − (1 − π0)H) ∞ .<br />

Il s’agit là de l’élément de F qui réalise le minimum de distance entre le<br />

convexe engendré par U <strong>et</strong> H, <strong>et</strong> l’estimateur de G.<br />

Nous obtenons alors le résultat de convergence suivant : pour tout estimateur<br />

a, consistant de a = 1 − π0, F converge en probabilités vers F.<br />

Théorème 3.14 (Consistance de F ) Soit a tel que a<br />

vient<br />

F − F ∞ ≤ G − G ∞ +| a − a |<br />

a<br />

P<br />

−−−−→ 0 .<br />

m→∞<br />

P<br />

−−−−→ a. Alors, il<br />

m→∞<br />

Remarque : Il n’est donc pas possible dans ce cas d’utiliser l’estimateur de<br />

Storey π0(λ) puisqu’il ne converge que vers un majorant de π0.<br />

48


Normalité asymptotique <strong>et</strong> FDP<br />

On dispose également de résultats sur la loi limite des processus F DP <strong>et</strong><br />

F NP , ce qui nous perm<strong>et</strong> d’obtenir entre autres des intervalles de confiance<br />

pour le F DR.<br />

Pour commencer, dans le cadre du modèle de mélange, une conséquence<br />

directe du théorème 2.1 est le lemme suivant énoncé par Genovese <strong>et</strong> Wasserman<br />

en 2004 [13], lemme qui va nous servir par la suite.<br />

Lemme 3.3 (Valeur du FDR(t)) On se place dans les hypothèses du<br />

modèle de mélange. On pose<br />

Alors, il vient<br />

Q(t) = π0t<br />

G(t) ,<br />

˜Q(t) = (1 − π0)(1 − F (t))<br />

1 − G(t)<br />

F DR(t) = Q(t)(1 − (1 − Q(t)) m ) , (3.38)<br />

F NR(t) = ˜ Q(t)(1 − G(t) m ) · (3.39)<br />

Il est à noter que ce point découle directement du corollaire 2.1.<br />

Ceci étant dit, on donne à présent le<br />

Théorème 3.15 (Distribution limite du FDP) Soit Z un processus<br />

gaussien sur (0, 1] centré <strong>et</strong> de fonction de covariance Γ telle que<br />

(1 − a)stF (s ∧ t) + aF (s)F (t)(s ∧ t)<br />

∀t, s ∈ (0, 1], Γ(s, t) = a(1 − a)<br />

G2 (s)G2 ·<br />

(t)<br />

Alors, on a<br />

√ m (F DP (t) − Q(t)) Z , ∀t ∈ [δ, 1]. (3.40)<br />

Remarques :<br />

– On isole le cas t = 0 car Γ n’y est pas définie.<br />

– 1 − (1 − G(t)) m −−−−→ 1, d’où F DR(t) −−−−→ Q(t). Une conséquence<br />

m→∞<br />

m→∞<br />

du lemme 3.3 est que le théorème indique alors que F DP (t)<br />

converge en loi vers un processus gaussien de moyenne F DR∞(t) =<br />

limm→∞F DR(t).<br />

– On constate que la variance du processus limite dépend de F qui est<br />

inconnue <strong>et</strong> qu’il faut donc estimer si on veut une idée de l’erreur<br />

commise à la limite, en fonction de t. Cela constitue une nouvelle<br />

justification de la recherche d’un estimateur de F.<br />

– Le même type de résultat peut être obtenu avec F NP (t) <strong>et</strong> ˜ Q.<br />

49<br />

·


Nous donnons en annexe une preuve détaillée de ce résultat, preuve dont<br />

les grandes lignes apparaissent dans [13]. Ce théorème nous semble très<br />

important en cela qu’il décrit en l’infini le comportement du F DP (t) en<br />

donnant de surcroît la vitesse de convergence. Il sera donc possible, dans<br />

les cas où m est grand, de procéder à une approximation du F DP (t) par<br />

sa limite.<br />

Nous signalons que la preuve de ce résultat est basée sur les notions de<br />

méthode-δ <strong>et</strong> de Fréch<strong>et</strong>-différentiabilité. Nous rappelons c<strong>et</strong>te dernière :<br />

Définition 3.7 (Fréch<strong>et</strong> différentiabilité) Soit D <strong>et</strong> E, des espaces vectoriels<br />

normés. On pose Φ, une application telle que Φ : D → E. Soit θ ∈ D<br />

un paramètre <strong>et</strong> DΦ un sous-espace de D contenant θ. Alors, l’application<br />

Φ est dite Fréch<strong>et</strong> différentiable si ∃Φ ′ θ (h)<br />

vérifiant<br />

: D → E, linéaire <strong>et</strong> continue<br />

( Φ(θ + h) − Φ(θ) ) − Φ ′ θ E= o( h ), ∀h ↓ 0. (3.41)<br />

Un autre estimateur naturel dans le cas du modèle de mélange est Q(t) =<br />

π0(λ)t/Gm(t), où π0(λ) est l’estimateur de Storey [13]. On dispose également<br />

pour c<strong>et</strong> estimateur d’un résultat de normalité asymptotique.<br />

Théorème 3.16 Soit W un processus gaussien centré de fonction de covariance<br />

définie par : ∀s, t ∈ (0, 1] <strong>et</strong> λ ∈ [0, 1],<br />

Alors,<br />

t<br />

K(s, t) =<br />

2<br />

(1 − λ) 2G(s) 2G(t) 2<br />

<br />

G(s)G(t)λ(1 − λ)<br />

+ G(t)[1 − G(λ)](s ∧ λ − sλ) + G(s)[1 − G(λ)](t ∧ λ − tλ)<br />

+ [1 − G(λ)] 2 <br />

(s ∧ t − st) .<br />

où G(t) = Gm(t) ∨ t .<br />

√ <br />

π0(λ)t<br />

<br />

m − Q(t) W , (3.42)<br />

G(t)<br />

Ceci confirme la possibilité d’utiliser l’estimateur de Storey F DRλ(t), pour<br />

approcher le FDR asymptotiquement <strong>et</strong> obtenir par exemple des enveloppes<br />

de confiance pour celui-ci. Nous fournirons des résultats su ces enveloppes<br />

dans la partie suivante, dans le cadre des champs aléatoires.<br />

Remarque :<br />

Il existe deux méthodes qui fournissent des enveloppes de confiance pour<br />

le processus FDP. Ces méthodes sont décrites par Genovese <strong>et</strong> al.[13]. Au<br />

50


passage, précisons que le terme d’”enveloppe” est justifié par la nature même<br />

de processus du FDP. En eff<strong>et</strong> à ω fixé, celui-ci représente une fonction définie<br />

sur [0, 1], <strong>et</strong> c’est le graphe de c<strong>et</strong>te fonction que nous devons circonscrire.<br />

Il faut voir que le contrôle du FDR n’assure pas pour autant celui du FDP.<br />

Un tel contrôle est fourni par une enveloppe de confiance qui quantifie la<br />

taille de la queue de répartition de la loi du FDP.<br />

3.5 Champs aléatoires<br />

Jusqu’ici, nous avons rencontré le cas de processus indexés par t ∈ [0, 1]<br />

<strong>et</strong> à valeur dans R. Dans un article de 2004, Pacifico, Genovese, Verdinelli<br />

<strong>et</strong> Wasserman [15] ont étendu le cadre d’étude à des processus indexés<br />

par s ∈ S, où S est un ensemble donné, ces processus étant à valeurs<br />

dans R 2 . Précisons immédiatement que les champs aléatoires constitue une<br />

extension assez naturelle du cadre précédent mais qu’en aucun cas, ceux-ci<br />

ne constituent une réelle innovation. Nous appliquerons pour ainsi dire les<br />

mêmes techniques qu’auparavant afin d’obtenir les relations souhaitées.<br />

Cependant, les champs aléatoires semblent être un domaine de recherche<br />

incontournable par leurs nombreuses applications en médecine (imagerie)<br />

<strong>et</strong> en astrophysique notamment.<br />

Il est également possible, dans le cas où S ⊂ R, d’appliquer les résultats<br />

obtenus ci-après pour S, un sous-ensemble d’un ensemble donné de probabilités<br />

critiques au sein duquel on cherche à contrôler les faux positifs.<br />

Modèle :<br />

Soit donc X = {X(s)/s ∈ S}, un champ aléatoire tel que<br />

∀s, E(X(s)) = µ(s) ≥ 0.<br />

Problème :<br />

∀s ∈ S, on pratique le test unilatéral de l’hypothèse H0 : µ(s) = 0 contre<br />

H1 : µ(s) > 0.<br />

Soit S0 = {s/µ(s) = 0} <strong>et</strong> S1 = {s/µ(s) > 0}. L’objectif étant de détecter<br />

S1, on cherche à déterminer un seuil adaptatif T (X) qui fournisse un<br />

ensemble de rej<strong>et</strong> RT = {s ∈ S/ X(s) ≥ T (X)}, en vue d’estimer S1.<br />

Remarques :<br />

– L’idée est donc de déclarer H1 les points s tels que X(s) dépasse un<br />

seuil à déterminer. En plus de remplir c<strong>et</strong>te fonction, un seuil adaptatif<br />

a la propriété de prendre en compte les données <strong>et</strong> donc de mieux<br />

s’adapter au cas particulier de chaque jeu de données.<br />

– Il est possible de s’affranchir de l’hypothèse de moyenne positive de<br />

même que de pratiquer un test bilatéral tout en conservant les résultats<br />

qui vont être énoncés.<br />

51


Par analogie avec le cadre habituel présenté jusqu’ici, on définit le FDP<br />

comme suit.<br />

Définition 3.8 (FDP pour un champ aléatoire)<br />

F DP (t) = λ(S0 ∩ Rt)<br />

,<br />

λ(Rt)<br />

où λ(.) désigne la mesure de comptage dans le cas où S est discr<strong>et</strong> <strong>et</strong> celle<br />

de Lebesgue sinon.<br />

Remarques :<br />

– t représente ici <strong>et</strong> dans ce qui suit le seuil T (X) = t = cste.<br />

– dans c<strong>et</strong>te définition, le F DP (t) quantifie la proportion de la surface<br />

rej<strong>et</strong>ée qui est H0.<br />

Une alternative possible dans le cas d’un champ est le repérage des zones de<br />

rej<strong>et</strong> en faisant intervenir des clusters.<br />

Définition 3.9 (Cluster négatif au niveau τ) Un cluster C ⊂ S est dit<br />

négatif au niveau 0 ≤ τ ≤ 1 si<br />

λ(S0 ∩ C)<br />

λ(C)<br />

> τ .<br />

Typiquement, ce cas de figure va apparaître si S0 ⊂ C. Ainsi, C sera un<br />

cluster négatif au niveau τ si l’intersection entre C <strong>et</strong> S0 est trop grande :<br />

c’est une partie qui a peu de chances d’être H1. C<strong>et</strong>te définition donne lieu<br />

à l’introduction de nouvelles quantités : le F CPτ <strong>et</strong> le F CRτ .<br />

Remarque : de façon générique, on désigne par T une procédure de seuillage.<br />

Définition 3.10 (F CPτ <strong>et</strong> F CRτ ) Avec les mêmes notations que celles<br />

définies précédemment, on décompose RT en ses composantes connexes<br />

C1, . . . , CmT . Alors<br />

F CPτ (T ) = ♯{1 ≤ k ≤ mT / λ(S0∩Ck)<br />

λ(Ck)<br />

F CRτ (T ) = E(F CPτ (T )) .<br />

mT<br />

> τ}<br />

,<br />

Il faut noter que le nombre de composantes connexes de RT dépend de T<br />

puisque c’est le cas de RT . Ainsi, le F CPτ (T ) est un processus aléatoire<br />

qui représente la proportion de composantes connexes de RT qui sont des<br />

clusters négatifs au niveau τ. On peut voir le F CRτ comme un analogue du<br />

F DR, analogue pour lequel on raisonne non plus sur un nombre de gènes<br />

52


H0 ou H1, mais sur le nombre de composantes connexes de RT qui sont des<br />

clusters négatifs ou non. Typiquement en imagerie médicale, on cherche à<br />

déterminer des taches ou des zones (connexes) lumineuses en astrophysique.<br />

D’autre part, le problème paraît plus compliqué pour le F CRτ (T ) en cela<br />

qu’il dépend de deux seuils là où le F DR(T ) ne dépend que de T.<br />

53


Stratégie :<br />

1. Dans un premier temps, on cherche à produire un ensemble de<br />

confiance pour S0 : U, tel que<br />

pour un α donné.<br />

P r(S0 ⊂ U) ≥ 1 − α,<br />

2. Ensuite, on exhibe une enveloppe de confiance pour les champs<br />

aléatoires F DP <strong>et</strong> F CPτ qui sont inaccessibles : F DP <strong>et</strong> F CPτ .<br />

3. Enfin de ces enveloppes de confiance, on tire une procédure (un seuil)<br />

qui garantit un certain contrôle pour la ou les quantités d’intérêt.<br />

3.5.1 Construction d’un super-ensemble<br />

On appellera super-ensemble, le 1 − α-ensemble de confiance U, mentionné<br />

ci-avant. Nous allons maintenant préciser la <strong>statistique</strong> de test<br />

utilisée, de même que la construction de ce super-ensemble.<br />

Pour tout ensemble A ⊂ S, on désire tester au niveau α<br />

Pour cela, on utilise la <strong>statistique</strong><br />

H0 : A ⊂ S0 contre H1 : A ⊂ S0.<br />

X(A) = sup X(s).<br />

s∈ A<br />

Un ensemble a une chance d’être inclus dans S0 si la plus grande valeur<br />

prise sur c<strong>et</strong> ensemble par le champ étudié n’est pas trop grande.<br />

Soit<br />

C = {A ⊂ S/A n ′ est pas rej<strong>et</strong>é}<br />

= {A ∈ S/P r(X(A) ≥ x(A)) ≥ α},<br />

où x(A) est la réalisation de X(A). Une première idée consiste alors à prendre<br />

U = <br />

A<br />

A∈ C<br />

qui se trouve bien être un 1 − α-ensemble de confiance d’après le<br />

Théorème 3.17 (Super-ensemble de confiance pour S0) Soit U =<br />

<br />

A∈ C A. Alors, U est un 1 − α-super-ensemble de confiance pour S0 :<br />

P r(S0 ⊂ U) ≥ 1 − α.<br />

54


Toutefois, la détermination effective de U nécessitant le parcours de tous<br />

les sous-ensembles de S, c<strong>et</strong>te approche ne soit pas réalisable dès que S est<br />

assez grand <strong>et</strong> a fortiori pour S infini.<br />

On a donc recours à l’algorithme suivant, calculable en un temps raisonnable.<br />

Dans un premier temps, on s’intéresse à ce qui se passe pour une partition<br />

donnée de S, avant de généraliser au cas d’un suite de partitions vérifiant une<br />

certaine propriété. Soit S1, . . . , SN, une partition de S. Aucune hypothèse<br />

sur la dépendance des <strong>statistique</strong>s n’est faite, la seule exigence étant que les<br />

sup j∈J X(Sj) sous H0 soient calculables pour tout J ⊂ {1, . . . , N}.<br />

Algorithme :<br />

1. on calcule les réalisations des x(Sj), j = 1, . . . , N.<br />

2. on les ordonne par ordre décroissant les x (1) ≥ . . . ≥ x (N) qui correspondent<br />

aux S (1), . . . , S (N).<br />

3. pour k = 1, . . . , N,<br />

(a) on pose Vk = N j=k S ((j)).<br />

(b) on calcule les P r(X(Vk) ≥ x (k)).<br />

(c) si P r(X(Vk) ≥ x (k)) ≥ α, on pose V ∗ = Vk, sinon, on passe à<br />

k + 1.<br />

Remarques :<br />

– Le super-ensemble V ∗ obtenu est associé à la partition initiale de S.<br />

– Les étapes (3.b) <strong>et</strong> (3.c) coîncident dans l’approche adoptée avec celle<br />

de la BH-procédure.<br />

– Les S (i) formant une partition de S, on a<br />

P r(X(Vk) ≥ x (k)) = P r( max<br />

i≥k X(S (i)) ≥ x (k) )<br />

= P r(X(S (k)) ≥ x (k)) (par définition des S (i)).<br />

Justifications de l’algorithme :<br />

Il faut d’abord se rappeler qu’on cherche le plus p<strong>et</strong>it 1 − α-ensemble de<br />

confiance pour S0 à partir de la partition adoptée. On remarque ensuite que<br />

le cas k = 1 donne que V ∗ = S, qui est le plus grand 1 − α-ensemble de<br />

confiance accessible. Puis à l’étape suivante si celle-ci est possible, il paraît<br />

raisonnable de r<strong>et</strong>irer S (2), l’élément de la partition pour lequel la <strong>statistique</strong><br />

de test est la plus grande <strong>et</strong> donc celui pour lequel il est le moins<br />

vraisemblable qu’il soit contenu dans S0 <strong>et</strong>c. . ., d’où l’étude des ensembles<br />

( <br />

i≥k S (i)) k∈{1,...,N}. Au passage, c<strong>et</strong>te idée justifie l’utilisation des <strong>statistique</strong>s<br />

d’ordre plutôt que celle de n’importe quelle autre permutation. Enfin,<br />

les relations (3.43) impliquent que pour V ∗ = V (k),<br />

{S0 ⊂ V ∗ } = {P r(X(V ∗ ) ≥ x(V ∗ ))} = {P r(X(S (k)) ≥ x (k))},<br />

55


d’où le sens de l’étape (3.c).<br />

On considère à présent une suite de partitions (Sn)n∈N ∗ = ( (Sn i )i )n∈N ∗.<br />

Sous certaines conditions que nous allons définir à présent, on obtient un<br />

super-ensemble de confiance de niveau 1 − α.<br />

Définition 3.11 (Suite dégénérée de partitions) ∀s ∈ S, Sn,s est<br />

l’élément de la partition (Sn i )i contenant s. on dit que la suite de partitions<br />

(Sn)n∈N∗ est dégénérée si<br />

∀s ∈ S, <strong>et</strong> ∀ Osvoisinage de s, ∃ n/ Sn,s ⊂ Os.<br />

On choisit donc une suite décroissante de partitions au sens de l’inclusion.<br />

À tout n correspond alors une partition Sn ainsi qu’un super-ensemble de<br />

confiance Un, déterminé par l’algorithme précédent. On pose alors successivement<br />

Cn = A = <br />

/ P r(X(A) ≥ x(A)) ≥ α ,<br />

<strong>et</strong> Un = <br />

A∈ Cn<br />

Sj∈ Sn<br />

A .<br />

Alors, Pacifico, Genovese, Verdinelli <strong>et</strong> Wasserman [15] ont obtenu le<br />

Théorème 3.18 (Super-ensemble pour ◦<br />

S0) Soit une suite décroissante<br />

dégénérée de partitions (Sn)n. Alors limn→∞ Un existe <strong>et</strong><br />

<strong>et</strong><br />

P r( ◦<br />

S0 ⊂ lim<br />

n→∞ Un) ≥ 1 − α ,<br />

P r(S0 ⊂ U) ≥ 1 − α ,<br />

avec U est l’adhérence de limn→∞ Un.<br />

3.5.2 Enveloppes de confiance<br />

Ayant exhibé notre super-ensemble U, on définit F DP <strong>et</strong> F CPτ :<br />

Définition 3.12 (F DP <strong>et</strong> F CPτ ) Pour tout seuil T, on a<br />

F DP (T ) = λ(U ∩ RT )<br />

λ(RT )<br />

F CPτ (T ) = ♯{1 ≤ k ≤ mT / λ(U∩Ck)<br />

λ(Ck)<br />

mT<br />

où les Ck sont les composantes connexes de RT .<br />

56<br />

> τ}<br />

,


Remarque : Il faut noter que ces deux quantités sont les analogues des F DP<br />

<strong>et</strong> F CP , dans lesquels on a remplacé le S0 inconnu par le super-ensemble<br />

de confiance U. Ceci a alors pour eff<strong>et</strong> de fournir des ”bornes calculables”<br />

pour ces deux variables aléatoires.<br />

3.5.3 Seuils pour un contrôle donné<br />

Il vient alors finalement les résultat suivant qui fournissent un contrôle<br />

des deux grandeurs d’intérêt du problème ainsi posé.<br />

Théorème 3.19 (Procédure de seuillage) Avec les mêmes notations<br />

que ce qui précède, on prend 0 < α, τ < 1. alors<br />

1. ∀c ∈ (0, α), <strong>et</strong> pour γ = (α − c)/(1 − c), soit<br />

Alors Tc satisfait<br />

Tc = inf{t / F DP (T ) ≤ c}.<br />

F DR(Tc) ≤ α.<br />

2. Avec Tτ,c = inf{t/ F CP τ (t) ≤ c}, il vient<br />

3.6 Bilan intermédiaire<br />

F CRτ (Tτ,c) ≤ α.<br />

La taille de c<strong>et</strong>te partie est due à la grande quantités des résultats obtenus<br />

dans le cadre très commode des processus <strong>stochastique</strong>s : il s’agit là<br />

incontestablement de la partie la plus aboutie. Nous avons ainsi pu exploiter<br />

les théorèmes déjà existant pour ces structures afin d’obtenir des résultats<br />

intéressants pour le FDR. Malgré c<strong>et</strong>te longueur, nous pouvons dégager plusieurs<br />

idées fortes.<br />

1. avec le modèle de mélange, l’utilisation de la loi binomiale suivie par<br />

certaines variables aléatoires élémentaires a permis à de nombreuses<br />

reprises d’obtenir de façon simple des résultats non triviaux (preuve<br />

du contrôle du FDR par la procédure BH,. . .).<br />

2. la cas non identifiable du modèle de mélange est à prendre en compte,<br />

mais on se place le plus souvent dans le cas plus commode de l’identifiabilité,<br />

quitte à restreindre l’ensemble F sur lequel on travaille.<br />

3. l’estimateur de Storey de la proportion π0(λ) est un estimateur croissant<br />

par morceaux, <strong>et</strong> biaisé de π0. Néanmoins, on dispose de nombreux<br />

résultats le concernant, notamment dus à sa forme qui fait intervenir<br />

les différentes fonctions de répartition empiriques des probabilités critiques.<br />

57


4. l’approximation du FDR qui constitue la base d’un grand nombre de<br />

résultats est que le FDR est de l’ordre de grandeur du rapport des<br />

espérances de F P <strong>et</strong> R.<br />

5. il est possible <strong>et</strong> utile de déterminer les lois limites des processus<br />

d’intérêt (approximation).<br />

6. enfin, une stratégie couramment exploitée consiste à trouver dans un<br />

premier temps un majorant ou une enveloppe de confiance afin de<br />

déterminer dans un second temps un seuil assurant un contrôle au<br />

niveau souhaité.<br />

Cependant, même si ces problèmes ont été déjà bien rebattus, il demeure<br />

des points à approfondir :<br />

– Certains estimateurs de π0 ont des propriétés de convergence mal ou<br />

pas connues. La qualité de l’estimation de π0 fait encore défaut bien<br />

que ce soit le véritable enjeu de notre problème.<br />

– Il est peut-être possible d’exploiter l’estimation de F de façon à<br />

déterminer la zone de validité pour l’approximation de Storey.<br />

– les cas où f0 n’est pas continue ou les cas de dépendance sont encore<br />

mal connus.<br />

– quantification de l’écart entre procédure plug-in générale (λ = 0) <strong>et</strong><br />

seuil optimal.<br />

58


Chapitre 4<br />

Minimisation sous contrainte<br />

Dès l’article fondateur du FDR de Benjamini <strong>et</strong> Hochberg en 1995 [4],<br />

ceux-ci expliquent que leur objectif est de concevoir une procédure qui, tout<br />

en contrôlant le FDR au niveau α, va maximiser le nombre de gènes rej<strong>et</strong>és,<br />

cela correspondant à la volonté d’obtenir une procédure qui soit la plus<br />

puissante possible. Ce point fait d’ailleurs l’obj<strong>et</strong> de leur second théorème<br />

où ils expliquent que la BH-procédure est solution d’un certain problème<br />

d’optimisation :<br />

Théorème 4.1 (BH-procédure <strong>et</strong> optimisation) La BH-procédure est<br />

solution du problème de maximisation sous contrainte : choisir t de façon à<br />

maximiser le nombre de rej<strong>et</strong>s R(t) sous la contrainte ≤ α.<br />

m t<br />

R(t)<br />

Nous allons à présent présenter certains résultats démontrés en adoptant<br />

c<strong>et</strong>te vision du problème. De plus, celle-ci est intimement liée dans ce qui<br />

va suivre à la classification non-supervisée pour divers risques que nous<br />

préciserons au fil de l’exposé.<br />

La présentation de c<strong>et</strong>te approche est assez succinte car ce point de vue<br />

reste quelque peu marginal en ce sens qu’il n’a pas fourni, jusqu’à présent,<br />

de résultat majeur. Nous ne ferons que mentionner ou ne rendrons compte<br />

que de c<strong>et</strong>ains résultats ou approches rencontrés.<br />

4.1 Approche asymptotique<br />

4.1.1 Motivation de l’approche<br />

Nous avons expliqué dès le début que m0 est inconnu. Ce fait donne lieu à<br />

des procédures trop conservatives telles que la procédure BH <strong>et</strong> est à l’origine<br />

de l’estimation de π0. C<strong>et</strong>te trop grande conservativité des procédures donne<br />

lieu à une perte de puissance. Vient alors l’idée de maximiser la puissance<br />

de la procédure tout en conservant un contrôle du FDR au niveau α pour<br />

s’assurer d’un contrôle des faux positifs. Remarque :<br />

59


Une grande puissance revient à se tromper peu pour les gènes H1, i.e.<br />

en espérance, la proportion<br />

♯{gènes H1 non-rej<strong>et</strong>és}<br />

♯{ gènes non-rej<strong>et</strong>és}<br />

doit être p<strong>et</strong>ite.<br />

D’où la nécessité de minimiser le False Non-discovery Rate :<br />

déjà défini auparavant.<br />

4.1.2 Heuristique<br />

T (t)<br />

F NR(t) = E(<br />

| m0),<br />

(m − R(t)) ∨ 1<br />

Tout d’abord dans le papier de Genovese <strong>et</strong> Wasserman de 2002, nous<br />

avons obtenu des développements limités au voisinage de l’infini pour m du<br />

FDR <strong>et</strong> du FNR à un seuil c donné dans le théorème 3.9. A partir de ces<br />

résultats, on peut faire le raisonnement suivant.<br />

Puisque seulce qui se passe à l’infini nous intéresse, on peut négliger les<br />

1<br />

termes en O √m . Puis la relation (3.31) montre que la partie principale<br />

du développement limité, qui correspond à ce que nous noterons F NR∞(c)<br />

est une fonction décroissante de c. Ainsi, chercher à minimiser en t F NR(t)<br />

sous la contrainte que F DR(t) ≤ α où α est un niveau de contrôle prédéfini<br />

revient à choisir le seuil t maximum tel que F DR(t) ≤ α, voire tel que<br />

F DR(t) = α. Ceci nous ramène à la relation que doit vérifier le seuil optimal<br />

c ∗ , relation déjà mentionnée (3.32) :<br />

F (c ∗ )<br />

c ∗<br />

4.2 Risque conditionnel<br />

1<br />

= β −<br />

α ·<br />

Une autre modélisation du problème consiste à minimiser un certain<br />

risque faisant intervenir les FNR <strong>et</strong> FDR, tout en conservant un contrôle<br />

donné sur le FDR. C<strong>et</strong> aspect est à rapprocher de méthodes de classification<br />

non-supervisée. En eff<strong>et</strong>, on dispose de la donnée d’expression d’un certain<br />

nombre de gènes qu’on souhaite répartir dans deux populations distinctes,<br />

sans disposer dans le cas général pour certains d’entre-eux de données a<br />

priori qui nous perm<strong>et</strong>traient de faire de la classification supervisée.<br />

Dans ces conditions, on choisit une fonction de perte de la forme<br />

Lλ(H0, p, r) = F NP (H0, p, r) + λF DP (H0, p, r),<br />

avec H0 qui représente le vecteur des H0(i), i = 1, . . . , m, <strong>et</strong> p, celui des<br />

probabilités critiques ordonnées. λ > 0 peut être soit spécifié par l’utilisateur,<br />

soit déterminé par des méthodes basées sur les données. On imagine<br />

60


ici que λ est ici fixé par l’utilisateur. Quant à r, il s’agit de la procédure qui<br />

va perm<strong>et</strong>tre de classer les gènes étudiés. Le risque qui découle s’écrit alors<br />

Rλ(r) = ErLλ(H0, p, r)<br />

= F NR(r) + λF DR(r),<br />

où Er désigne l’espérance prise pour la procédure r considérée. L’objectif<br />

est ici de trouver la procédure r qui va minimiser ce risque.<br />

Remarque : La forme de ce risque vient du besoin de résoudre le problème<br />

de minimisation du FNR sous la contrainte F DR(r) ≤ α. Dans ce cadre, λ<br />

peut être vu comme un multiplicateur de Lagrange.<br />

Partant de ceci, la stratégie de Genovese <strong>et</strong> Wasserman en 2002 est la suivante.<br />

Ils choisissent de considérer dans un premier temps un risque conditionnel<br />

:<br />

Rλ(r | p) = Er[ Lλ(H0, p, r) | p ].<br />

À partir de là, trouver une procédure optimale r∗ pour le risque conditionnel<br />

ci-avant nous fournit, en intégrant par rapport à p une procédure optimale<br />

pour le risque Rλ. Remarque :<br />

Pour ce qui est de la détermination de λ, il est également possible de le<br />

choisir de façon que Er[ F DP (r) | p ] soit aussi proche que possible de α.<br />

Par contre, faire de même pour ErF DP (r) n’est pas du tout trivial puisque<br />

ceci est plus ou moins équivalent à connaître précisément la valeur du F DR,<br />

chose qu’on cherche à faire.<br />

4.3 Erreur de Bayes pondérée<br />

On se place dans le cadre du modèle de mélange pour lequel ∀i ∈<br />

{1, . . . , m}, H0(i) ∼ B(1 − π0). Soit<br />

∀i, φλ(i) = (1 − λ)1 {H0(i)=0} + λ1 {H0(i)=1}.<br />

Définition 4.1 (Risque de Bayes pondéré) Avec les notations précédentes,<br />

le risque de Bayes pondéré au seuil t vaut pour le gène i :<br />

γλ(t) = E[ φλ(i)1 {gt(Pi)=H0(i)} ],<br />

où gt(Pi) = 1 {Pi≤t} est le prédicteur de la classe du gène i.<br />

Comme on peut le constater, il s’agit du risque associé à un fonction de<br />

perte qui pénalise par λ ou 1 − λ les erreurs de classification suivant qu’il<br />

s’agisse respectivement d’un faux négatif ou d’un faux positif. Ce point est<br />

d’ailleurs explicité dans la proposition suivante.<br />

Proposition 4.1 (Pondération suivant le type d’erreur) Aussitôt, il<br />

vient que pour tout t dans [0, 1],<br />

∀i = 1, . . . , m, γλ(t) = (1−λ)P r(Pi ≤ t, H0(i) = 0)+λP r(Pi > t, H0(i) = 1).<br />

61


Remarque :<br />

Si on écrit γλ(t) en faisant intervenir des régions de rej<strong>et</strong> bâties non plus à<br />

partir probabilités critiques, mais plutôt à partir des <strong>statistique</strong>s de test, on<br />

obtient le fait suivant énoncé par Storey en 2002 : ∀λ ∈ [0, 1], la quantité<br />

γλ(Γ) = (1 − λ)P r(T ∈ Γ, H0(i) = 0) + λP r(T ∈ Γ, H0(i) = 1),<br />

où Gamma est une région de rej<strong>et</strong> <strong>et</strong> T est la <strong>statistique</strong> de test, est minimisée<br />

en Γ par<br />

Bλ = { t/fdr(t) ≤ λ } ,<br />

où fdr désigne comme dans le chapitre 2 le FDR local.<br />

62


Chapitre 5<br />

FDR <strong>et</strong> seuillage<br />

Nous avons déjà vu que l’étude du FDR pouvait être menée sous<br />

différents points de vues dont chacun fournit un certain type de renseignements.<br />

Notamment, le cadre originel est de déterminer la procédure optimale<br />

qui fournit un contrôle du FDR, quelle que soit la répartition des gènes<br />

entre les deux classes H0 <strong>et</strong> H1, (différentiellement ou non-différentiellement<br />

exprimés). Notamment, en considérant les probabilités critiques associées<br />

au test pratiqué, la région de rej<strong>et</strong> obtenue est classiquement de la forme<br />

{Pi ≤ t}, où t appartient à [0, 1]. Ainsi dans ce cas, déterminer la procédure<br />

optimale revient à la recherche d’un seuil optimal. Le problème peut alors<br />

être reformulé de la sorte : étant données un ensemble de m probabilités<br />

critiques, déterminer le seuil au-dessous duquel on peut rej<strong>et</strong>er l’hypothèse<br />

H0. On peut y voir <strong>et</strong> notamment Abramovich <strong>et</strong> Benjamini en 1995 [1] y<br />

ont vu des analogies avec les méthodes de seuillage employées entre autres<br />

pour l’analyse des ondel<strong>et</strong>tes.<br />

Dans ce chapitre, nous allons successivement présenter un résultat de minimaxité<br />

asymptotique uniforme concernant l’estimateur FDR que nous<br />

définirons plus tard, puis comparer brièvement les performances de c<strong>et</strong> estimateur<br />

avec celles d’estimateurs obtenus à partir de minimisation de critères<br />

pénalisés.<br />

L’objectif que nous nous sommes fixé ici est de présenter certains résultats<br />

issus du rapprochement entre F DR <strong>et</strong> critères pénalisés. C<strong>et</strong>te approche est<br />

relativement récente (cf.[1],[2]) <strong>et</strong> n’a pas été encore très développée. Cependant,<br />

nous avons jugé profitable de présenter, sans trop de technicité,<br />

l’origine des critères pénalisés utilisés en sélection de modèle de façon à être<br />

en mesure d’expliquer les performances de ceux-ci, face à celles du FDR.<br />

63


5.1 Minimaxité asymptotique de l’estimateur<br />

FDR<br />

5.1.1 Cadre mathématique du problème<br />

On dispose des réalisations y d’un vecteur aléatoire Y ∈ R m , tel que :<br />

∀i = 1, . . . , m , Yi = µi + σmɛi,<br />

⎧<br />

⎨ ɛi ∼ N (0, 1) iid<br />

avec σm connu .<br />

⎩<br />

µi ∈ R<br />

De plus, on sait que le vecteur µ ∈ Rm possède m0 > 0 composantes nulles<br />

parmi m, sans pour autant connaître la localisation de celles-ci ou même<br />

m0.<br />

L’objectif par conséquent est donc d’estimer µ tout en déterminant la localisation<br />

de ses composantes nulles.<br />

Remarque : Dans leur article de 2000, Abramovich, Benjamini, Donoho<br />

<strong>et</strong> Johnstone ont étendu le champ d’application de ce qui va suivre en<br />

définissant une notion d’évanescence vérifiée par le vecteur µ.<br />

Définition 5.1 (Evanescence) Avec les notations de ce qui précède, nous<br />

dirons qu’un vecteur µ est évanescent dans les trois cas suivant :<br />

1. La plupart des coefficients de µ sont nuls. On définit alors µ 0=<br />

♯{i/ µi = 0}, ainsi que<br />

ℓ0[η] = {µ ∈ R m / µ 0≤ ηm}, (5.1)<br />

où η représente la proportion de composantes non nulles.<br />

2. Il y a une très faible proportion de composantes significativement<br />

différentes de zéro η. Typiquement, on s’intéresse à des boules mp[η] =<br />

{µ ∈ R m /|µ| (k) ≤ C · k<br />

− 1<br />

3. µ appartient à des boules ℓp :<br />

avec un η p<strong>et</strong>it.<br />

p , k = 1, . . . , m},<br />

ℓp[η] = {µ ∈ R m / 1<br />

m<br />

m<br />

|µi| p ≤ η p },<br />

Dans la suite, on ne s’intéressera essentiellement qu’au premier cas<br />

d’évanescence.<br />

Une première idée pour estimer µ serait de prendre y. Par ailleurs, l’intuition<br />

est de décréter une composante µi nulle si |µi| ≤ t, où t est un<br />

seuil à déterminer. On associe alors ces deux idées dans les méthodes de<br />

64<br />

i=1


seuillage sous la forme du seuillage doux <strong>et</strong> du seuillage fort (soft <strong>et</strong> hard<br />

thresholding). Le seuillage doux (”soft thresholding”) consiste à prendre<br />

µ s i,t(y) = sign(yi) (|yi| − t) + , ∀i ∈ {1, . . . , m},<br />

tandis que le seuillage dur (hard thresholding) impose un estimateur de µ<br />

de la forme<br />

∀i = 1, . . . , m, µ h i,t(y) = yi 1 {|yi|≥t}. (5.2)<br />

On constate que la contribution de la composante yi à l’estimation µi est<br />

atténuée pour le seuillage doux tandis que yi contribue pleinement dans<br />

le seuillage dur. Ceci a pour eff<strong>et</strong> d’atténuer les écarts entre composantes<br />

nulles <strong>et</strong> celles qui ne le sont pas. Par ailleurs, µ s i,t est continue tandis que<br />

µ h i,t ne l’est pas. Nous verrons dans les dernières parties de ce chapitre que<br />

ces deux types d’estimateurs par seuillage conduisent à des propriétés <strong>et</strong><br />

ont des comportements asymptotiques analogues. En conséquence, nous<br />

nous intéresserons pour ce qui suit au seuillage dur pour lequel les résultats<br />

souhaités ont été démontrés.<br />

L’objectif dans ce qui suit est de bâtir un estimateur appelé estimateur<br />

FDR construit sur le modèle de la BH-procédure, <strong>et</strong> de montrer que celui-ci<br />

a un comportement assez proche de celui d’un estimateur de type seuillage<br />

dur obtenu à partir d’un certain critère pénalisé.<br />

5.1.2 Critère pénalisé<br />

Dans un premier temps, on ordonne les réalisations yi par ordre<br />

décroissant :<br />

y (1) ≥ y (2) ≥ . . . ≥ y (m).<br />

Nous reviendrons plus tard sur ce point.<br />

L’objectif est de trouver un critère qui fixe le rang à partir duquel les y (i)<br />

sont trop p<strong>et</strong>ites pour être non nulles. Par exemple, on peut regarder ce qui<br />

se passe pour le contraste empirique classique<br />

=<br />

m <br />

y(i) − µ (i),t(y) 2 k=1<br />

<br />

i/|y (i)|≥t<br />

= 0 + <br />

= <br />

i≥k<br />

y(i) − µ (i),t(y) 2 + <br />

i/|y (i)|


où k est le plus grand entier tel que y (k) ≥ t.<br />

L’objectif habituel <strong>et</strong> de chercher à minimiser ce contraste en t, i.e. puisqu’on<br />

travaille avec des entiers, trouver l’entier qui le minimise. On voit bien que<br />

ce raisonnement appliqué à (5.3) conduit immédiatement à choisir k = m,<br />

ce qui correspond classiquement à un cas d’over-fitting ou sur-ajustement<br />

aux données. En eff<strong>et</strong>, on choisirait l’estimateur qui vaut y. Il s’agit donc de<br />

pénaliser notre critère à minimiser pour parer ce problème.<br />

D’où le critère suivant à minimiser en k :<br />

m<br />

critm(k) = |y (i)| 2 + pen(k). (5.4)<br />

i=k+1<br />

Le sens de c<strong>et</strong>te expression est que le terme de pénalisation pen(k) compense<br />

la tendance à choisir un k grand. Ce terme doit être calibré de façon à<br />

ce que minimiser ce critère perm<strong>et</strong>te de trouver un compromis entre un<br />

estimateur très proche des données <strong>et</strong> en même temps suffisamment général<br />

pour s’adapter à d’autres réalisations. La minimisation nous fournit un<br />

entier k.<br />

Il reste donc à préciser ce terme de pénalisation. Nous discuterons ce<br />

point ultérieurement. Néanmoins, nous pouvons dores <strong>et</strong> déjà préciser que<br />

c’est l’origine de l’estimateur FDR que nous allons construire à présent qui<br />

va déterminer la forme de notre pénalité.<br />

5.1.3 Estimateur FDR <strong>et</strong> estimateur par critère pénalisé<br />

Seuil FDR<br />

D’abord, dans le cadre de la procédure BH, nous considérions les probabilités<br />

critiques ordonnées par ordre croissant p (1) ≤ . . . ≤ p (m). La définition<br />

de la probabilité critique : soit Z un e variable aléatoire de même loi que Yi,<br />

alors pi = P r(|Z| ≥ |yi|) donne alors immédiatement que les |yi| sont rangées<br />

dans l’ordre décroissant, d’où l’ordonnancement dans la section précédente.<br />

Puis, nous devons nous souvenir que d’une part pour notre problème, les<br />

Yi ∼ N (µi, σ 2 m) <strong>et</strong> que d’autre part, nous définissions kF DR par<br />

Alors, ∀i = 1, . . . , m, il vient<br />

kF DR = max{i/ p (i) ≤ iα<br />

m }.<br />

p (i) ≤ iα<br />

m<br />

⇔ P r(|Z| ≥ |y| (i)) ≤ iα<br />

m<br />

⇔ P r(Z ≥ |y| (i)) ≤ iα<br />

2m<br />

66<br />

(symétrie de la loi de Z). (5.5)


Puis, on définit ti par la relation<br />

∀i = 1, . . . , m, P r(Z ≥ ti) = 1 − Φ( ti<br />

σm<br />

) déf<br />

= iα<br />

, (5.6)<br />

2m<br />

où Φ représente la fonction de répartition d’une normale centrée réduite. ti<br />

est donc le quantile de niveau 1 − αi<br />

2 m .<br />

La relation (5.5) devient donc équivalente à<br />

ce qui donne pour kF DR :<br />

P r(Z ≥ |y| (i)) ≤ 1 − Φ( ti<br />

σm<br />

) = P r(Z ≥ ti),<br />

kF DR = max{i/ |y| (i) ≥ ti}. (5.7)<br />

Tout comme dans la procédure BH, on rej<strong>et</strong>te dès que la i-ième probabilité<br />

critique est inférieure au quantile de niveau iα/m, on décide ici de rej<strong>et</strong>er<br />

dès que la i-ème <strong>statistique</strong> |y| (i) dépasse ti.<br />

Dans la suite, nous noterons kF pour kF DR. Ceci donne lieu à la définition<br />

suivante :<br />

Définition 5.2 (Seuil FDR) Avec les notations de ce qui précède, on appelle<br />

seuil FDR la quantité notée tF définie par<br />

tF = tbkF = σm Φ −1<br />

<br />

1 − <br />

kF α<br />

. (5.8)<br />

2m<br />

La motivation d’une telle construction est que le FDR étant adaptatif par<br />

nature, le seuil FDR va lui même s’adapter aux données, d’où une bonne<br />

confiance dans les seuils obtenus.<br />

Par conséquent, il est possible de définir l’estimateur FDR à partir du<br />

seuillage dur, estimateur qui hérite des propriétés d’adaptivité du seuil FDR.<br />

Définition 5.3 (Estimateur FDR) Nous appellerons estimateur FDR,<br />

l’estimateur noté µF défini par<br />

Détermination de la pénalité<br />

∀i = 1, . . . , m, µF,i = yi1 {|yi|≥btF } .<br />

Nous avions précédemment laissé de côté le choix de la pénalité. C’est<br />

ce dont nous allons nous occuper à présent de façon à exhiber l’estimateur<br />

par critère pénalisé.<br />

C<strong>et</strong>te pénalité doit faire intervenir des quantités positives pour compenser<br />

67


la tendance à choisir de grands k, de même que ces quantités doivent être<br />

de taille comparable à celle des k<br />

i=1 (yi) 2 . L’un des objectifs de Abrmovich<br />

<strong>et</strong> al.[2] étant d’établir un parallèle entre le seuil FDR <strong>et</strong> les seuils obtenus<br />

par critère pénalisé, ils proposent d’écrire le terme de pénalité sous la forme<br />

pen(k) =<br />

k<br />

i=1<br />

t 2 i , (5.9)<br />

puisque les ti sont comparables en taille aux y (i) <strong>et</strong> sont déterminés par la<br />

relation (5.6) qui donne :<br />

∀i, ti = σmΦ −1 (1 − iα<br />

). (5.10)<br />

2m<br />

À partir des ti définis ci-avant (5.10) <strong>et</strong> de la pénalité (5.9), on obtient<br />

explicitement le critère pénalisé à minimiser en k :<br />

critm(k) = y − µk 2 2 +pen(k) (5.11)<br />

=<br />

m<br />

y 2 (i) +<br />

k<br />

t 2 i .<br />

i=k+1<br />

L’interprétation du rôle de la pénalité, qui sert de justification à la forme<br />

de celle-ci, est la suivante. Pour i grand (voisin de m), |y| (i) ≤ ti. La<br />

conséquence est qu’on fait décroître le critère en remplaçant le plus<br />

grand ti de la somme par le |y| (i) correspondant. Pareillement quand i<br />

est p<strong>et</strong>it, |y| (i) ≥ ti : le critère diminue en remplaçant |y| (i) par ti. Le<br />

critère va donc privilégier les k intermédiaires, <strong>et</strong> même l’entier k pour<br />

lequel on ne gagnera plus rien en changeant <strong>et</strong> un ti en |y| (i), <strong>et</strong> un |y| (i) en ti.<br />

La minimisation de ce critère donne lieu à un k2, lieu du minimum (absolu).<br />

De façon analogue au cas de l’estimateur FDR, on définit à présent l’estimateur<br />

suivant.<br />

Définition 5.4 (Estimateur par critère pénalisé) On définit l’estimateur<br />

par critère pénalisé associé à critm par<br />

i=1<br />

∀i = 1, . . . , m, µ2,i = yi1 {|yi|>bt2} . (5.12)<br />

Remarque :<br />

L’indice 2 de la notation fait référence à l’exposant qui intervient dans les<br />

sommes du critère pénalisé. En fait, on le reverra plus tard, mais le résultat<br />

principal de minimaxité qui va suivre a notamment l’intérêt d’être valable<br />

pour une large gamme d’exposants r.<br />

68


5.1.4 Résultats<br />

La construction qui précède ayant été réalisée en partie dans l’article de<br />

Abramovich <strong>et</strong> Benjamini de 1995 [1], celle-ci a été poursuivie <strong>et</strong> complétée<br />

dans le travail de Abramovich, Benjamini, Donoho <strong>et</strong> Johnstone en 2000<br />

[2], publication dans laquelle apparaissent divers résultats que nous allons<br />

voir ci-après.<br />

Minimum local<br />

Tout d’abord, on cherche à établir un lien entre l’estimateur FDR, µF <strong>et</strong><br />

l’estimateur par critère pénalisé µ2. L’objectif est de montrer que ces deux<br />

estimateurs sont proches voire égaux dans beaucoup de cas.<br />

On arrive alors à donner la<br />

Proposition 5.1 (Minimum local le plus à droite) Conformément<br />

aux notations adoptées jusqu’ici,<br />

(i) kF est le lieu du minimum local le plus à droite de k ↦→ critm(k),<br />

(ii) k2 est le lieu du minimum absolu pour critm(.).<br />

Preuve :<br />

On note par commodité k pour kF .<br />

Soit k ′ > k.<br />

Alors ∃ i ∈ N/k ′ = k + i.<br />

Il vient que<br />

critm(k ′ ) = critm(k + i)<br />

= critm(k) +<br />

k+i<br />

l=k+1<br />

t 2 l −<br />

k+i<br />

l=k+1<br />

y 2 (l)<br />

<br />

>0<br />

puisque par définition de k, ∀k ′′ > k, |y| (k ′′ ) < tk ′′.<br />

Alors<br />

∀k ′ > k, critm(k ′ ) > critm(k).<br />

Enfin, si k ′ = k − 1 est un minimum local, il vient que<br />

critm(k − 1) ≤ critm(k),<br />

ce qui implique par définition de k que |y (k)| = tk.<br />

Alors,<br />

critm(k ′ m<br />

) = y 2 (l) +<br />

k−1<br />

= critm(k).<br />

l=k+1<br />

69<br />

l=1<br />

t 2 l + t2 k<br />

,


Donc k = kF est bien le minimum local le plus à droite de critm.<br />

<br />

Remarques :<br />

– En règle général, k2 <strong>et</strong> kF sont égaux. Cependant, un exemple de cas<br />

où c<strong>et</strong>te égalité n’a pas lieu est le cas où on dispose d’ex aequo à<br />

l’occasion d’un rééchantillonage par exemple.<br />

– Le raisonnement mené pour la . 2 peut être mené pour toute . r,<br />

avec r ∈ (0, 2], en ayant soin de changer la pénalité en conséquence.<br />

Uniforme minimaxité asymptotique<br />

On en arrive à présent au résultat très technique qui a motivé tout la<br />

partie qui précède. Pour cela, nous donnons au préalable quelques notations.<br />

Soit Θm, l’un quelconque des trois types de boules auxquelles peut appartenir<br />

le vecteur µ dans la définition de l’évanescence (5.1).<br />

On définit le pire risque sur Θm par<br />

ρ(µ, Θm) = sup Eµ µ − µ <br />

µ∈Θm<br />

r r .<br />

Enfin, on donne le plus p<strong>et</strong>it, sur tous les µ, des pires risques : le risque<br />

minimax<br />

Rm(Θm) = inf<br />

bµ ρ(µ, Θm).<br />

Alors Abramovich, Benjamini, Donoho <strong>et</strong> Johnstone en 2000 [2] montrent le<br />

Théorème 5.1 (Uniforme minimaxité asymptotique) Avec les notations<br />

précédentes, soit αm le niveau de contrôle du FDR. Alors pour 0 ≤<br />

p < r ≤ 2 <strong>et</strong> ηm ∈ [ log5 (m)<br />

m , m−δ ], δ > 0, il vient<br />

<br />

Rm(Θm) ≤ ρ(µF , Θm) ≤ Rm(Θm) 1 + (r − p) αm<br />

<br />

+ om→∞(1) . (5.13)<br />

1 − αm<br />

On constate que pour un contrôle qui se renforce lorsque m tend vers l’infini<br />

(αm −−−−→<br />

m→∞ 0),<br />

ρ(µF , Θm) ∼m→∞ Rm(Θm).<br />

De plus, non seulement ce résultat prouve la minimaxité asymptotique<br />

pour l’estimateur FDR (il est le meilleur asymptotiquement), mais il donne<br />

également l’uniformité de ce résultat en ce sens que ce résultat demeure<br />

pour tous les r ∈ (0, 2] en même temps <strong>et</strong> diverses vitesses de décroissance<br />

de l’évanescence ηm. Il faut noter qu’ici, ”meilleur” est à comprendre dans le<br />

sens suivant : c<strong>et</strong> estimateur fait aussi bien asymptotiquement que l’oracle<br />

Rm(Θ) lorsque αm → 0.<br />

Enfin, comme nous l’avons mentionné, ce théorème repose sur le résultat<br />

suivant :<br />

70


Théorème 5.2 (Uniformité) Avec les notations du théorème précédent,<br />

on a<br />

sup |ρ(µF , µ) − ρ(µ2, µ)| = om→∞ (Rm(Θm)) . (5.14)<br />

µ∈Θm<br />

Ainsi, c’est la minimaxité asymptotique de µ2 qui donne celle de µF .<br />

5.2 Comparaison seuil-FDR <strong>et</strong> seuils obtenus par<br />

critères pénalisés<br />

Au cours de la section ci-avant, nous avons choisi d’écrire la pénalité sous<br />

la forme<br />

k<br />

pen(k) = t 2 i .<br />

Dans ce cas précis, on dispose d’une relation perm<strong>et</strong>tant soit de passer d’une<br />

famille de (ti) à une pénalité, c’est ce que nous avons fait pour définir notre<br />

critère pénalisé, soit de déterminer la forme des ti à partir d’une pénalité<br />

fixée. C<strong>et</strong>te relation est la suivante :<br />

i=1<br />

ti = pen(i) − pen(i − 1). (5.15)<br />

Celle-ci s’avère centrale dans ce qui suit puisqu’elle nous perm<strong>et</strong> de<br />

comparer les résultats d’estimateurs obtenus à partir de certains critères<br />

pénalisés avec ceux de l’estimateur FDR. Ainsi, la justification de c<strong>et</strong>te<br />

comparaison vient notamment du papier de 2000 dans lequel Abramovich<br />

<strong>et</strong> al.[2] nous montrent à quel point l’utilisation d’un seuil qui s’ajuste mal<br />

aux données peut être dramatique. C’est pourquoi nous allons comparer<br />

brièvement les performances de l’estimateur FDR, adaptatif par nature,<br />

avec celles d’estimateurs obtenus à partir de critères pénalisés. Notamment<br />

dans le cadre de travail que nous nous sommes donné, nous disposons de<br />

divers critères, chacun correspondant à un type de pénalité donnée. On<br />

s’intéresse plus particulièrement à la pénalité de Donoho <strong>et</strong> Johnstone<br />

penDJ(k) = 2kσ2 m log(m), ainsi qu’à celle de Birgé <strong>et</strong> Massart de type<br />

penBM(k) = kσ2 <br />

m<br />

m 1 + 2 log( k ) .<br />

Nous allons dans la suite nous attarder quelque peu sur la façon d’obtenir<br />

ces deux types de pénalités ainsi que sur les résultats qui en découlent, ce<br />

qui pourra nous renseigner quant à l’adaptativité des seuils qui leur sont<br />

associés.<br />

Remarque :<br />

Dans la suite, on se placera exactement dans le cadre décrit précédemment :<br />

on observe des réalisations (yi)i=1,...,m, de variables aléatoires (Yi) définies<br />

par<br />

71


∀i = 1, . . . , m , Yi = µi + σmɛi,<br />

⎧<br />

⎨ ɛi ∼ N (0, 1) iid<br />

avec σm<br />

⎩<br />

µi<br />

connu<br />

∈ R<br />

.<br />

5.2.1 Pénalité de Donoho <strong>et</strong> Johnstone<br />

C’est dans un rapport technique de Donoho <strong>et</strong> Johnstone daté de 1992<br />

[9] que la pénalité souhaitée penDJ = 2σmk log(n) trouve son origine. Ce<br />

papier a en fait pour obj<strong>et</strong> l’amélioration des résultats classiques obtenus<br />

par projection sur des espaces de polynômes associés à une partition <strong>et</strong>c. . .,<br />

dans la reconstruction d’une fonction d’origine à partir d’un signal bruité<br />

en utilisant des bases d’ondel<strong>et</strong>tes. Dans la perspective des auteurs, ces<br />

améliorations notables sont rendues possibles par la production de résultats<br />

minimax, i.e. d’inégalités oracles qui montrent que les estimateurs de type<br />

seuillage dur sont en un certain sens les meilleurs dans l’estimation du<br />

vecteur µ.<br />

Forme de l’estimateur <strong>et</strong> risque idéal<br />

Seuillage dur D’abord, il paraît nécessaire de rappeler que nous nous<br />

trouvons dans le cas où un certain nombre de composantes de µ sont nulles<br />

ou suffisamment p<strong>et</strong>ites en module pour être négligeables. Ceci constitue la<br />

justification du souhait de proj<strong>et</strong>er µ sur un sous-espace de façon, à ne garder<br />

idéalement que les composantes significatives. C<strong>et</strong>te procédure de projection<br />

doit être valable pour tout µ ∈ R m . On en arrive alors à la conclusion<br />

que le choix des composantes à conserver dépend de l’ordre de celles-ci. En<br />

considérant que si une composante a un niveau de signal inférieur au bruit<br />

σm, on peut la considérer comme nulle (seuil possible parmi d’autres), on ne<br />

conservera que les composantes de module supérieur au niveau σm du bruit<br />

qui parasite l’information. D’où l’”oracle” (procédure d’estimation idéale)<br />

suivant<br />

∀i = 1, . . . , m, µ o σm,i = yi1 {|µi|>σm}. (5.16)<br />

Remarque : L’indice ”o” a pour vocation de signifier qu’il s’agit d’un Oracle.<br />

À partir de l’estimateur µ = y, le raisonnement précédent bâtit un estimateur<br />

µ o σm qui ne conserve la composante de y que si la composante correspondante<br />

de µ, à laquelle nous n’avons pas accès, est suffisamment grande.<br />

L’oracle nous sert donc, au sein d’une famille de procédures possibles, à fabriquer<br />

celle qui sera la plus adaptée à la vraie valeur du paramètre à estimer<br />

sans pour autant avoir accès à celui-ci.<br />

Dans un second temps, nous allons chercher à mimer l’oracle précédemment<br />

obtenu de façon que l’écart entre µ <strong>et</strong> le nouvel estimateur soit voisin de<br />

72


celui entre µ <strong>et</strong> l’oracle (qui estime le mieux µ). Or, le seul paramètre inconnu<br />

dans l’expression de l’oracle est µi. On le remplace donc naturellement<br />

par yi, seule valeur dont nous disposions, ce qui nous donne l’estimateur de<br />

seuillage dur suivant pour lequel le seuil est à fixer de façon optimale selon<br />

le critère adopté<br />

∀i = 1, . . . , m, ∀t ∈ (0, 1), µ h t,i(y) = yi1 {|yi|>t}. (5.17)<br />

Remarque :<br />

Au passage, on peut mentionner que le choix de y pour estimer µ n’est pas<br />

anodin. En eff<strong>et</strong> Wolfowitz en 1950 a établi que Y est minimax pour estimer<br />

µ avec Y ∼ N (µ, σ 2 ).<br />

Risque idéal Pour ce qui nous intéresse, nous considérerons la perte quadratique<br />

classique. Un estimateur µ quelconque aura donc un risque associé<br />

Par conséquent, on a la<br />

R(µ, µ) = E µ − µ 2 2 . (5.18)<br />

Définition 5.5 (Risque idéal) en conservant les mêmes notations, nous<br />

appellerons risque idéal le risque calculé pour l’oracle<br />

R o σm (µ) = E µo σm − µ 22 =<br />

m<br />

(µ 2 i ∧ σ 2 m). (5.19)<br />

i=1<br />

Dans la suite, on notera Ro σm (µ) = Rσm(µ).<br />

Inégalité oracle <strong>et</strong> pénalité<br />

A l’origine, Donoho <strong>et</strong> Johnstone en 1992 ont obtenu des résultats minimax<br />

pour des estimateurs de type seuillage doux, puis ont établi un théorème<br />

donnant l’extension des propriétés précédentes pour le seuillage dur.<br />

Soit d’abord l’estimateur de type seuillage doux<br />

Il vient alors le théorème suivant<br />

µ s t,i(y) = sign(yi)(|yi| − t) + .<br />

Théorème 5.3 (Inégalité oracle) En conservant les notations<br />

précédentes, pour le seuil t de µ s t(y), on pose<br />

<br />

t = tm = σm 2 log m.<br />

Alors, on obtient l’inégalité oracle<br />

sup<br />

µ∈R m<br />

E µ s tm (y) − µ 2 2<br />

Rσm(µ) + σ 2 m<br />

≤ 2 log(m) (1 + om→∞(1)) . (5.20)<br />

73


Ainsi à un facteur 2 log(m) près, l’estimateur par seuillage doux µ s t se<br />

comporte, en termes de risque, aussi bien que l’oracle plus le terme de<br />

variance <strong>et</strong> ce, uniformément sur R m .<br />

À partir de ce résultat, il paraît légitime de se demander si la borne<br />

en 2 log(m) est améliorable. Le théorème suivant répond alors à c<strong>et</strong>te<br />

question.<br />

Théorème 5.4 (Optimalité de la borne)<br />

inf<br />

bµ<br />

sup<br />

µ∈R m<br />

E µ − µ 2 2<br />

Rσm(µ) + σ 2 m<br />

∼ 2 log(m) . (5.21)<br />

Combiné avec la relation (5.20), ce résultat indique que tout amélioration de<br />

la borne en (2−ɛ) log(m), ɛ > 0 est impossible. Il ressort donc que parmi les<br />

types d’estimateurs décrits au début de la partie 5.2.1, µ s tm est le meilleur,<br />

au sens de celui qui mimer le mieux l’oracle.<br />

Enfin, la raison pour laquelle Donoho <strong>et</strong> Johnstone ont produit ces résultats<br />

pour le seuillage doux est que Bickel dans des travaux antérieurs en 1983<br />

avait étudié ce type d’estimateur. Cependant comme nous l’avons déjà dit,<br />

seuillage doux <strong>et</strong> dur se comportent à peu près de ma même façon, du moins<br />

en termes d’inégalités oracle <strong>et</strong> nous obtenons donc le résultat suivant :<br />

Théorème 5.5 (Inégalité oracle <strong>et</strong> seuillage dur) Avec les mêmes notations<br />

<strong>et</strong> pour un seuil λm voisin de σm 2 log(m), on a<br />

où Lm ∼ 2 log m <strong>et</strong><br />

pour γ > 0.<br />

sup<br />

µ∈R m<br />

E µ h λm (y) − µ 22 Rσm(µ) + σ2 m<br />

(1 − γ) log(log m) ≤ λ 2 m − 2 log m ≤ o(log m),<br />

≤ Lm , (5.22)<br />

En somme, les travaux de Donoho <strong>et</strong> Johnstone ont abouti à déterminer le<br />

seuil optimal pour lequel µ h √<br />

est le meilleur : σm 2 log m. C’est là essentiellement<br />

le sens des travaux de Donoho <strong>et</strong> Johnstone. Pour ce qui nous<br />

concerne, la pénalité recherchée va découler de ce seuil, mais n’est qu’artificielle<br />

puisqu’elle ne contribue pas au seuillage, mais est plutôt à appréhender<br />

comme un élément a posteriori qui perm<strong>et</strong> une comparaison avec d’autres<br />

critères pénalisés basés eux sur des pénalités. Ainsi en utilisant la même<br />

démarche que lors de la détermination du seuil FDR, on dispose d’un ensemble<br />

de seuils possibles : les ti. Puisqu’on désire que pour tout i, le seuil<br />

74


√<br />

soit optimal, on fixe alors tous les ti à σm 2 log m <strong>et</strong> on arrive ainsi à la<br />

pénalité souhaitée : ∀k ∈ {1, . . . , m},<br />

Remarques :<br />

penDJ(k) =<br />

k<br />

i=1<br />

t 2 i<br />

= 2kσm log m.<br />

– C’est donc le calcul du seuil optimal qui détermine la pénalité.<br />

– Il semble néanmoins que c<strong>et</strong>te façon de présenter les choses soit un<br />

peu artificielle puisque l’essentiel réside dans la détermination du seuil<br />

adéquat. L’intervention de la pénalité a plus pour vocation de fournir<br />

un moyen de comparaison entre les différentes approches par inégalités<br />

oracles.<br />

– Enfin, on remarque que le rang à partir duquel on ne considère plus<br />

les µi comme significatives n’intervient pas dans le seuil. Cela laisse<br />

penser que l’estimateur qui découle aura moins un caractère adaptatif<br />

que l’estimateur FDR par exemple.<br />

A présent, nous allons nous attacher à présenter le point de vue de Birgé<br />

<strong>et</strong> Massart qui déterminent d’abord, à la différence de Donoho <strong>et</strong> Johnstone,<br />

une pénalité dont on peut déduire ensuite un seuil optimal.<br />

5.2.2 Approche de Birgé <strong>et</strong> Massart<br />

Afin de présenter le point de vue de Birgé <strong>et</strong> Massart, nous allons<br />

pour un moment travailler dans un cadre un peu plus général qui<br />

est celui de la sélection de modèle. On adopte la présentation de Birgé<br />

<strong>et</strong> Massart, dans leur article de 1999 [8] ainsi que dans les notes de St Flour .<br />

Sélection de modèle<br />

Partant de notre problème d’estimation de µ ∈ R m , on pose M, une collection<br />

de sous-ensembles de {1, . . . , m}. Soit ensuite pour tout w ∈ M, Sw<br />

le sous-espace de R m engendré par les (ϕλ)λ∈w, où les ϕλ sont les vecteurs de<br />

la base canonique. À chaque Sw correspond l’entier Dw = |w| sa dimension,<br />

avec la convention que dans le cas w = ∅, Sw = {0} <strong>et</strong> Dw = 0.<br />

On donne ensuite la<br />

Définition 5.6 (Risque minimax) On définit le risque minimax de l’estimation<br />

de µ sur Sw par<br />

R(Sw, σ) = inf<br />

bµ<br />

sup<br />

µ∈Sw<br />

75<br />

Eµ µ − µ 2 ,


où . désigne la norme euclidienne.<br />

Remarque : la dépendance en σ vient du fait que tout µ est, par définition,<br />

fonction de Y qui dépend de σ.<br />

Stratégie :<br />

La raison d’être de notre collection de modèles M est la suivante. En<br />

pratique, il est parfois difficile de choisir entre différents types de modèles<br />

paramétriques que seraient censées suivre les variables d’intérêt. La sélection<br />

de modèle nous perm<strong>et</strong> de produire une procédure qui va choisir au sein<br />

d’une liste de modèles jugés vraisemblables, celui qui correspond le mieux<br />

au problème posé. On procède donc en deux étapes :<br />

1. pour chaque modèle w, on détermine le meilleur estimateur µw ∈ Sw<br />

dont le comportement va traduire la qualité d’approximation du<br />

modèle.<br />

2. on compare ensuite selon un critère donné la qualité des estimateurs<br />

pour chaque modèle de façon à déterminer ( w, µ bw) où w représente le<br />

modèle correspondant au meilleur estimateur.<br />

Choix du meilleur représentant pour Sw<br />

Dans ce qui suit, on note µw, la projection orthogonale de µ sur Sw.<br />

Dans la base des ϕλ, on a<br />

µw = <br />

〈µ, ϕλ〉.<br />

λ∈ w<br />

Cependant µ n’étant pas accessible, on remplace µ inconnue par Y de façon<br />

à obtenir une projection empirique de µ sur Sw :<br />

µw = <br />

〈Y, ϕλ〉. (5.23)<br />

λ∈ w<br />

Birgé <strong>et</strong> Massart montrent alors que c<strong>et</strong> estimateur est optimal du point de<br />

vue minimax <strong>et</strong> obtiennent<br />

Eµ µw − µ 2 = µw − µ 2<br />

+ σ<br />

<br />

(1)<br />

2 Dw ,<br />

<br />

(5.24)<br />

(2)<br />

qu’il s’agit donc de minimiser en w conformément à notre objectif.<br />

Remarque : Le premier terme est un terme de biais qui traduit la capacité<br />

du modèle w à approcher la vraie valeur µ. Le deuxième terme traduit la<br />

richesse du modèle : un modèle comportant par exemple un grand nombre<br />

de variables sera riche, mais fera croître la dimension Dw. Ainsi, on voit le<br />

compromis à trouver dans la recherche du meilleur modèle.<br />

76


Idée fondatrice : heuristique de Mallows<br />

Nous sommes cependant obligés de constater que µ étant inconnue, µw<br />

n’est pas non plus accessible. Mallows en 1964 a eu alors l’idée de réécrire<br />

(5.24) sous la forme<br />

µw − µ 2 + σ 2 Dw− µ 2 = − µw 2 + σ 2 Dw. (5.25)<br />

Bien que µw soit toujours autant inconnue, on dispose d’un estimateur sans<br />

biais de sa norme au carré :<br />

µw 2 − σ 2 Dw. (5.26)<br />

Ainsi au lieu de minimiser Eµ µw − µ 2 en m, on va chercher à minimiser<br />

le critère empirique suivant<br />

critσ(w) = crit(w) = − µw 2 +2 σ 2 Dw, (5.27)<br />

en ayant l’espoir que le w qui découle se rapproche du w(µ) idéal, calculé à<br />

partir de µ inconnue. Le critère qui va garantir c<strong>et</strong>te proximité est alors une<br />

inégalité oracle dans laquelle va intervenir le membre de droite de la relation<br />

(5.24). Dans la terminologie de Birgé <strong>et</strong> Massart, on a<br />

Définition 5.7 (Oracle) on notera ao(µ, σ) l’oracle défini par<br />

<br />

µw − µ 2 + σ 2 <br />

Dw . (5.28)<br />

ao(µ, σ) = inf<br />

w∈ M<br />

Il s’agit là de la meilleure valeur que peut prendre le risque considéré en prenant<br />

en compte la vraie valeur de µ, pour la collection de modèles choisis.<br />

Cependant comme le précisent les auteurs, ce critère de Mallows ne fonctionne<br />

bien que pour des collections de modèles pas trop grosses (|M| pas<br />

trop grand). Par conséquent, on va reprendre la forme générale à laquelle<br />

on avait abouti (5.27), en voyant le terme 2σ 2 Dw comme un terme correctif<br />

(pénalité) qu’il suffit de modifier pour obtenir des résultats convenables<br />

indépendant du nombre de modèles. On adopte donc une forme plus générale<br />

pour c<strong>et</strong>te expression :<br />

crit(w) = − µw 2 +penBM(w), (5.29)<br />

où penBM(w) reste à déterminer.<br />

Remarque :<br />

La minimisation de ce critère, pour ce qui nous intéresse, va fournir un<br />

minimiseur de<br />

µ − µw 2 +penBM(w),<br />

qui est analogue au critère pénalisé (5.11). On pourra alors y appliquer la<br />

pénalité que nous allons calculer.<br />

77


Choix d’une stratégie<br />

Birgé <strong>et</strong> Massart sont parvenu à montrer dans le cadre gaussien le résultat<br />

suivant qui explicite une contrainte que doit satisfaire la pénalité, afin d’obtenir<br />

un résultat minimax qui non asymptotique à la différence de certains<br />

résultats de Donoho <strong>et</strong> Johnstone.<br />

Théorème 5.6 (Minimaxité dans le cas gaussien) Avec les notations<br />

adoptées, on pose (Lw)w∈ M ∈ R + , une famille de poids vérifiant<br />

Σ = <br />

w/ Dw>0<br />

exp(−DwLw) < +∞ . (5.30)<br />

Pour tout w ∈ M, <strong>et</strong> une constante K > 1, on suppose que<br />

pen(w) ≥ Kσ 2 Dw(1 + 2Lw) 2 . (5.31)<br />

Alors, il existe presque sûrement un estimateur pénalisé ˜µ = µ bw, où w est<br />

un minimiseur de (5.29), tel que ˜µ est unique.<br />

De plus, il existe des constantes c1 <strong>et</strong> c2 dépendant de K telles que<br />

2<br />

Eµ ˜µ − µ <br />

≤ c1 ao(µ, σ) + c2σ 2 Σ , (5.32)<br />

<br />

où a0(µ, σ) = infw∈ M µw − µ 2 + pen(w) .<br />

Plusieurs choses :<br />

– la condition K > 1 est incontournable, sous peine de bornes non informatives.<br />

– on obtient une première condition sur la forme de la pénalité.<br />

– les poids Lw sont censés perm<strong>et</strong>tre de pondérer les modèles par<br />

exemple pour privilégier les p<strong>et</strong>ites dimensions pour Sw. En fait de<br />

la même façon que dans un cadre bayésien on utilise las informations<br />

a priori dans le modèle, il est possible de privilégier les modèles pour<br />

lesquels on pense que l’approximation est la meilleure.<br />

Choix des poids D’abord, on donne la<br />

Définition 5.8 (Stratégie) Avec les notations de ce qui précède, une<br />

stratégie est une famille au plus dénombrable (Sw, Lw)w∈ M, où Lw ≥ 0, ∀ w<br />

<strong>et</strong> telle que<br />

Σ = <br />

exp(−DwLw) < +∞<br />

w/ Dw>0<br />

Une stratégie caractérise donc la façon dont on modélise <strong>et</strong> solutionne le<br />

problème. Encore une fois, tout comme dans le cas bayésien on a le choix<br />

entre une loi non informative <strong>et</strong> une loi qui exploite une information a<br />

priori, on peut opter dans notre cas pour des poids constants, indépendants<br />

78


de w, ou des poids variables. Il est à noter que le cas des poids constants<br />

nous ramène aux estimateurs de type seuillage dur qui apparaissent<br />

naturellement comme solutions d’un problème d’optimisation de même<br />

qu’on récupère les résultats de Donoho <strong>et</strong> Johnstone [9].<br />

Nous allons regarder à présent ce que donne le cas de poids variables.<br />

Remarque : Il paraît raisonnable que l’apport d’une information<br />

supplémentaire (choix des poids) contribue à un critère pénalisé meilleur en<br />

cela qu’il donne un seuil plus souple que celui de Donoho <strong>et</strong> Johnstone.<br />

Le choix de poids variables Lw = L(|w|) (le poids dépend de la dimension)<br />

nous conduit à l’inégalité ci-après<br />

Σ =<br />

≤<br />

m<br />

k=1<br />

m<br />

k=1<br />

<br />

m<br />

exp[−kL(k)]<br />

k<br />

<br />

exp<br />

−k[ L(k) − 1 − log( m<br />

k<br />

<br />

) ] . (5.33)<br />

Remarque : le terme m<br />

k vient du fait qu’on compte le nombre de modèles<br />

de taille k parmi tous les<br />

<br />

modèles possibles de dimension au plus m. Plus<br />

sous-espaces vectoriels de dimension k dans Rm .<br />

particulièrement, on a m<br />

k<br />

À présent en choisissant L(k) = 1 + log( m<br />

k ) + log 2, on arrive à Σ ≤ 1.<br />

Puis, on va choisir une pénalité vérifiant<br />

pen(w) ≥ Kσ 2 Dw(1 + 2Lw) 2 ).<br />

Il vient après calculs<br />

<br />

a0(µ, σ) ≤ inf µ − µw <br />

w∈ M<br />

2 +σ 2 <br />

Dw<br />

inf<br />

w∈ M<br />

1 + log( 2m<br />

Dw<br />

<br />

) . (5.34)<br />

Enfin, on associe (5.32) <strong>et</strong> (5.34) pour aboutir à la forme souhaitée :<br />

2<br />

Eµ ˜µ − µ <br />

≤ C1 µ − µw 2 +σ 2 <br />

Dw 1 + 2 log( m<br />

<br />

) + C2σ 2<br />

<br />

,<br />

où C1 <strong>et</strong> C2 sont des constantes dépendant de K.<br />

Remarques :<br />

– Il est donc possible de prendre un terme de pénalité de la forme<br />

penBM(w) = σ 2 <br />

Dw 1 + 2 log( m<br />

<br />

) ,<br />

d’où on déduit un seuil t bw.<br />

79<br />

Dw<br />

Dw<br />

(5.35)


– Avec le terme en log( m ) au lieu de log(m) dans le cas de Donoho <strong>et</strong><br />

Dw<br />

Johnstone (poids constants), la borne que nous venons d’obtenir est<br />

une amélioration notable.<br />

– il faut enfin voir que la pénalité sous sa forme pen(w) = kσ2 (1 +<br />

2 log( m )) est issue de majorations assez grossières. Aussi dans la pra-<br />

Dw<br />

tique, il est plus intéressant de l’écrire de la façon suivante<br />

pen(w) = kσ 2<br />

<br />

κ1 + κ2 log( m<br />

<br />

) , (5.36)<br />

Dw<br />

où κ1 <strong>et</strong> κ2 sont des constantes à calibrer par simulation.<br />

Conclusion partielle À la lumière de leur construction, les seuils de Donoho<br />

<strong>et</strong> Johnstone ainsi que de Birgé <strong>et</strong> Massart ne sont pas à proprement<br />

parlé ”adaptatifs” puisqu’ils ne tiennent pas compte des données : en cela,<br />

le FDR leur est préférable. Cependant, le seuil de Birgé <strong>et</strong> Massart découle<br />

d’un modèle qui est plus ”souple” en cela qu’il prend en compte davantage de<br />

paramètres que celui de Donoho <strong>et</strong> Johnstone. Il s’adaptera donc mieux aux<br />

différents cas de figure rencontrés, qu’un seuil invariable ne tenant compte<br />

que de la dimension du paramètre à estimer. D’ailleurs, la plus grande flexibilité<br />

du modèle de Birgé <strong>et</strong> Massart est confirmée par l’étude théorique de<br />

la provenance de ces critères, étude qui montre que le seuil de Donoho <strong>et</strong><br />

Johnstone n’est qu’un cas particulier de celui de Birgé <strong>et</strong> Massart (poids<br />

constants).<br />

Des simulations dont nous n’avons pas pu rendre compte ici confirment cela<br />

<strong>et</strong> indiquent que le seuil de Donoho <strong>et</strong> Johnstone est plus conservatif que<br />

les deux autres, tandis que le seuil de Birgé <strong>et</strong> Massart a tendance à surestimer<br />

le seuil réel. C’est finalement le FDR qui fournit en règle générale<br />

les meilleurs résultats.<br />

80


Chapitre 6<br />

Directions de travail<br />

6.1 Estimation de π0<br />

Comme nous l’avons vu assez souvent dans ce qui précède, le fait que π0<br />

soit inconnu est à l’origine d’une perte de puissance lors du contrôle du FDR.<br />

L’estimation de c<strong>et</strong>te proportion semble donc un enjeu important dans la<br />

suite. On peut par exemple mentionner comme estimateur possible de π0 la<br />

pente de la droite obtenue par régression sur t ↦→ G(t) quand t ”proche de<br />

1”, estimateur aux prorpiétés mal ou pas connues.<br />

Néanmoins, l’amélioration dans ce domaine ne réside pas forcément dans la<br />

production d’un n-ième estimateur de π0, mais plutôt dans la localisation<br />

d’un segment de [0, 1] dans lequel les probabilités critiques suivent dans leur<br />

immense majorité une loi uniforme. En disposant d’une telle zone d’uniformité,<br />

nous avons alors accès à une meilleure estimation de π0. Pour cela,<br />

nous pouvons procéder par simulations afin de bâtir un critère basé sur l’estimateur<br />

de Storey <strong>et</strong> qui a pour but la détection de c<strong>et</strong>te zone d’uniformité<br />

dans [0, 1].<br />

On peut envisager de se servir de l’estimation de F afin de déterminer à<br />

partir de quel seuil l’approximation de Storey nous donnant π0λ est valable<br />

(moins λ est optimal, plus le biais de l’estimateur est grand).<br />

Il est peut-être possible d’obtenir des renseignements sur π0 à partir des<br />

équations au point fixe des procédures plug-in en utilisant les estimateurs<br />

de G <strong>et</strong> F.<br />

6.2 Densités<br />

La densité des probabilités critiques sous H1 constitue également une<br />

quantité de grand intérêt comme nous avons pu le voir notamment lors de<br />

la partie deux. Cela représente de plus une autre possibilité d’approche pour<br />

l’estimation de π0. Pour cela, on peut penser que l’estimation par noyaux<br />

pondérés à poids adaptatifs pourrait fournir une estimation plus fine de f1.<br />

81


il faut noter que pourtant, ce suj<strong>et</strong> a été peu ou pas abordé jusqu’à présent.<br />

Nous pouvons aussi envisager le cas où f0 n’est pas continue <strong>et</strong> voir les<br />

résultats qu’il est alors possible d’obtenir. Il faut se rappeler que Storey <strong>et</strong><br />

al. [20] ont déjà obtenu quelques résultats à ce suj<strong>et</strong>.<br />

6.3 Cas de dépendance connue<br />

Il est également envisageable de traiter des cas particuliers où la structure<br />

de dépendance est connue. Ainsi, c’est ce qui est fait par Benjamini <strong>et</strong> al.<br />

[7] où est définie la propriété PRDS que nous allons à présent définir avant<br />

d’en présenter une application aux profils CGH pour un premier résultat.<br />

6.3.1 La propriété de PRDS<br />

C<strong>et</strong>te propriété de Positive Regression Dependence on Subs<strong>et</strong> (PRDS) a<br />

été notamment étudiée par Benjamini <strong>et</strong> Yekutieli dans leur article de 2001<br />

[7]. Pour l’introduire, on donne d’abord la définition suivante.<br />

Définition 6.1 (Ensemble croissant) Soit D ⊂ R, x, y ∈ R. Alors D est<br />

dit croissant si<br />

Puis :<br />

x ∈ D <strong>et</strong> y ≥ x ⇒ y ∈ D.<br />

Définition 6.2 (PRDS sur un ensemble d’indices) Soit X, un vecteur<br />

aléatoire de R n , I ⊂ {1, . . . , n}, <strong>et</strong> D un ensemble croissant de R n . Alors on<br />

dit que X vérifie la propriété de PRDS sur I si<br />

∀i ∈ I, x ↦−→ P r(X ∈ D|Xi = x) est croisante.<br />

Il se trouve que bien que ce type de dépendance paraisse abstrait au premier<br />

abord, Benjamini <strong>et</strong> Yekutieli (2001) ont montré que si X est un vecteur<br />

aléatoire gaussien multivarié tel que :<br />

∀i ∈ {1, . . . , n}, µi ≥ 0,<br />

où µ est le vecteur de moyenne de X, <strong>et</strong> si sa matrice de covariance a par<br />

exemple tous ses termes positifs, alors X vérifie le PRDS sur {1, . . . , n}.<br />

Remarque : on peut utiliser des résultats analogues pour contrôler le FDR<br />

dans le cadre de modèles MA(2) par exemple, comme nous le verrons en<br />

application aux profils CGH.<br />

82


Motivation de l’étude du PRDS En 2001, Benjamini <strong>et</strong> al.[7] donnent<br />

le théorème suivant qui m<strong>et</strong> en évidence que dans un certain cas de<br />

dépendance connue, le contrôle du FDR par la procédure BH demeure.<br />

Théorème 6.1 (Procédure BH <strong>et</strong> PRDS) Si la loi jointe des <strong>statistique</strong>s<br />

de test est PRDS sur le sous ensemble des <strong>statistique</strong>s de test sous<br />

H0, alors le FDR est contrôlé par la procédure BH au niveau α m0<br />

m ·<br />

La conséquence est évidente : il suffit de déterminer les cas pour lesquels la<br />

propriété de PRDS est vérifiée afin de pouvoir contrôler le FDR au niveau<br />

souhaité.<br />

Normale multivariée Benjamini <strong>et</strong> Yekutieli étudient ensuite quelques<br />

cas de lois classiques pour lesquelles ils parviennent à montrer que la propriété<br />

de PRDS est vérifiée. Ainsi, il vient la<br />

Proposition 6.1 (Test unilatéral <strong>et</strong> normale multivariée) Soit Y ∼<br />

N (µ, Σ) où µ ∈ (R∗ +) m <strong>et</strong> Σ ∈ S ++<br />

m (R). On teste pour tout i ∈ {1, . . . , m},<br />

H0 : µi = 0 contre H1 : µi > 0.<br />

Soit I0 l’ensemble des indices des composantes de µ correspondant à l’hypothèse<br />

nulle.<br />

On suppose de plus que<br />

Alors, Y est PRDS sur I0.<br />

∀i ∈ I0 <strong>et</strong> ∀j = i, Σi,j ≥ 0.<br />

Remarque : Nous attirons l’attention du lecteur sur le fait qu’on a supposé<br />

les composantes de µ positives.<br />

Nous allons à présent exploiter les résultats ci-avant démontrés dans ??.<br />

6.3.2 Profils CGH<br />

Le problème est le suivant. Dans le cas de cellules cancéreuses par<br />

exemple, on désire savoir si la maladie a un eff<strong>et</strong> sur c<strong>et</strong>aines parties de<br />

chromosomes, i.e. si certaines de ces parties sont délétées ou amplifiées par<br />

la maladie (cf.figure 6.1).<br />

Souvent, on suppose l’indépendance des BACs (Bacterial Artificial<br />

Chromosomes) dans le modèle que l’on pose. Pour ce qui nous concerne,<br />

l’objectif est de déterminer en fonction des log-ratios des niveaux d’expression<br />

de chaque BAC, quelles sont les parties de chromosomes qui sont<br />

délétées ou amplifiées <strong>et</strong> ce, en introduisant de la dépendance spatiale entre<br />

les BACs. En eff<strong>et</strong>, si deux BACs sont géographiquement voisins <strong>et</strong> même<br />

très proches, si l’un est délété, il y a davantage de chances que son voisin le<br />

soit aussi plutôt qu’un BAC qui en est très éloigné.<br />

83


log 2 rat<br />

3<br />

2<br />

1<br />

0<br />

−1<br />

−2<br />

Del<strong>et</strong>ed segment<br />

Amplified segments<br />

Unaltered segment<br />

1.57 1.58 1.59 1.6 1.61 1.62 1.63 1.64 1.65 1.66 1.67<br />

x 10 6<br />

−3<br />

genomic position<br />

Fig. 6.1 – Exemple de profil CGH : on a représenté les log-ratios des niveaux<br />

d’expression en fonction de la position géographique des bouts de chromosomes,<br />

appelés par abus de lagage BAC (Bacterial Artificial Chromosome).<br />

Nous posons un modèle de type MA(2) qui introduit, au niveau de<br />

ce qui ce passe en un point, de la dépendance vis-à-vis de ce qui se passe<br />

pour ses deux plus proches voisins. Nous attirons immédiatement l’attention<br />

du lecteur sur le fait que dans le modèle MA(2), la dépendance a lieu sur<br />

les erreurs <strong>et</strong> non sur les observées.<br />

Soit t1, . . . , tm les abscisses des m BACs correspondants. Pour chaque<br />

i ∈ {1, . . . , m}, Yti<br />

i.<br />

On a alors<br />

représente le log-ratio des niveaux d’expression du BAC<br />

∀i ∈ {1, . . . , m}, Yti = µti + ɛti + f(|ti − ti−1|) ɛti−1 + g(|ti − ti + 1|) ɛti+1 ,<br />

(6.1)<br />

où (ɛti ) i.i.d. ∼ N (0, 1) <strong>et</strong> où f <strong>et</strong> g sont deux fonctions positives.<br />

Dans ces conditions, la matrice de covariance a pour expression<br />

⎛<br />

⎞<br />

⎜<br />

Σ = ⎜<br />

⎝<br />

1 + f 2 + g 2 f + g fg 0 . . . 0<br />

f + g<br />

fg<br />

0<br />

.<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

.<br />

. .. 0<br />

. .. fg<br />

. .. f + g<br />

0 . . . 0 fg f + g 1 + f 2 + g 2<br />

⎟ . (6.2)<br />

⎟<br />

⎠<br />

Ainsi, à la fois l’hypothèse d’indépendance <strong>et</strong> le fait que f <strong>et</strong> g soient positives<br />

84


assurent la propriété PRDS pour le vecteur Y + , composé des coordonnées<br />

de Y pour lesquelles µi ≥ 0 de même que pour son analogue Y − . On peut<br />

alors détecter au niveau α souhaité les gènes différentiellement exprimés.<br />

Remarque : La positivité de f <strong>et</strong> g trouve sa justification notamment dans<br />

l’examen de données réelles observées.<br />

6.4 Motifs exceptionnels<br />

Enfin, Pacifico <strong>et</strong> al.[15] achève leur article de 2004 en mentionnant une<br />

application du FDR qui nous semble intéressante. Il s’agit de ce qu’ils appellent<br />

”scan clustering”. Le cadre est le suivant. En astronomie notamment,<br />

l’une des questions d’intérêt en présence d’une image de l’espace est d’y<br />

repérer les clusters (amas) de galaxies. Ainsi, on modélise communément<br />

les galaxies comme les occurences d’un processus ponctuel (imagnons un<br />

processus de Poisson) <strong>et</strong> on cherche à détecter de telles zones à partir du<br />

comptage du nombre d’occurences de ce processus dans une fenêtre de taille<br />

fixée que l’on déplace sur l’image. Pacifico <strong>et</strong> al. nous expliquent alors qu’en<br />

pareille situation, on procède au test de H0 : il n’y a aucun cluster contre<br />

H1 : il y a des clusters.<br />

Plus formellement, (Yi)i=1,...,m les occurences d’un processus ponctuel sur<br />

S = [0, 1] 2 , d’intensité<br />

ν : S −→ R+ .<br />

s ↦→ ν(s)<br />

Soit S0 la zone de S où il n’y a aucun cluster. Sur c<strong>et</strong>te zone, ν(s) = ν0. Mais<br />

si s ∈ S0, alors ν(s) > ν0. Pour tout point s ∈ S, on teste alors H0,s : s ∈ S0<br />

contre H1,s : s ∈ S0. les auteurs proposent alors un chap aléatoire de la<br />

forme<br />

X(s) = 1<br />

n<br />

n<br />

Kh(s − Yk),<br />

k=1<br />

où Kh désigne par exemple un noyau gaussien sur [0, 1] 2 <strong>et</strong> h représente les<br />

paramètres de la fenêtre :<br />

<br />

h2 h = 1 0<br />

.<br />

0 h 2 2<br />

Il est alors possible d’appliquer les techniques <strong>et</strong> résultats vus sur les<br />

champs aléatoires afin d’obtenir un contrôle des faux clusters détectés par<br />

la procédure.<br />

Remarques :<br />

– il y a tout un travail portant sur les critères de choix des <strong>statistique</strong>s<br />

utilisées, sur les noyaux <strong>et</strong> les types de fenêtres employés, travail qui<br />

n’a été que partiellement voire pas du tout effectué (choix de la fenêtre<br />

de façon à minimiser le FNR par exemple).<br />

85


– on pourrait peut-être tenter d’appliquer ces méthodes à la dimension<br />

un, dans l’optique de détecter des motifs exceptionnels au sein d’une<br />

séquence, d’autant que ceux-ci ont le bon goût d’être peu nombreux<br />

par rapport à la longueur de la séquence prise en compte.<br />

86


Chapitre 7<br />

Annexe<br />

7.1 Preuve du chapitre 1<br />

Preuve du théorème 1.1 La preuve de Benjamini <strong>et</strong> al. repose sur le<br />

Lemme 7.1 La procédure BH implique l’inégalité suivante<br />

<br />

F P<br />

E<br />

R ∨ 1 | Pm0+1<br />

<br />

= p1, . . . , Pm = pm1 ≤ m0<br />

α , (7.1)<br />

m<br />

où m1 = m−m0, Pm0+1, . . . , Pm désignent les m1 probabilités critiques sous<br />

H1 ordonnées, p1, . . . , pm étant leurs réalisations.<br />

En eff<strong>et</strong>, il suffit clairement de prendre l’espérance pour aboutir au résultat.<br />

Preuve du lemme :<br />

F P<br />

Nous allons procéder par récurrence sur m. On pose Q = R ·<br />

1. Si m = 1, (0 ≤ m0 ≤ m)<br />

soit m0 = 0 Q = 0.<br />

soit m0 = 1 E(Q | m0 = m) = P r(P ≤ α | m0 = m) = α<br />

(application de la procédure BH <strong>et</strong> sous H0, P ∼ U(0, 1)).<br />

d’où le résultat pour m = 1.<br />

2. On suppose le résultat vrai pour tout m ′ ≤ m.<br />

3. Montrons la propriété au rang m + 1.<br />

Hypothèses <strong>et</strong> notations :<br />

– P ′ 1 , . . . , P ′ m probabilités critiques sous H0.<br />

– les (P ′<br />

)i=1,...,m0 i sont indépendantes.<br />

– on rappelle p1 ≤ p2 ≤ . . . ≤ pm1 .<br />

– soit (∆) j0 = max{1 ≤ j ≤ m1/pj ≤ m0+j<br />

m+1 α} si il existe <strong>et</strong> 0 sinon.<br />

– soit () p ′′ = m0+j0<br />

m+1 α.<br />

87


1 er cas : m0 = 0<br />

2 e cas : m0 > 0<br />

Q = 0, d’où le résultat.<br />

D’abord, les (P ′<br />

i )i≤m0 sont i.i.d. ∼ U(0, 1). D’où (P ′ (1) , . . . , P ′ (m0) ) ∼<br />

m0! 1 {0≤p ′ (1) ≤...≤p ′ (m 0 ) ≤1} <strong>et</strong> P ′ (m0)<br />

L’idée va être de conditionner par P ′ (m0)<br />

p ′′<br />

=<br />

+<br />

0<br />

1<br />

p ′′<br />

∼ m0p m0−1 déf<br />

= f(p).<br />

= p :<br />

E (Q | Pm0+1 = p1, . . . , Pm = pm1 )<br />

<br />

E Q | P ′ (m0) = p, Pm0+1<br />

<br />

= p1, . . . , Pm = pm1 f(p)dp (7.2)<br />

<br />

E Q | P ′ (m0) = p, Pm0+1<br />

<br />

= p1, . . . , Pm = pm1 f(p)dp (7.3)<br />

C<strong>et</strong>te décomposition étant écrite, on procède en deux temps, en étudiant<br />

d’abord (7.2) puis (7.3).<br />

– pour (7.2) p ≤ p ′′ :<br />

1. si j0 = 0<br />

p ≤ p ′′ ⇒ P ′ (m0)<br />

2. si j0 ∈ {1, . . . , m1}<br />

m0α<br />

≤<br />

m + 1 < (m0 + 1)α<br />

m + 1 < p1 < . . .<br />

⇒ rej<strong>et</strong> de m0 + j0 = m0 p − valeurs<br />

D’où 2 cas de figures :<br />

– soit P ′ (m0+j0)α<br />

(m0) ≤ pj0 ≤ m+1 ·<br />

– soit pj0 ≤ P ′ (m0)<br />

p ≤ p”” ⇒ P ′ (m0) ≤ (m0 + j0)α<br />

m + 1<br />

≤ (m0+j0)α<br />

m+1<br />

·<br />

Dans le premier cas, m0 + j0 − 1 p-valeurs précèdent pj0 qui<br />

est alors la m0 + j0-ième p-valeur. On rej<strong>et</strong>te alors m0 + j0 − 1<br />

p-valeurs.<br />

Dans le second cas, P ′ (m0) est précédé de m0 + j0 − 1 p-valeurs<br />

sinon, j0 + 1 vérifierait (∆) ce qui est exclu. Donc, on rej<strong>et</strong>te<br />

m0 + j0 hypothèses.<br />

88


Conséquence :<br />

p ≤ p ′′ implique le rej<strong>et</strong> de m0 + j0 hypothèses, dont dans tous les cas,<br />

les m0 hypothèses H0 incluses. Donc<br />

Conclusion partielle :<br />

Q = m0<br />

·<br />

m0 + j0<br />

(7.2) = m0<br />

p<br />

m0 + j0<br />

′′ m0<br />

m0<br />

≤<br />

m0 + 1 α p′′ m0−1<br />

·<br />

Remarque : si j0 = 0, m0 > 0 assure la cohérence (m0 + j0 > 0).<br />

– pour (7.3) p > p ′′ :<br />

1. j0 = 0<br />

Alors<br />

m0<br />

m + 1 α < p = P ′ (m0) <strong>et</strong> m0 + 1<br />

m + 1<br />

α < p1<br />

donnent que P ′ (m0) est la m0-ième p-valeur de l’ensemble des probabilités<br />

critiques.<br />

Conséquence :<br />

impossible de trancher quant à un éventuel rej<strong>et</strong> car cela dépend<br />

des m0 − 1-ièmes p-valeurs précédentes qu’on ne connaît pas.<br />

2. j0 ∈ {1, . . . , m}<br />

Alors p > p ′′ ⇒ P ′ (m0)<br />

D’où deux possibilités :<br />

– soit pj0<br />

– soit pj0<br />

> m0+j0<br />

m+1 α.<br />

m0+j0 ≤ m+1 α < P ′ (m0) ≤ pj0+1 ,<br />

m0+j0 ≤ m+1 α < pj0+1 < P ′ (m0)<br />

= p ·<br />

Conséquence :<br />

dans les deux cas (y compris si j0 = 0), on ne peut conclure quant au<br />

rej<strong>et</strong> éventuel d’un gène.<br />

Conclusion partielle :<br />

Pour qu’il y ait un k vérifiant la relation de la procédure BH, il faut que<br />

k ≤ m0 + j0 − 1.<br />

Donc pour (7.3), si les p-valeurs sont notées c<strong>et</strong>te fois p (1) ≤ . . . ≤ p (m+1),<br />

l’hypothèse H0,i ne pourra être rej<strong>et</strong>ée que si<br />

qui équivaut à<br />

∃ i ≤ k ≤ m0 + j0 − 1/ p (k) ≤ k<br />

m + 1 α,<br />

p (k)<br />

p ≤<br />

k<br />

m0 + j0 − 1<br />

89<br />

m0 + j0 − 1<br />

p(m + 1)<br />

α · (7.4)


On cherche à présent à réduire la dimension du problème de façon à<br />

appliquer l’hypothèse de récurrence.<br />

<br />

On rappelle d’abord que ∀i ∈ {1, . . . , m0 − 1}, L P ′<br />

i /p | P ′ <br />

(m0) = p =<br />

U(0, 1), puis que ∀j ∈ {1, . . . , j0} (j0 > 0), pj/p correspond à des gènes H1.<br />

Remarque : les pj/p pour j ≤ j0 sont dans [0, 1]. En eff<strong>et</strong>,<br />

∀j ∈ {1, . . . , j0}, 0 < m0 + j pj<br />

α <<br />

p(m + 1) p ≤ m0 + j0 α p′′<br />

=<br />

m + 1 p p<br />

– si j0 ∈ {1, . . . , m1} :<br />

En posant<br />

< 1 .<br />

α ∗ = m0 + j0 − 1<br />

α, (7.5)<br />

p(m + 1)<br />

on s’aperçoit qu’appliquer la relation de la procédure BH aux m0 +<br />

j0 − 1 premiers gènes revient à rej<strong>et</strong>er Hi si<br />

∃ k ∈ {i, . . . , m0 + j0 − 1}/ p (k)<br />

p ≤<br />

k<br />

m0 + j0 − 1 α∗ .<br />

on dispose donc de m0 − 1 vraies hypothèses nulles <strong>et</strong> j0 fausses. La<br />

relation (7.5) définit ainsi une procédure BH appliquée à m0 +j0 −1 <<br />

m + 1 hypothèses au niveau α ∗ . on peut alors appliquer l’hypothèse<br />

de récurrence.<br />

On obtient alors que<br />

<br />

E Q | P ′ (m0) = p, Pm0+1<br />

<br />

= p1, . . . , Pm0+j0 = pj0 ≤ m0 − 1<br />

m0 + j0 − 1 α∗ ≤ m0 − 1 α<br />

m + 1 p ,<br />

<strong>et</strong> donc<br />

<br />

E Q | P ′ (m0) = p, . . . , Pm+1<br />

<br />

= pm1<br />

≤ m0 − 1 α<br />

· (7.6)<br />

m + 1 p<br />

En eff<strong>et</strong>,<br />

<br />

1. E Q | P ′ (m0) = p, Pm0+1<br />

<br />

= p1, . . . , Pm0+j0 = pj0<br />

<br />

= E Q | P ′ (m0) = p, ˜ Pm0+1 = p1/p, . . . , ˜ <br />

Pm0+j0 = pj0 /p .<br />

2. ∀j > j0,<br />

<br />

Pj ne joue aucun rôle dans le rej<strong>et</strong> éventuel de H0,i.<br />

D’où E Q | P ′ (m0) = p, Pm0+1<br />

<br />

<br />

= p1, . . . , Pm0+j0 = pj0<br />

= E Q | P ′ (m0) = p, . . . , Pm+1<br />

<br />

= pm1 .<br />

90


Pour finir,<br />

(7.3) =<br />

1<br />

p ′′<br />

<br />

E Q | P ′ (m0) = p, . . . , Pm+1<br />

<br />

= pm1 f(p)dp ≤ m0<br />

m + 1 α(1−p′′ ) m0−1<br />

.<br />

Ainsi en réunissant (7.2) <strong>et</strong> (7.3), on aboutit à<br />

m0<br />

E (Q | . . . , Pm+1 = pm1 ) ≤<br />

m + 1 α (p′′ (1 − p ′′ )) m0−1 m0<br />

≤ α ·<br />

m + 1<br />

– si j0 = 0<br />

on n’a aucune fausse hypothèse nulle. l’hypothèse de récurrence s’ap-<br />

plique encore <strong>et</strong> il vient<br />

E<br />

<br />

Q | P ′ <br />

(m0) = p<br />

≤ m0 − 1 α<br />

m + 1 p ·<br />

le résultat découle de la même façon que précédemment.<br />

<br />

7.2 Preuves du chapitre 3<br />

7.2.1 Preuve du lemme 3.2<br />

Preuve :<br />

Pour ce qui est de la filtration, on vérifie aisément que pour t < s, Fs ⊂ Ft.<br />

Puis pour déterminer la loi de F P (t) | F P (s), on va calculer<br />

P r(F P (t) = k | F P (s) = n), k ∈ {0, . . . , n}.<br />

D’abord, on a F P (s) = m<br />

i=1 1 {Pi≤s}1 {H0(i)=0}.<br />

D’où,<br />

P r(F P (t) = k | F P (s) = n) =<br />

=<br />

1<br />

P r(F P (s) = n)<br />

1<br />

P r(F P (s) = n)<br />

<br />

j1,...,jm<br />

<br />

j1,...,jm<br />

P r<br />

P r ⎝<br />

Puis sachant l’événement B = {Pj1 ≤ s, . . . , Pjn ≤ s, H0(j1) =<br />

0, . . . , H0(jn) = 0}, les Pji , i = 1, . . . , n sont n variables aléatoires<br />

indépendantes de loi U(0, s). En eff<strong>et</strong>, on a d’abord que<br />

P r(Pji ≤ t | B) = P r(Pji ≤ t | Pji ≤ s, H0(ji) = 0) (indépendance)<br />

= P r( Pji<br />

s<br />

= t<br />

s ,<br />

≤ t<br />

s | Pji ≤ s, H0(ji) = 0)<br />

91<br />

n<br />

i=1 1 {Pj i ≤s}1 {H0(ji)=0} = k,<br />

n<br />

i=1 1 {Pj i ≤s}1 {H0(ji)=0} = n<br />

⎛<br />

n<br />

i=1 1 {Pj i ≤s}1 {H0(ji)=0} = k,<br />

Pj1 ≤ s, . . . , Pjn ≤ s,<br />

H0(j1) = 0, . . . , H0(jn) = 0<br />

<br />

⎞<br />

⎠ ·


puis que si i = k, P r(Pji ≤ t, Pjk ≤ s | B) = P r(Pji ≤ t | B)P r(Pjk ≤ s |<br />

B), également par indépendance des Pj.<br />

D’où il vient naturellement que F P (t) | F P (s) ∼ B(F P (s), t/s), ∀t < s.<br />

Enfin ∀t < s, on a<br />

<br />

<br />

F P (t)<br />

E | F P (s)<br />

t<br />

7.2.2 Preuve du théorème 3.3<br />

Preuve :<br />

On étudie donc avec Tα = tα( <br />

= 1<br />

E (F P (t) | F P (s))<br />

t<br />

= 1<br />

s F P (s) espérance d′ une binomiale.<br />

F DRλ=0),<br />

<br />

F P (Tα)<br />

F DR(Tα) = E<br />

·<br />

(R(Tα) ∨ 1)<br />

Or, R(Tα) = Tαm<br />

α .<br />

En eff<strong>et</strong>,<br />

– si Tα = Pi, alors l’égalité est évidente.<br />

– si par contre, Tα = Pi, alors pour t assez proche de Tα par valeurs<br />

inférieures, on a<br />

F DRλ=0(Tα)<br />

= Tα m t m<br />

≤ ≤ α.<br />

R(Tα) R(t)<br />

Enfin, si <br />

F DRλ=0(Tα) < α, t ↦→<br />

t m<br />

R(t)<br />

par morceaux, il existe t ′ > Tα tel que t′ m<br />

R(t ′ )<br />

(R(t ′ ) = R(Tα)).<br />

Ainsi donc,<br />

F P (Tα) α F P (Tα)<br />

= ·<br />

(R(Tα) ∨ 1) m Tα<br />

F P (t)<br />

étant croissante <strong>et</strong> continue<br />

≤ α, ce qui est exclu<br />

De plus, nous avons vu que t est une martingale inverse. Si on considère<br />

la martingale associée arrêtée en Tα, temps d’arrêt, celle-ci est bornée par<br />

m/α. En eff<strong>et</strong>,<br />

mt<br />

– si t > Tα, on obtient d’abord R(Tα)∨1 > α, puis<br />

∀t > Tα,<br />

F P (t)<br />

t<br />

92<br />

≤<br />

F P (t)m m<br />

≤ · (7.7)<br />

α(R(t) ∨ 1) α


– si t = Tα, il vient<br />

F P (Tα)<br />

= F P (Tα)m<br />

Alors le théorème d’arrêt implique finalement que<br />

Tα<br />

m<br />

≤ · (7.8)<br />

α(R(Tα) ∨ 1) α<br />

F DR(Tα) = α F P (Tα)<br />

=<br />

m Tα<br />

α<br />

m E[F P (1)] = π0α . (7.9)<br />

Il reste donc juste à voir que Tα est bien un temps d’arrêt pour la filtration<br />

inverse (Fs) s∈[0,1], ce qui découle du fait que ∀t ∈ [0, 1],<br />

{Tα ≥ t} = <br />

Enfin, <br />

s > t,<br />

s = p (i),<br />

i = 1, . . . , m<br />

d’où le résultat.<br />

<br />

s>t<br />

= <br />

s > t,<br />

s = p (i),<br />

i = 1, . . . , m<br />

{ F DRλ=0(s)<br />

≤ α} ∪ { F DRλ=0(t)<br />

≤ α}<br />

{ F DRλ=0(s)<br />

≤ α} ∪ <br />

∪ { <br />

F DRλ=0(t) ≤ α} .<br />

{ F DRλ=0(s)<br />

≤ α} =<br />

i=1,...,m<br />

<br />

s > t,<br />

s = p (i),<br />

i = 1, . . . , m,<br />

s ∈ Q+<br />

7.2.3 Forme des estimateurs π g<br />

0 <strong>et</strong> F DRλ(t)<br />

Heuristique de π0(λ)<br />

Au seuil λ fixé, la proportion de gènes rej<strong>et</strong>és est<br />

m − R(t)<br />

m<br />

= 1 − Gm(λ)<br />

= Gm(1) − Gm(λ)<br />

G(1) − G(λ).<br />

{ F DRλ=0(p<br />

(i)) ≤ α}<br />

{ F DRλ=0(s)<br />

≤ α},<br />

Or, on fait l’hypothèse que les gènes H1 ont des probabilités critiques proches<br />

de 0. Donc pour λ assez grand, on peut considérer qu’il n’y a plus de probabilité<br />

critique H1, d’où f1 | [λ,1] = 0 <strong>et</strong> F1(λ) = 1. Ainsi pour un tel λ,<br />

G(λ) = π0λ + (1 − π0), ce qui conduit à la relation<br />

dont on déduit π g<br />

0 (λ).<br />

1 − Gm(λ) = π g<br />

0 (λ)(1 − U(λ)), (7.10)<br />

93


Limite de F DRλ(t)<br />

Il est désormais clair que pour t <strong>et</strong> λ dans [0, 1], F DRλ(t) s’écrit<br />

F DRλ(t) =<br />

Or dans le cas uniforme, on avait<br />

F P (t)<br />

R(t)<br />

F P (t) = ♯{i/Pi ≤ t, H0(i) = 0}<br />

F DR(t). (7.11)<br />

= m0 ♯{i/Pi ≤ t, H0(i) = 0}/m0<br />

m π0(λ) P r(Pi ≤ t|H0(i) = 0)<br />

= m π0(λ) t .<br />

De la même façon, si F0 = Id désigne la fonction de répartition des probabilités<br />

critiques sous H0, on a :<br />

F P (t) = m π g<br />

0 (λ) F0(t) . (7.12)<br />

Il arrive donc l’estimateur de Storey [20] suivant :<br />

Ainsi d’après 7.10, quand m → ∞<br />

<strong>et</strong> donc<br />

<br />

π0(λ) g −−−−→<br />

m→∞<br />

F DRλ(t) −−−−→<br />

m→∞<br />

=<br />

F DRλ(t) =<br />

m πg 0 (λ) F0(t)<br />

R(t)<br />

= πg 0 (λ) F0(t)<br />

·<br />

Gm(t)<br />

F0(t)<br />

G(t)<br />

7.2.4 Relation entre a <strong>et</strong> G<br />

1 − G(λ)<br />

1 − F0(λ)<br />

(1 − F0(λ))π0<br />

1 − F0(λ) + (1 − F1(λ))(1 − π0)<br />

·<br />

1 − F0(λ)<br />

<br />

(1 − F0(λ))π0<br />

1 − F0(λ) + (1 − F1(λ))(1<br />

<br />

− π0)<br />

· (7.13)<br />

1 − F0(λ)<br />

Preuve de la proposition 3.1 :<br />

Soit ΓF = { b/(b, Hb) ∈ OF }.<br />

Remarque :<br />

– Comme la notation l’indique, on a choisit d’accentuer la dépendance<br />

de H par rapport à b.<br />

94


– Dans ce qui suit, les notations ”F ′ ” sont à prendre au sens de l’existence<br />

d’une dérivée de Radon-Nikodym. À aucun moment, on ne suppose<br />

que la densité sous H1 est continue.<br />

D’abord, ∀b ∈ ΓF <strong>et</strong> ∀t ∈ [0, 1], F ′ (t) = (1 − b) + bH ′ b (t), ce qui implique<br />

que<br />

b ≤ sup{<br />

t<br />

F ′ (t) − 1<br />

},<br />

− 1<br />

d’où<br />

Ensuite,<br />

Or,<br />

ce qui perm<strong>et</strong> de conclure.<br />

<br />

H ′ b<br />

ζ ≤ b ≤ 1 − inf<br />

t F ′ (t), (H ′ b ≥ 0).<br />

1 − inf<br />

t F ′ (t) = b[1 − inf<br />

t H′ b (t)].<br />

F (t) ≥ t, ∀t ⇒ ∃t/ H ′ b (t) ≤ 1<br />

⇒ inf<br />

t H′ b (t) ≤ 1<br />

⇒ 1 − inf<br />

t F ′ (t) ≤ ζ,<br />

7.2.5 Normalité asymptotique de F DP (t)<br />

Preuve du théorème 3.15 :<br />

D’abord, on considère l ∞ , l’ensemble des fonctions bornées sur (δ, 1]<br />

muni de la norme infinie, puis<br />

r : l ∞ × l ∞ → l ∞<br />

(f, g) ↦→ f<br />

f + g .<br />

Alors en Θ = ((1 − a)U + aF ), r est Fréch<strong>et</strong> différentiable avec<br />

Puis l’étude du couple (<br />

√ <br />

m ( F P (t)<br />

r ′ ((1−a)U+aF ) (V1, V2) = aF V1 − (1 − a)UV2<br />

G 2<br />

m<br />

F P (t)<br />

m<br />

V P (t)<br />

, m ) montre que<br />

V P (t)<br />

<br />

, ) − ((1 − a)t, aF (t)) (W1, W2),<br />

m<br />

95


où (W1, W2) processus<br />

<br />

gaussien bi-dimensionnel centré de matrice de cova-<br />

(1 − a)(s ∧ t) − (1 − a) 2st −(1 − a)saF (t)<br />

riance Γ(s, t) =<br />

−(1 − a)taF (s) aF (s ∧ t) − a2 <br />

.<br />

F (s)F (t)<br />

D’où l’application de la méthode delta donne que<br />

√ <br />

m r[(<br />

F P (t)<br />

m<br />

d’où le résultat.<br />

<br />

V P (t)<br />

<br />

, )] − r[((1 − a)t, aF (t))] r<br />

m ′ (1−a)F0+aF [(W1, W2)],<br />

96


Bibliographie<br />

[1] Felix Abramovich and Yoav Benjamini. Adaptive thresholding of<br />

wavel<strong>et</strong> coefficients. Computer Statistical Data Analysis, 22 :351–361,<br />

1996.<br />

[2] Felix Abramovich, Yoav Benjamini, David Donoho, and Iain<br />

Johnstone. Adapting to Unknown Sparsity by controlling the False<br />

Discovery Rate. Technical Report 2000-19, Stanford University, Department<br />

of Statistics, 2000.<br />

[3] Avner Bar-Hen, Jean-Jacques Daudin, and Stéphane Robin. Comparaisons<br />

multiples pour les microarrays. À paraître dans la Revue de<br />

la SFDS.<br />

[4] Yoav Benjamini and Yosef Hochberg. Controlling the False Discovery<br />

Rate : a Practical and Powerful Approach to Multiple Testing.<br />

JRSS B, 57(1) :289–300, 1995.<br />

[5] Yoav Benjamini, Abba M. Krieger, and Daniel Yekutieli. Adaptive<br />

Linear Step-up Procedures that control the False Discovery Rate. 2004.<br />

[6] Yoav Benjamini and Liu Wei. A distribution-free multiple-test procedure<br />

that controls the false discovery rate. Technical Report RP-SOR-<br />

99-3, Tel Aviv University, Department of Statistics and O.R., 1999.<br />

[7] Yoav Benjamini and Daniel Yekutieli. The control of the false discovery<br />

rate in multipe testing under dependency. The Annals of Statistics,<br />

29(4) :1165–1188, 2001.<br />

[8] Lucien Birgé and Pascal Massart. Gaussian model selection. J.<br />

European Math. Soc., (3) :203–268, 2001.<br />

[9] David Donoho and Iain Johnstone. Ideal Spatial Adaptation by<br />

Wavel<strong>et</strong> Shrinkage . Biom<strong>et</strong>rika, 81 :425–455, 1994.<br />

[10] Sandrine Dudoit, Juli<strong>et</strong> Popper Shaffer, and Jennifer C. Boldrick.<br />

Multiple Hypothesis Testing in Microarray Experiments. Statistical<br />

Science, 18(1) :71–103, 2003.<br />

[11] Bradley Efron, Robert Tibshirani, John D. Stoey, and Virginia Tusher.<br />

Empirical Bayes Analysis of a Microarray Experiment. Journal<br />

of American Statistical Association, 96(456) :1151–1160, 2001.<br />

97


[12] Christopher Genovese and Larry Wasserman. Operating characteristics<br />

and extensions of the false discovery rate procedure. JRSS,<br />

64(3) :499–517, 2002.<br />

[13] Christopher Genovese and Larry Wasserman. A stochastic process<br />

approach to false discovery control. The Annals of Statistics,<br />

32(3) :1035–1061, 2004.<br />

[14] Emilie Lebarbier. D<strong>et</strong>cting multiple change-points in the mean of<br />

Gaussian process by model selection. Signal Processing, 85 :717–736,<br />

2005.<br />

[15] M. Perone Pacifico, C. Genovese, I. Verdinelli, and L. Wasserman.<br />

False Discovery Control for Random Fields. Journal of the<br />

American Statistical Association, 99(468) :1002–1014, 2004.<br />

[16] Franck Picard, Stéphane Robin, Marc Lavielle, Christian Vaisse,<br />

and Jean-Jacques Daudin. A statistical approach for array cgh data<br />

analysis. BMC Bioinformatics, 27(6), 2005.<br />

[17] Stéphane Robin, Avner Bar-Hen, Jean-Jacques Daudin, and Laurent<br />

Pierre. A semi-param<strong>et</strong>ric approach for mixture models : Application<br />

to local fdr estimation. soumis.<br />

[18] John D. Storey. A direct approach to false discovery rates. J.R.S.S.<br />

B, 64(3) :479–498, 2002.<br />

[19] John D. Storey. The positive false discovery rate : a bayesian interpr<strong>et</strong>ation<br />

and the q-value. The Annals of Statistics, 31(6) :2013–2035,<br />

2003.<br />

[20] John D. Storey, Jonathan E. Taylor, and David Siegmund. Strong<br />

control, conservative point estimation and simultaneous conservative<br />

consistency of false discovery rates : a unified approach. J.R.S.S. B,<br />

66(1) :187–205, 2004.<br />

[21] A. W. van der Vaart. Asymptotic Statistics. Cambridge Series in<br />

Statistical and Probabilistic Mathematics. Cambridge University Press,<br />

1998.<br />

98

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!