Mémoire Modélisation stochastique et statistique ... - AgroParisTech

Mémoire 

Modélisation stochastique et statistique 

Tests multiples et FDR 

Alain Celisse 

Université Paris XI Orsay 

avril-juillet 2005 

Enseignant responsable : Pascal Massart 

Maître de stage : Stéphane Robin

Table des matières 

1 Taux de faux positifs 9 

1.1 Problème de tests multiples . . . . . . . . . . . . . . . . . . . 9 

1.2 Taux d’erreurs de type I . . . . . . . . . . . . . . . . . . . . . 10 

1.3 Procédures de contrôle du FWER . . . . . . . . . . . . . . . . 11 

1.4 Procédure de Benjamini-Hochberg . . . . . . . . . . . . . . . 13 

1.5 Les diverses approches envisagées . . . . . . . . . . . . . . . . 14 

2 Information locale et probabilités a posteriori 17 

2.1 Modèle de mélange . . . . . . . . . . . . . . . . . . . . . . . . 17 

2.2 pFDR et q-value . . . . . . . . . . . . . . . . . . . . . . . . . 18 

2.2.1 Caractère global du FDR . . . . . . . . . . . . . . . . 18 

2.2.2 Relation entre FDR et pFDR . . . . . . . . . . . . . . 18 

2.2.3 Un analogue a posteriori des probabilités critiques . . 19 

2.3 Le FDR local : fdr . . . . . . . . . . . . . . . . . . . . . . . . 21 

2.3.1 Le fdr . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 

2.3.2 Estimation du FDR . . . . . . . . . . . . . . . . . . . 22 

3 Proportion de rejets et processus stochastiques 25 

3.1 Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

3.1.1 Quelques propriétés fondamentales de R(t) et F P (t) . 25 

3.1.2 Estimation de la proportion . . . . . . . . . . . . . . . 26 

3.2 Procédure optimale à contrôle fixé . . . . . . . . . . . . . . . 29 

3.2.1 Procédures plug-in . . . . . . . . . . . . . . . . . . . . 29 

3.2.2 Optimalité des procédures plug-in . . . . . . . . . . . 32 

3.2.3 Convergence des seuils plug-in et dépendance faible . . 37 

3.3 Contrôle à seuil fixé et sous-optimalité de la procédure BH . . 41 

3.4 Limites de processus : normalité asymptotique et intervalles 

de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 

3.4.1 Préliminaires : outils de base pour l’étude des processus 42 

3.4.2 Asymptotique des estimateurs de π0 et F , convergence 

du FDP . . . . . . . . . . . . . . . . . . . . . . . . . . 44 

3.5 Champs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 51 

3.5.1 Construction d’un super-ensemble . . . . . . . . . . . 54 

3

3.5.2 Enveloppes de confiance . . . . . . . . . . . . . . . . . 56 

3.5.3 Seuils pour un contrôle donné . . . . . . . . . . . . . . 57 

3.6 Bilan intermédiaire . . . . . . . . . . . . . . . . . . . . . . . . 57 

4 Minimisation sous contrainte 59 

4.1 Approche asymptotique . . . . . . . . . . . . . . . . . . . . . 59 

4.1.1 Motivation de l’approche . . . . . . . . . . . . . . . . 59 

4.1.2 Heuristique . . . . . . . . . . . . . . . . . . . . . . . . 60 

4.2 Risque conditionnel . . . . . . . . . . . . . . . . . . . . . . . . 60 

4.3 Erreur de Bayes pondérée . . . . . . . . . . . . . . . . . . . . 61 

5 FDR et seuillage 63 

5.1 Minimaxité asymptotique de l’estimateur FDR . . . . . . . . 64 

5.1.1 Cadre mathématique du problème . . . . . . . . . . . 64 

5.1.2 Critère pénalisé . . . . . . . . . . . . . . . . . . . . . . 65 

5.1.3 Estimateur FDR et estimateur par critère pénalisé . . 66 

5.1.4 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . 69 

5.2 Comparaison seuil-FDR et seuils obtenus par critères pénalisés 71 

5.2.1 Pénalité de Donoho et Johnstone . . . . . . . . . . . . 72 

5.2.2 Approche de Birgé et Massart . . . . . . . . . . . . . . 75 

6 Directions de travail 81 

6.1 Estimation de π0 . . . . . . . . . . . . . . . . . . . . . . . . . 81 

6.2 Densités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 

6.3 Cas de dépendance connue . . . . . . . . . . . . . . . . . . . . 82 

6.3.1 La propriété de PRDS . . . . . . . . . . . . . . . . . . 82 

6.3.2 Profils CGH . . . . . . . . . . . . . . . . . . . . . . . . 83 

6.4 Motifs exceptionnels . . . . . . . . . . . . . . . . . . . . . . . 85 

7 Annexe 87 

7.1 Preuve du chapitre 1 . . . . . . . . . . . . . . . . . . . . . . . 87 

7.2 Preuves du chapitre 3 . . . . . . . . . . . . . . . . . . . . . . 91 

7.2.1 Preuve du lemme 3.2 . . . . . . . . . . . . . . . . . . . 91 

7.2.2 

7.2.3 

Preuve du théorème 3.3 . . . . . . . . . . . . . . . . . 

Forme des estimateurs π 

92 

g 

7.2.4 

0 et FDRλ(t) . . . . . . . . . 

Relation entre a et G . . . . . . . . . . . . . . . . . . 

93 

94 

7.2.5 Normalité asymptotique de F DP (t) . . . . . . . . . . 95 

4

Introduction 

Origine du sujet 

Tests multiples 

Assez récemment, le développement de technologies fournissant simultanément 

un grand nombre de données a été la source de problèmes statistiques 

dits ”problèmes de tests multiples”. Ainsi, le repérage d’agrégats 

d’étoiles sur une photo de l’espace, l’analyse d’images médicales dont le but 

est la recherche d’éventuelle formation tumorale, ou encore la recherche de 

gènes différentiellement exprimés sur les puces à ADN sont autant d’exemples 

d’applications de tests multiples. 

Puces à ADN 

Fondées sur la complémentarité des bases A-C-T-G, les biopuces (ou 

puces à ADN) permettent de mesurer le niveau d’expression de plusieurs milliers 

de gènes simultanément, chacun d’eux ayant été soumis au préalable à 

des conditions expérimentales spécifiques. L’objectif du statisticien est alors 

la recherche de la liste la plus précise possible des gènes sur- ou sous-exprimés 

(et donc différentiellement exprimés), afin de comprendre leur implication 

dans un processus biologique. 

Équipe Statistique et génome 

J’ai effectué mon stage au sein de l’équipe Statistique et génome, 

qui regroupe des statisticiens autour du thème de l’analyse des données 

de génomique et de post-génomique. C’est donc assez naturellement que 

celle-ci est confrontée au problème de détection de gènes différentiellement 

exprimés (tests multiples) dans le cadre des biopuces. 

Cette équipe fait partie de l’Unité Mixte de Recherche (UMR) 518 EN- 

GREF / INA P-G / INRA ”Mathématiques et Informatique Appliquées” 

(MIA) dirigée par Stéphane Robin. Cette unité est partie intégrante à la 

fois du département OMIP de l’INA P-G (Institut National Agronomique 

de Paris-Grignon) dirigé par Jean-Jacques Daudin, et du département MIA 

5

de l’INRA dans le cadre du CT1 (Champ Thématique ”Bioinformatique”). 

Créé en 1971, l’INA-PG est un établissement public d’enseignement 

supérieur placé sous la tutelle des ministères de l’agriculture et de la 

pêche, qui regroupe environ 2 000 personnes dont 1 200 étudiants, 150 

enseignants-chercheurs et ingénieurs, 130 chercheurs, et 470 techniciens 

et administratifs. Réparti sur deux sites, Paris et Grignon, cet institut se 

compose de 6 départements et parmi ceux-ci, à Paris, le département OMIP 

(http : //compact.jouy.inra.fr/compact/CONSULTER/INTER/externe 

/unites/toedit/518). 

Notations et définitions 

Chapitre 1 – F P (t) = ♯{ gènes H0 déclarés H1 au seuil t}, (la probabilité critique 

associée à chaque statistique de test considérée est comparée au seuil 

t en vue d’une acceptation ou d’un rejet). 

– F N(t) = ♯{ gènes H1 déclarés H0 au seuil t}. 

– R(t) = ♯{ gènes rejetés au seuil t}. 

– V P (t) = ♯{gènes H1 rejetés au seuil t}. 

– V N(t) = ♯{gènes H0 acceptés au seuil t}. 

Chapitre 2 – Modèle de mélange : 

(i) 

déf 

π0 = m0/m · 

(ii) (H0(i))i iid ∼ B( 1 − π0 ) , avec H0(i) = 1, si le gène i est H1, 

et 0 sinon. 

Pi | H0(i) = 0 

(ii) 

Pi | H0(i) = 1 

∼ 

∼ 

f0(t) sur [0, 1] 

f1(t) sur [0, 1] 

, où f0 et f1 sont les 

densités des lois respectives. g densité des probabilités critiques. 

– U désigne la fonction de répartition des probabilités critiques sous 

H0. F désigne celle des probabilités critiques sous H1. 

– F0 et F1 désignent ces mêmes fonctions de répartition quand on ne 

suppose plus la densité des probabilités critiques sous H0 continue. 

– fdr(t) FDR local au seuil t. 

Chapitre 3 – Identifiabilité : 

Dans le cas d’un modèle de mélange, soit on connaît la loi des probabilités 

critiques sous H1, soit on suppose que F appartient à un 

ensemble S de fonctions de répartition. Se pose alors le problème 

de l’identifiabilité si la classe S est trop grande. On dira que le 

problème est non-identifiable si il existe (b, H) ∈ [0, 1) × S tel que 

F = bH + (1 − b)U. 

6

– Gm(t) = R(t) 

m 

tiques. Fm(t) = 

fonction de répartition empirique des probabilités cri- 

F P (t) 

m · 

– π0(λ) estimateur de Storey de la proportion π0(λ) = m−R(λ) 

(1−λ)m · 

– π0(λ) = 1−G(λ) 

1−λ · 

– a(λ) = 1 − π0(λ) . 

– 

pF DR λ(γ) = F DRλ(γ) 

Gm(λ) . 

– t m α = t m α (F DRλ) = sup{t ∈ [0, 1]/ F DRλ(t) ≤ α} . 

– Tα = t m α (F DRλ=0) . 

– β = 1−απ0 

α(1−π0) · 

– u∗ unique solution de g(u) = u/α et c∗ seuil optimal. 

F P (t) 

F N(t) 

– F DP (t) = R(t) et F NP (t) = m−R(t) · 

 

1 2 

– ɛm est le réel défini par ɛm = 2m log( α ) · 

– a valeur accessible de la proportion de gènes H1 dans le cas nonidentifiable. 

– F ensemble des fonctions de répartitions stochastiquement dominées 

par U et concaves. 

– a0(t) = 

Gm(t)−t 

1−t 

– G(t) = t ∨ Gm. 

+ · 

Chapitre 5 – η = ηm proportion de composantes non nulles de µ. 

– Z variable aléatoire de même loi que |Y | (i). 

– kF = kF DR , tF = t bkF . µF estimateur FDR . 

– Θm boule à laquelle appartient µ. 

– R o σm (µ) = E µo σm − µ 2 2 . 

– w sous-ensemble de {1, . . . , m} (modèle). 

– M ensemble de s modèles w. 

– (ϕλ)λ vecteurs de la base canonique de R m . 

– µw projection orthogonale de µ sur Sw. 

– µw projection orthogonale de Y sur Sw. 

– Dw dimension de Sw et Lw poids portant sur le modèle w. 

7

Chapitre 1 

Taux de faux positifs 

Afin de fixer les idées, on se place pour ce qui suit, sauf indication 

contraire, dans le cadre des données obtenues à partir des biopuces. 

1.1 Problème de tests multiples 

La technologie des puces à ADN tire profit de la complémentarité des 

brins d’ADN et permet d’évaluer simultanément le niveau d’expression 

de plusieurs milliers de gènes d’intérêt, issus d’un individu soumis à 

certaines conditions expérimentales. Ainsi, on isole sur l’ADN une séquence 

complémentaire d’une partie codant pour un gène dont on veut déterminer 

s’il s’exprime ou non dans une condition donnée : cette partie est appelée 

sonde tandis que le gène dont elle est en théorie spécifique constitue la 

cible. Sur chaque puce à ADN, on dispose m sondes correspondant, par 

complémentarité, à m gènes cibles. Puis on évalue le niveau d’expression de 

ceux-ci par quantification de leur hybridation avec les sondes. Au final, on 

obtient m niveaux d’expression à partir desquels on calcule la valeur de m 

statistiques de test : xi, i = 1, . . . , m , réalisations de m variables aléatoires 

X1, . . . , Xm, dont on pose que m0 d’entre elles correspondent à des gènes 

non différentiellement exprimés. Il est à noter qu’on ne connaît pas m0, 

mais qu’il est néanmoins très vraisemblable que parmi tous les gènes testés, 

certains puissent ne pas être différentiellement exprimés, le cas le plus 

courant étant que la majeure partie de ces gènes soit non différentiellement 

exprimés. 

Pour chacune de ces variables, on réalise un test de H0(i) : le gène i est non 

différentiellement exprimé, contre H1(i) : le gène i est différentiellement 

exprimé. On obtient alors m probabilités critiques (pi)i=1,...,m, chacune 

d’elles étant définie comme la probabilité qu’une certaine statistique 

dépasse un seuil donné, déterminé à partir de la loi de cette statistique sous 

l’hypothèse nulle. Une idée naturelle consisterait à tester individuellement 

chaque probabilité critique au niveau α. Cependant, prenons m de l’ordre 

9

de 10 000, ce qui est assez courant sur les puces à ADN. Dans ces conditions, 

tester individuellement chaque gène au niveau α = 5%, donne en moyenne 

500 faux positifs parmi les 10 000 gènes testés. On voit donc ainsi la 

nécessité de concevoir des ”procédures” capables de détecter les gènes 

différentiellement exprimés malgré le grand nombre de gènes testés et 

donnant le moins de faux positifs possibles. 

Convention : 

Dans la suite, on dira d’un gène non différentiellement exprimé qu’il est H0, 

tandis qu’un gène différentiellement exprimé sera dit H1. 

1.2 Taux d’erreurs de type I 

Définition 1.1 (faux positif) On dit qu’un gène est un faux positif si ce 

gène est H0 mais rejeté par la procédure, i.e. déclaré H1. 

On résume dans le tableau suivant les grandeurs d’intérêt du problème 

pour un seuil t donné (Bar-Hen et al.[3]) : 

H0 H1 total 

rejetés F P (t) V P (t) R(t) 

non-rejetés V N(t) F N(t) m − R(t) 

total m0 m1 = m − m0 

L’objectif annoncé est de déterminer parmi tous les gènes testés, ceux 

qui sont H1. Néanmoins, la procédure de test utilisée pour décréter un gène 

H0 ou H1 peut engendrer des faux positifs. On souhaite alors pour perdre 

le moins possible d’informations, détecter le maximum de gènes H1, tout en 

contrôlant le nombre de faux positifs F P (t) afin notamment de minimiser 

les coûts (pas ou peu d’expériences inutiles). Pour cela, on définit quatre 

quantités dont la majoration nous assure un certain contrôle du nombre de 

faux positifs (d’après Dudoit et al. [10]) : 

Définition 1.2 (Per Comparison Error Rate) 

P CER(t) = 

E(F P (t)) 

, 

m 

Définition 1.3 (Per Family Error Rate) 

P F ER(t) = E(F P (t)), 

Définition 1.4 (Family Wise Error Rate) 

F W ER(t) = P r(F P (t) ≥ 1), 

10

y 

3 

2.5 

2 

Vrais Positifs 

VP(λ) 

1.5 

1 

0.5 

seuil λ 

Densité des probabilités critiques 

Faux Négatifs FN(λ) 

Vrais négatifs VN(λ) 

Faux Positifs 

FP(λ) 

0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

Probabilités critiques 

Fig. 1.1 – Densité des probabilités critiques sous H1 (proches de 0) et sous 

H0 (uniformément réparties). 

Définition 1.5 (False Discovery Rate) 

 

F P (t) 

F DR(t) = E 

. 

R(t) ∨ 1 

Remarque : le terme R(t) ∨ 1 au numérateur du FDR vient de ce que si 

R(t) (le nombre de gènes rejetés) vaut 0, ce qui est possible si la procédure 

est trop conservative, il faut que le rapport soit défini. Ici, il vaut logiquement 

0 puisque dans ce cas, FP(t) (nombre de gènes rejetés à tort) vaut 0. 

Historiquement, seules les deux dernières quantités ont suscité 

véritablement de l’intérêt. C’est donc seulement à ces deux-ci que nous allons 

nous intéresser dans la suite. 

1.3 Procédures de contrôle du FWER 

D’après la définition 1.4, on voit que contrôler le FWER revient à 

contrôler la probabilité d’avoir au moins un faux positif. Utiliser le FWER 

11

va donc avoir pour effet de détecter moins, voire beaucoup moins de gènes 

H1 que si on s’autorisait quelques faux positifs tout en s’assurant que la 

proportion de ceux-ci sur le nombre total de gènes rejetés soit assez petite : 

c’est exactement l’interprétation du FDR. 

Néanmoins, ces deux types de contrôle ne sont pas forcément à opposer et 

peuvent même être complémentaires. Par exemple, tandis qu’on peut autoriser 

quelques faux positifs et donc l’usage du FDR pour les contrôler lors 

des premières étapes de l’élaboration d’un médicament (expérimentation sur 

des souris), le renforcement progressif du contrôle du FDR avec l’exigence 

croissante de précision au fil des expérimentations aboutira à une préférence 

pour le FWER lors de tests sur des patients humains, où aucun faux positif 

n’est toléré (Benjamini et Hochberg [4]). 

De nombreuses procédures ont donc été développées pour contrôler le 

FWER, comme celles de Sidak, ou de Bonferroni. Ainsi, Sidak montre [10] : 

Proposition 1.1 (procédure de Sidak) Si les tests effectués sur les 

gènes H0 sont indépendants, alors contrôler chaque probabilité critique au 

niveau t donne : 

F W ER(t) = P r(∃ un faux positif) = 1 − (1 − t) 1 

m 0 ≤ 1 − (1 − t) 1 

m , 

où m0 est inconnu. 

Remarque : ce point découle de la loi binomiale suivie F P (t) comme nous 

le verrons dans les préliminaires 3.1.1. 

Quant à lui, Bonferroni ne fait pas l’hypothèse d’indépendance : 

Proposition 1.2 (procédure de Bonferroni) Sans hypothèse d’indépendance 

sur les tests effectués pour les gènes H0, contrôler chaque probabilité 

critique Pi au niveau t donne : 

m0 

F W ER(t) = P r(∃ un faux positif) ≤ P r(Pi ≤ t m0 

) ≤ t ≤ t, 

m m 

avec m0 inconnu. 

Remarques : 

– D’abord, ces deux procédures sont dites ”conservatives” en cela 

qu’elles offrent un contrôle optimal (cas indépendant) qui n’est pas 

réellement accessible puisqu’il dépend de m0, inconnu. Ainsi, le 

véritable et seul contrôle exploitable est nettement moins bon. Il faut 

avoir recours à l’estimation de m0 pour espérer une amélioration de 

ce contrôle. 

– Ensuite asymptotiquement (m → ∞), le développement limité de 1 − 

(1 − t) 1 

m 0 t/m0 pour t < 1 et m0 → ∞, indique que la procédure 

de Sidak donne un contrôle du FWER qui s’apparente à celui obtenu 

avec Bonferroni, ceci suggérant que le cas de l’indépendance tend à 

être le pire pour la majoration du FWER. 

12 

i=1

1.4 Procédure de Benjamini-Hochberg 

De la même manière, lors de l’introduction du FDR en 1995 par Benjamini 

et Hochberg [4], ceux-ci ont montré par récurrence et conditionnement 

que la procédure dite de ”Benjamini- Hochberg”, que nous désignerons par 

la suite par ”procédure BH”, offre un contrôle du FDR au niveau α. 

procédure BH : 

On considère les m probabilités critiques ordonnées correspondant aux m 

tests : 

On définit ensuite : 

Alors, [4] nous donne : 

p (1) ≤ p (2) ≤ . . . ≤ p (m) . 

k = max{ i / p (i) ≤ iα 

} . 

m 

Théorème 1.1 (procédure BH) Sous hypothèse d’indépendance des probabilités 

critiques sous H0 et d’indépendance de celles-ci par rapport à celles 

sous H1, la procédure suivante 

– si k n’existe pas, on ne rejette aucune hypothèse, 

– si k existe, rejet de H (i) , i = 1, · · · , k . 

fournit la relation : 

F DR ≤ m0 

α ≤ α . 

m 

Devant la difficulté de la démmonstration de Benjamini et Hochberg [4], nous 

avons détaillé en annexe leur preuve pour le théorème 1.1. Il est toutefois 

préférable, étant donnée sa complexité et sa longueur, de ne la lire qu’en 

seconde lecture. Une autre preuve, plus élégante sera donnée ultérieurement. 

On peut formuler plusieurs remarques à ce sujet : 

m0 

(i) la méconnaissance de m0 et donc du rapport π0 = m rend la 

procédure BH d’autant plus conservative que π0 est petit. On peut 

donc se dire qu’estimer ce rapport serait un moyen d’obtenir une 

procédure plus puissante. En effet, si on veut peu de faux positifs au 

regard du nombre de rejets, on souhaite aussi rater le moins possible 

de gènes H1, ce qui signifie la meilleure puissance posssible. 

(ii) ce contrôle demeure sous certaines hypothèses de dépendance (voir 

notamment [6] et [7]). Dans la suite, nous n’aborderons que ponctuellement 

ces questions de dépendance avant de détailler, dans la dernière 

partie, le cas particulier de la propriété PRDS (Benjamini, Yekutieli 

[7]) qui, lorsqu’elle est vérifiée, assure un contrôle du FDR au niveau 

souhaité. 

13 

déf

valeurs des probabillités critiques 

x 10 

9 

−3 

8 

7 

6 

5 

4 

3 

2 

1 

0 

Procédure de Benjamini Hochberg (α=0.05). 

y= x*α/m 

k FDR 

courbe des probabilités 

critiques ordonnées 

2 4 6 8 10 12 14 

rang des probabilités critiques ordonnées 

Fig. 1.2 – Principe de la procédure BH. m0 = 100 et π0 = 0.1 . La procédure 

BH sélectionne donc l’entier le plus grand kF DR, avant l’instant de dernier 

croisement à droite des deux courbes. 

1.5 Les diverses approches envisagées 

L’étude du FDR jusqu’à présent a été réalisée essentiellement suivant 

trois points de vue que sont 

1. l’utilisation de lois a posteriori dans une structure de modèle de 

mélange, 

2. l’emploi du cadre des processus stochastiques pour obtenir des 

résultats asymptotiques, 

3. la mise en évidence de liens entre le FDR et les techniques de critères 

pénalisés. 

Nous allons donc, entre autres, présenter dans ce qui suit ces trois aspects. 

Dans la partie deux, nous rappelons le caractère global de l’information 

apportée par le FDR ou le pFDR, à la différence de celle fournie par le FDR 

local. De plus, le modèle de mélange constitue la trame de la deuxième 

partie s’avère être un cadre commode en cela qu’il permet l’obtention de 

14

formules exactes pour certaines de nos quantités d’intérêt. 

La partie trois est dévolue à l’obtention de résultats, la plupart de nature 

asymptotique, grâce à une approche basée sur les processus stochastiques. 

Ainsi R(t)/m, la proportion de gènes rejetés est vue comme la fonction 

de répartition empirique des probabilités critiques G(t). De ce constat 

découlent de nombreux résultats concernant l’optimalité des seuils des 

procédures envisagées ou encore la normalité asymptotique. 

Bien qu’elle soit un peu plus marginale, nous avons choisi dans la quatrième 

partie, de rendre compte d’une approche basée sur la minimisation d’une 

fonctionnelle sous certaines contraintes , procédé qui a pour but notamment 

de fournir une procédure optimale en cela qu’elle maximise la puissance 

tout en maintenant un contrôle donné sur le FDR. 

À l’occasion de problèmes d’estimation d’une courbe à partir de la donnée 

d’un signal discret et perturbé par un bruit gaussien, d’aucun ont vu dans 

le FDR la possibilité d’un estimateur adaptatif des coefficients de celle-ci, 

décomposée dans une base donnée d’ondelettes. Ainsi, ont été mises à 

jours certaines propriétés asymptotiques minimax de l’estimateur FDR, 

propriétés déduites par le biais de la minimisation de critères pénalisés. 

Dans un second temps, nous présenterons les méthodes d’obtention de deux 

pénalités couramment utilisées que sont celle de Donoho et Johnstone et 

celle de Birgé et Massart. 

Enfin, la dernière partie est consacrée à la description de certaines pistes 

à approfondir, ainsi qu’à des exemples de résultats qui sont dores et déjà 

accessibles comme c’est le cas pour les profils CGH. 

15

Chapitre 2 

Information locale et 

probabilités a posteriori 

2.1 Modèle de mélange 

Afin d’améliorer la majoration du FDR obtenue dans le théorème 1.1, 

on cherche à étudier les variables aléatoires F P (t) et R(t). Pour cela, étant 

données nos deux populations de gènes (différentiellement exprimés ou non), 

un cadre assez commode est celui du modèle de mélange ([3],[12],[18],[19] 

par exemple) qu’on fonde sur les hypothèses que voici : 

Hypothèses : 

1. on suppose la loi des probabilités critiques sous H0 connue car d’une 

part l’inférence sur un modèle où les deux lois sont inconnues semble 

difficile (identifiabilité), et d’autre part, le simple fait de supposer la 

continuité de la loi des probabilités critiques sous H0 oblige celle-ci à 

être l’uniforme sur [0, 1]. 

2. on se restreint au cas de probabilités critiques sous H1 identiquement 

distribuées puisqu’on peut s’y ramener. 

Remarque : 

Le plus souvent, on fait l’hypothèse de continuité de la loi sous H0, ce qui 

donne Pi | H0(i) = 0 ∼ U(0, 1). Aussi dans la suite, on se placera dans ce 

cadre, sauf indication contraire. 

On aboutit par conséquent à la fonction de répartition des Pi : 

G(t) = π0 U(t) + (1 − π0) F (t), 

avec F la fonction de répartition des probabilités critiques sous H1 et U = 

id [0,1]. 

17

2.2 pFDR et q-value 

2.2.1 Caractère global du FDR 

En effet, étant donnée une liste de gènes dont on dispose du niveau 

d’expression entre deux conditions données, le FDR et les procédures de 

tests multiples comme la procédure BH ont pour vocation de déterminer 

ceux des gènes qui sont H1, avec une proportion globale de faux positifs 

parmi ceux-ci controlée au niveau α souhaité. Cependant, le FDR ne nous 

renseigne pas quant à la probabilité pour un gène donné d’être un faux 

négatif, ou un vrai positif par exemple. Le pFDR de Storey tombe également 

comme nous allons le voir sous le coup de cette remarque à la différence du 

FDR local, noté fdr, que nous introduirons dans la partie suivante. 

2.2.2 Relation entre FDR et pFDR 

Nous avons vu (définition1.5) que le FDR est défini comme l’espérance du 

rapport entre le nombre de faux positifs F P (t), et le nombre de rejets R(t) 

au seuil t. Nous avons également justifié l’écriture R(t) ∨ 1 au dénominateur 

de ce rapport par un argument d’existence. C’est entre autres ce problème 

de définition qui a incité Storey en 2001 [18] à introduire la notion de pFDR 

qu’il définit comme suit : 

Définition 2.1 (positive False Discovery Rate) Avec les notations de 

la définition1.5, et pour un seuil t ∈ [0, 1] 

 

F P (t) 

pF DR(t) = E 

R(t) 

= 

F DR(t) 

P r(R(t) > 0) 

 

| R(t) > 0 

(si P r(R(t) > 0) > 0)· 

(2.1) 

Remarques : 

– Le pFDR comme le FDR prend en compte la loi du couple (F P, R). 

– Dans le cas où tous les gènes sont non différentiellement exprimés, le 

pFDR vaut 1, ce qui empêche toute possibilité de contrôle de cette 

quantité à un niveau α < 1. 

– Si P r(R > 0) est connue, alors le pFDR permet un contrôle plus 

précis de l’espérance de la proportion de faux positifs. 

Storey [18] donne également le théorème suivant qui établit, dans le cadre 

des modèles de mélange, le lien entre pFDR et probabilité a posteriori, ce qui 

permet une interprétation plus commode du pFDR : il s’agit de la probabilité 

pour un gène donné d’être un faux positif, sachant que sa probabilité critique 

est inférieure au seuil fixé. 

18

Théorème 2.1 (Probabilité a posteriori) Avec les mêmes notations du 

cadre des modèles de mélange, soit F P (t) = ♯{i ∈ {1, . . . , m}/H0(i) = 

0 et Pi ≤ t}, et R(t) = ♯{i ∈ {1, . . . , m}/Pi ≤ t}. Alors 

 

F P (t) 

∀i = 1, . . . , m , pF DR(t) = E 

R(t) 

 

| R(t) > 0 

= P r(H0(i) = 0 | Pi ≤ t). 

Remarque : la preuve est similaire à celle d’un résultat d’estimation du 

FDR à partir du fdr, résultat que nous verrons en détails dans la section 

Estimation du FDR. 

Ce théorème a un corollaire montré par Storey en 2001 [19] et que nous 

avons choisi de mentionner sous une forme un peu différente pour illustrer 

la simplicité de l’expression obtenue pour le FDR. 

Corollaire 2.1 (Rapport des espérances) Sous les hypothèses du 

théorème 2.1, il vient pour un seuil t donné 

F DR(t) = 

E[F P (t)] 

P r(R(t) > 0) . (2.2) 

E[R(t)] 

Cette relation vient des lois binomiales suivies par F P (t) et R(t) (cf. partie 

3.1.1). 

2.2.3 Un analogue a posteriori des probabilités critiques 

Nous allons à présent définir la notion de q-value, introduite par Storey 

dès 2001 ([18], [19]) et bâtie à partir du pFDR. 

Soit pour tout i, Pi est la probabilité critique associée au gène i et posons 

tα = min{ t ∈ [0, 1]/ P r(Pi ≤ t | H0(i) = 0) = α }. Alors, on a la définition 

suivante : 

Définition 2.2 (q-value) Pour tout t dans [0, 1], 

q − value(t) = inf pF DR(tα). 

tα/t≤tα 

Ceci étant, grâce au théorème 2.1, il vient le 

Corollaire 2.2 Sous les hypothèses du théorème 2.1, 

q − value(t) = inf P r(H0(i) = 0 | Pi ≤ tα). 

tα/t≤tα 

Or, on peut définir la probabilité critique pi du gène i par : 

pi(t) = inf P r(Pi ≤ tα | H0(i) = 0). 

tα/t≤tα 

19

y 

0.3 

0.25 

0.2 

0.15 

0.1 

0.05 

0 

Densités du modèle de mélange : g(t) = π 0 *f 0 (t) + (1−π 0 )*f 1 (t). 

f 0 =N(0,2) 

densité du mélange 

−4 −3 −2 −1 0 1 2 3 4 5 6 

x 

f 1 =N(2,2) 

p−value(z) 

z 

q−value(z) 

Fig. 2.1 – Comparaison de la probabilité critique à la q-value. Ici, on a pris 

π0 = 0.3 pour la proportion du mélange. 

On voit ainsi que la q-value est l’analogue a posteriori de la probabilité 

critique. D’ailleurs, pour renforcer cette interprétation, on peut regarder la 

signification de ces quantités sur un exemple. 

Sur la figure 2.1, la probabilité critique au niveau z correspond à l’aire 

de la queue de droite pour la densité f0, ici N (0, 2), tandis que la q-value 

au niveau z représente l’aire de la queue à droite pour la densité g, c’est-àdire 

la somme pondérée par π0 et 1 − π0 des aires des queues à droite pour 

respectivement f0 et f1. Ici sur le graphe, π0 = 0.3. 

Remarque : l’information que fournit le p-FDR est globale puisqu’il s’agit de 

calculer la probabilité pour un gène d’être un faux positif sachant seulement 

que sa probabilité critique est inférieure ou égale à un seuil donné, mais sans 

prendre en compte la valeur réelle de celle-ci. Le fdr en cela nous donne des 

renseignements plus précis. Le p-FDR semble alors peu avantageux par rapport 

au FDR puisque le type d’information qu’il apporte est essentiellement 

le même que le FDR. Par conséquent, le p-FDR demeure assez marginal. 

20

2.3 Le FDR local : fdr 

Dans notre cadre de modèle de mélange, nous allons nous intéresser 

au calcul d’une quantité nous apportant des informations locales, i.e. 

qui nous renseignent sur la probabilité pour que le gène i considéré soit 

différentiellement exprimé, ou soit un faux positif par exemple : il s’agit du 

FDR local. 

2.3.1 Le fdr 

Définition 

Dans son article de 2001, Efron [11] introduit le FDR local (fdr) comme 

une probabilité a posteriori dans un cadre de modèle de mélange : 

Définition 2.3 (fdr (probabilité a posteriori)) Avec les notations du 

modèle de mélange ci-avant, on a pour tout t dans [0, 1] 

f0(t) 

fdr(t) = π0 

g(t) = P r(H0(i) = 0 | Pi = t), ∀i = 1, . . . , m, 

avec g(t) = π0f0(t) + (1 − π0)f1(t), densité de chaque probabilité critique. 

Ainsi, le FDR local représente bien la probabilité, pour un gène donné, 

d’être un faux positif, i.e. d’être H0 sachant que la probabilité critique du 

test correspondant vaut t. 

Plus récemment, Bar-Hen, Daudin et Robin [3] ont défini le fdr comme 

un taux d’accroissement : 

Définition 2.4 On suppose que les densités sous H0 et H1 sont continues, 

et on pose p (1), . . . , p (n) sont des probabilités critiques ordonnées. Alors on 

a : 

fdr(p (i)) = F DR(p (i+1)) − F DR(p (i)) 

, 

p (i+1) − p (i) 

où F DR(t) est le FDR calculé en rejetant les probabilités critiques 

inférieures au niveau t. 

Cette définition a le mérite de mettre en évidence le caractère local du fdr. 

Il est à noter que cette définition donne des courbes assez irrégulières qu’il 

convient de lisser comme les auteurs le pratiquent dans ([3]). 

21

Approximation 

Toute une partie du travail de Robin et al.[17] a eu pour objectif l’estimation 

du fdr. Pour cela, ils cherchent en réalité à estimer la probabilité a 

posteriori P r(H0(i) = 1 | Pi = t) : 

P r(H0(i) = 1 | Pi = t) = 1 − fdr(t) (2.3) 

= 

(1 − π0)f1(t) 

· 

π0f0(t) + (1 − π0)f1(t) 

(2.4) 

La relation 2.4 nous conduit alors à penser qu’il faut estimer f1 ainsi que 

π0. Pour f1, on prend un estimateur à noyau 

∀t ∈ [0, 1], ˆ f1(t) = 

m i=1 ωiki(t) 

m i=1 ωi 

, 

 

1, si Pi ∼ f1 

où ∀i = 1, . . . , m, ωi = 

, et ki est le noyau choisi. Les 

0, sinon 

poids ωi étant inconnus, on les remplaces par les probabilités a posteriori 

τi(t) que le gène i soit H1, connaissant sa probabilité critique (équation 2.3). 

On tombe alors sur une équation au point fixe que doit vérifier l’estimateur 

de τi(t) : ˆτi(t) = Ψ(ˆτi(t)). En utilisant un estimateur de π0 et en s’appuyant 

sur un théorème de point fixe pour Ψ contractante, on met en oeuvre une 

méthode de résolution itérative basée sur le calcul à chaque itération des 

valeurs des estimateurs de f1 et π0. Il est à noter que cet algorithme diffère 

de l’algorithme EM en cela qu’il ne comporte pas d’étape de maximisation 

de la vraisemblance. 

Toutefois, l’apparition d’un point fixe dans cette méthode est due au 

choix spécifique de l’estimateur de f1 dans lequel nous avons fait intervenir 

les τi. De plus, les problèmes concernant la règle d’arrêt et la vitesse de 

convergence de ce type d’algorithme sont bien connus. Il paraît alors assez 

naturel de chercher à construire un autre estimateur de f1, ”meilleur” en ce 

sens qu’il serait adaptatif et qui, par exemple, nous inciterait par sa forme 

à adopter une stratégie différente de l’estimation itérative. 

2.3.2 Estimation du FDR 

Un autre intérêt du calcul du fdr est qu’il nous fournit, comme nous 

allons le voir, un nouvel estimateur de la fonction FDR, les lois sous H0 et 

H1 étant supposées connues. C’est notamment l’un des résultats exprimés 

par Robin, Bar-Hen, Daudin et Pierre [17] : 

Théorème 2.2 Soit (p (i))i=1,...,m, réalisations ordonnées des probabilités 

critiques (Pi)i=1,...,m, et ∀i = 1, . . . , m, on pose : 

fdri 

déf 

= fdr(p(i)) 

= P r(H0(j) = 0 | Pj = p (i)) , ∀j . 

22

Alors on a pour tout i dans {1, . . . , m} 

F DR(p (i)) 

déf 

= 

= 

 

F P (p(i)) 

E 

| p1, . . . , pm 

R(p (i)) 

1 

fdrk. 

i 

(2.5) 

k/Pk≤p (i) 

Nous avons choisi, pour conclure cette partie, de donner une démonstration 

de (2.5), qui peut faire l’objet d’erreurs d’interprétation et qui s’appuie sur 

des méthodes fréquemment employées. 

Preuve : 

La preuve repose sur l’hypothèse d’indépendance et de lois identiques 

pour les Pi. On note Aj l’événement {Pj1 = p (1), . . . , Pjm = p (m)}, où 

j1, . . . , jm représentent une permutation de {1, . . . , m}. 

F P (t) = m 

k=1 1 {H0(k)=0}1 {Pk≤t} 

De plus, 

R(t) = m k=1 1 Alors, il vient 

{Pk≤t} 

. 

F DR(p (i)) = 

= 

 

F P (p(i)) 

E 

| p1, . . . , pm 

R(p (i)) 

 

 

F P (p(i)) 

E 

| Aj P r(Pj1 

R(p (i)) 

j1,...,jm 

= p = 

(1), . . . , Pjm = p (m) | p1, . . . , pm) 

 

 

F P (p(i)) 1 

E 

| Aj 

i m! , 

j1,...,jm 

(sachant Aj, il y a exactement i probabilités critiques rejetées). Puis : 

 

 

E F P (p (i)) | Aj 

= 

= 

= 

m 

k=1 

E(1 {Pj k ≤p (i)}1 {H0(jk)=0} | Aj) 

i 

E(1 {H0(jk)=0} | Aj) 

k=1 

i 

k=1 

E(1 {H0(jk)=0} | Pjk 

= pjk ) (indépendance). 

Enfin, les Pk | H0(k) étant identiquement distribuées, il vient que 

 

F DR(p (i)) = 1 

i 

i 

P r(H0(k) = 0 | Pk = p (k)). 

k=1 

23

Chapitre 3 

Proportion de rejets et 

processus stochastiques 

Une autre approche du problème consiste à faire intervenir des processus 

empiriques dont l’étude de la convergence, quand m → ∞, permet de 

déterminer le comportement asymptotique du FDR. En outre, si les résultats 

montrés ici sont de nature asymptotique, les quelques milliers, voire dizaines 

de milliers de données obtenues avec les biopuces justifient la recherche de 

tels résultats et fournissent même, dans une certaine mesure, un cadre d’application 

pour ceux-ci. 

Une grande partie de ce qui suit est fondé sur le constat suivant : 

Gm(t) = 1 

m 

m 

1 {Pi≤t} 

i=1 

= 1 

m R(t)· 

Grâce à ceci, nous allons réinterpréter beaucoup des quantités que nous 

avons étudiées jusqu’ici en termes de processus. Or ce domaine ayant été 

déjà largement étudié, les processus stochastiques constituent une trame 

intéressante que nous allons pouvoir exploiter afin de récupérer assez facilement 

un certain nombre de résultats. 

3.1 Préliminaires 

3.1.1 Quelques propriétés fondamentales de R(t) et F P (t) 

Loi binomiale 

Comme nous l’avons précédemment cité, nous avons d’abord la relation 

R(t) 

m = Gm(t) , (3.1) 

25

où Gm représente la fonction de répartition empirique des probabilités critiques. 

Ainsi pour un modèle de mélange, les Pi sont indépendantes et identiquement 

distribuées, G. Pour un seuil t donné, R(t) vérifie alors 

R(t) ∼ B(m, G(t)) . (3.2) 

En effet, R(t) = m 

i=1 1 {Pi≤t} où ∀i, 1 {Pi≤t} ∼ B(G(t)). 

De la même façon, 

F P (t) = 

m 

i=1 

1 {Pi≤t}1 {H0(i)=0} 

∼ B(m0, F0(t)) , (3.3) 

et 

F P (t) 

m = F0,m(t) . (3.4) 

De plus, on a la propriété suivante prouvée en annexe dans la démonstration 

du théorème 3.2 : 

F P (t) | F P (s) ∼ B(F P (s), F0(t)), ∀ 0 ≤ t < s ≤ 1. (3.5) 

Théorème de Glivenko-Cantelli 

On rappelle le résultat de convergence suivant [21] : 

Théorème 3.1 (Glivenko-Cantelli) Soit (Xi)N∗, une suite de variables 

aléatoires indépendantes et identiquement distribuées, de fonction de 

répartition F . On a alors que 

p.s. 

Fm − F ∞−−−−→ 

0 . (3.6) 

m→∞ 

De plus, si F est continue, alors Fm − F ∞ est libre de F . 

Ceci a donc pour conséquence que 

3.1.2 Estimation de la proportion 

F P (t) p.s. 

−−−−→ 

m m→∞ F0(t) (3.7) 

R(t) p.s. 

−−−−→ G(t). 

m m→∞ 

(3.8) 

Comme nous l’avons signalé à l’occasion du théorème1.1, un moyen d’obtenir 

des procédures plus puissantes que la procédure BH serait d’estimer 

π0. D’ailleurs l’estimation de cette quantité a déjà été nécessaire dans le 

26

travail de Robin, Bar-Hen, Daudin et Pierre [17]. Ainsi afin de produire un 

tel estimateur, Storey [18] s’appuie sur le fait que les probabilités critiques 

sous H1 sont proches de 0 (elles ont tendance à ne pas être significatives), 

tandis que celles sous H0 se répartissent à peu près uniformément sur [0,1]. 

Aussi peut-on penser qu’en s’éloignant suffisamment de 0, les seules probabilités 

critiques non rejetées au niveau λ sont H0 (figure1.1). C’est pourquoi 

il vient : 

π0(λ) = 

m − R(λ) 

, (3.9) 

m(1 − λ) 

qui constitue un exemple d’estimateur parmi tant d’autres. La question est 

donc dans le cas présent de déterminer le λ optimal pour l’estimation de π0. 

Trois idées importantes peuvent être dégagées. 

– La première est que cet estimateur repose sur la continuité de la loi 

des probabilités critiques sous H0. 

– La seconde est que comme fonction de λ, π0(λ) est croissante par 

morceaux. En effet, le numérateur est constant par morceaux tandis 

que le dénominateur est décroissant. 

– Enfin, la troisième est que π0 ≥ π0. Pour voir cela, nous allons 

développer succintement quelques arguments heuristiques. Ainsi, on 

part du fait que 

π0 = 

G(t) − F (t) 

t − F (t) 

Puis, on tient le raisonnement suivant : suffisamment loin de 0, la 

fonction de répartition F des probabilités critiques sous H1 vaut 1. 

Or, la fonction 

x ↦→ 

est croissante. D’où le fait que 

G(t) − x 

t − x 

π0 = 

F (t) − G(t) 

F (t) − t 

≤ 

1 − G(t) 

1 − F (t) 

 

1 − Gm(t) 

1 − F (t) 

= π0(t). 

· 

(3.10) 

(3.11) 

(3.12) 

Ainsi, l’estimateur de Storey π0(t) surestime π0. 

En conséquence, la procédure nouvellement obtenue en remplaçant dans la 

α 

procédure BH le α par bπ0(λ) sera plus puissante mais toujours conservative 

(cf.3.11). 

27

Remarques : 

1. La convergence de π0(λ) −−−−→ 

m→∞ 

1−G(λ) 

1−λ 

donne que 1−G(λ) 

1−λ 

n’est qu’un 

F (t)−G(t) 

majorant de F (t)−t = π0, ∀t. Il faut savoir que d’autres estimateurs 

de π0 existent, estimateurs qui sont sans biais. 

2. Pour ce qui est de la détermination du λ optimal, il faut voir qu’il s’agit 

véritablement d’un problème en soi puisque cela revient à déterminer 

une zone où l’hypothèse d’uniformité de la loi des probabilités critiques 

sous H0 est valide en sachant que près de 0, la contribution des 

probabilités critiques sous H1 est importante et que près de 1, l’estimation 

de π0 par l’estimateur de Storey est très variable. On peut 

noter plusieurs méthodes : 

(i) Il est possible de procéder par rééchantillonnage comme le fait 

Storey(2002)[18]. Ainsi, on cherche un estimateur bootstrap de λbest 

défini par 

 

 

λbest = argminλ∈[0,1] E [ pF 2 

DRλ(γ) − pF DR(γ) ] , ∀γ ∈ [0, 1], 

où 

pF DRλ(γ) désigne un estimateur du pFDR que nous allons 

définir dans ce qui suit. 

(ii) Dans leur article de 2004, Benjamini, Krieger et Yekutieli [5] 

mentionnent la possibilité d’une procédure en deux temps appelée 

ABH (Adaptive Benjamini-Hochberg procedure) : on applique la 

procédure BH une première fois afin d’obtenir le ˆ k, puis on calcule 

π0(λ) pour λ p ( ˆ k) . 

Bien que cela n’ait pas encore été prouvé, il est possible de constater 

par simulations que cette procédure fournit un contrôle plus fin du 

FDR, et est bien plus puissante que la procédure BH classique. 

Cette partie trois est assez longue car elle reflète la grande quantité de 

résultats déjà très aboutis qui émanent du cadre commode et déjà rebattu 

des processus stochastiques. Nous allons donc dès à présent préciser plus 

avant sa structure afin de clarifier notre propos. 

L’étude du FDR donne lieu essentiellement à deux stratégies possibles. Soit 

on se fixe un niveau de contrôle du FDR et on tente de déterminer le seuil auquel 

on va rejeter les probabilités critiques et qui nous fournira la procédure 

la plus puissante, soit on fixe le seuil de rejet à t et on cherche à évaluer le 

plus précisément possible F DR(t). Ce sont ces deux points de vue que nous 

allons aborder dans la suite. 

– Conformément à ce qui vient d’être dit, pour un niveau de contrôle 

donné, la section suivante sera consacrée à la conception de procédures 

28

dites ”plug-in”. Nous étudierons ensuite leurs propriétés d’optimalité 

de façon d’une part à obtenir une preuve du contrôle du FDR par 

la procédure BH, puis d’autre part à montrer que si cette procédure 

n’est pas optimale, même asymptotiquement, elle est néanmoins la 

meilleure parmi les procédures de dernier croisement à droite. 

– Dans un second temps, en travaillant à un seuil t donné, nous allons 

préciser l’ordre de grandeur du F DR(t) jusqu’à en donner un 

développement limité au voisinage de m → ∞. 

– C’est ensuite à la convergence de processus que nous allons nous 

intéresser, ce qui nous fournira d’une part des intervalles de confiance 

et enveloppes de confiance respectivement pour π0 et F DP (t), puis les 

lois limites vers lesquelles convergent a(λ) et F DP (t) quand m → ∞. 

– Enfin, nous mentionnerons des résultats analogues, obtenus pour 

des champs aléatoires. Nous signalons immédiatement que cette 

généralisation semble, pour ce que nous en avons vu, tout à fait naturelle 

en ce sens qu’elle ne fait appel qu’à des techniques préalablement 

utilisées pour les processus aléatoires. 

3.2 Procédure optimale à contrôle fixé 

Il s’agit en fait de la vision qu’ont adoptée Benjamini et Hochberg en 

1995 [4] en introduisant le FDR. 

3.2.1 Procédures plug-in 

Nous allons donner le cheminement qui conduit aux estimateurs ”plugin”. 

Nous nous plaçons toujours dans le cas du modèle de mélange. 

Obtention d’un seuil plug-in 

D’abord, il faut noter que l’estimateur de Storey pour π0 nous fournit 

un estimateur du FDR pour t dans [0, 1] : 

F DRλ(t) = π0(λ)m t 

R(t) ∨ 1 

· (3.13) 

Cet estimateur représente le rapport entre le nombre de faux positifs jusqu’au 

seuil t et le nombre de gènes rejetés au seuil t. Le lecteur pourra se 

reporter à l’annexe 7.2.3 où nous donnons l’heuristique de l’obtention de 

π0(λ) et F DRλ dans le cas un peu plus général où f0, densité des probabilités 

critiques sous H0 n’est pas continue. 

Remarque : 

29

Il peut être bon de remarquer que l’estimateur du F DR(t) mentionné ciavant 

n’est que croissant par morceaux en tant que fonction de t puisque 

son numérateur est croissant et son dénominateur, constant par morceaux. 

Pourtant, nous aurions plutôt espéré que celui-ci, à l’image du F DR(t), soit 

croissant avec t (le nombre des faux positifs croît avec le seuil de rejet). 

Ensuite dès 2002, Storey [18] montre, pour cet estimateur, un résultat valable 

dans un cadre de modèle de mélange, résultat qu’il généralise en 2004 

[20] et que nous donnons dans sa forme générale : 

Théorème 3.2 (estimateur conservatif) On suppose les probabilités 

critiques sous H0 indépendantes et identiquement distribuées, de densité 

continue sur [0, 1]. Alors, 

∀λ ∈ [0, 1), E( F DRλ(t)) ≥ F DR(t). 

Ainsi en s’appuyant sur ce résultat, trouver un seuil tα pour lequel 

F DRλ(tα) ≤ α implique en passant à l’espérance que F DR(tα) ≤ α. Partant 

de ce raisonnement et sachant que l’on souhaite une procédure la moins 

conservative possible, nous sommes conduits à définir 

t m α ( F DRλ) = sup {t ∈ [0, 1]/ F DRλ(t) ≤ α}. (3.14) 

À présent si on réécrit en se servant de (3.13) et (3.1), on trouve 

t m 

 

α ( F 

π0(λ)t 

DRλ) = sup t ∈ [0, 1]/ 

≤ α . (3.15) 

Gm(t) ∨ 1/m 

Puis, le fait que 

bπ0(λ)t 

Gm(t)∨(1/m) −−−−→ 

π0(λ)t 

m→∞ G(t) 

nous incite à poser : 

Définition 3.1 (Procédure plug-in) 

 

tα(π0, G) = sup t ∈ [0, 1]/ π0t 

 

≤ G(t) . 

α 

Le sens du mot ”plug-in” qui apparaît dans Genovese et Wasserman [13] est 

à comprendre comme suit : pour un jeu donné d’estimateurs de π0 et de G, 

nous avons immédiatement accès à une procédure pour laquelle le FDR est 

contrôlé au niveau α, simplement en remplaçant π0 et G par leur estimateur 

respectif dans tα(π0, G), d’où t m α ( F DRλ) par exemple. 

Remarque : Pour le cas où on ne dispose pas d’une estimation de π0, on a 

évidemment le même type de procédure plug-in dans laquelle π0 n’apparaît 

pas. 

Contrôle du FDR par la procédure BH 

En profitant de cette trame de travail, Storey, Taylor et Siegmund [20] 

ont obtenu une nouvelle preuve du contrôle du FDR par la procédure BH, 

30

tout en mettant en évidence que cette dernière est la plus conservative des 

procédures plug-in faisant intervenir l’estimation de π0. Ce dernier point 

découle ainsi du 

Lemme 3.1 (Équivalence procédures plug-in et BH) Pour λ dans 

[0, 1], la procédure plug-in tα( F DRλ) est équivalente à la procédure BH où 

on a remplacé m par π0(λ)m. 

Ici, la notion d’équivalence signifie que les procédures rejettent le même 

nombre de gènes. Ainsi, le lemme 3.1 établit l’équivalence entre la procédure 

plug-in dans le cas λ = 0 et la procédure BH classique. 

Nous énonçons donc le théorème qui assure le contrôle du FDR par 

la procédure BH. Nous avons choisi d’en donner, en annexe, la preuve 

détaillée. Certaines parties de celle-ci étaient succintement décrites notamment 

dans [20]. Cette preuve présente un intérêt double en cela qu’elle repose 

sur des arguments simples de loi binomiale pour une somme de Bernoulli 

indépendantes et qu’à la suite de la démonstration de Benjamini et Hochberg 

[4], elle constitue une preuve assez élégante, bâtie sur des arguments 

de martingale inverse. 

Théorème 3.3 (procédure BH (1995), plug-in) Si les probabilités critiques 

sous H0 sont indépendantes entre elles, et indépendantes de celles sous 

H1, alors 

Celui-ci s’appuie sur le 

 

 

F DR tα( F DRλ=0) 

= π0α ≤ α. 

Lemme 3.2 (Martingale inverse) On suppose les probabilités critiques 

sous H0 indépendantes et indépendantes de celles sous H1. Pour 0 ≤ t < 1, 

déf 

Ft = σ({1{pi≤s}/ t ≤ s ≤ 1, i = 1, . . . , m}) est une filtration inverse. 

De plus, pour t ≤ s, 

 

F P (t) 

E | Fs = 

t 

F P (s) 

· 

s 

Remarques : 

– Comme nous le verrons dans la preuve en annexe, la propriété de martingale 

repose sur le simple constat que pour t < s, F P (t) | F P (s) ∼ 

B(F P (s), t 

s ). 

– Il est à noter que le même type d’argument utilisant les lois binomiales 

constitue la base du théorème 3.2(cf. préliminaires 3.1.1). 

31

3.2.2 Optimalité des procédures plug-in 

Les procédures plug-in définies précédemment sont certes plus puissantes 

que la procédure BH (lemme 3.1), mais on peut se demander si elles sont 

optimales, du moins asymptotiquement : il se trouve que le point de vue des 

processus stochastiques fournit un cadre idéal pour de tels résultats. 

Dans ce qui suit, nous allons procéder en deux temps. D’abord nous nous 

intéresserons à la limite des seuils plug-in exhibés ci-avant, puis nous aborderons 

le problème de l’optimalité de ces seuils. 

Mais avant toute chose, une remarque : comme nous l’avons vu au cours de 

la preuve du théorème 3.3, F DRλ=0(Tα) = α. Il est alors possible de définir 

la procédure plug-in par le seuil tα tel que : 

tα(π0, G) = sup {t ∈ [0, 1]/ π0t 

α 

= G(t)}. (3.16) 

Convergence du seuil de la procédure BH 

À partir de cette remarque, Genovese et Wasserman [12] ont montré en 

2002 que 

– d’une part, le seuil de la procédure BH converge en probabilité, quand 

m → ∞, vers un seuil asymptotique u∗ qui est l’unique solution de 

l’équation au point fixe : G(u) = u 

α , sous certaines hypothèses portant 

sur G, la fonction de répartition des probabilités critiques. 

– d’autre part, ce même seuil est indépendant de la répartition des probabilités 

critiques au sein des deux familles qui composent le modèle 

de mélange considéré et se comporte asymptotiquement de façon intermédiaire 

entre la procédure naïve de rejet au niveau α et celle de 

Bonferroni. Il est important de se convaincre que ceci ne constitue pas 

un résultat fondamental en cela qu’il paraît clair que la procédure BH, 

prenant en compte l’ensemble des probabilités critiques est meilleure 

que la procédure naîve, tout en étant moins contraignante ou conservative 

que Bonferroni. 

Ainsi, on a le résultat suivant démontré par Genovese et Wasserman(2002) 

qui est vrai dans un cadre plus général que le modèle de mélange : 

Théorème 3.4 (Estimateur consistant du seuil asymptotique) Soit 

F la fonction de répartition des probabilités critiques sous H1. 

On suppose 

(i) π0 est constant par rapport à m, 

(ii) F est strictement concave, 

(iii) F est dérivable en 0 et F ′ (0) > β, où β = 1−απ0 

α(1−π0) , 

(iv) 1 − π0 > 0. 

32

Soit u ∗ l’unique solution dans (0, 1] de F (u) = βu, et ˆ k l’entier de la 

procédure BH. 

Alors 

α ˆ k 

m 

P 

−−−−→ 

m→∞ u∗ . (3.17) 

Remarques : 

– le u∗ du théorème coïncide avec l’unique solution de l’équation G(u) = 

u 

α , dont F (u) = βu n’est qu’une simple réécriture. 

– u∗ dépend à la fois de F , α et π0. 

– pour m assez grand α 

m ≤ u∗ ≤ α, car ∀m, α ˆ k 

m ≤ α. 

– l’hypothèse (iii) du théorème sur la dérivée a pour vocation d’assurer 

que l’équation F (u) − βu = 0 ait au moins une solution. Cependant, 

le fait que β > 1 semble assez restrictif comme on peut le voir sur la 

figure 3.1 en considérant le cas de l’exponentiel de paramètre λ < β 

qui ne vérifierait pas le critère. 

– il est également possible d’affaiblir les conditions sur F. Ainsi, on a les 

deux hypothèses suivantes : 

(a) u ∗ est solution de l’équation F (u) = βu, 

(b) F ′ (u ∗ ) = β. 

– on peut avoir un résultat de convergence analogue avec F = Fθ qui 

appartient à une famille paramétrique donnée dont le paramètre θ a 

une certaine dépendance en m, par exemple une famille exponentielle. 

À défaut de la preuve du théorème 3.2 fournie par Genovese et Wasserman 

[12], nous allons donner une nouvelle démonstration de ce résultat, à 

l’aide de Z-estimateurs, car ceux-ci constituent un cadre plus général que 

celui d’origine, cadre dans lequel il peut être intéressant de voir les choses. 

D’ailleurs, nous allons démontrer un résultat plus général que celui annoncé 

par Genovese et Wasserman. 

Mais d’abord nous mettons en évidence le point suivant pour lequel on 

se base sur le lemme 3.1. Ainsi, l’équivalence des procédures indique que 

montrer un résultat sur le seuil de l’une signifie que le seuil asymptotique 

de l’autre a un comportement analogue. 

On commence par un rappel sur les Z-estimateurs. 

Définition 3.2 (Z-estimateur) Soit X1, . . . , Xm, . . . des variables 

aléatoires. Soit θ ∈ Θ ⊂ Rd , un paramètre et (ψθ,m)m, une suite de 

fonctions vectorielles connues. 

On pose ψm(θ) = 1 m m i=1 ψθ,m(Xi) et Ψ(θ) = Eψm(θ). 

Soit θ0 ∈ Θ un paramètre à estimer. On appelle Z-estimateur toute suite 

( θm)m d’estimateurs de θ0 telle que 

∀m, ψm( θm) = 0 

33

Valeurs de β 

1200 

1000 

800 

600 

400 

200 

α=0.05 

α=0.1 

Tracé de β pour 2 valeurs de α en fonction de π 0 

0 

0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 

Valeurs de la proportion π 

0 

Fig. 3.1 – Tracé de β en fonction de différentes valeurs de la proportion π0, 

pour deux valeurs de α : 0.1 et 0.05. 


Ψ(θ0) = 0. 

Puis Van der Vaart nous donne le résultat suivant. 

Théorème 3.5 (Consistance des Z-estimateurs) Avec les notations 

ci-avant, si ∀ ɛ > 0, 

1. ψm − Ψ ∞,Θ P 

−−−−→ 

m→∞ 0, 

2. inf d(θ,θ0)≥ ɛ Ψ(θ) > 0, 

alors 

3. ψm( θm) = op(1), 

θm 

P 

−−−−→ 

m→∞ θ0. 

Ceci étant, Genovese et Wasserman [12] montrent la consistance de α b k 

m 

vers un seuil u ∗ , ce qui revient, d’après le lemme 3.1, à la consistance de 

34

tm α (F DRλ=0) vers u∗ = u∗ λ=0 . Pour notre part, le cadre des Z-estimateurs 

nous permet une généralisation à la consistance, pour λ quelconque, de 

tm α (F DRλ) vers u∗ λ . 

Preuve du théorème 3.4 : Dans un premier temps, soit 

tm α = tm α ( F DRλ=0), 

∀m ∈ N∗ . Comme nous l’avons vu dans la preuve du 

théorème 3.3, t m α annule la fonction ψm = Fm(u) − βu. Or u ∗ est solution 

de l’équation Ψ(u) = 0, où Ψ(u) = F (u) − βu = E(Fm(u) − βu). Il apparaît 

ainsi d’une part que Glivenko-Cantelli donne la première hypothèse du 

théorème sur la consistance des Z-estimateurs, d’autre part que l’unicité de 

u ∗ donne la deuxième hypothèse et que la dernière vient par construction de 

t m α . Alors, t m α est un Z-estimateur de u ∗ , d’où la convergence en probabilité. 

À présent, on va considérer t m α (F DRλ) pour λ = 0. On pose ˜ β = π0(λ)(1−α) 

α(1−π0) , 

où π0 ≤ π0(λ) = E(π0(λ)) ≤ 1. Alors les mêmes arguments restent valables 

pour Ψ(u) = F (u) − ˜ βu = E(Fm(u) − ˜ βu) et ψm = Fm(u) − ˜ βu. Nous 

obtenont ainsi la preuve dans le cas général pour t m α (λ) = t m α (F DRλ). 

 

Remarques : Étant donné ce qui vient d’être dit, il semble possible d’affaiblir 

les hypothèses du théorème 3.4. 

Ainsi, il paraît possible de ne supposer que l’existence d’une solution 

la plus à droite isolée (la dérivée en ce point est différente de β). Dans ces 

conditions, le théorème reste applicable et t m α converge en probabilité vers 

la solution la plus à droite (maximisation de la puissance) de l’équation 

au point fixe, à condition de restreindre t m α à un voisinage Θ suffisamment 

petit de u ∗ . t m α,Θ (λ) = sup {t ∈ Θ/ F DRλ(t) = α}. 

Procédure BH : sous optimalité asymptotique et dernier croisement 

à droite 

Comme nous l’avons vu précédemment, le seuil de la procédure BH 

converge en probabilité quand m → ∞ vers u ∗ , qui vérifie [12], dans le 

cadre assez commode de modèle de mélange, la relation 

u∗ G(u∗ π0u∗ = α ⇔ 

) G(u∗ ) = π0α ≤ α. (3.18) 

Nous voyons là un point central qui est que cette procédure n’est pas, même 

asymptotiquement, optimale parmi toutes les procédures possibles. En effet, 

le seuil c ∗ d’une procédure optimale devrait vérifier d’après la relation oracle 

(3.16) : 

π0c∗ G(c∗ = α · (3.19) 

) 

D’une certaine façon, on peut voir ce fait comme la contrepartie de 

l’insensibilité de la procédure BH à la façon dont les probabilités critiques 

35

sont réparties entre les deux populations. Nous reverrons ce point plus en 

détails dans la partie suivante en quantifiant notamment l’écart entre les 

deux seuils asymptotiques. 

Pour le moment, nous pouvons dores et déjà donner un résultat qui 

apparaît chez Genovese et Wasserman [12], résultat qui établit que bien que 

non asymptotiquement optimale parmi toutes les procédures de contrôle, 

la procédure BH est pourtant la meilleure parmi les procédures dites de 

”dernier croisement le plus à droite” (last right crossing). Nous allons à 

présent aborder ce point pour lequel nous mentionnons partiellement un 

résultat que nous reverrons dans sa version complète à l’occasion de la partie 

3.3. 

Théorème 3.6 (Développement limité de F DR(t)) Sous 

hypothèses que le théorème 3.4, il vient 

les mêmes 

 

π0t 

1 

∀t ∈ [0, 1], F DR(t) = 

+ O √m · 

π0t + (1 − π0)F (t) 

(3.20) 

Dans un premier temps, on observe que la procédure BH établit son seuil 

(de rejet) au lieu du plus grand entier avant le point de dernier croisement 

à droite entre une courbe sur laquelle se situent les probabilités critiques 

représentée en fonction de leur indice et la droite l(t) = tα 

m (figure1.2). En 

effet, la forme de l(t) = tα/m vient de l’écriture de la procédure BH. 

kF DR = max{i/ p (i) ≤ l(i)}. 

De même pour la procédure de Bonferroni, on a l(t) = α/m puisque pour 

tout i, on rejette si pi ≤ l(t) = a/m. 

Il faut noter que seule la forme de cette fonction t ↦→ l(t) est ici caractéristique 

de la procédure BH (ici une droite). 

Afin de montrer l’optimalité de la procédure BH parmi les procédures 

de dernier croisement à droite, on décide donc de représenter l’ensemble des 

procédures de dernier croisement à droite de façon générique par l(t). Pour 

chacune d’elles, on définit l’indice de la dernière probabilité critique à partir 

de laquelle on rejette par 

kl = max{i / p (i) ≤ l(i)}, (3.21) 

de façon tout à fait analogue à la procédure BH. Il est ainsi possible d’obtenir 

le même résultat que le théorème 3.4, mais dans une version plus 

générale avec l(t) au lieu de αt 

m (figure 3.2). On obtient ainsi un u∗ qui 

vérifie l’équation 

F (u ∗ ) 

u ∗ 

m t/l(t) − π0 

= β = , (3.22) 

1 − π0 

36

avec t vérifiant π0s(t) + (1 − π0)F (s(t)) = t/m (∗), où s est une courbe sur 

laquelle se trouvent les probabilités critiques tracées en fonction de leurs indices. 

Cette relation (∗) a lieu en un point t où s(t) = l(t) et est enfin justifiée 

par le fait que le rapport l(t)/t remplace α dans l’équation G(u ∗ ) = u ∗ t/l(t). 

Puis, conformément au théorème 3.6, la condition F DR ≤ α implique que 

F (u ∗ ) 

u ∗ 

1 − α π0 

≥ . (3.23) 

α 1 − π0 

En effet, on néglige le terme en O( 1 

√ m ) car le résultat qui nous intéresse est 

de nature asymptotique, i.e. à la limite, quand ce terme est nul. En associant 

à présent (3.22) et (3.23), il vient donc 

ce qui vaut si 

m t/l(t) − π0 

1 − π0 

≥ 

1 − α 

α 

π0 

, 

1 − π0 

l(t) ≤ αt 

. (3.24) 

m 

Remarque : La relation que doit vérifier t dans (3.22) implique que t dépend 

implicitement de F notamment. 

La conséquence de cette étude exposée dans [12] est la suivante. On veut 

une procédure parmi celles de dernier croisement à droite qui contrôle le 

FDR à un seuil fixé α (condition (3.23)), tout en détectant le maximum de 

gènes différentiellement exprimés, c’est-à-dire en prenant kl le plus grand 

possible (rejeter un grand nombre de gènes tout en maintenant un contrôle 

du FDR au niveau α accroît la puissance). Comme le montre sa définition 

(3.21), cela sous-entend de prendre pour chaque t, l(t) la plus grande possible 

(figure 3.2), puisque les probabilités critiques sont sous la courbe l(t) jusqu’à 

kl. Ainsi, on constate que la procédure de dernier croisement à droite qui 

réalise le mieux cette condition est la procédure BH qui atteint la borne : 

l(t) = αt/m (relation (3.24)). 

En ce sens, la procédure BH est la meilleure parmi les procédures de dernier 

croisement à droite. 

3.2.3 Convergence des seuils plug-in et dépendance faible 

Il reste à noter que pour la majorité des résultats exposés jusque là, 

nous avons presque toujours requis l’indépendance des probabilités critiques 

associées aux gènes testés. Cependant, Storey et al.[20] ont montré que certaines 

de ces propriétés sont conservées dans un cadre de dépendance dite 

”faible”. Nous allons d’abord aborder cet aspect. 

Ainsi dans leur article de 2004 Storey, Taylor et Siegmund font plusieurs 

hypothèses afin d’étudier l’asymptotique du FDP. 

37

valeurs des probabilités critiques 

6 

5 

4 

3 

2 

1 

x 10 −3 

y=α*x/m 

Procédure de dernier croisement à droite 

l(x) 

courbe des p−valeurs 

0 

1 2 3 4 5 6 7 8 9 10 11 12 

rang des probabilités critiques ordonnées 

Fig. 3.2 – Tracé de la courbe de t ↦→ l(t), correspondant à une procédure de 

dernier croisement à droite vérifiant la relation l(t) ≤ αt/m, les probabilités 

critiques étant ordonnées. 

Hypothèses : (∆) 

1. ∀t 

⎧ 

∈ (0, 1], on a presque sûrement 

déf 

⎨ 

F P (t) 

F0,m(t) = m0 

⎩ 

−−−−→ 

m→∞ F0(t), 

déf R(t)−F P (t) 

F1,m(t) = m−m0 

−−−−→ 

m→∞ F1(t), 

où F0,m et F1,m sont les 

fonctions de répartition empiriques des gènes sous H0, respectivement 

sous H1, et F0 et F1 sont continues. 

2. 0 < F0(t) ≤ t, ∀t ∈ (0, 1]. 

3. π0 = π0,m admet une limite : π∞, quand m → ∞. 

Remarque : 

L’hypothèse de continuité qui est faite pour F0 notamment garantit 

l’applicabilité des résultats qui suivent au cas où f0, densité connue des 

probabilités critiques sous H0, ne serait que continue par morceaux. 

À partir de là, on peut définir la ”dépendance faible” 

38

Définition 3.3 (Dépendance faible) On appelle dépendance faible tout 

type de dépendance entre variables aléatoires pour laquelle l’hypothèse (1) 

de (∆)est réalisée. 

Des exemples de tels types de dépendance sont à chercher parmi l’ergodicité 

(théorème de Birkhoff-Khintchin), la dépendance par bloc fini (au-delà 

d’une certaine distance, une variable aléatoire n’est plus influencée par ses 

voisines), certaines lois de mélange. 

Dans ce cadre de travail, il est possible d’avoir une généralisation du 

théorème 3.4 obtenu par Genovese et Wasserman [12]. 

Remarque : Il n’a pas été supposé que la densité des probabilités critiques 

sous H0 est continue (on a juste la continuité des limites des fonction de 

répartition empiriques). L’approximation que fait Storey pour obtenir son 

estimateur de π0 est toujours valable, à ceci près que F0(t) n’est plus égale 

à t et que l’estimateur de Storey change d’expression (cf. Annexe). Alors, 

d’une part on a l’estimateur généralisé 

π g m − R(λ) 1 − Gm(λ) 

0 (λ) = = , (3.25) 

m(1 − F0(λ)) (1 − F0(λ)) 

d’autre part l’estimateur du F DR(t) qui en découle vaut 

F DRλ(t) = πg 0 (λ) m F0(t) 

R(t) ∨ 1 

πg 0 (λ) F0(t) 

= · (3.26) 

Gm(t) ∨ (1/m) 

L’idée du théorème est la même que celle qui conduit aux Z-estimateurs 

précédemment utilisés : ψm converge vers Ψ = E(ψm) avec m → ∞, alors 

on espère que le sup des valeurs tm d’annulation de ψm va converger vers 

la plus grande valeur d’annulation t∞ de Ψ, d’où la définition suivante : on 

pose 

∞ 

F DRλ (t) = 

 

F0(t) (1 − F0(λ))π0 

π0F0(t) + (1 − π0)F1(t) 

1 − F0(λ) + (1 − F1(λ))(1 

 

− π0) 

, 

1 − F0(λ) 

 

= limm→∞bπ g 

0 (λ) 

qui est la quantité limite de F DRλ(t). 

Remarque : Nous avons choisi de donner la justification de ces trois dernières 

quantités puisqu’il semble qu’il y ait discordance entre le F DR ∞ 

λ attendu et 

celui proposé par Storey et al.[20]. 

Il faut voir à présent que le résultat qui vient est plus fort que ceux obtenus 

auparavant pour les seuils plug-in en cela qu’apparaît la convergence 

presque-sûre qui n’est pas donnée par les Z-estimateurs. Cependant en se 

restreignant à la convergence en probabilité, nous pouvons appliquer les 

mêmes arguments de Z-estimateurs que dans le cas indépendant uniforme. 

Voici donc le 

39

Théorème 3.7 (Seuil asymptotique) On suppose que les hypothèses 

∞ 

(∆) sont vérifiées. Si pour tout λ ∈ [0, 1], t ↦→ F DRλ (t) a une dérivée 

∞ 

non-nulle en tα( F DRλ ) ∈ (0, 1), alors presque sûrement 

lim 

m→∞ [tα( 

∞ 

F DRλ)] = tα( F DRλ ). 

De cet énoncé, Storey tire notamment le corollaire 

Corollaire 3.1 (Comparaison des seuils asymptotiques) Si les hypothèses 

(∆) sont vérifiées, en supposant de plus que ∀t ∈ (0, 1), F0(t) < 

F1(t), alors pour tout λ ∈ (0, 1), presque sûrement on a 

lim 

m→∞ [tα( F DRλ=0)] 

< lim 

m→∞ [tα( F DRλ)] < lim 

m→∞ [tα(F DR)], 

Il va de soi que tα(F DR) est par définition le seuil optimal attendu pour un 

contrôle de niveau α. Ce théorème confirme bien la comparaison déjà établie 

dans un cadre d’indépendance. 

Enfin, Storey et al.[20] obtiennent même sous ces hypothèses de dépendance 

faible un résultat de convergence uniforme sur les seuils des procédures : 

une certaine relation de comparaison asymptotique est vraie avec grande 

probabilité et ce, pour tous les seuils en même temps, pourvu que ceux-ci 

soient assez grands. 

Théorème 3.8 (Comparaison asymptotique uniforme) Sous les hypothèses 

(∆), ∀δ > 0 

lim 

m→∞ inft≥δ[ F DRλ(t) − F DP (t)] ≥ 0 , 

lim 

m→∞ inft≥δ[ F DRλ(t) − F DR(t)] ≥ 0 , avec probabilité 1. 

Remarques : 

– La preuve de ce théorème repose sur deux aspects, une adaptation de 

la démonstration de Glivenko-Cantelli, et la convergence ponctuelle de 

F DP vers une fonction continue, où 

F DP (t) = 

F P (t) 

R(t) ∨ 1 . 

– Il est donc possible d’utiliser l’estimateur ponctuel de Storey pour approcher 

à l’infini le FDR, uniformément sur tous les seuils. On peut 

voir ceci aussi comme l’opportunité de contrôler le FDR de façon 

conservative à tous les niveaux, simultanément. 

40

3.3 Contrôle à seuil fixé et sous-optimalité de la 

procédure BH 

Nous allons donc aborder l’autre point de vue sur l’étude du FDR, celui 

de l’étude du niveau du FDR à un seuil fixé. Cette optique est celle adoptée 

par Storey en 2001 [19], puis prolongée par d’autres tels Genovese et Wasserman 

[12]. Toutefois, il est bon de réaliser que ces deux approches ne sont 

pas indépendantes et qu’elles sont même complémentaires comme le montre 

le théorème 3.6 sur lequel repose la preuve de l’optimalité en un certain sens 

de la procédure BH à un seuil fixé. 

Nous allons quantifier à présent l’écart entre le seuil asymptotique de la 

procédure BH et le seuil asymptotique optimal. Pour cela, on se place dans 

un cadre plus général que celui des modèles de mélange et conformément 

à [12], on isole le FDP (False discovery Proportion) et le FNP (False Nondiscovery 

Proportion) que nous allons étudier. 

Définition 3.4 (FDP / FNP) Soit Sj, j ∈ {0, 1}, l’ensemble des indices 

i pour lesquels le gène correspondant est Hj. Alors ∀t ∈ [0, 1], on a 

 

F DP (t) = 

F NP (t) = 

 

i∈S0 1 {Pi≤t} 

i∈S0 1 {Pi≤t} + 

i∈S1 1 {Pi≤t} 

m − ( 

 

i∈S1 1 {Pi≤t} 

i∈S0 1 {Pi≤t} + 

i∈S1 1 {Pi≤t}) 

, (3.27) 

· (3.28) 

Remarques : 

– Ces deux quantités sont des processus stochastiques représentant respectivement 

le taux de faux positifs et le taux de faux négatifs. Ce 

dernier est en lien avec la puissance d’une procédure, i.e. sa capacité 

à reconnaître les gènes différentiellement exprimés. Plus la proportion 

de faux négatifs est faible, plus la puissance est grande. 

– De façon analogue au FDR, on définit le FNR par 

F NR(t) = E[ F NP (t) ]. (3.29) 

Conformément à la remarque précédente, cette quantité va décroître 

avec la croissance de la puissance. 

Ceci étant, on peut donner à présent dans sa totalité l’énoncé du 

théorème suivant [12] qu’on n’avait que partiellement cité dans la section 

précédente. 

Théorème 3.9 (Développement asymptotique) sous les mêmes hypothèses 

que le théorème 3.4, ∀t ∈ [0, 1], 

 

π0t 

1 

F DR(t) = 

+ O √m , (3.30) 

π0t + (1 − π0)F (t) 

 

(1 − π0)(1 − F (t)) 

1 

F NR(t) = 

+ O √m · (3.31) 

(1 − π0)(1 − F (t)) + (π0)(1 − t) 

41

Éléments de preuve : 

La preuve [12] de ces résultats repose essentiellement sur deux points dont 

le premier a déjà été rencontré dans la preuve du contrôle du FDR par la 

procédure BH (preuve du théorème 3.3 en annexe). 

1. 

i∈S0 1 {Pi≤t} ∼ B(m0, t) et 

i∈S1 1 {Pi≤t} ∼ B(m − m0, F (t)) , 

(cf. préliminaire 3.1.1) 

2. F DR(t) 

E[F P (t)] 

E[R(t)] · 

 

Comme dans la partie précédente, (3.30) et la condition E[F DR(t)] ≤ α 

F (t) 1−α π0 

1 

impliquent que quand m → ∞, t ≥ α = β − 1−π0 α · 

D’où en appliquant à c∗ , le seuil optimal, il vient que 

F (u ∗ ) 

u ∗ 

− F (c∗ ) 

c ∗ 

1 

= · (3.32) 

α 

F (t) 

Remarque : Avec une hypothèse de concavité sur F, on a que t ↦→ t est 

décroissante, d’où u∗ < c∗ . D’ailleurs, plus α va être petit, plus l’écart entre 

u∗ et c∗ va croître : la conservativité de la procédure BH est d’autant plus 

limitante que α est petit. 

Dans la partie 3.3, nous avons défini les processus aléatoires FDP 

et le FNP dont nous avons tiré des renseignements en étudiant leur 

comportement à t fixé. L’étude quand m → ∞ de ces quantités en tant 

que processus nous fournit d’autres informations, à caractère plus global, 

quant à la qualité du contrôle exercé sur le FDR : il est possible d’obtenir 

les lois limites de ces processus, puis de déduire de celles-ci des intervalles 

ou domaines de confiance. 

3.4 Limites de processus : normalité asymptotique 

et intervalles de confiance 

Nous revenons à présent à la structure classique d’indépendance entre les 

probabilités critiques. Dans un premier temps, nous allons aborder la convergence 

de processus empiriques déjà mentionnés tels que (F DP (t)) t∈[0,1], vers 

des processus gaussiens. 

3.4.1 Préliminaires : outils de base pour l’étude des processus 

Dans la suite, nous allons nous placer dans le cas d’un modèle de mélange 

avec les notations de la partie 2.1. 

Remarque : Il est également possible tout en conservant les résultats énoncés 

42

ultérieurement, de travailler avec un modèle hiérarchique qui constitue un 

raffinement dont nous avons choisi de ne pas parler ici. 

De nombreux résultats de cette partie, centrée sur l’étude de la convergence 

de processus, s’appuient essentiellement sur deux choses : 

(a) l’inégalité de Dvoretzky, Kiefer, Wolfowitz et Massart (appelée 

inégalité DKWM dans ce qui suit), 

(b) les ”approximations fortes”. 

Nous allons faire un rappel de ces deux points maintenant. 

D’abord, l’inégalité DKWM nous renseigne quant à la vitesse de convergence 

de la fonction de répartition empirique associée à des variables i.i.d. 

vers la fonction de répartition de ces variables. 

Théorème 3.10 (Inégalité DKWM) Soit X1, . . . , Xn, . . . des variables 

aléatoires sur un espace de probabilités, indépendantes et identiquement distribuées, 

de fonction de répartition F . 

Soit Fn, la fonction de répartition empirique de ces variables. 

Alors 

∀x ∈ [0, 1], P r( Fn − F ∞> x) ≤ 2e −2x2 

. (3.33) 

Remarque : On récupère ainsi le théorème de Glivenko-Cantelli grâce à ce 

résultat qui est beaucoup plus précis puisqu’il quantifie la probabilité de 

convergence à une vitesse donnée. 

Ensuite, on donne un résultat ”d’approximation forte”. Il s’agit d’un 

type d’approximation reliant processus empirique et processus gaussien. On 

rappelle juste avant la 

Définition 3.5 (Pont brownien et F-pont brownien) Un pont brownien 

est un processus gaussien (Bt)t = (B(t))t centré, défini sur [0, 1], de 

fonction de covariance 

∀(s, t), Γ(s, t) = cov(Bs, Bt) = s ∧ t − st. 

Pour F, fonction de répartition, le F-pont brownien BF est défini par 

BF (t) = B ◦ F (t), 

d’où une fonction de répartition associée 

On a donc le 

∀(s, t), Γ(s, t) = cov(BF (s), BF (t)) = F (s) ∧ F (t) − F (s)F (t). 

Théorème 3.11 (Approximation forte) Soit F, une fonction de 

répartition. Alors, 

43

– il existe un espace de probabilités et des variables aléatoires i.i.d. 

X1, . . . , Xn, . . . ∼ F sur cet espace, 

– il existe une suite de F-ponts browniens Bn tels que 

lim sup 

n→∞ 

√ n 

(log n) 2 √ n(Fn − F ) − Bn ∞< ∞ p.s. . (3.34) 

Au passage, tous les éléments de la suite (Bn)n ayant même loi, ce théorème 

implique la convergence en loi de √ n(Fn − F ) vers un F-pont brownien 

(théorème de Donsker) et donne une idée de la vitesse de convergence 

O (log n) 2 / √ n . Nous attirons l’attention du lecteur sur le fait qu’il n’y 

a pas indépendance entre la suite de F-ponts browniens exhibée et les variables 

aléatoires (Xi) à partir desquelles ils sont construits. 

3.4.2 Asymptotique des estimateurs de π0 et F , convergence 

du FDP 

Identifiabilité du modèle Dans le cadre habituel de modèle de mélange, 

on a supposé connue F0 = U (fonction de répartition de la loi uniforme), 

tandis que F1 = F reste à estimer. Deux options sont alors possibles : 

soit on choisit une version paramétrique du modèle de mélange où F1 

est supposée appartenir à une ou plusieurs familles paramétriques, soit 

on décide d’estimer F1 de façon non-paramétrique (estimateur à noyau). 

Dans ce qui suit, nous allons considérer le cas non-paramétrique. Ainsi, 

F ∈ F, où F représente une famille donnée de fonctions de répartition : 

F = {H/H ≥ U, H concave}. Afin de rester assez général dans notre 

propos, nous allons aborder le problème de l’identifiabilité du modèle qui se 

pose ici dès que notamment F est trop riche. 

Enfin, tout ce qui suit concernant les processus est basé sur l’article de 

Genovese et Wasserman [13]. 

Hypothèses et notations : 

On pose 

(i) F ∈ F, 

(ii) OF 

déf 

= { (b, H) ∈ [0, 1]×F/ F = (1−b)U +bH }. F est par définition 

”identifiable” si OF = {(1, F )}. 

(iii) ζ = inf{b / (b, H) ∈ OF }, 

(iv) 

(v) 

F −(1−ζ)U 

F = ζ , 

a = aζ où a = 1 − π0. 

Remarques : 

– (ii) indique que H dépend de b. 

– ζ quantifie en quelques sortes l’écart entre F et H. Si ζ = 1, H = F. 

44

– le passage de π0 à a permet de localiser le problème sur le coefficient 

de la fonction de répartition associée à H1. De plus, a sous-estime a 

(ζ ≤ 1). 

– F est la fonction de répartition ”visible” (à laquelle on a accès) dans 

le cas non-identifiable, lorsqu’on ne connaît pas la proportion du 

mélange. En effet dans ce cas, Genovese et Wasserman en 2004 [13] 

ont montré qu’on ne peut espérer mieux que d’estimer le minorant a 

de la proportion de gène H1. 

Les derniers points sont, du moins partiellement, justifiés par les égalités 

suivantes : 

G = (1 − a)U + aF , 

= (1 − aζ)U + aζF , 

= (1 − a)U + a F . 

Il est bon de remarquer pour la suite de l’exposé que nous avons également : 

⇒ 

G = (1 − a)U + a F 

G(t) − t G(t) − t 

a = ≥ · 

F (t) − t 1 − t 

(3.35) 

D’ailleurs, il est possible d’exprimer a en fonction de G uniquement [13]. 

Nous avons rédigé une preuve de ce résultat en annexe. 

Proposition 3.1 (Grandeurs accessibles) Si la loi des probabilités critiques 

sous H1 est absolument continue et si F ≥ U, alors 

ζ = 1 − inf 

t F ′ (t) et a = 1 − inf 

t G′ (t). 

Remarques : 

– Pour justifier l’hypothèse F ≥ U, on peut remarquer que les probabilités 

critiques des gènes sous H1 sont proches de 0 lors du test de 

H0 contre H1. Ainsi, la contribution de ces probabilités critiques est 

la plus forte au voisinage de 0, tandis qu’elle est quasi-nulle loin de 

0. La fonction de répartition G vérifie G(1) = 1 et la pente de la 

droite vers laquelle elle tend près de 1 est π0 ≤ 1, puisque loin de 0 

G(t) π0t + (1 − π0). C’est pourquoi, il paraît raisonnable de poser 

pour G : G ≥ U = Id. Ainsi, G étant combinaison convexe de U et F, 

on a de même F ≥ U = Id. 

– On pourrait néanmoins imaginer des fonctions de répartition F pour 

lesqelles la condition F ≥ U ne serait pas vérifiée. 

– De plus, on voit bien que le lieu de pente la plus faible pour la fonction 

de répartition G n’est certainement pas situé au voisinage de 0. 

45

Intervalle de confiance pour la proportion 

Nous pouvons ensuite donner un intervalle de confiance pour a tout en 

sachant que a = a dans le cas identifiable. 

Théorème 3.12 Soit ˆ G(t) = (Gm(t) ∨ t), ɛm > 0 et 

Alors, 

De plus, 

a ∗ = max 

t 

∀(a, F ), P ra,F ( a ∈ [a ∗ , 1] ) ≤ 1 − α + 2 

ˆG(t) − t − ɛm 

1 − t 

inf 

a,F P ra,F ( a ∈ [a ∗ , 1] ) ≥ 1 − α. (3.36) 

∞ 

j=1 

· 

(−1) j+1 ( α 

2 )j2 

+ O 

 

(log m) 2 

√ 

m 

(3.37) 

Remarques : 

– le terme de reste peut dépendre de a et F . 

– cet intervalle de confiance reste valable pour a même dans le cas nonidentifiable 

puisque a ≤ a. 

– la relation (3.36) donne un résultat d’uniformité : avec grande probabilité, 

a appartient à un certain intervalle de confiance, et ce, pour 

tout couple (a, F ). 

– Quant à (3.37), nous attirons l’attention du lecteur sur le fait que cette 

majoration n’est pas informative contre toute apparence. En effet, il ne 

faut pas se laisser prendre par l’écriture trompeuse adoptée par Genovese 

et Wasserman car le premier terme pour j = 1 de la somme provenant 

de la statistique de Kolmogorov-Smirnov vaut α et compense 

donc strictement le −α qui le précède. De plus, la série étant une série 

alternée à décroissance rapide, seuls ses premiers termes comptent. 

Ainsi, on obtient finalement une borne en 1 − α 4 /8, ce qui vaut quasiment 

1 (pour un niveau de contrôle de 10 −2 , on a une majoration en 

1 − 10 −8 /8) ! 

– la forme de l’estimateur G est due à la remarque de la proposition 

précédente de laquelle on tire que G ≥ U. Il va alors de soi qu’une 

amélioration de l’estimateur Gm est possible en adoptant la forme de 

G requise. 

Preuve partielle : 

La preuve découle de l’inégalité DKWM pour la première relation et, 

pour la deuxième, à la fois du théorème 3.11 (approximation forte), et de 

46

la distribution asymptotique de la statistique de Kolmogorov-Smirnov que 

nous rappelons ci-après : 

∀x > 0, P r( B ∞ > x) = 2 

∞ 

(−1) j+1 e −2j2x2 , 

i=1 

où B représente un pont brownien standard. 

Ainsi pour ce qui est de la minoration uniforme, on a 

a < a ∗ ⇒ a √ √ Gm(t) − G(t) 

m 

t 1 − t 

√ √ 

G(t) − t ɛm m 

m − 

1 − t 1 − t 

⇒ a √ √ Gm(t) − G(t) 

m 

t 1 − t 

√ ma − ɛm 

√ 

m 

(approximation de Storey) 

1 − t 

⇒ √ √ 

m(Gm − G) ∞> ɛm m. 

Remarque : La seconde implication découle de la relation (3.35). 

Alors, il vient 

P ra,F (a ≥ a ∗ ) ≥ 1−P ra,F ( √ m(Gm −G) ∞> ɛm 

par définition de ɛm et inégalité DKWM. 

 

Loi limite l’estimateur de Storey de la proportion 

√ m) ≥ 1−2e −2mɛ 2 m = α, 

Par ailleurs, il est possible d’obtenir un résultat de normalité asymptotique 

pour a0(λ) = 1 − π0(λ), ∀λ, où π0(λ) est l’estimateur de Storey de la 

proportion de gènes H0. 

Théorème 3.13 (Normalité asymptotique de a0(λ)) Soit λ ∈ (0, 1), 


 

Gm(λ) − λ 

a0(λ) = 

1 − λ 

· 

Si G(λ) > λ , alors 

a0(λ) 

 

√ G(λ) − λ 

m a0(λ) − ( 

1 − λ ) 

 

Si G(λ) = λ, on a 

avec N + une normale tronquée. 

P 

−−−−→ 

m→∞ 

N 

+ 

G(λ) − λ 

≤ a , 

1 

 

− λ 

G(λ)(1 − G(λ)) 

0, 

(1 − λ) 2 

 

· 

√ 

m a0(λ) 1 

2 δ0 + 1 

 

+ 

N 0, 

2 λ 

 

, 

1 − λ 

47

Remarques : D’abord, la troncature de a0(λ) a pour but d’empêcher π0(λ) 

de dépasser 1 (proportion). Ensuite, on déduit d’une part que π0(λ) converge 

en probabilité vers un majorant de π0, et d’autre part nous avons des informations 

quant à la vitesse de convergence de π0(λ), ainsi que sur l’erreur 

commise en fonction de λ (terme de variance). 

Enfin, on peut obtenir des résultats analogues de convergence avec d’autres 

estimateurs de π0 à condition de renforcer les hypothèses de régularité de 

g, densité des probabilités critiques dans le modèle de mélange. Il faut 

également préciser que ces estimateurs (de Hengartner et Stark ou Swaenpoel) 

[13], sont consistants pour estimer a (donc a dans le cas identifiable), 

et non un simple minorant de a comme c’est le cas pour l’estimateur de 

Storey. 

Asymptotique de l’estimateur de F 

Il est très souvent utile de pouvoir estimer la fonction de répartition des 

probabilités critiques sous H1 : F. En effet, nous avons vu que l’estimation de 

F intervient notamment lors de l’obtention d’estimateurs plug-in. De plus, 

outre le fait que F constitue une quantité plus facile d’accès que la densité 

correspondante, il peut être utile d’obtenir une estimation assez fine de F 

afin de déterminer le seuil λ à partir duquel F (x) = 1, ∀x ≥ λ. Enfin comme 

nous le verrons dans la suite, les variances dépendant de F inconnue, il peut 

être de bon de disposer d’un estimateur de F afin d’estimer l’erreur commise 

lors d’approximations asymptotiques. 

Pour cela, il existe diverses possibilités telles que les estimateurs à noyau, 

ou encore les fonctions de répartition empiriques. . . Nous avons choisi de 

présenter là un autre exemple d’estimateur de F fourni par Genovese et 

Wasserman 2004 [13]. 

Définition 3.6 (Estimateur par projection) Soit π0, un estimateur de 

π0. Soit G défini dans le théorème 3.12. Alors on définit 

F = argminH∈F G − (π0U − (1 − π0)H) ∞ . 

Il s’agit là de l’élément de F qui réalise le minimum de distance entre le 

convexe engendré par U et H, et l’estimateur de G. 

Nous obtenons alors le résultat de convergence suivant : pour tout estimateur 

a, consistant de a = 1 − π0, F converge en probabilités vers F. 

Théorème 3.14 (Consistance de F ) Soit a tel que a 

vient 

F − F ∞ ≤ G − G ∞ +| a − a | 

a 

P 

−−−−→ 0 . 

m→∞ 

P 

−−−−→ a. Alors, il 

m→∞ 

Remarque : Il n’est donc pas possible dans ce cas d’utiliser l’estimateur de 

Storey π0(λ) puisqu’il ne converge que vers un majorant de π0. 

48

Normalité asymptotique et FDP 

On dispose également de résultats sur la loi limite des processus F DP et 

F NP , ce qui nous permet d’obtenir entre autres des intervalles de confiance 

pour le F DR. 

Pour commencer, dans le cadre du modèle de mélange, une conséquence 

directe du théorème 2.1 est le lemme suivant énoncé par Genovese et Wasserman 

en 2004 [13], lemme qui va nous servir par la suite. 

Lemme 3.3 (Valeur du FDR(t)) On se place dans les hypothèses du 

modèle de mélange. On pose 

Alors, il vient 

Q(t) = π0t 

G(t) , 

˜Q(t) = (1 − π0)(1 − F (t)) 

1 − G(t) 

F DR(t) = Q(t)(1 − (1 − Q(t)) m ) , (3.38) 

F NR(t) = ˜ Q(t)(1 − G(t) m ) · (3.39) 

Il est à noter que ce point découle directement du corollaire 2.1. 

Ceci étant dit, on donne à présent le 

Théorème 3.15 (Distribution limite du FDP) Soit Z un processus 

gaussien sur (0, 1] centré et de fonction de covariance Γ telle que 

(1 − a)stF (s ∧ t) + aF (s)F (t)(s ∧ t) 

∀t, s ∈ (0, 1], Γ(s, t) = a(1 − a) 

G2 (s)G2 · 

(t) 

Alors, on a 

√ m (F DP (t) − Q(t)) Z , ∀t ∈ [δ, 1]. (3.40) 

Remarques : 

– On isole le cas t = 0 car Γ n’y est pas définie. 

– 1 − (1 − G(t)) m −−−−→ 1, d’où F DR(t) −−−−→ Q(t). Une conséquence 

m→∞ 

m→∞ 

du lemme 3.3 est que le théorème indique alors que F DP (t) 

converge en loi vers un processus gaussien de moyenne F DR∞(t) = 

limm→∞F DR(t). 

– On constate que la variance du processus limite dépend de F qui est 

inconnue et qu’il faut donc estimer si on veut une idée de l’erreur 

commise à la limite, en fonction de t. Cela constitue une nouvelle 

justification de la recherche d’un estimateur de F. 

– Le même type de résultat peut être obtenu avec F NP (t) et ˜ Q. 

49 

·

Nous donnons en annexe une preuve détaillée de ce résultat, preuve dont 

les grandes lignes apparaissent dans [13]. Ce théorème nous semble très 

important en cela qu’il décrit en l’infini le comportement du F DP (t) en 

donnant de surcroît la vitesse de convergence. Il sera donc possible, dans 

les cas où m est grand, de procéder à une approximation du F DP (t) par 

sa limite. 

Nous signalons que la preuve de ce résultat est basée sur les notions de 

méthode-δ et de Fréchet-différentiabilité. Nous rappelons cette dernière : 

Définition 3.7 (Fréchet différentiabilité) Soit D et E, des espaces vectoriels 

normés. On pose Φ, une application telle que Φ : D → E. Soit θ ∈ D 

un paramètre et DΦ un sous-espace de D contenant θ. Alors, l’application 

Φ est dite Fréchet différentiable si ∃Φ ′ θ (h) 

vérifiant 

: D → E, linéaire et continue 

( Φ(θ + h) − Φ(θ) ) − Φ ′ θ E= o( h ), ∀h ↓ 0. (3.41) 

Un autre estimateur naturel dans le cas du modèle de mélange est Q(t) = 

π0(λ)t/Gm(t), où π0(λ) est l’estimateur de Storey [13]. On dispose également 

pour cet estimateur d’un résultat de normalité asymptotique. 

Théorème 3.16 Soit W un processus gaussien centré de fonction de covariance 

définie par : ∀s, t ∈ (0, 1] et λ ∈ [0, 1], 

Alors, 

t 

K(s, t) = 

2 

(1 − λ) 2G(s) 2G(t) 2 

 

G(s)G(t)λ(1 − λ) 

+ G(t)[1 − G(λ)](s ∧ λ − sλ) + G(s)[1 − G(λ)](t ∧ λ − tλ) 

+ [1 − G(λ)] 2 

(s ∧ t − st) . 

où G(t) = Gm(t) ∨ t . 

√ 

π0(λ)t 

 

m − Q(t) W , (3.42) 

G(t) 

Ceci confirme la possibilité d’utiliser l’estimateur de Storey F DRλ(t), pour 

approcher le FDR asymptotiquement et obtenir par exemple des enveloppes 

de confiance pour celui-ci. Nous fournirons des résultats su ces enveloppes 

dans la partie suivante, dans le cadre des champs aléatoires. 

Remarque : 

Il existe deux méthodes qui fournissent des enveloppes de confiance pour 

le processus FDP. Ces méthodes sont décrites par Genovese et al.[13]. Au 

50

passage, précisons que le terme d’”enveloppe” est justifié par la nature même 

de processus du FDP. En effet à ω fixé, celui-ci représente une fonction définie 

sur [0, 1], et c’est le graphe de cette fonction que nous devons circonscrire. 

Il faut voir que le contrôle du FDR n’assure pas pour autant celui du FDP. 

Un tel contrôle est fourni par une enveloppe de confiance qui quantifie la 

taille de la queue de répartition de la loi du FDP. 

3.5 Champs aléatoires 

Jusqu’ici, nous avons rencontré le cas de processus indexés par t ∈ [0, 1] 

et à valeur dans R. Dans un article de 2004, Pacifico, Genovese, Verdinelli 

et Wasserman [15] ont étendu le cadre d’étude à des processus indexés 

par s ∈ S, où S est un ensemble donné, ces processus étant à valeurs 

dans R 2 . Précisons immédiatement que les champs aléatoires constitue une 

extension assez naturelle du cadre précédent mais qu’en aucun cas, ceux-ci 

ne constituent une réelle innovation. Nous appliquerons pour ainsi dire les 

mêmes techniques qu’auparavant afin d’obtenir les relations souhaitées. 

Cependant, les champs aléatoires semblent être un domaine de recherche 

incontournable par leurs nombreuses applications en médecine (imagerie) 

et en astrophysique notamment. 

Il est également possible, dans le cas où S ⊂ R, d’appliquer les résultats 

obtenus ci-après pour S, un sous-ensemble d’un ensemble donné de probabilités 

critiques au sein duquel on cherche à contrôler les faux positifs. 

Modèle : 

Soit donc X = {X(s)/s ∈ S}, un champ aléatoire tel que 

∀s, E(X(s)) = µ(s) ≥ 0. 

Problème : 

∀s ∈ S, on pratique le test unilatéral de l’hypothèse H0 : µ(s) = 0 contre 

H1 : µ(s) > 0. 

Soit S0 = {s/µ(s) = 0} et S1 = {s/µ(s) > 0}. L’objectif étant de détecter 

S1, on cherche à déterminer un seuil adaptatif T (X) qui fournisse un 

ensemble de rejet RT = {s ∈ S/ X(s) ≥ T (X)}, en vue d’estimer S1. 

Remarques : 

– L’idée est donc de déclarer H1 les points s tels que X(s) dépasse un 

seuil à déterminer. En plus de remplir cette fonction, un seuil adaptatif 

a la propriété de prendre en compte les données et donc de mieux 

s’adapter au cas particulier de chaque jeu de données. 

– Il est possible de s’affranchir de l’hypothèse de moyenne positive de 

même que de pratiquer un test bilatéral tout en conservant les résultats 

qui vont être énoncés. 

51

Par analogie avec le cadre habituel présenté jusqu’ici, on définit le FDP 

comme suit. 

Définition 3.8 (FDP pour un champ aléatoire) 

F DP (t) = λ(S0 ∩ Rt) 

, 

λ(Rt) 

où λ(.) désigne la mesure de comptage dans le cas où S est discret et celle 

de Lebesgue sinon. 

Remarques : 

– t représente ici et dans ce qui suit le seuil T (X) = t = cste. 

– dans cette définition, le F DP (t) quantifie la proportion de la surface 

rejetée qui est H0. 

Une alternative possible dans le cas d’un champ est le repérage des zones de 

rejet en faisant intervenir des clusters. 

Définition 3.9 (Cluster négatif au niveau τ) Un cluster C ⊂ S est dit 

négatif au niveau 0 ≤ τ ≤ 1 si 

λ(S0 ∩ C) 

λ(C) 

> τ . 

Typiquement, ce cas de figure va apparaître si S0 ⊂ C. Ainsi, C sera un 

cluster négatif au niveau τ si l’intersection entre C et S0 est trop grande : 

c’est une partie qui a peu de chances d’être H1. Cette définition donne lieu 

à l’introduction de nouvelles quantités : le F CPτ et le F CRτ . 

Remarque : de façon générique, on désigne par T une procédure de seuillage. 

Définition 3.10 (F CPτ et F CRτ ) Avec les mêmes notations que celles 

définies précédemment, on décompose RT en ses composantes connexes 

C1, . . . , CmT . Alors 

F CPτ (T ) = ♯{1 ≤ k ≤ mT / λ(S0∩Ck) 

λ(Ck) 

F CRτ (T ) = E(F CPτ (T )) . 

mT 

> τ} 

, 

Il faut noter que le nombre de composantes connexes de RT dépend de T 

puisque c’est le cas de RT . Ainsi, le F CPτ (T ) est un processus aléatoire 

qui représente la proportion de composantes connexes de RT qui sont des 

clusters négatifs au niveau τ. On peut voir le F CRτ comme un analogue du 

F DR, analogue pour lequel on raisonne non plus sur un nombre de gènes 

52

H0 ou H1, mais sur le nombre de composantes connexes de RT qui sont des 

clusters négatifs ou non. Typiquement en imagerie médicale, on cherche à 

déterminer des taches ou des zones (connexes) lumineuses en astrophysique. 

D’autre part, le problème paraît plus compliqué pour le F CRτ (T ) en cela 

qu’il dépend de deux seuils là où le F DR(T ) ne dépend que de T. 

53

Stratégie : 

1. Dans un premier temps, on cherche à produire un ensemble de 

confiance pour S0 : U, tel que 

pour un α donné. 

P r(S0 ⊂ U) ≥ 1 − α, 

2. Ensuite, on exhibe une enveloppe de confiance pour les champs 

aléatoires F DP et F CPτ qui sont inaccessibles : F DP et F CPτ . 

3. Enfin de ces enveloppes de confiance, on tire une procédure (un seuil) 

qui garantit un certain contrôle pour la ou les quantités d’intérêt. 

3.5.1 Construction d’un super-ensemble 

On appellera super-ensemble, le 1 − α-ensemble de confiance U, mentionné 

ci-avant. Nous allons maintenant préciser la statistique de test 

utilisée, de même que la construction de ce super-ensemble. 

Pour tout ensemble A ⊂ S, on désire tester au niveau α 

Pour cela, on utilise la statistique 

H0 : A ⊂ S0 contre H1 : A ⊂ S0. 

X(A) = sup X(s). 

s∈ A 

Un ensemble a une chance d’être inclus dans S0 si la plus grande valeur 

prise sur cet ensemble par le champ étudié n’est pas trop grande. 

Soit 

C = {A ⊂ S/A n ′ est pas rejeté} 

= {A ∈ S/P r(X(A) ≥ x(A)) ≥ α}, 

où x(A) est la réalisation de X(A). Une première idée consiste alors à prendre 

U = 

A 

A∈ C 

qui se trouve bien être un 1 − α-ensemble de confiance d’après le 

Théorème 3.17 (Super-ensemble de confiance pour S0) Soit U = 

 

A∈ C A. Alors, U est un 1 − α-super-ensemble de confiance pour S0 : 

P r(S0 ⊂ U) ≥ 1 − α. 

54

Toutefois, la détermination effective de U nécessitant le parcours de tous 

les sous-ensembles de S, cette approche ne soit pas réalisable dès que S est 

assez grand et a fortiori pour S infini. 

On a donc recours à l’algorithme suivant, calculable en un temps raisonnable. 

Dans un premier temps, on s’intéresse à ce qui se passe pour une partition 

donnée de S, avant de généraliser au cas d’un suite de partitions vérifiant une 

certaine propriété. Soit S1, . . . , SN, une partition de S. Aucune hypothèse 

sur la dépendance des statistiques n’est faite, la seule exigence étant que les 

sup j∈J X(Sj) sous H0 soient calculables pour tout J ⊂ {1, . . . , N}. 

Algorithme : 

1. on calcule les réalisations des x(Sj), j = 1, . . . , N. 

2. on les ordonne par ordre décroissant les x (1) ≥ . . . ≥ x (N) qui correspondent 

aux S (1), . . . , S (N). 

3. pour k = 1, . . . , N, 

(a) on pose Vk = N j=k S ((j)). 

(b) on calcule les P r(X(Vk) ≥ x (k)). 

(c) si P r(X(Vk) ≥ x (k)) ≥ α, on pose V ∗ = Vk, sinon, on passe à 

k + 1. 

Remarques : 

– Le super-ensemble V ∗ obtenu est associé à la partition initiale de S. 

– Les étapes (3.b) et (3.c) coîncident dans l’approche adoptée avec celle 

de la BH-procédure. 

– Les S (i) formant une partition de S, on a 

P r(X(Vk) ≥ x (k)) = P r( max 

i≥k X(S (i)) ≥ x (k) ) 

= P r(X(S (k)) ≥ x (k)) (par définition des S (i)). 

Justifications de l’algorithme : 

Il faut d’abord se rappeler qu’on cherche le plus petit 1 − α-ensemble de 

confiance pour S0 à partir de la partition adoptée. On remarque ensuite que 

le cas k = 1 donne que V ∗ = S, qui est le plus grand 1 − α-ensemble de 

confiance accessible. Puis à l’étape suivante si celle-ci est possible, il paraît 

raisonnable de retirer S (2), l’élément de la partition pour lequel la statistique 

de test est la plus grande et donc celui pour lequel il est le moins 

vraisemblable qu’il soit contenu dans S0 etc. . ., d’où l’étude des ensembles 

( 

i≥k S (i)) k∈{1,...,N}. Au passage, cette idée justifie l’utilisation des statistiques 

d’ordre plutôt que celle de n’importe quelle autre permutation. Enfin, 

les relations (3.43) impliquent que pour V ∗ = V (k), 

{S0 ⊂ V ∗ } = {P r(X(V ∗ ) ≥ x(V ∗ ))} = {P r(X(S (k)) ≥ x (k))}, 

55

d’où le sens de l’étape (3.c). 

On considère à présent une suite de partitions (Sn)n∈N ∗ = ( (Sn i )i )n∈N ∗. 

Sous certaines conditions que nous allons définir à présent, on obtient un 

super-ensemble de confiance de niveau 1 − α. 

Définition 3.11 (Suite dégénérée de partitions) ∀s ∈ S, Sn,s est 

l’élément de la partition (Sn i )i contenant s. on dit que la suite de partitions 

(Sn)n∈N∗ est dégénérée si 

∀s ∈ S, et ∀ Osvoisinage de s, ∃ n/ Sn,s ⊂ Os. 

On choisit donc une suite décroissante de partitions au sens de l’inclusion. 

À tout n correspond alors une partition Sn ainsi qu’un super-ensemble de 

confiance Un, déterminé par l’algorithme précédent. On pose alors successivement 

Cn = A = 

/ P r(X(A) ≥ x(A)) ≥ α , 

et Un = 

A∈ Cn 

Sj∈ Sn 

A . 

Alors, Pacifico, Genovese, Verdinelli et Wasserman [15] ont obtenu le 

Théorème 3.18 (Super-ensemble pour ◦ 

S0) Soit une suite décroissante 

dégénérée de partitions (Sn)n. Alors limn→∞ Un existe et 


P r( ◦ 

S0 ⊂ lim 

n→∞ Un) ≥ 1 − α , 

P r(S0 ⊂ U) ≥ 1 − α , 

avec U est l’adhérence de limn→∞ Un. 

3.5.2 Enveloppes de confiance 

Ayant exhibé notre super-ensemble U, on définit F DP et F CPτ : 

Définition 3.12 (F DP et F CPτ ) Pour tout seuil T, on a 

F DP (T ) = λ(U ∩ RT ) 

λ(RT ) 

F CPτ (T ) = ♯{1 ≤ k ≤ mT / λ(U∩Ck) 

λ(Ck) 

mT 

où les Ck sont les composantes connexes de RT . 

56 

> τ} 

,

Remarque : Il faut noter que ces deux quantités sont les analogues des F DP 

et F CP , dans lesquels on a remplacé le S0 inconnu par le super-ensemble 

de confiance U. Ceci a alors pour effet de fournir des ”bornes calculables” 

pour ces deux variables aléatoires. 

3.5.3 Seuils pour un contrôle donné 

Il vient alors finalement les résultat suivant qui fournissent un contrôle 

des deux grandeurs d’intérêt du problème ainsi posé. 

Théorème 3.19 (Procédure de seuillage) Avec les mêmes notations 

que ce qui précède, on prend 0 < α, τ < 1. alors 

1. ∀c ∈ (0, α), et pour γ = (α − c)/(1 − c), soit 

Alors Tc satisfait 

Tc = inf{t / F DP (T ) ≤ c}. 

F DR(Tc) ≤ α. 

2. Avec Tτ,c = inf{t/ F CP τ (t) ≤ c}, il vient 

3.6 Bilan intermédiaire 

F CRτ (Tτ,c) ≤ α. 

La taille de cette partie est due à la grande quantités des résultats obtenus 

dans le cadre très commode des processus stochastiques : il s’agit là 

incontestablement de la partie la plus aboutie. Nous avons ainsi pu exploiter 

les théorèmes déjà existant pour ces structures afin d’obtenir des résultats 

intéressants pour le FDR. Malgré cette longueur, nous pouvons dégager plusieurs 

idées fortes. 

1. avec le modèle de mélange, l’utilisation de la loi binomiale suivie par 

certaines variables aléatoires élémentaires a permis à de nombreuses 

reprises d’obtenir de façon simple des résultats non triviaux (preuve 

du contrôle du FDR par la procédure BH,. . .). 

2. la cas non identifiable du modèle de mélange est à prendre en compte, 

mais on se place le plus souvent dans le cas plus commode de l’identifiabilité, 

quitte à restreindre l’ensemble F sur lequel on travaille. 

3. l’estimateur de Storey de la proportion π0(λ) est un estimateur croissant 

par morceaux, et biaisé de π0. Néanmoins, on dispose de nombreux 

résultats le concernant, notamment dus à sa forme qui fait intervenir 

les différentes fonctions de répartition empiriques des probabilités critiques. 

57

4. l’approximation du FDR qui constitue la base d’un grand nombre de 

résultats est que le FDR est de l’ordre de grandeur du rapport des 

espérances de F P et R. 

5. il est possible et utile de déterminer les lois limites des processus 

d’intérêt (approximation). 

6. enfin, une stratégie couramment exploitée consiste à trouver dans un 

premier temps un majorant ou une enveloppe de confiance afin de 

déterminer dans un second temps un seuil assurant un contrôle au 

niveau souhaité. 

Cependant, même si ces problèmes ont été déjà bien rebattus, il demeure 

des points à approfondir : 

– Certains estimateurs de π0 ont des propriétés de convergence mal ou 

pas connues. La qualité de l’estimation de π0 fait encore défaut bien 

que ce soit le véritable enjeu de notre problème. 

– Il est peut-être possible d’exploiter l’estimation de F de façon à 

déterminer la zone de validité pour l’approximation de Storey. 

– les cas où f0 n’est pas continue ou les cas de dépendance sont encore 

mal connus. 

– quantification de l’écart entre procédure plug-in générale (λ = 0) et 

seuil optimal. 

58

Chapitre 4 

Minimisation sous contrainte 

Dès l’article fondateur du FDR de Benjamini et Hochberg en 1995 [4], 

ceux-ci expliquent que leur objectif est de concevoir une procédure qui, tout 

en contrôlant le FDR au niveau α, va maximiser le nombre de gènes rejetés, 

cela correspondant à la volonté d’obtenir une procédure qui soit la plus 

puissante possible. Ce point fait d’ailleurs l’objet de leur second théorème 

où ils expliquent que la BH-procédure est solution d’un certain problème 

d’optimisation : 

Théorème 4.1 (BH-procédure et optimisation) La BH-procédure est 

solution du problème de maximisation sous contrainte : choisir t de façon à 

maximiser le nombre de rejets R(t) sous la contrainte ≤ α. 

m t 

R(t) 

Nous allons à présent présenter certains résultats démontrés en adoptant 

cette vision du problème. De plus, celle-ci est intimement liée dans ce qui 

va suivre à la classification non-supervisée pour divers risques que nous 

préciserons au fil de l’exposé. 

La présentation de cette approche est assez succinte car ce point de vue 

reste quelque peu marginal en ce sens qu’il n’a pas fourni, jusqu’à présent, 

de résultat majeur. Nous ne ferons que mentionner ou ne rendrons compte 

que de cetains résultats ou approches rencontrés. 

4.1 Approche asymptotique 

4.1.1 Motivation de l’approche 

Nous avons expliqué dès le début que m0 est inconnu. Ce fait donne lieu à 

des procédures trop conservatives telles que la procédure BH et est à l’origine 

de l’estimation de π0. Cette trop grande conservativité des procédures donne 

lieu à une perte de puissance. Vient alors l’idée de maximiser la puissance 

de la procédure tout en conservant un contrôle du FDR au niveau α pour 

s’assurer d’un contrôle des faux positifs. Remarque : 

59

Une grande puissance revient à se tromper peu pour les gènes H1, i.e. 

en espérance, la proportion 

♯{gènes H1 non-rejetés} 

♯{ gènes non-rejetés} 

doit être petite. 

D’où la nécessité de minimiser le False Non-discovery Rate : 

déjà défini auparavant. 

4.1.2 Heuristique 

T (t) 

F NR(t) = E( 

| m0), 

(m − R(t)) ∨ 1 

Tout d’abord dans le papier de Genovese et Wasserman de 2002, nous 

avons obtenu des développements limités au voisinage de l’infini pour m du 

FDR et du FNR à un seuil c donné dans le théorème 3.9. A partir de ces 

résultats, on peut faire le raisonnement suivant. 

Puisque seulce qui se passe à l’infini nous intéresse, on peut négliger les 

1 

termes en O √m . Puis la relation (3.31) montre que la partie principale 

du développement limité, qui correspond à ce que nous noterons F NR∞(c) 

est une fonction décroissante de c. Ainsi, chercher à minimiser en t F NR(t) 

sous la contrainte que F DR(t) ≤ α où α est un niveau de contrôle prédéfini 

revient à choisir le seuil t maximum tel que F DR(t) ≤ α, voire tel que 

F DR(t) = α. Ceci nous ramène à la relation que doit vérifier le seuil optimal 

c ∗ , relation déjà mentionnée (3.32) : 

F (c ∗ ) 

c ∗ 

4.2 Risque conditionnel 

1 

= β − 

α · 

Une autre modélisation du problème consiste à minimiser un certain 

risque faisant intervenir les FNR et FDR, tout en conservant un contrôle 

donné sur le FDR. Cet aspect est à rapprocher de méthodes de classification 

non-supervisée. En effet, on dispose de la donnée d’expression d’un certain 

nombre de gènes qu’on souhaite répartir dans deux populations distinctes, 

sans disposer dans le cas général pour certains d’entre-eux de données a 

priori qui nous permettraient de faire de la classification supervisée. 

Dans ces conditions, on choisit une fonction de perte de la forme 

Lλ(H0, p, r) = F NP (H0, p, r) + λF DP (H0, p, r), 

avec H0 qui représente le vecteur des H0(i), i = 1, . . . , m, et p, celui des 

probabilités critiques ordonnées. λ > 0 peut être soit spécifié par l’utilisateur, 

soit déterminé par des méthodes basées sur les données. On imagine 

60

ici que λ est ici fixé par l’utilisateur. Quant à r, il s’agit de la procédure qui 

va permettre de classer les gènes étudiés. Le risque qui découle s’écrit alors 

Rλ(r) = ErLλ(H0, p, r) 

= F NR(r) + λF DR(r), 

où Er désigne l’espérance prise pour la procédure r considérée. L’objectif 

est ici de trouver la procédure r qui va minimiser ce risque. 

Remarque : La forme de ce risque vient du besoin de résoudre le problème 

de minimisation du FNR sous la contrainte F DR(r) ≤ α. Dans ce cadre, λ 

peut être vu comme un multiplicateur de Lagrange. 

Partant de ceci, la stratégie de Genovese et Wasserman en 2002 est la suivante. 

Ils choisissent de considérer dans un premier temps un risque conditionnel 

: 

Rλ(r | p) = Er[ Lλ(H0, p, r) | p ]. 

À partir de là, trouver une procédure optimale r∗ pour le risque conditionnel 

ci-avant nous fournit, en intégrant par rapport à p une procédure optimale 

pour le risque Rλ. Remarque : 

Pour ce qui est de la détermination de λ, il est également possible de le 

choisir de façon que Er[ F DP (r) | p ] soit aussi proche que possible de α. 

Par contre, faire de même pour ErF DP (r) n’est pas du tout trivial puisque 

ceci est plus ou moins équivalent à connaître précisément la valeur du F DR, 

chose qu’on cherche à faire. 

4.3 Erreur de Bayes pondérée 

On se place dans le cadre du modèle de mélange pour lequel ∀i ∈ 

{1, . . . , m}, H0(i) ∼ B(1 − π0). Soit 

∀i, φλ(i) = (1 − λ)1 {H0(i)=0} + λ1 {H0(i)=1}. 

Définition 4.1 (Risque de Bayes pondéré) Avec les notations précédentes, 

le risque de Bayes pondéré au seuil t vaut pour le gène i : 

γλ(t) = E[ φλ(i)1 {gt(Pi)=H0(i)} ], 

où gt(Pi) = 1 {Pi≤t} est le prédicteur de la classe du gène i. 

Comme on peut le constater, il s’agit du risque associé à un fonction de 

perte qui pénalise par λ ou 1 − λ les erreurs de classification suivant qu’il 

s’agisse respectivement d’un faux négatif ou d’un faux positif. Ce point est 

d’ailleurs explicité dans la proposition suivante. 

Proposition 4.1 (Pondération suivant le type d’erreur) Aussitôt, il 

vient que pour tout t dans [0, 1], 

∀i = 1, . . . , m, γλ(t) = (1−λ)P r(Pi ≤ t, H0(i) = 0)+λP r(Pi > t, H0(i) = 1). 

61

Remarque : 

Si on écrit γλ(t) en faisant intervenir des régions de rejet bâties non plus à 

partir probabilités critiques, mais plutôt à partir des statistiques de test, on 

obtient le fait suivant énoncé par Storey en 2002 : ∀λ ∈ [0, 1], la quantité 

γλ(Γ) = (1 − λ)P r(T ∈ Γ, H0(i) = 0) + λP r(T ∈ Γ, H0(i) = 1), 

où Gamma est une région de rejet et T est la statistique de test, est minimisée 

en Γ par 

Bλ = { t/fdr(t) ≤ λ } , 

où fdr désigne comme dans le chapitre 2 le FDR local. 

62

Chapitre 5 

FDR et seuillage 

Nous avons déjà vu que l’étude du FDR pouvait être menée sous 

différents points de vues dont chacun fournit un certain type de renseignements. 

Notamment, le cadre originel est de déterminer la procédure optimale 

qui fournit un contrôle du FDR, quelle que soit la répartition des gènes 

entre les deux classes H0 et H1, (différentiellement ou non-différentiellement 

exprimés). Notamment, en considérant les probabilités critiques associées 

au test pratiqué, la région de rejet obtenue est classiquement de la forme 

{Pi ≤ t}, où t appartient à [0, 1]. Ainsi dans ce cas, déterminer la procédure 

optimale revient à la recherche d’un seuil optimal. Le problème peut alors 

être reformulé de la sorte : étant données un ensemble de m probabilités 

critiques, déterminer le seuil au-dessous duquel on peut rejeter l’hypothèse 

H0. On peut y voir et notamment Abramovich et Benjamini en 1995 [1] y 

ont vu des analogies avec les méthodes de seuillage employées entre autres 

pour l’analyse des ondelettes. 

Dans ce chapitre, nous allons successivement présenter un résultat de minimaxité 

asymptotique uniforme concernant l’estimateur FDR que nous 

définirons plus tard, puis comparer brièvement les performances de cet estimateur 

avec celles d’estimateurs obtenus à partir de minimisation de critères 

pénalisés. 

L’objectif que nous nous sommes fixé ici est de présenter certains résultats 

issus du rapprochement entre F DR et critères pénalisés. Cette approche est 

relativement récente (cf.[1],[2]) et n’a pas été encore très développée. Cependant, 

nous avons jugé profitable de présenter, sans trop de technicité, 

l’origine des critères pénalisés utilisés en sélection de modèle de façon à être 

en mesure d’expliquer les performances de ceux-ci, face à celles du FDR. 

63

5.1 Minimaxité asymptotique de l’estimateur 

FDR 

5.1.1 Cadre mathématique du problème 

On dispose des réalisations y d’un vecteur aléatoire Y ∈ R m , tel que : 

∀i = 1, . . . , m , Yi = µi + σmɛi, 

⎧ 

⎨ ɛi ∼ N (0, 1) iid 

avec σm connu . 

⎩ 

µi ∈ R 

De plus, on sait que le vecteur µ ∈ Rm possède m0 > 0 composantes nulles 

parmi m, sans pour autant connaître la localisation de celles-ci ou même 

m0. 

L’objectif par conséquent est donc d’estimer µ tout en déterminant la localisation 

de ses composantes nulles. 

Remarque : Dans leur article de 2000, Abramovich, Benjamini, Donoho 

et Johnstone ont étendu le champ d’application de ce qui va suivre en 

définissant une notion d’évanescence vérifiée par le vecteur µ. 

Définition 5.1 (Evanescence) Avec les notations de ce qui précède, nous 

dirons qu’un vecteur µ est évanescent dans les trois cas suivant : 

1. La plupart des coefficients de µ sont nuls. On définit alors µ 0= 

♯{i/ µi = 0}, ainsi que 

ℓ0[η] = {µ ∈ R m / µ 0≤ ηm}, (5.1) 

où η représente la proportion de composantes non nulles. 

2. Il y a une très faible proportion de composantes significativement 

différentes de zéro η. Typiquement, on s’intéresse à des boules mp[η] = 

{µ ∈ R m /|µ| (k) ≤ C · k 

− 1 

3. µ appartient à des boules ℓp : 

avec un η petit. 

p , k = 1, . . . , m}, 

ℓp[η] = {µ ∈ R m / 1 

m 

m 

|µi| p ≤ η p }, 

Dans la suite, on ne s’intéressera essentiellement qu’au premier cas 

d’évanescence. 

Une première idée pour estimer µ serait de prendre y. Par ailleurs, l’intuition 

est de décréter une composante µi nulle si |µi| ≤ t, où t est un 

seuil à déterminer. On associe alors ces deux idées dans les méthodes de 

64 

i=1

seuillage sous la forme du seuillage doux et du seuillage fort (soft et hard 

thresholding). Le seuillage doux (”soft thresholding”) consiste à prendre 

µ s i,t(y) = sign(yi) (|yi| − t) + , ∀i ∈ {1, . . . , m}, 

tandis que le seuillage dur (hard thresholding) impose un estimateur de µ 

de la forme 

∀i = 1, . . . , m, µ h i,t(y) = yi 1 {|yi|≥t}. (5.2) 

On constate que la contribution de la composante yi à l’estimation µi est 

atténuée pour le seuillage doux tandis que yi contribue pleinement dans 

le seuillage dur. Ceci a pour effet d’atténuer les écarts entre composantes 

nulles et celles qui ne le sont pas. Par ailleurs, µ s i,t est continue tandis que 

µ h i,t ne l’est pas. Nous verrons dans les dernières parties de ce chapitre que 

ces deux types d’estimateurs par seuillage conduisent à des propriétés et 

ont des comportements asymptotiques analogues. En conséquence, nous 

nous intéresserons pour ce qui suit au seuillage dur pour lequel les résultats 

souhaités ont été démontrés. 

L’objectif dans ce qui suit est de bâtir un estimateur appelé estimateur 

FDR construit sur le modèle de la BH-procédure, et de montrer que celui-ci 

a un comportement assez proche de celui d’un estimateur de type seuillage 

dur obtenu à partir d’un certain critère pénalisé. 

5.1.2 Critère pénalisé 

Dans un premier temps, on ordonne les réalisations yi par ordre 

décroissant : 

y (1) ≥ y (2) ≥ . . . ≥ y (m). 

Nous reviendrons plus tard sur ce point. 

L’objectif est de trouver un critère qui fixe le rang à partir duquel les y (i) 

sont trop petites pour être non nulles. Par exemple, on peut regarder ce qui 

se passe pour le contraste empirique classique 

= 

m 

y(i) − µ (i),t(y) 2 k=1 

 

i/|y (i)|≥t 

= 0 + 

= 

i≥k 

y(i) − µ (i),t(y) 2 + 

i/|y (i)|

où k est le plus grand entier tel que y (k) ≥ t. 

L’objectif habituel et de chercher à minimiser ce contraste en t, i.e. puisqu’on 

travaille avec des entiers, trouver l’entier qui le minimise. On voit bien que 

ce raisonnement appliqué à (5.3) conduit immédiatement à choisir k = m, 

ce qui correspond classiquement à un cas d’over-fitting ou sur-ajustement 

aux données. En effet, on choisirait l’estimateur qui vaut y. Il s’agit donc de 

pénaliser notre critère à minimiser pour parer ce problème. 

D’où le critère suivant à minimiser en k : 

m 

critm(k) = |y (i)| 2 + pen(k). (5.4) 

i=k+1 

Le sens de cette expression est que le terme de pénalisation pen(k) compense 

la tendance à choisir un k grand. Ce terme doit être calibré de façon à 

ce que minimiser ce critère permette de trouver un compromis entre un 

estimateur très proche des données et en même temps suffisamment général 

pour s’adapter à d’autres réalisations. La minimisation nous fournit un 

entier k. 

Il reste donc à préciser ce terme de pénalisation. Nous discuterons ce 

point ultérieurement. Néanmoins, nous pouvons dores et déjà préciser que 

c’est l’origine de l’estimateur FDR que nous allons construire à présent qui 

va déterminer la forme de notre pénalité. 

5.1.3 Estimateur FDR et estimateur par critère pénalisé 

Seuil FDR 

D’abord, dans le cadre de la procédure BH, nous considérions les probabilités 

critiques ordonnées par ordre croissant p (1) ≤ . . . ≤ p (m). La définition 

de la probabilité critique : soit Z un e variable aléatoire de même loi que Yi, 

alors pi = P r(|Z| ≥ |yi|) donne alors immédiatement que les |yi| sont rangées 

dans l’ordre décroissant, d’où l’ordonnancement dans la section précédente. 

Puis, nous devons nous souvenir que d’une part pour notre problème, les 

Yi ∼ N (µi, σ 2 m) et que d’autre part, nous définissions kF DR par 

Alors, ∀i = 1, . . . , m, il vient 

kF DR = max{i/ p (i) ≤ iα 

m }. 

p (i) ≤ iα 

m 

⇔ P r(|Z| ≥ |y| (i)) ≤ iα 

m 

⇔ P r(Z ≥ |y| (i)) ≤ iα 

2m 

66 

(symétrie de la loi de Z). (5.5)

Puis, on définit ti par la relation 

∀i = 1, . . . , m, P r(Z ≥ ti) = 1 − Φ( ti 

σm 

) déf 

= iα 

, (5.6) 

2m 

où Φ représente la fonction de répartition d’une normale centrée réduite. ti 

est donc le quantile de niveau 1 − αi 

2 m . 

La relation (5.5) devient donc équivalente à 

ce qui donne pour kF DR : 

P r(Z ≥ |y| (i)) ≤ 1 − Φ( ti 

σm 

) = P r(Z ≥ ti), 

kF DR = max{i/ |y| (i) ≥ ti}. (5.7) 

Tout comme dans la procédure BH, on rejette dès que la i-ième probabilité 

critique est inférieure au quantile de niveau iα/m, on décide ici de rejeter 

dès que la i-ème statistique |y| (i) dépasse ti. 

Dans la suite, nous noterons kF pour kF DR. Ceci donne lieu à la définition 

suivante : 

Définition 5.2 (Seuil FDR) Avec les notations de ce qui précède, on appelle 

seuil FDR la quantité notée tF définie par 

tF = tbkF = σm Φ −1 

 

1 − 

kF α 

. (5.8) 

2m 

La motivation d’une telle construction est que le FDR étant adaptatif par 

nature, le seuil FDR va lui même s’adapter aux données, d’où une bonne 

confiance dans les seuils obtenus. 

Par conséquent, il est possible de définir l’estimateur FDR à partir du 

seuillage dur, estimateur qui hérite des propriétés d’adaptivité du seuil FDR. 

Définition 5.3 (Estimateur FDR) Nous appellerons estimateur FDR, 

l’estimateur noté µF défini par 

Détermination de la pénalité 

∀i = 1, . . . , m, µF,i = yi1 {|yi|≥btF } . 

Nous avions précédemment laissé de côté le choix de la pénalité. C’est 

ce dont nous allons nous occuper à présent de façon à exhiber l’estimateur 

par critère pénalisé. 

Cette pénalité doit faire intervenir des quantités positives pour compenser 

67

la tendance à choisir de grands k, de même que ces quantités doivent être 

de taille comparable à celle des k 

i=1 (yi) 2 . L’un des objectifs de Abrmovich 

et al.[2] étant d’établir un parallèle entre le seuil FDR et les seuils obtenus 

par critère pénalisé, ils proposent d’écrire le terme de pénalité sous la forme 

pen(k) = 

k 

i=1 

t 2 i , (5.9) 

puisque les ti sont comparables en taille aux y (i) et sont déterminés par la 

relation (5.6) qui donne : 

∀i, ti = σmΦ −1 (1 − iα 

). (5.10) 

2m 

À partir des ti définis ci-avant (5.10) et de la pénalité (5.9), on obtient 

explicitement le critère pénalisé à minimiser en k : 

critm(k) = y − µk 2 2 +pen(k) (5.11) 

= 

m 

y 2 (i) + 

k 

t 2 i . 

i=k+1 

L’interprétation du rôle de la pénalité, qui sert de justification à la forme 

de celle-ci, est la suivante. Pour i grand (voisin de m), |y| (i) ≤ ti. La 

conséquence est qu’on fait décroître le critère en remplaçant le plus 

grand ti de la somme par le |y| (i) correspondant. Pareillement quand i 

est petit, |y| (i) ≥ ti : le critère diminue en remplaçant |y| (i) par ti. Le 

critère va donc privilégier les k intermédiaires, et même l’entier k pour 

lequel on ne gagnera plus rien en changeant et un ti en |y| (i), et un |y| (i) en ti. 

La minimisation de ce critère donne lieu à un k2, lieu du minimum (absolu). 

De façon analogue au cas de l’estimateur FDR, on définit à présent l’estimateur 

suivant. 

Définition 5.4 (Estimateur par critère pénalisé) On définit l’estimateur 

par critère pénalisé associé à critm par 

i=1 

∀i = 1, . . . , m, µ2,i = yi1 {|yi|>bt2} . (5.12) 

Remarque : 

L’indice 2 de la notation fait référence à l’exposant qui intervient dans les 

sommes du critère pénalisé. En fait, on le reverra plus tard, mais le résultat 

principal de minimaxité qui va suivre a notamment l’intérêt d’être valable 

pour une large gamme d’exposants r. 

68

5.1.4 Résultats 

La construction qui précède ayant été réalisée en partie dans l’article de 

Abramovich et Benjamini de 1995 [1], celle-ci a été poursuivie et complétée 

dans le travail de Abramovich, Benjamini, Donoho et Johnstone en 2000 

[2], publication dans laquelle apparaissent divers résultats que nous allons 

voir ci-après. 

Minimum local 

Tout d’abord, on cherche à établir un lien entre l’estimateur FDR, µF et 

l’estimateur par critère pénalisé µ2. L’objectif est de montrer que ces deux 

estimateurs sont proches voire égaux dans beaucoup de cas. 

On arrive alors à donner la 

Proposition 5.1 (Minimum local le plus à droite) Conformément 

aux notations adoptées jusqu’ici, 

(i) kF est le lieu du minimum local le plus à droite de k ↦→ critm(k), 

(ii) k2 est le lieu du minimum absolu pour critm(.). 

Preuve : 

On note par commodité k pour kF . 

Soit k ′ > k. 

Alors ∃ i ∈ N/k ′ = k + i. 

Il vient que 

critm(k ′ ) = critm(k + i) 

= critm(k) + 

k+i 

l=k+1 

t 2 l − 

k+i 

l=k+1 

y 2 (l) 

 

>0 

puisque par définition de k, ∀k ′′ > k, |y| (k ′′ ) < tk ′′. 

Alors 

∀k ′ > k, critm(k ′ ) > critm(k). 

Enfin, si k ′ = k − 1 est un minimum local, il vient que 

critm(k − 1) ≤ critm(k), 

ce qui implique par définition de k que |y (k)| = tk. 

Alors, 

critm(k ′ m 

) = y 2 (l) + 

k−1 

= critm(k). 

l=k+1 

69 

l=1 

t 2 l + t2 k 

,

Donc k = kF est bien le minimum local le plus à droite de critm. 

 

Remarques : 

– En règle général, k2 et kF sont égaux. Cependant, un exemple de cas 

où cette égalité n’a pas lieu est le cas où on dispose d’ex aequo à 

l’occasion d’un rééchantillonage par exemple. 

– Le raisonnement mené pour la . 2 peut être mené pour toute . r, 

avec r ∈ (0, 2], en ayant soin de changer la pénalité en conséquence. 

Uniforme minimaxité asymptotique 

On en arrive à présent au résultat très technique qui a motivé tout la 

partie qui précède. Pour cela, nous donnons au préalable quelques notations. 

Soit Θm, l’un quelconque des trois types de boules auxquelles peut appartenir 

le vecteur µ dans la définition de l’évanescence (5.1). 

On définit le pire risque sur Θm par 

ρ(µ, Θm) = sup Eµ µ − µ 

µ∈Θm 

r r . 

Enfin, on donne le plus petit, sur tous les µ, des pires risques : le risque 

minimax 

Rm(Θm) = inf 

bµ ρ(µ, Θm). 

Alors Abramovich, Benjamini, Donoho et Johnstone en 2000 [2] montrent le 

Théorème 5.1 (Uniforme minimaxité asymptotique) Avec les notations 

précédentes, soit αm le niveau de contrôle du FDR. Alors pour 0 ≤ 

p < r ≤ 2 et ηm ∈ [ log5 (m) 

m , m−δ ], δ > 0, il vient 

 

Rm(Θm) ≤ ρ(µF , Θm) ≤ Rm(Θm) 1 + (r − p) αm 

 

+ om→∞(1) . (5.13) 

1 − αm 

On constate que pour un contrôle qui se renforce lorsque m tend vers l’infini 

(αm −−−−→ 

m→∞ 0), 

ρ(µF , Θm) ∼m→∞ Rm(Θm). 

De plus, non seulement ce résultat prouve la minimaxité asymptotique 

pour l’estimateur FDR (il est le meilleur asymptotiquement), mais il donne 

également l’uniformité de ce résultat en ce sens que ce résultat demeure 

pour tous les r ∈ (0, 2] en même temps et diverses vitesses de décroissance 

de l’évanescence ηm. Il faut noter qu’ici, ”meilleur” est à comprendre dans le 

sens suivant : cet estimateur fait aussi bien asymptotiquement que l’oracle 

Rm(Θ) lorsque αm → 0. 

Enfin, comme nous l’avons mentionné, ce théorème repose sur le résultat 

suivant : 

70

Théorème 5.2 (Uniformité) Avec les notations du théorème précédent, 

on a 

sup |ρ(µF , µ) − ρ(µ2, µ)| = om→∞ (Rm(Θm)) . (5.14) 

µ∈Θm 

Ainsi, c’est la minimaxité asymptotique de µ2 qui donne celle de µF . 

5.2 Comparaison seuil-FDR et seuils obtenus par 

critères pénalisés 

Au cours de la section ci-avant, nous avons choisi d’écrire la pénalité sous 

la forme 

k 

pen(k) = t 2 i . 

Dans ce cas précis, on dispose d’une relation permettant soit de passer d’une 

famille de (ti) à une pénalité, c’est ce que nous avons fait pour définir notre 

critère pénalisé, soit de déterminer la forme des ti à partir d’une pénalité 

fixée. Cette relation est la suivante : 

i=1 

ti = pen(i) − pen(i − 1). (5.15) 

Celle-ci s’avère centrale dans ce qui suit puisqu’elle nous permet de 

comparer les résultats d’estimateurs obtenus à partir de certains critères 

pénalisés avec ceux de l’estimateur FDR. Ainsi, la justification de cette 

comparaison vient notamment du papier de 2000 dans lequel Abramovich 

et al.[2] nous montrent à quel point l’utilisation d’un seuil qui s’ajuste mal 

aux données peut être dramatique. C’est pourquoi nous allons comparer 

brièvement les performances de l’estimateur FDR, adaptatif par nature, 

avec celles d’estimateurs obtenus à partir de critères pénalisés. Notamment 

dans le cadre de travail que nous nous sommes donné, nous disposons de 

divers critères, chacun correspondant à un type de pénalité donnée. On 

s’intéresse plus particulièrement à la pénalité de Donoho et Johnstone 

penDJ(k) = 2kσ2 m log(m), ainsi qu’à celle de Birgé et Massart de type 

penBM(k) = kσ2 

m 

m 1 + 2 log( k ) . 

Nous allons dans la suite nous attarder quelque peu sur la façon d’obtenir 

ces deux types de pénalités ainsi que sur les résultats qui en découlent, ce 

qui pourra nous renseigner quant à l’adaptativité des seuils qui leur sont 

associés. 

Remarque : 

Dans la suite, on se placera exactement dans le cadre décrit précédemment : 

on observe des réalisations (yi)i=1,...,m, de variables aléatoires (Yi) définies 

par 

71

∀i = 1, . . . , m , Yi = µi + σmɛi, 

⎧ 

⎨ ɛi ∼ N (0, 1) iid 

avec σm 

⎩ 

µi 

connu 

∈ R 

. 

5.2.1 Pénalité de Donoho et Johnstone 

C’est dans un rapport technique de Donoho et Johnstone daté de 1992 

[9] que la pénalité souhaitée penDJ = 2σmk log(n) trouve son origine. Ce 

papier a en fait pour objet l’amélioration des résultats classiques obtenus 

par projection sur des espaces de polynômes associés à une partition etc. . ., 

dans la reconstruction d’une fonction d’origine à partir d’un signal bruité 

en utilisant des bases d’ondelettes. Dans la perspective des auteurs, ces 

améliorations notables sont rendues possibles par la production de résultats 

minimax, i.e. d’inégalités oracles qui montrent que les estimateurs de type 

seuillage dur sont en un certain sens les meilleurs dans l’estimation du 

vecteur µ. 

Forme de l’estimateur et risque idéal 

Seuillage dur D’abord, il paraît nécessaire de rappeler que nous nous 

trouvons dans le cas où un certain nombre de composantes de µ sont nulles 

ou suffisamment petites en module pour être négligeables. Ceci constitue la 

justification du souhait de projeter µ sur un sous-espace de façon, à ne garder 

idéalement que les composantes significatives. Cette procédure de projection 

doit être valable pour tout µ ∈ R m . On en arrive alors à la conclusion 

que le choix des composantes à conserver dépend de l’ordre de celles-ci. En 

considérant que si une composante a un niveau de signal inférieur au bruit 

σm, on peut la considérer comme nulle (seuil possible parmi d’autres), on ne 

conservera que les composantes de module supérieur au niveau σm du bruit 

qui parasite l’information. D’où l’”oracle” (procédure d’estimation idéale) 

suivant 

∀i = 1, . . . , m, µ o σm,i = yi1 {|µi|>σm}. (5.16) 

Remarque : L’indice ”o” a pour vocation de signifier qu’il s’agit d’un Oracle. 

À partir de l’estimateur µ = y, le raisonnement précédent bâtit un estimateur 

µ o σm qui ne conserve la composante de y que si la composante correspondante 

de µ, à laquelle nous n’avons pas accès, est suffisamment grande. 

L’oracle nous sert donc, au sein d’une famille de procédures possibles, à fabriquer 

celle qui sera la plus adaptée à la vraie valeur du paramètre à estimer 

sans pour autant avoir accès à celui-ci. 

Dans un second temps, nous allons chercher à mimer l’oracle précédemment 

obtenu de façon que l’écart entre µ et le nouvel estimateur soit voisin de 

72

celui entre µ et l’oracle (qui estime le mieux µ). Or, le seul paramètre inconnu 

dans l’expression de l’oracle est µi. On le remplace donc naturellement 

par yi, seule valeur dont nous disposions, ce qui nous donne l’estimateur de 

seuillage dur suivant pour lequel le seuil est à fixer de façon optimale selon 

le critère adopté 

∀i = 1, . . . , m, ∀t ∈ (0, 1), µ h t,i(y) = yi1 {|yi|>t}. (5.17) 

Remarque : 

Au passage, on peut mentionner que le choix de y pour estimer µ n’est pas 

anodin. En effet Wolfowitz en 1950 a établi que Y est minimax pour estimer 

µ avec Y ∼ N (µ, σ 2 ). 

Risque idéal Pour ce qui nous intéresse, nous considérerons la perte quadratique 

classique. Un estimateur µ quelconque aura donc un risque associé 

Par conséquent, on a la 

R(µ, µ) = E µ − µ 2 2 . (5.18) 

Définition 5.5 (Risque idéal) en conservant les mêmes notations, nous 

appellerons risque idéal le risque calculé pour l’oracle 

R o σm (µ) = E µo σm − µ 22 = 

m 

(µ 2 i ∧ σ 2 m). (5.19) 

i=1 

Dans la suite, on notera Ro σm (µ) = Rσm(µ). 

Inégalité oracle et pénalité 

A l’origine, Donoho et Johnstone en 1992 ont obtenu des résultats minimax 

pour des estimateurs de type seuillage doux, puis ont établi un théorème 

donnant l’extension des propriétés précédentes pour le seuillage dur. 

Soit d’abord l’estimateur de type seuillage doux 

Il vient alors le théorème suivant 

µ s t,i(y) = sign(yi)(|yi| − t) + . 

Théorème 5.3 (Inégalité oracle) En conservant les notations 

précédentes, pour le seuil t de µ s t(y), on pose 

 

t = tm = σm 2 log m. 

Alors, on obtient l’inégalité oracle 

sup 

µ∈R m 

E µ s tm (y) − µ 2 2 

Rσm(µ) + σ 2 m 

≤ 2 log(m) (1 + om→∞(1)) . (5.20) 

73

Ainsi à un facteur 2 log(m) près, l’estimateur par seuillage doux µ s t se 

comporte, en termes de risque, aussi bien que l’oracle plus le terme de 

variance et ce, uniformément sur R m . 

À partir de ce résultat, il paraît légitime de se demander si la borne 

en 2 log(m) est améliorable. Le théorème suivant répond alors à cette 

question. 

Théorème 5.4 (Optimalité de la borne) 

inf 

bµ 

sup 

µ∈R m 

E µ − µ 2 2 

Rσm(µ) + σ 2 m 

∼ 2 log(m) . (5.21) 

Combiné avec la relation (5.20), ce résultat indique que tout amélioration de 

la borne en (2−ɛ) log(m), ɛ > 0 est impossible. Il ressort donc que parmi les 

types d’estimateurs décrits au début de la partie 5.2.1, µ s tm est le meilleur, 

au sens de celui qui mimer le mieux l’oracle. 

Enfin, la raison pour laquelle Donoho et Johnstone ont produit ces résultats 

pour le seuillage doux est que Bickel dans des travaux antérieurs en 1983 

avait étudié ce type d’estimateur. Cependant comme nous l’avons déjà dit, 

seuillage doux et dur se comportent à peu près de ma même façon, du moins 

en termes d’inégalités oracle et nous obtenons donc le résultat suivant : 

Théorème 5.5 (Inégalité oracle et seuillage dur) Avec les mêmes notations 

et pour un seuil λm voisin de σm 2 log(m), on a 

où Lm ∼ 2 log m et 

pour γ > 0. 

sup 

µ∈R m 

E µ h λm (y) − µ 22 Rσm(µ) + σ2 m 

(1 − γ) log(log m) ≤ λ 2 m − 2 log m ≤ o(log m), 

≤ Lm , (5.22) 

En somme, les travaux de Donoho et Johnstone ont abouti à déterminer le 

seuil optimal pour lequel µ h √ 

est le meilleur : σm 2 log m. C’est là essentiellement 

le sens des travaux de Donoho et Johnstone. Pour ce qui nous 

concerne, la pénalité recherchée va découler de ce seuil, mais n’est qu’artificielle 

puisqu’elle ne contribue pas au seuillage, mais est plutôt à appréhender 

comme un élément a posteriori qui permet une comparaison avec d’autres 

critères pénalisés basés eux sur des pénalités. Ainsi en utilisant la même 

démarche que lors de la détermination du seuil FDR, on dispose d’un ensemble 

de seuils possibles : les ti. Puisqu’on désire que pour tout i, le seuil 

74

√ 

soit optimal, on fixe alors tous les ti à σm 2 log m et on arrive ainsi à la 

pénalité souhaitée : ∀k ∈ {1, . . . , m}, 

Remarques : 

penDJ(k) = 

k 

i=1 

t 2 i 

= 2kσm log m. 

– C’est donc le calcul du seuil optimal qui détermine la pénalité. 

– Il semble néanmoins que cette façon de présenter les choses soit un 

peu artificielle puisque l’essentiel réside dans la détermination du seuil 

adéquat. L’intervention de la pénalité a plus pour vocation de fournir 

un moyen de comparaison entre les différentes approches par inégalités 

oracles. 

– Enfin, on remarque que le rang à partir duquel on ne considère plus 

les µi comme significatives n’intervient pas dans le seuil. Cela laisse 

penser que l’estimateur qui découle aura moins un caractère adaptatif 

que l’estimateur FDR par exemple. 

A présent, nous allons nous attacher à présenter le point de vue de Birgé 

et Massart qui déterminent d’abord, à la différence de Donoho et Johnstone, 

une pénalité dont on peut déduire ensuite un seuil optimal. 

5.2.2 Approche de Birgé et Massart 

Afin de présenter le point de vue de Birgé et Massart, nous allons 

pour un moment travailler dans un cadre un peu plus général qui 

est celui de la sélection de modèle. On adopte la présentation de Birgé 

et Massart, dans leur article de 1999 [8] ainsi que dans les notes de St Flour . 

Sélection de modèle 

Partant de notre problème d’estimation de µ ∈ R m , on pose M, une collection 

de sous-ensembles de {1, . . . , m}. Soit ensuite pour tout w ∈ M, Sw 

le sous-espace de R m engendré par les (ϕλ)λ∈w, où les ϕλ sont les vecteurs de 

la base canonique. À chaque Sw correspond l’entier Dw = |w| sa dimension, 

avec la convention que dans le cas w = ∅, Sw = {0} et Dw = 0. 

On donne ensuite la 

Définition 5.6 (Risque minimax) On définit le risque minimax de l’estimation 

de µ sur Sw par 

R(Sw, σ) = inf 

bµ 

sup 

µ∈Sw 

75 

Eµ µ − µ 2 ,

où . désigne la norme euclidienne. 

Remarque : la dépendance en σ vient du fait que tout µ est, par définition, 

fonction de Y qui dépend de σ. 

Stratégie : 

La raison d’être de notre collection de modèles M est la suivante. En 

pratique, il est parfois difficile de choisir entre différents types de modèles 

paramétriques que seraient censées suivre les variables d’intérêt. La sélection 

de modèle nous permet de produire une procédure qui va choisir au sein 

d’une liste de modèles jugés vraisemblables, celui qui correspond le mieux 

au problème posé. On procède donc en deux étapes : 

1. pour chaque modèle w, on détermine le meilleur estimateur µw ∈ Sw 

dont le comportement va traduire la qualité d’approximation du 

modèle. 

2. on compare ensuite selon un critère donné la qualité des estimateurs 

pour chaque modèle de façon à déterminer ( w, µ bw) où w représente le 

modèle correspondant au meilleur estimateur. 

Choix du meilleur représentant pour Sw 

Dans ce qui suit, on note µw, la projection orthogonale de µ sur Sw. 

Dans la base des ϕλ, on a 

µw = 

〈µ, ϕλ〉. 

λ∈ w 

Cependant µ n’étant pas accessible, on remplace µ inconnue par Y de façon 

à obtenir une projection empirique de µ sur Sw : 

µw = 

〈Y, ϕλ〉. (5.23) 

λ∈ w 

Birgé et Massart montrent alors que cet estimateur est optimal du point de 

vue minimax et obtiennent 

Eµ µw − µ 2 = µw − µ 2 

+ σ 

 

(1) 

2 Dw , 

 

(5.24) 

(2) 

qu’il s’agit donc de minimiser en w conformément à notre objectif. 

Remarque : Le premier terme est un terme de biais qui traduit la capacité 

du modèle w à approcher la vraie valeur µ. Le deuxième terme traduit la 

richesse du modèle : un modèle comportant par exemple un grand nombre 

de variables sera riche, mais fera croître la dimension Dw. Ainsi, on voit le 

compromis à trouver dans la recherche du meilleur modèle. 

76

Idée fondatrice : heuristique de Mallows 

Nous sommes cependant obligés de constater que µ étant inconnue, µw 

n’est pas non plus accessible. Mallows en 1964 a eu alors l’idée de réécrire 

(5.24) sous la forme 

µw − µ 2 + σ 2 Dw− µ 2 = − µw 2 + σ 2 Dw. (5.25) 

Bien que µw soit toujours autant inconnue, on dispose d’un estimateur sans 

biais de sa norme au carré : 

µw 2 − σ 2 Dw. (5.26) 

Ainsi au lieu de minimiser Eµ µw − µ 2 en m, on va chercher à minimiser 

le critère empirique suivant 

critσ(w) = crit(w) = − µw 2 +2 σ 2 Dw, (5.27) 

en ayant l’espoir que le w qui découle se rapproche du w(µ) idéal, calculé à 

partir de µ inconnue. Le critère qui va garantir cette proximité est alors une 

inégalité oracle dans laquelle va intervenir le membre de droite de la relation 

(5.24). Dans la terminologie de Birgé et Massart, on a 

Définition 5.7 (Oracle) on notera ao(µ, σ) l’oracle défini par 

 

µw − µ 2 + σ 2 

Dw . (5.28) 

ao(µ, σ) = inf 

w∈ M 

Il s’agit là de la meilleure valeur que peut prendre le risque considéré en prenant 

en compte la vraie valeur de µ, pour la collection de modèles choisis. 

Cependant comme le précisent les auteurs, ce critère de Mallows ne fonctionne 

bien que pour des collections de modèles pas trop grosses (|M| pas 

trop grand). Par conséquent, on va reprendre la forme générale à laquelle 

on avait abouti (5.27), en voyant le terme 2σ 2 Dw comme un terme correctif 

(pénalité) qu’il suffit de modifier pour obtenir des résultats convenables 

indépendant du nombre de modèles. On adopte donc une forme plus générale 

pour cette expression : 

crit(w) = − µw 2 +penBM(w), (5.29) 

où penBM(w) reste à déterminer. 

Remarque : 

La minimisation de ce critère, pour ce qui nous intéresse, va fournir un 

minimiseur de 

µ − µw 2 +penBM(w), 

qui est analogue au critère pénalisé (5.11). On pourra alors y appliquer la 

pénalité que nous allons calculer. 

77

Choix d’une stratégie 

Birgé et Massart sont parvenu à montrer dans le cadre gaussien le résultat 

suivant qui explicite une contrainte que doit satisfaire la pénalité, afin d’obtenir 

un résultat minimax qui non asymptotique à la différence de certains 

résultats de Donoho et Johnstone. 

Théorème 5.6 (Minimaxité dans le cas gaussien) Avec les notations 

adoptées, on pose (Lw)w∈ M ∈ R + , une famille de poids vérifiant 

Σ = 

w/ Dw>0 

exp(−DwLw) < +∞ . (5.30) 

Pour tout w ∈ M, et une constante K > 1, on suppose que 

pen(w) ≥ Kσ 2 Dw(1 + 2Lw) 2 . (5.31) 

Alors, il existe presque sûrement un estimateur pénalisé ˜µ = µ bw, où w est 

un minimiseur de (5.29), tel que ˜µ est unique. 

De plus, il existe des constantes c1 et c2 dépendant de K telles que 

2 

Eµ ˜µ − µ 

≤ c1 ao(µ, σ) + c2σ 2 Σ , (5.32) 

 

où a0(µ, σ) = infw∈ M µw − µ 2 + pen(w) . 

Plusieurs choses : 

– la condition K > 1 est incontournable, sous peine de bornes non informatives. 

– on obtient une première condition sur la forme de la pénalité. 

– les poids Lw sont censés permettre de pondérer les modèles par 

exemple pour privilégier les petites dimensions pour Sw. En fait de 

la même façon que dans un cadre bayésien on utilise las informations 

a priori dans le modèle, il est possible de privilégier les modèles pour 

lesquels on pense que l’approximation est la meilleure. 

Choix des poids D’abord, on donne la 

Définition 5.8 (Stratégie) Avec les notations de ce qui précède, une 

stratégie est une famille au plus dénombrable (Sw, Lw)w∈ M, où Lw ≥ 0, ∀ w 

et telle que 

Σ = 

exp(−DwLw) < +∞ 

w/ Dw>0 

Une stratégie caractérise donc la façon dont on modélise et solutionne le 

problème. Encore une fois, tout comme dans le cas bayésien on a le choix 

entre une loi non informative et une loi qui exploite une information a 

priori, on peut opter dans notre cas pour des poids constants, indépendants 

78

de w, ou des poids variables. Il est à noter que le cas des poids constants 

nous ramène aux estimateurs de type seuillage dur qui apparaissent 

naturellement comme solutions d’un problème d’optimisation de même 

qu’on récupère les résultats de Donoho et Johnstone [9]. 

Nous allons regarder à présent ce que donne le cas de poids variables. 

Remarque : Il paraît raisonnable que l’apport d’une information 

supplémentaire (choix des poids) contribue à un critère pénalisé meilleur en 

cela qu’il donne un seuil plus souple que celui de Donoho et Johnstone. 

Le choix de poids variables Lw = L(|w|) (le poids dépend de la dimension) 

nous conduit à l’inégalité ci-après 

Σ = 

≤ 

m 

k=1 

m 

k=1 

 

m 

exp[−kL(k)] 

k 

 

exp 

−k[ L(k) − 1 − log( m 

k 

 

) ] . (5.33) 

Remarque : le terme m 

k vient du fait qu’on compte le nombre de modèles 

de taille k parmi tous les 

 

modèles possibles de dimension au plus m. Plus 

sous-espaces vectoriels de dimension k dans Rm . 

particulièrement, on a m 

k 

À présent en choisissant L(k) = 1 + log( m 

k ) + log 2, on arrive à Σ ≤ 1. 

Puis, on va choisir une pénalité vérifiant 

pen(w) ≥ Kσ 2 Dw(1 + 2Lw) 2 ). 

Il vient après calculs 

 

a0(µ, σ) ≤ inf µ − µw 

w∈ M 

2 +σ 2 

Dw 

inf 

w∈ M 

1 + log( 2m 

Dw 

 

) . (5.34) 

Enfin, on associe (5.32) et (5.34) pour aboutir à la forme souhaitée : 

2 

Eµ ˜µ − µ 

≤ C1 µ − µw 2 +σ 2 

Dw 1 + 2 log( m 

 

) + C2σ 2 

 

, 

où C1 et C2 sont des constantes dépendant de K. 

Remarques : 

– Il est donc possible de prendre un terme de pénalité de la forme 

penBM(w) = σ 2 

Dw 1 + 2 log( m 

 

) , 

d’où on déduit un seuil t bw. 

79 

Dw 

Dw 

(5.35)

– Avec le terme en log( m ) au lieu de log(m) dans le cas de Donoho et 

Dw 

Johnstone (poids constants), la borne que nous venons d’obtenir est 

une amélioration notable. 

– il faut enfin voir que la pénalité sous sa forme pen(w) = kσ2 (1 + 

2 log( m )) est issue de majorations assez grossières. Aussi dans la pra- 

Dw 

tique, il est plus intéressant de l’écrire de la façon suivante 

pen(w) = kσ 2 

 

κ1 + κ2 log( m 

 

) , (5.36) 

Dw 

où κ1 et κ2 sont des constantes à calibrer par simulation. 

Conclusion partielle À la lumière de leur construction, les seuils de Donoho 

et Johnstone ainsi que de Birgé et Massart ne sont pas à proprement 

parlé ”adaptatifs” puisqu’ils ne tiennent pas compte des données : en cela, 

le FDR leur est préférable. Cependant, le seuil de Birgé et Massart découle 

d’un modèle qui est plus ”souple” en cela qu’il prend en compte davantage de 

paramètres que celui de Donoho et Johnstone. Il s’adaptera donc mieux aux 

différents cas de figure rencontrés, qu’un seuil invariable ne tenant compte 

que de la dimension du paramètre à estimer. D’ailleurs, la plus grande flexibilité 

du modèle de Birgé et Massart est confirmée par l’étude théorique de 

la provenance de ces critères, étude qui montre que le seuil de Donoho et 

Johnstone n’est qu’un cas particulier de celui de Birgé et Massart (poids 

constants). 

Des simulations dont nous n’avons pas pu rendre compte ici confirment cela 

et indiquent que le seuil de Donoho et Johnstone est plus conservatif que 

les deux autres, tandis que le seuil de Birgé et Massart a tendance à surestimer 

le seuil réel. C’est finalement le FDR qui fournit en règle générale 

les meilleurs résultats. 

80

Chapitre 6 

Directions de travail 

6.1 Estimation de π0 

Comme nous l’avons vu assez souvent dans ce qui précède, le fait que π0 

soit inconnu est à l’origine d’une perte de puissance lors du contrôle du FDR. 

L’estimation de cette proportion semble donc un enjeu important dans la 

suite. On peut par exemple mentionner comme estimateur possible de π0 la 

pente de la droite obtenue par régression sur t ↦→ G(t) quand t ”proche de 

1”, estimateur aux prorpiétés mal ou pas connues. 

Néanmoins, l’amélioration dans ce domaine ne réside pas forcément dans la 

production d’un n-ième estimateur de π0, mais plutôt dans la localisation 

d’un segment de [0, 1] dans lequel les probabilités critiques suivent dans leur 

immense majorité une loi uniforme. En disposant d’une telle zone d’uniformité, 

nous avons alors accès à une meilleure estimation de π0. Pour cela, 

nous pouvons procéder par simulations afin de bâtir un critère basé sur l’estimateur 

de Storey et qui a pour but la détection de cette zone d’uniformité 

dans [0, 1]. 

On peut envisager de se servir de l’estimation de F afin de déterminer à 

partir de quel seuil l’approximation de Storey nous donnant π0λ est valable 

(moins λ est optimal, plus le biais de l’estimateur est grand). 

Il est peut-être possible d’obtenir des renseignements sur π0 à partir des 

équations au point fixe des procédures plug-in en utilisant les estimateurs 

de G et F. 

6.2 Densités 

La densité des probabilités critiques sous H1 constitue également une 

quantité de grand intérêt comme nous avons pu le voir notamment lors de 

la partie deux. Cela représente de plus une autre possibilité d’approche pour 

l’estimation de π0. Pour cela, on peut penser que l’estimation par noyaux 

pondérés à poids adaptatifs pourrait fournir une estimation plus fine de f1. 

81

il faut noter que pourtant, ce sujet a été peu ou pas abordé jusqu’à présent. 

Nous pouvons aussi envisager le cas où f0 n’est pas continue et voir les 

résultats qu’il est alors possible d’obtenir. Il faut se rappeler que Storey et 

al. [20] ont déjà obtenu quelques résultats à ce sujet. 

6.3 Cas de dépendance connue 

Il est également envisageable de traiter des cas particuliers où la structure 

de dépendance est connue. Ainsi, c’est ce qui est fait par Benjamini et al. 

[7] où est définie la propriété PRDS que nous allons à présent définir avant 

d’en présenter une application aux profils CGH pour un premier résultat. 

6.3.1 La propriété de PRDS 

Cette propriété de Positive Regression Dependence on Subset (PRDS) a 

été notamment étudiée par Benjamini et Yekutieli dans leur article de 2001 

[7]. Pour l’introduire, on donne d’abord la définition suivante. 

Définition 6.1 (Ensemble croissant) Soit D ⊂ R, x, y ∈ R. Alors D est 

dit croissant si 

Puis : 

x ∈ D et y ≥ x ⇒ y ∈ D. 

Définition 6.2 (PRDS sur un ensemble d’indices) Soit X, un vecteur 

aléatoire de R n , I ⊂ {1, . . . , n}, et D un ensemble croissant de R n . Alors on 

dit que X vérifie la propriété de PRDS sur I si 

∀i ∈ I, x ↦−→ P r(X ∈ D|Xi = x) est croisante. 

Il se trouve que bien que ce type de dépendance paraisse abstrait au premier 

abord, Benjamini et Yekutieli (2001) ont montré que si X est un vecteur 

aléatoire gaussien multivarié tel que : 

∀i ∈ {1, . . . , n}, µi ≥ 0, 

où µ est le vecteur de moyenne de X, et si sa matrice de covariance a par 

exemple tous ses termes positifs, alors X vérifie le PRDS sur {1, . . . , n}. 

Remarque : on peut utiliser des résultats analogues pour contrôler le FDR 

dans le cadre de modèles MA(2) par exemple, comme nous le verrons en 

application aux profils CGH. 

82

Motivation de l’étude du PRDS En 2001, Benjamini et al.[7] donnent 

le théorème suivant qui met en évidence que dans un certain cas de 

dépendance connue, le contrôle du FDR par la procédure BH demeure. 

Théorème 6.1 (Procédure BH et PRDS) Si la loi jointe des statistiques 

de test est PRDS sur le sous ensemble des statistiques de test sous 

H0, alors le FDR est contrôlé par la procédure BH au niveau α m0 

m · 

La conséquence est évidente : il suffit de déterminer les cas pour lesquels la 

propriété de PRDS est vérifiée afin de pouvoir contrôler le FDR au niveau 

souhaité. 

Normale multivariée Benjamini et Yekutieli étudient ensuite quelques 

cas de lois classiques pour lesquelles ils parviennent à montrer que la propriété 

de PRDS est vérifiée. Ainsi, il vient la 

Proposition 6.1 (Test unilatéral et normale multivariée) Soit Y ∼ 

N (µ, Σ) où µ ∈ (R∗ +) m et Σ ∈ S ++ 

m (R). On teste pour tout i ∈ {1, . . . , m}, 

H0 : µi = 0 contre H1 : µi > 0. 

Soit I0 l’ensemble des indices des composantes de µ correspondant à l’hypothèse 

nulle. 

On suppose de plus que 

Alors, Y est PRDS sur I0. 

∀i ∈ I0 et ∀j = i, Σi,j ≥ 0. 

Remarque : Nous attirons l’attention du lecteur sur le fait qu’on a supposé 

les composantes de µ positives. 

Nous allons à présent exploiter les résultats ci-avant démontrés dans ??. 

6.3.2 Profils CGH 

Le problème est le suivant. Dans le cas de cellules cancéreuses par 

exemple, on désire savoir si la maladie a un effet sur cetaines parties de 

chromosomes, i.e. si certaines de ces parties sont délétées ou amplifiées par 

la maladie (cf.figure 6.1). 

Souvent, on suppose l’indépendance des BACs (Bacterial Artificial 

Chromosomes) dans le modèle que l’on pose. Pour ce qui nous concerne, 

l’objectif est de déterminer en fonction des log-ratios des niveaux d’expression 

de chaque BAC, quelles sont les parties de chromosomes qui sont 

délétées ou amplifiées et ce, en introduisant de la dépendance spatiale entre 

les BACs. En effet, si deux BACs sont géographiquement voisins et même 

très proches, si l’un est délété, il y a davantage de chances que son voisin le 

soit aussi plutôt qu’un BAC qui en est très éloigné. 

83

log 2 rat 

3 

2 

1 

0 

−1 

−2 

Deleted segment 

Amplified segments 

Unaltered segment 

1.57 1.58 1.59 1.6 1.61 1.62 1.63 1.64 1.65 1.66 1.67 

x 10 6 

−3 

genomic position 

Fig. 6.1 – Exemple de profil CGH : on a représenté les log-ratios des niveaux 

d’expression en fonction de la position géographique des bouts de chromosomes, 

appelés par abus de lagage BAC (Bacterial Artificial Chromosome). 

Nous posons un modèle de type MA(2) qui introduit, au niveau de 

ce qui ce passe en un point, de la dépendance vis-à-vis de ce qui se passe 

pour ses deux plus proches voisins. Nous attirons immédiatement l’attention 

du lecteur sur le fait que dans le modèle MA(2), la dépendance a lieu sur 

les erreurs et non sur les observées. 

Soit t1, . . . , tm les abscisses des m BACs correspondants. Pour chaque 

i ∈ {1, . . . , m}, Yti 

i. 

On a alors 

représente le log-ratio des niveaux d’expression du BAC 

∀i ∈ {1, . . . , m}, Yti = µti + ɛti + f(|ti − ti−1|) ɛti−1 + g(|ti − ti + 1|) ɛti+1 , 

(6.1) 

où (ɛti ) i.i.d. ∼ N (0, 1) et où f et g sont deux fonctions positives. 

Dans ces conditions, la matrice de covariance a pour expression 

⎛ 

⎞ 

⎜ 

Σ = ⎜ 

⎝ 

1 + f 2 + g 2 f + g fg 0 . . . 0 

f + g 

fg 

0 

. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. 

. 

. .. 0 

. .. fg 

. .. f + g 

0 . . . 0 fg f + g 1 + f 2 + g 2 

⎟ . (6.2) 

⎟ 

⎠ 

Ainsi, à la fois l’hypothèse d’indépendance et le fait que f et g soient positives 

84

assurent la propriété PRDS pour le vecteur Y + , composé des coordonnées 

de Y pour lesquelles µi ≥ 0 de même que pour son analogue Y − . On peut 

alors détecter au niveau α souhaité les gènes différentiellement exprimés. 

Remarque : La positivité de f et g trouve sa justification notamment dans 

l’examen de données réelles observées. 

6.4 Motifs exceptionnels 

Enfin, Pacifico et al.[15] achève leur article de 2004 en mentionnant une 

application du FDR qui nous semble intéressante. Il s’agit de ce qu’ils appellent 

”scan clustering”. Le cadre est le suivant. En astronomie notamment, 

l’une des questions d’intérêt en présence d’une image de l’espace est d’y 

repérer les clusters (amas) de galaxies. Ainsi, on modélise communément 

les galaxies comme les occurences d’un processus ponctuel (imagnons un 

processus de Poisson) et on cherche à détecter de telles zones à partir du 

comptage du nombre d’occurences de ce processus dans une fenêtre de taille 

fixée que l’on déplace sur l’image. Pacifico et al. nous expliquent alors qu’en 

pareille situation, on procède au test de H0 : il n’y a aucun cluster contre 

H1 : il y a des clusters. 

Plus formellement, (Yi)i=1,...,m les occurences d’un processus ponctuel sur 

S = [0, 1] 2 , d’intensité 

ν : S −→ R+ . 

s ↦→ ν(s) 

Soit S0 la zone de S où il n’y a aucun cluster. Sur cette zone, ν(s) = ν0. Mais 

si s ∈ S0, alors ν(s) > ν0. Pour tout point s ∈ S, on teste alors H0,s : s ∈ S0 

contre H1,s : s ∈ S0. les auteurs proposent alors un chap aléatoire de la 

forme 

X(s) = 1 

n 

n 

Kh(s − Yk), 

k=1 

où Kh désigne par exemple un noyau gaussien sur [0, 1] 2 et h représente les 

paramètres de la fenêtre : 

 

h2 h = 1 0 

. 

0 h 2 2 

Il est alors possible d’appliquer les techniques et résultats vus sur les 

champs aléatoires afin d’obtenir un contrôle des faux clusters détectés par 

la procédure. 

Remarques : 

– il y a tout un travail portant sur les critères de choix des statistiques 

utilisées, sur les noyaux et les types de fenêtres employés, travail qui 

n’a été que partiellement voire pas du tout effectué (choix de la fenêtre 

de façon à minimiser le FNR par exemple). 

85

– on pourrait peut-être tenter d’appliquer ces méthodes à la dimension 

un, dans l’optique de détecter des motifs exceptionnels au sein d’une 

séquence, d’autant que ceux-ci ont le bon goût d’être peu nombreux 

par rapport à la longueur de la séquence prise en compte. 

86

Chapitre 7 

Annexe 

7.1 Preuve du chapitre 1 

Preuve du théorème 1.1 La preuve de Benjamini et al. repose sur le 

Lemme 7.1 La procédure BH implique l’inégalité suivante 

 

F P 

E 

R ∨ 1 | Pm0+1 

 

= p1, . . . , Pm = pm1 ≤ m0 

α , (7.1) 

m 

où m1 = m−m0, Pm0+1, . . . , Pm désignent les m1 probabilités critiques sous 

H1 ordonnées, p1, . . . , pm étant leurs réalisations. 

En effet, il suffit clairement de prendre l’espérance pour aboutir au résultat. 

Preuve du lemme : 

F P 

Nous allons procéder par récurrence sur m. On pose Q = R · 

1. Si m = 1, (0 ≤ m0 ≤ m) 

soit m0 = 0 Q = 0. 

soit m0 = 1 E(Q | m0 = m) = P r(P ≤ α | m0 = m) = α 

(application de la procédure BH et sous H0, P ∼ U(0, 1)). 

d’où le résultat pour m = 1. 

2. On suppose le résultat vrai pour tout m ′ ≤ m. 

3. Montrons la propriété au rang m + 1. 

Hypothèses et notations : 

– P ′ 1 , . . . , P ′ m probabilités critiques sous H0. 

– les (P ′ 

)i=1,...,m0 i sont indépendantes. 

– on rappelle p1 ≤ p2 ≤ . . . ≤ pm1 . 

– soit (∆) j0 = max{1 ≤ j ≤ m1/pj ≤ m0+j 

m+1 α} si il existe et 0 sinon. 

– soit () p ′′ = m0+j0 

m+1 α. 

87

1 er cas : m0 = 0 

2 e cas : m0 > 0 

Q = 0, d’où le résultat. 

D’abord, les (P ′ 

i )i≤m0 sont i.i.d. ∼ U(0, 1). D’où (P ′ (1) , . . . , P ′ (m0) ) ∼ 

m0! 1 {0≤p ′ (1) ≤...≤p ′ (m 0 ) ≤1} et P ′ (m0) 

L’idée va être de conditionner par P ′ (m0) 

p ′′ 

= 

+ 

0 

1 

p ′′ 

∼ m0p m0−1 déf 

= f(p). 

= p : 

E (Q | Pm0+1 = p1, . . . , Pm = pm1 ) 

 

E Q | P ′ (m0) = p, Pm0+1 

 

= p1, . . . , Pm = pm1 f(p)dp (7.2) 

 

E Q | P ′ (m0) = p, Pm0+1 

 

= p1, . . . , Pm = pm1 f(p)dp (7.3) 

Cette décomposition étant écrite, on procède en deux temps, en étudiant 

d’abord (7.2) puis (7.3). 

– pour (7.2) p ≤ p ′′ : 

1. si j0 = 0 

p ≤ p ′′ ⇒ P ′ (m0) 

2. si j0 ∈ {1, . . . , m1} 

m0α 

≤ 

m + 1 < (m0 + 1)α 

m + 1 < p1 < . . . 

⇒ rejet de m0 + j0 = m0 p − valeurs 

D’où 2 cas de figures : 

– soit P ′ (m0+j0)α 

(m0) ≤ pj0 ≤ m+1 · 

– soit pj0 ≤ P ′ (m0) 

p ≤ p”” ⇒ P ′ (m0) ≤ (m0 + j0)α 

m + 1 

≤ (m0+j0)α 

m+1 

· 

Dans le premier cas, m0 + j0 − 1 p-valeurs précèdent pj0 qui 

est alors la m0 + j0-ième p-valeur. On rejette alors m0 + j0 − 1 

p-valeurs. 

Dans le second cas, P ′ (m0) est précédé de m0 + j0 − 1 p-valeurs 

sinon, j0 + 1 vérifierait (∆) ce qui est exclu. Donc, on rejette 

m0 + j0 hypothèses. 

88

Conséquence : 

p ≤ p ′′ implique le rejet de m0 + j0 hypothèses, dont dans tous les cas, 

les m0 hypothèses H0 incluses. Donc 

Conclusion partielle : 

Q = m0 

· 

m0 + j0 

(7.2) = m0 

p 

m0 + j0 

′′ m0 

m0 

≤ 

m0 + 1 α p′′ m0−1 

· 

Remarque : si j0 = 0, m0 > 0 assure la cohérence (m0 + j0 > 0). 

– pour (7.3) p > p ′′ : 

1. j0 = 0 

Alors 

m0 

m + 1 α et m0 + 1 

m + 1 

α < p1 

donnent que P ′ (m0) est la m0-ième p-valeur de l’ensemble des probabilités 

critiques. 


impossible de trancher quant à un éventuel rejet car cela dépend 

des m0 − 1-ièmes p-valeurs précédentes qu’on ne connaît pas. 

2. j0 ∈ {1, . . . , m} 

Alors p > p ′′ ⇒ P ′ (m0) 

D’où deux possibilités : 

– soit pj0 

– soit pj0 

> m0+j0 

m+1 α. 

m0+j0 ≤ m+1 α 

m0+j0 ≤ m+1 α < pj0+1 

= p · 


dans les deux cas (y compris si j0 = 0), on ne peut conclure quant au 

rejet éventuel d’un gène. 

Conclusion partielle : 

Pour qu’il y ait un k vérifiant la relation de la procédure BH, il faut que 

k ≤ m0 + j0 − 1. 

Donc pour (7.3), si les p-valeurs sont notées cette fois p (1) ≤ . . . ≤ p (m+1), 

l’hypothèse H0,i ne pourra être rejetée que si 

qui équivaut à 

∃ i ≤ k ≤ m0 + j0 − 1/ p (k) ≤ k 

m + 1 α, 

p (k) 

p ≤ 

k 

m0 + j0 − 1 

89 

m0 + j0 − 1 

p(m + 1) 

α · (7.4)

On cherche à présent à réduire la dimension du problème de façon à 

appliquer l’hypothèse de récurrence. 

 

On rappelle d’abord que ∀i ∈ {1, . . . , m0 − 1}, L P ′ 

i /p | P ′ 

(m0) = p = 

U(0, 1), puis que ∀j ∈ {1, . . . , j0} (j0 > 0), pj/p correspond à des gènes H1. 

Remarque : les pj/p pour j ≤ j0 sont dans [0, 1]. En effet, 

∀j ∈ {1, . . . , j0}, 0 < m0 + j pj 

α < 

p(m + 1) p ≤ m0 + j0 α p′′ 

= 

m + 1 p p 

– si j0 ∈ {1, . . . , m1} : 

En posant 

< 1 . 

α ∗ = m0 + j0 − 1 

α, (7.5) 

p(m + 1) 

on s’aperçoit qu’appliquer la relation de la procédure BH aux m0 + 

j0 − 1 premiers gènes revient à rejeter Hi si 

∃ k ∈ {i, . . . , m0 + j0 − 1}/ p (k) 

p ≤ 

k 

m0 + j0 − 1 α∗ . 

on dispose donc de m0 − 1 vraies hypothèses nulles et j0 fausses. La 

relation (7.5) définit ainsi une procédure BH appliquée à m0 +j0 −1 < 

m + 1 hypothèses au niveau α ∗ . on peut alors appliquer l’hypothèse 

de récurrence. 

On obtient alors que 

 

E Q | P ′ (m0) = p, Pm0+1 

 

= p1, . . . , Pm0+j0 = pj0 ≤ m0 − 1 

m0 + j0 − 1 α∗ ≤ m0 − 1 α 

m + 1 p , 

et donc 

 

E Q | P ′ (m0) = p, . . . , Pm+1 

 

= pm1 

≤ m0 − 1 α 

· (7.6) 

m + 1 p 

En effet, 

 

1. E Q | P ′ (m0) = p, Pm0+1 

 

= p1, . . . , Pm0+j0 = pj0 

 

= E Q | P ′ (m0) = p, ˜ Pm0+1 = p1/p, . . . , ˜ 

Pm0+j0 = pj0 /p . 

2. ∀j > j0, 

 

Pj ne joue aucun rôle dans le rejet éventuel de H0,i. 

D’où E Q | P ′ (m0) = p, Pm0+1 

 

 

= p1, . . . , Pm0+j0 = pj0 

= E Q | P ′ (m0) = p, . . . , Pm+1 

 

= pm1 . 

90

Pour finir, 

(7.3) = 

1 

p ′′ 

 

E Q | P ′ (m0) = p, . . . , Pm+1 

 

= pm1 f(p)dp ≤ m0 

m + 1 α(1−p′′ ) m0−1 

. 

Ainsi en réunissant (7.2) et (7.3), on aboutit à 

m0 

E (Q | . . . , Pm+1 = pm1 ) ≤ 

m + 1 α (p′′ (1 − p ′′ )) m0−1 m0 

≤ α · 

m + 1 

– si j0 = 0 

on n’a aucune fausse hypothèse nulle. l’hypothèse de récurrence s’ap- 

plique encore et il vient 

E 

 

Q | P ′ 

(m0) = p 

≤ m0 − 1 α 

m + 1 p · 

le résultat découle de la même façon que précédemment. 

 

7.2 Preuves du chapitre 3 

7.2.1 Preuve du lemme 3.2 

Preuve : 

Pour ce qui est de la filtration, on vérifie aisément que pour t < s, Fs ⊂ Ft. 

Puis pour déterminer la loi de F P (t) | F P (s), on va calculer 

P r(F P (t) = k | F P (s) = n), k ∈ {0, . . . , n}. 

D’abord, on a F P (s) = m 

i=1 1 {Pi≤s}1 {H0(i)=0}. 

D’où, 

P r(F P (t) = k | F P (s) = n) = 

= 

1 

P r(F P (s) = n) 

1 

P r(F P (s) = n) 

 

j1,...,jm 

 

j1,...,jm 

P r 

P r ⎝ 

Puis sachant l’événement B = {Pj1 ≤ s, . . . , Pjn ≤ s, H0(j1) = 

0, . . . , H0(jn) = 0}, les Pji , i = 1, . . . , n sont n variables aléatoires 

indépendantes de loi U(0, s). En effet, on a d’abord que 

P r(Pji ≤ t | B) = P r(Pji ≤ t | Pji ≤ s, H0(ji) = 0) (indépendance) 

= P r( Pji 

s 

= t 

s , 

≤ t 

s | Pji ≤ s, H0(ji) = 0) 

91 

n 

i=1 1 {Pj i ≤s}1 {H0(ji)=0} = k, 

n 

i=1 1 {Pj i ≤s}1 {H0(ji)=0} = n 

⎛ 

n 

i=1 1 {Pj i ≤s}1 {H0(ji)=0} = k, 

Pj1 ≤ s, . . . , Pjn ≤ s, 

H0(j1) = 0, . . . , H0(jn) = 0 

 

⎞ 

⎠ ·

puis que si i = k, P r(Pji ≤ t, Pjk ≤ s | B) = P r(Pji ≤ t | B)P r(Pjk ≤ s | 

B), également par indépendance des Pj. 

D’où il vient naturellement que F P (t) | F P (s) ∼ B(F P (s), t/s), ∀t < s. 

Enfin ∀t < s, on a 

 

 

F P (t) 

E | F P (s) 

t 

7.2.2 Preuve du théorème 3.3 

Preuve : 

On étudie donc avec Tα = tα( 

= 1 

E (F P (t) | F P (s)) 

t 

= 1 

s F P (s) espérance d′ une binomiale. 

F DRλ=0), 

 

F P (Tα) 

F DR(Tα) = E 

· 

(R(Tα) ∨ 1) 

Or, R(Tα) = Tαm 

α . 

En effet, 

– si Tα = Pi, alors l’égalité est évidente. 

– si par contre, Tα = Pi, alors pour t assez proche de Tα par valeurs 

inférieures, on a 

F DRλ=0(Tα) 

= Tα m t m 

≤ ≤ α. 

R(Tα) R(t) 

Enfin, si 

F DRλ=0(Tα) < α, t ↦→ 

t m 

R(t) 

par morceaux, il existe t ′ > Tα tel que t′ m 

R(t ′ ) 

(R(t ′ ) = R(Tα)). 

Ainsi donc, 

F P (Tα) α F P (Tα) 

= · 

(R(Tα) ∨ 1) m Tα 

F P (t) 

étant croissante et continue 

≤ α, ce qui est exclu 

De plus, nous avons vu que t est une martingale inverse. Si on considère 

la martingale associée arrêtée en Tα, temps d’arrêt, celle-ci est bornée par 

m/α. En effet, 

mt 

– si t > Tα, on obtient d’abord R(Tα)∨1 > α, puis 

∀t > Tα, 

F P (t) 

t 

92 

≤ 

F P (t)m m 

≤ · (7.7) 

α(R(t) ∨ 1) α

– si t = Tα, il vient 

F P (Tα) 

= F P (Tα)m 

Alors le théorème d’arrêt implique finalement que 

Tα 

m 

≤ · (7.8) 

α(R(Tα) ∨ 1) α 

F DR(Tα) = α F P (Tα) 

= 

m Tα 

α 

m E[F P (1)] = π0α . (7.9) 

Il reste donc juste à voir que Tα est bien un temps d’arrêt pour la filtration 

inverse (Fs) s∈[0,1], ce qui découle du fait que ∀t ∈ [0, 1], 

{Tα ≥ t} = 

Enfin, 

s > t, 

s = p (i), 

i = 1, . . . , m 

d’où le résultat. 

 

s>t 

= 

s > t, 

s = p (i), 

i = 1, . . . , m 

{ F DRλ=0(s) 

≤ α} ∪ { F DRλ=0(t) 

≤ α} 

{ F DRλ=0(s) 

≤ α} ∪ 

∪ { 

F DRλ=0(t) ≤ α} . 

{ F DRλ=0(s) 

≤ α} = 

i=1,...,m 

 

s > t, 

s = p (i), 

i = 1, . . . , m, 

s ∈ Q+ 

7.2.3 Forme des estimateurs π g 

0 et F DRλ(t) 

Heuristique de π0(λ) 

Au seuil λ fixé, la proportion de gènes rejetés est 

m − R(t) 

m 

= 1 − Gm(λ) 

= Gm(1) − Gm(λ) 

G(1) − G(λ). 

{ F DRλ=0(p 

(i)) ≤ α} 

{ F DRλ=0(s) 

≤ α}, 

Or, on fait l’hypothèse que les gènes H1 ont des probabilités critiques proches 

de 0. Donc pour λ assez grand, on peut considérer qu’il n’y a plus de probabilité 

critique H1, d’où f1 | [λ,1] = 0 et F1(λ) = 1. Ainsi pour un tel λ, 

G(λ) = π0λ + (1 − π0), ce qui conduit à la relation 

dont on déduit π g 

0 (λ). 

1 − Gm(λ) = π g 

0 (λ)(1 − U(λ)), (7.10) 

93

Limite de F DRλ(t) 

Il est désormais clair que pour t et λ dans [0, 1], F DRλ(t) s’écrit 

F DRλ(t) = 

Or dans le cas uniforme, on avait 

F P (t) 

R(t) 

F P (t) = ♯{i/Pi ≤ t, H0(i) = 0} 

F DR(t). (7.11) 

= m0 ♯{i/Pi ≤ t, H0(i) = 0}/m0 

m π0(λ) P r(Pi ≤ t|H0(i) = 0) 

= m π0(λ) t . 

De la même façon, si F0 = Id désigne la fonction de répartition des probabilités 

critiques sous H0, on a : 

F P (t) = m π g 

0 (λ) F0(t) . (7.12) 

Il arrive donc l’estimateur de Storey [20] suivant : 

Ainsi d’après 7.10, quand m → ∞ 

et donc 

 

π0(λ) g −−−−→ 

m→∞ 

F DRλ(t) −−−−→ 

m→∞ 

= 

F DRλ(t) = 

m πg 0 (λ) F0(t) 

R(t) 

= πg 0 (λ) F0(t) 

· 

Gm(t) 

F0(t) 

G(t) 

7.2.4 Relation entre a et G 

1 − G(λ) 

1 − F0(λ) 

(1 − F0(λ))π0 

1 − F0(λ) + (1 − F1(λ))(1 − π0) 

· 

1 − F0(λ) 

 

(1 − F0(λ))π0 

1 − F0(λ) + (1 − F1(λ))(1 

 

− π0) 

· (7.13) 

1 − F0(λ) 

Preuve de la proposition 3.1 : 

Soit ΓF = { b/(b, Hb) ∈ OF }. 

Remarque : 

– Comme la notation l’indique, on a choisit d’accentuer la dépendance 

de H par rapport à b. 

94

– Dans ce qui suit, les notations ”F ′ ” sont à prendre au sens de l’existence 

d’une dérivée de Radon-Nikodym. À aucun moment, on ne suppose 

que la densité sous H1 est continue. 

D’abord, ∀b ∈ ΓF et ∀t ∈ [0, 1], F ′ (t) = (1 − b) + bH ′ b (t), ce qui implique 

que 

b ≤ sup{ 

t 

F ′ (t) − 1 

}, 

− 1 

d’où 

Ensuite, 

Or, 

ce qui permet de conclure. 

 

H ′ b 

ζ ≤ b ≤ 1 − inf 

t F ′ (t), (H ′ b ≥ 0). 

1 − inf 

t F ′ (t) = b[1 − inf 

t H′ b (t)]. 

F (t) ≥ t, ∀t ⇒ ∃t/ H ′ b (t) ≤ 1 

⇒ inf 

t H′ b (t) ≤ 1 

⇒ 1 − inf 

t F ′ (t) ≤ ζ, 

7.2.5 Normalité asymptotique de F DP (t) 

Preuve du théorème 3.15 : 

D’abord, on considère l ∞ , l’ensemble des fonctions bornées sur (δ, 1] 

muni de la norme infinie, puis 

r : l ∞ × l ∞ → l ∞ 

(f, g) ↦→ f 

f + g . 

Alors en Θ = ((1 − a)U + aF ), r est Fréchet différentiable avec 

Puis l’étude du couple ( 

√ 

m ( F P (t) 

r ′ ((1−a)U+aF ) (V1, V2) = aF V1 − (1 − a)UV2 

G 2 

m 

F P (t) 

m 

V P (t) 

, m ) montre que 

V P (t) 

 

, ) − ((1 − a)t, aF (t)) (W1, W2), 

m 

95

où (W1, W2) processus 

 

gaussien bi-dimensionnel centré de matrice de cova- 

(1 − a)(s ∧ t) − (1 − a) 2st −(1 − a)saF (t) 

riance Γ(s, t) = 

−(1 − a)taF (s) aF (s ∧ t) − a2 

. 

F (s)F (t) 

D’où l’application de la méthode delta donne que 

√ 

m r[( 

F P (t) 

m 

d’où le résultat. 

 

V P (t) 

 

, )] − r[((1 − a)t, aF (t))] r 

m ′ (1−a)F0+aF [(W1, W2)], 

96

Bibliographie 

[1] Felix Abramovich and Yoav Benjamini. Adaptive thresholding of 

wavelet coefficients. Computer Statistical Data Analysis, 22 :351–361, 

1996. 

[2] Felix Abramovich, Yoav Benjamini, David Donoho, and Iain 

Johnstone. Adapting to Unknown Sparsity by controlling the False 

Discovery Rate. Technical Report 2000-19, Stanford University, Department 

of Statistics, 2000. 

[3] Avner Bar-Hen, Jean-Jacques Daudin, and Stéphane Robin. Comparaisons 

multiples pour les microarrays. À paraître dans la Revue de 

la SFDS. 

[4] Yoav Benjamini and Yosef Hochberg. Controlling the False Discovery 

Rate : a Practical and Powerful Approach to Multiple Testing. 

JRSS B, 57(1) :289–300, 1995. 

[5] Yoav Benjamini, Abba M. Krieger, and Daniel Yekutieli. Adaptive 

Linear Step-up Procedures that control the False Discovery Rate. 2004. 

[6] Yoav Benjamini and Liu Wei. A distribution-free multiple-test procedure 

that controls the false discovery rate. Technical Report RP-SOR- 

99-3, Tel Aviv University, Department of Statistics and O.R., 1999. 

[7] Yoav Benjamini and Daniel Yekutieli. The control of the false discovery 

rate in multipe testing under dependency. The Annals of Statistics, 

29(4) :1165–1188, 2001. 

[8] Lucien Birgé and Pascal Massart. Gaussian model selection. J. 

European Math. Soc., (3) :203–268, 2001. 

[9] David Donoho and Iain Johnstone. Ideal Spatial Adaptation by 

Wavelet Shrinkage . Biometrika, 81 :425–455, 1994. 

[10] Sandrine Dudoit, Juliet Popper Shaffer, and Jennifer C. Boldrick. 

Multiple Hypothesis Testing in Microarray Experiments. Statistical 

Science, 18(1) :71–103, 2003. 

[11] Bradley Efron, Robert Tibshirani, John D. Stoey, and Virginia Tusher. 

Empirical Bayes Analysis of a Microarray Experiment. Journal 

of American Statistical Association, 96(456) :1151–1160, 2001. 

97

[12] Christopher Genovese and Larry Wasserman. Operating characteristics 

and extensions of the false discovery rate procedure. JRSS, 

64(3) :499–517, 2002. 

[13] Christopher Genovese and Larry Wasserman. A stochastic process 

approach to false discovery control. The Annals of Statistics, 

32(3) :1035–1061, 2004. 

[14] Emilie Lebarbier. Detcting multiple change-points in the mean of 

Gaussian process by model selection. Signal Processing, 85 :717–736, 

2005. 

[15] M. Perone Pacifico, C. Genovese, I. Verdinelli, and L. Wasserman. 

False Discovery Control for Random Fields. Journal of the 

American Statistical Association, 99(468) :1002–1014, 2004. 

[16] Franck Picard, Stéphane Robin, Marc Lavielle, Christian Vaisse, 

and Jean-Jacques Daudin. A statistical approach for array cgh data 

analysis. BMC Bioinformatics, 27(6), 2005. 

[17] Stéphane Robin, Avner Bar-Hen, Jean-Jacques Daudin, and Laurent 

Pierre. A semi-parametric approach for mixture models : Application 

to local fdr estimation. soumis. 

[18] John D. Storey. A direct approach to false discovery rates. J.R.S.S. 

B, 64(3) :479–498, 2002. 

[19] John D. Storey. The positive false discovery rate : a bayesian interpretation 

and the q-value. The Annals of Statistics, 31(6) :2013–2035, 

2003. 

[20] John D. Storey, Jonathan E. Taylor, and David Siegmund. Strong 

control, conservative point estimation and simultaneous conservative 

consistency of false discovery rates : a unified approach. J.R.S.S. B, 

66(1) :187–205, 2004. 

[21] A. W. van der Vaart. Asymptotic Statistics. Cambridge Series in 

Statistical and Probabilistic Mathematics. Cambridge University Press, 

1998. 

98

Mémoire Modélisation stochastique et statistique ... - AgroParisTech

Create successful ePaper yourself

Delete template?

Save as template?