Polycopié de P. TEYSSANDIER. - Observatoire de Paris

Master “Sciences de l’Univers et techniques spatiales” 

Niveau M1 

Introduction aux théories relativistes 

et à leurs applications 

Rédaction provisoire du cours de l’année 2008-2009 

Pierre Teyssandier 

Observatoire de Paris, 

Département SYRTE/CNRS-UMR 8630

Table des matières 

1 Notions préliminaires 4 

1.1 Observateurs. Objets. Particules . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

1.2 Événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

1.3 Notion de variété. Variété des événements . . . . . . . . . . . . . . . . . . . . . 5 

1.4 Fonctions scalaires. Hypersurfaces . . . . . . . . . . . . . . . . . . . . . . . . . . 7 

1.5 Courbe différentiable sur une variété . . . . . . . . . . . . . . . . . . . . . . . . 9 

1.6 Coïncidence d’événements. Ordre temporel . . . . . . . . . . . . . . . . . . . . . 9 

1.7 Horloges standard. Temps propre. Ligne d’univers d’une particule . . . . . . . . 10 

2 Champs de vecteurs. Champs de tenseurs 12 

2.1 Champs de vecteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

2.2 Champs de vecteurs covariants . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

2.3 Définition générale des champs de tenseurs . . . . . . . . . . . . . . . . . . . . . 15 

2.4 Exemples de champs de tenseurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 

2.5 Addition et multiplication des tenseurs . . . . . . . . . . . . . . . . . . . . . . . 18 

2.6 Contraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

2.7 Critères de tensorialité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 

2.8 Tenseurs symétriques et tenseurs antisymétriques . . . . . . . . . . . . . . . . . 23 

2.9 Composantes covariantes et contravariantes . . . . . . . . . . . . . . . . . . . . . 23 

3 Espace-temps de Minkowski 28 

3.1 Principes fondamentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

3.2 Lois de transformation des coordonnées galiléennes . . . . . . . . . . . . . . . . 30 

3.3 Mouvement relatif de deux référentiels galiléens . . . . . . . . . . . . . . . . . . 32 

3.4 Intervalle entre deux points-événements . . . . . . . . . . . . . . . . . . . . . . . 32 

3.5 Classification des intervalles. Cône isotrope . . . . . . . . . . . . . . . . . . . . . 36 

3.6 Lignes d’univers du genre temps . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 

3.7 Temps propre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 

4 Cinématique relativiste 47 

4.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 

4.2 Transformations spéciales de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . 47 

4.3 Loi de composition relativiste des vitesses . . . . . . . . . . . . . . . . . . . . . 51 

4.4 Aberration de la lumière . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 

4.5 Effet Doppler-Fizeau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 

1

5 Dynamique relativiste (I) 62 

5.1 Principe d’équivalence des référentiels galiléens . . . . . . . . . . . . . . . . . . . 62 

5.2 Quantité de mouvement et énergie cinétique d’une particule isolée . . . . . . . . 63 

5.3 Energie d’une particule. Inertie de l’énergie . . . . . . . . . . . . . . . . . . . . . 65 

5.4 Relations entre l’énergie et la quantité de mouvement d’une particule . . . . . . 67 

5.5 Particules de masse nulle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 

5.6 Loi fondamentale de la dynamique . . . . . . . . . . . . . . . . . . . . . . . . . 68 

5.7 Particule chargée dans un champ électromagnétique . . . . . . . . . . . . . . . . 71 

5.8 Un exemple : mouvement d’une charge dans un champ magnétique constant 

uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 

6 Dynamique relativiste (II) 75 

6.1 Quadri-vecteur vitesse unitaire d’une particule . . . . . . . . . . . . . . . . . . . 75 

6.2 Quadrivecteur impulsion-énergie . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 

6.3 Quadrivecteur accélération . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 

6.4 Loi de la dynamique en formalisme quadridimensionnel . . . . . . . . . . . . . . 75 

6.5 Dynamique des milieux continus . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 

7 Gravitation et relativité 76 

7.1 La théorie newtonienne de la gravitation . . . . . . . . . . . . . . . . . . . . . . 76 

7.2 Analyse critique de la théorie newtonienne . . . . . . . . . . . . . . . . . . . . . 79 

7.3 Introduction des théories métriques . . . . . . . . . . . . . . . . . . . . . . . . . 81 

7.4 Une conséquence de l’approximation newtonienne : l’effet Doppler gravitationnel 86 

7.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 

8 Notion d’approximation postnewtonienne des théories métriques 90 

8.1 Notion d’approximation postnewtonienne . . . . . . . . . . . . . . . . . . . . . . 90 

8.2 Quels termes faut-il retenir à l’approximation postnewtonienne ? . . . . . . . . . 92 

8.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 

9 Quelques effets classiques prévus par les théories métriques 95 

9.1 Temps de propagation d’un rayon lumineux entre deux points . . . . . . . . . . 95 

9.2 Équations des géodésiques d’une métrique à symétrie sphérique statique . . . . . 100 

9.3 Déviation de la lumière par une masse à symétrie sphérique . . . . . . . . . . . . 102 

9.4 Avance séculaire du périhélie d’une planète . . . . . . . . . . . . . . . . . . . . . 105 

9.5 Que faire pour aller plus loin ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 

10 La relativité générale 112 

10.1 Les équations d’Einstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 

10.2 La métrique de Schwarzschild extérieure . . . . . . . . . . . . . . . . . . . . . . 115 

10.3 Forme isotropique de la métrique de Schwarzschild . . . . . . . . . . . . . . . . . 117 

10.4 Géodésiques de la métrique de Schwarzschild . . . . . . . . . . . . . . . . . . . . 118 

10.5 Déviation des rayons lumineux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 

10.6 Avance séculaire du périhélie d’une planète . . . . . . . . . . . . . . . . . . . . . 123 

10.7 Horizon et trou noir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 

2

A Espaces affines. Espaces euclidiens 128 

A.1 Espaces affines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 

A.1.1 Définition d’un espace affine . . . . . . . . . . . . . . . . . . . . . . . . . 128 

A.1.2 Repère d’un espace affine . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 

A.1.3 Changements de repères . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 

A.2 Espace euclidien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 

A.2.1 Définition d’un espace euclidien . . . . . . . . . . . . . . . . . . . . . . . 131 

A.2.2 Espace euclidien rapporté à un repère orthonormé . . . . . . . . . . . . . 132 

A.3 Espace proprement euclidiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 

A.4 Espace-temps de Minkowski de dimension n . . . . . . . . . . . . . . . . . . . . 133 

B Analyse tensorielle 135 

B.1 Caractère non intrinsèque de la dérivation partielle usuelle . . . . . . . . . . . . 135 

B.2 Dérivation covariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 

B.3 Expression explicite de la dérivée covariante d’un champ de tenseurs arbitraire . 137 

B.4 Connexion linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 

B.5 Conséquences fondamentales des formules de transformation des coefficients de 

connexion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 

B.6 Dérivée covariante totale le long d’une courbe . . . . . . . . . . . . . . . . . . . 142 

B.7 Transport par parallélisme le long d’une courbe . . . . . . . . . . . . . . . . . . 143 

B.8 Courbes autoparallèles d’une connexion . . . . . . . . . . . . . . . . . . . . . . . 144 

C Connexion et courbure sur une variété riemannienne 146 

C.1 Connexion riemannienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 

C.2 Géodésiques d’une variété riemannienne . . . . . . . . . . . . . . . . . . . . . . 149 

C.3 Tenseur de courbure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 

C.4 Propriétés du tenseur de courbure . . . . . . . . . . . . . . . . . . . . . . . . . . 156 

C.5 Tenseur de Ricci. Scalaire de courbure . . . . . . . . . . . . . . . . . . . . . . . 157 

C.6 Opérateurs différentiels sur une variété riemannienne . . . . . . . . . . . . . . . 157 

C.7 Quelques relations utiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 

C.8 Applications à l’espace euclidien à 3 dimensions . . . . . . . . . . . . . . . . . . 161 

D Quantité de mouvement et énergie cinétique d’une particule isolée 163 

D.1 Détermination de la fonction M 

m, v2 

c2 

. . . . . . . . . . . . . . . . . . . . . . 165 

 

D.2 Détermination de la fonction Ec m, v2 

c2 

. . . . . . . . . . . . . . . . . . . . . . . 166 

Bibliographie sommaire 168 

3

Chapitre 1 

Notions préliminaires 

Nous présentons dans ce chapitre un certain nombre de notions ou d’hypothèses fondamentales 

que l’on croit souvent spécifiques des théories relativistes, alors qu’elles sont en réalité 

parfaitement applicables aux conceptions galiléennes ou newtoniennes. Il en est ainsi de notions 

comme celle de variété des événements ou de temps propre 1 , par exemple. 

1.1 Observateurs. Objets. Particules 

Observateurs.— Toute science de la nature suppose l’existence d’observateurs. De prime 

abord, la notion d’observateur est anthropomorphique : elle correspond bien entendu à l’existence 

d’êtres humains capables de percevoir le monde et de communiquer entre eux. Mais pour 

les besoins de la physique, on doit élargir cette notion et lui donner une assise plus objective en 

considérant comme observateur tout système physique très localisé dans l’espace susceptible de 

détecter, de mesurer, d’enregistrer tel ou tel type de phénomènes ou encore d’émettre ou recevoir 

des signaux. Un appareil photo, un spectroscope, un détecteur de particules, une antenne radio, 

etc. peuvent être regardés comme des observateurs. 

Objets.— Les objets sont les entités qui servent de sources communes aux mesures ou aux 

observations de plusieurs observateurs. La réunion de tous les objets constitue l’univers objectif. 

Particules.— Un grand nombre d’objets étudiés en physique peuvent être considérés comme 

composés d’objets plus simples. Tel est le cas d’un noyau atomique, d’une planète, d’une étoile, 

etc. Il existe cependant des situations dans lesquelles, au moins pour une certaine classe d’observateurs, 

les objets d’étude n’ont pas besoin d’être analysés (ou ne sont pas analysables) en 

termes de composants. On dit que de tels objets sont des particules pour cette classe d’observateurs. 

On notera qu’un même objet peut être perçu soit comme une particule soit comme un 

ensemble de constituants selon la catégorie d’observateurs à laquelle on se réfère dans les 

modélisations. Un cosmologiste, par exemple, considère une galaxie comme une particule du 

gaz cosmique, alors qu’un astrophysicien voit cette galaxie comme un ensemble constitué de 

1 Ce qui ne signifie pas que la définition du temps propre soit la même en relativité et en théorie newtonienne. 

4

milliards d’étoiles. Cette absence d’objectivité de la notion de particule nous rappelle que la notion 

d’échelle d’observation et de description est un présupposé indispensable de toute démarche 

scientifique et que toute théorie est un schématisation dont la validité est limitée 2 . 

1.2 Événements 

Événements.— Nos perceptions nous montrent que des changements se produisent dans 

l’univers objectif. Lorsque ces changements sont soudains et affectent des objets d’extension spatiale 

négligeable, on parle d’événements. Là encore, l’échelle d’observation joue un rôle crucial. 

Un cosmologiste peut considérer l’explosion d’une supernova comme un événement, alors qu’un 

astrophysicien cherchant à modéliser la vie des étoiles massives voit dans un tel phénomène un 

ensemble prodigieusement complexe d’événements nucléaires... 

Les changements affectant des particules perçus comme parfaitement soudains peuvent 

être regardés comme des événements ponctuels ou points-événements. Cette notion de pointévénement 

(ou événement en abrégé) est devenue centrale en physique avec l’avènement des 

théories relativistes, et nous y ferons constamment appel dans ce cours. 

Selon notre intuition la plus banale, tout événement x peut se voir attribué une coordonnée 

“temporelle” ou date t et une localisation au moyen de trois coordonnées “spatiales”. Il est 

donc naturel de représenter tout événement par un point d’un espace mathématique à quatre 

dimensions que l’on désignera par V4. 

La modélisation la plus simple consisterait à poser que cet espace V4 est le produit cartésien 

d’une copie de IR représentant un axe de temps absolu par une copie d’un espace euclidien réel à 

trois dimensions E3 considéré comme l’espace physique universel, indépendant des observateurs : 

V4 = IR×E3. Cependant, cette conception s’est avérée incompatible avec l’expérience et l’observation, 

et il a fallu l’abandonner. Aujourd’hui, on formule la physique relativiste sur des espaces 

V4 qui ressemblent de manière seulement locale à l’espace ponctuel IR 4 . On bénéficie ainsi d’une 

généralité suffisante dans la construction tout en sauvegardant toutes les possibilités de l’analyse 

mathématique usuelle (dérivation, intégration, résolution de systèmes d’équations différentielles, 

champs de vecteurs, etc.). De tels espaces V4 sont appelés des variétés différentielles réelles de 

dimension 4. 

1.3 Notion de variété. Variété des événements 

Nous ne chercherons pas ici à définir rigoureusement la notion de variété différentielle. Nous 

nous contenterons d’énoncer les propriétés d’une variété qu’il est indispensable de connaître 

pour comprendre la suite. 

La première propriété fondamentale est qu’à chaque point x0 ∈ V4 on peut associer un 

voisinage U de x0 qu’on peut “cartographier” sur l’espace IR 4 . On entend par là qu’il existe 

une bijection ϕ de U sur IR 4 . Ainsi, on peut attribuer à tout x de U un quadruplet et un 

seul de nombres réels ϕ(x) = (x 0 ,x 1 ,x 2 ,x 3 ) et réciproquement, à tout quadruplet de nombres 

2 Soulignons que les particules considérées ici comme des objets sans structure discernable par une classe 

d’observateurs sont traités comme des objets macroscopiques, et non comme des objets de la microphysique. 

5

éels (x 0 ,x 1 ,x 2 ,x 3 ) correspond un et un seul point x de U, de sorte qu’on peut poser x = 

ϕ −1 (x 0 ,x 1 ,x 2 ,x 3 ). Le doublet (U,ϕ) constitué par le voisinage U et la bijection ϕ s’appelle une 

carte locale ou encore un système de coordonnées locales. U est appelé le domaine de la carte 

locale et les quatre nombres réels (x 0 ,x 1 ,x 2 ,x 3 ) sont les coordonnées locales du point x ∈ U. 

Pour abréger, on désignera désormais le quadruplet (x 0 ,x 1 ,x 2 ,x 3 ) par (x α ) (ou (x β ), ..., (x µ ), 

...), les indices grecs α, β, ..., µ, ... pouvant prendre les valeurs 0, 1, 2, 3. 

Voyons maintenant la seconde propriété fondamentale. Supposons que le point x considéré 

ci-dessus appartienne également au domaine U ′ d’une autre carte locale (U ′ ,ϕ ′ ). Dans cette 

autre carte locale, x admet des coordonnées locale ϕ ′ (x) = (x0′ ,x1′ ,x2′ ,x3′ ) = (xρ′ ) . Puisqu’il 

y a correspondance biunivoque entre un point et ses coordonnées locales dans une cartographie 

donnée, les coordonnées xρ′ sont des fonctions des coordonnées x µ et réciproquement les 

coordonnées x µ sont des fonctions des coordonnées xρ′ . On peut donc écrire 

et 

x ρ′ 

= F ρ′ 

(x 0 ,x 1 ,x 2 ,x 3 ) = F ρ′ 

(x α ) (1.1) 

x µ = F µ (x 0′ 

,x 1′ 

,x 2′ 

,x 3′ 

) = F µ (x β′ 

). (1.2) 

Les fonctions F ρ′ et F µ définissent ce qu’on appelle des formules de transformation des 

coordonnées locales. 

L’espace V4 est muni d’une structure de variété différentielle lorsque les fonctions F ρ′ (xα ) et 

F µ (xβ′ ) admettent des dérivées partielles continues de n’importe quel ordre3 quelles que soient 

les cartes locales dont les domaines U et U ′ ont une intersection non vide. 

Il faut noter que le caractère inversible des fonctions F ρ′ et F µ nécessite en outre que 

les déterminants des matrices jacobiennes ∂F ρ′ /∂x µ et ∂F µ /∂xρ′ soient = 0 en tout point de 

l’intersection U ∩ U ′ . On supposera donc qu’en chaque point x ∈ U ∩ U ′ 

ce qui équivaut à supposer 

dét 

dét 

 

ρ ∂F ′ 

∂x µ 

 

µ ∂F 

∂x σ′ 

x 

x 

= 0, (1.3) 

= 0. (1.4) 

Désormais, nous supprimerons systématiquement le recours aux fonctions F µ et F ρ′ et nous 

écrirons les formules de transformation (1.1) et (1.2) sous la forme 

et 

Nous poserons en outre 

x ρ′ 

∂xρ′ ρ′ ∂F 

= , 

∂x µ ∂x µ 

= x ρ′ 

(x µ ) (1.5) 

x µ = x µ (x ρ′ 

). (1.6) 

∂x µ 

∂x σ′ = 

∂F µ 

∂x σ′ , (1.7) 

3 On dit que ces fonctions sont indéfiniment différentiables ou encore de classe C ∞ ). C’est pourquoi les 

variétés différentielles introduites ici devraient être dites de classe C ∞ , mais nous omettrons systématiquement 

cette précision pour abréger. 

6

de sorte que les conditions (1.3) et (1.4) s’écrivent respectivement 

et 

dét 

dét 

 

ρ ∂x ′ 

∂x µ 

 

µ ∂x 

∂x σ′ 

x 

x 

= 0 (1.8) 

= 0. (1.9) 

Les transformations de coordonnées indéfiniment différentiables vérifiant les conditions (1.3)- 

(1.4) ou (1.8)-(1.9) sont dites admissibles. 

La variété de dimension 4 la plus simple est évidemment l’espace IR 4 muni de la carte 

locale (U,ϕ) dont le domaine U est IR 4 lui-même et ϕ est l’identité. On parle toujours de cette 

structure lorsqu’on mentionne la variété IR 4 sans autre précision. 

Lorsque nous parlerons d’une variété V4 pour représenter l’espace des points-événements, 

nous appellerons V4 une variété des événements ou encore une variété fondamentale. L’espacetemps 

d’une théorie sera constitué par une telle variété munie d’une structure mathématique 

spécifique de la théorie considérée. Par exemple, l’espace-temps de la relativité restreinte est 

la variété IR 4 munie de la métrique de Minkowski. L’espace-temps générique de la relativité 

générale sera une variété V4 munie d’une métrique g dynamiquement liée au contenu énergétique 

de l’univers par les équations d’Einstein. 

1.4 Fonctions scalaires. Hypersurfaces 

En physique, il est indispensable de pouvoir utiliser des fonctions. La définition et la manipulation 

des fonctions sur une variété différentielle ne sont pas plus compliquées que sur l’espace 

géométrique usuel. Il faut simplement se souvenir que l’on procède maintenant sur des domaines 

de cartes locales, au lieu de l’espace tout entier. Cette remarque vaut pour toutes les notions 

que nous allons être amenés à définir ci-dessous. 

Fonction scalaire.— Une fonction scalaire à valeurs réelles sur une variété différentielle 

V4 est une application f : V4 → IR. Très souvent, on se contentera d’appeler f une fonction 

(sur V4). 

Nous avons vu dans la section précédente qu’étant donné un point x arbitraire dans V4, il 

existe au moins une carte locale (U,ϕ) telle que x ∈ U. Soient (x 0 ,x 1 ,x 2 ,x 3 ) les coordonnées 

locales de x dans cette carte. Du fait que x = ϕ −1 (x 0 ,x 1 ,x 2 ,x 3 ), nous pouvons poser 

f(x) = f(ϕ −1 (x 0 ,x 1 ,x 2 ,x 3 )) = ¯ f(x α ). (1.10) 

L’étude des propriétés locales de la fonction f se ramène donc à l’étude des propriétés de la 

fonction de quatre variables réelles ¯ f(x α ). La fonction ¯ f est l’expression de f en coordonnées 

locales (x α ) 4 . 

4 Dans le langage de la théorie des applications, on a ¯ f = f ◦ ϕ −1 . 

7

Bien entendu, si x appartient également au domaine U ′ d’une autre carte locale (U ′ ,ϕ ′ ), on 

pourra écrire aussi 

les x β′ 

f(x) = ˆ f(x β′ 

), (1.11) 

étant les coordonnées locales de x dans la carte locale (U ′ ,ϕ ′ ), et on aura bien entendu 

¯f(x α ) = ˆ f(x β′ 

). 

Fonction différentiable.— Une fonction scalaire f est dite différentiable au point x de 

coordonnées locales xα si son expression ¯ f(xα ) admet en x des dérivées partielles par rapport 

à chacune des variables xα . 

La fonction f est dite différentiable sur la variété V4 si elle est différentiable en chaque point 

x de V4. La règle de dérivation des fonctions composées montre immédiatement que le caractère 

différentiable de f en chaque point x ne dépend pas du choix de carte locale. 

Pour ne pas nous encombrer de lettres surlignées ou surmontées d’un chapeau, nous poserons 

désormais 

∂f 

∂xα 

= 

x 

¯ f,xα(xµ ) (1.12) 

où ¯ f,x α est la dérivée partielle de ¯ f par rapport à x α . Bien entendu, on écrira aussi bien 

∂f 

∂x β′ 

 

x 

= ˆ f ,xβ ′(xν′ ) (1.13) 

Le théorème de dérivation des fonctions composées fournit immédiatement les relations 

∂f 

∂x β′ 

qui peuvent bien entendu s’inverser : 

∂f 

∂x α 

 

 

x 

x 

= 

= 

3 

 

α ∂x 

α=0 

∂x β′ 

3 

 

β ∂x ′ 

β ′ =0 

∂x α 

x 

x 

∂f 

∂x α 

∂f 

∂x β′ 

 

 

x 

(1.14) 

. (1.15) 

x 

Hypersurface de V4.— Dans l’espace tridimensionnel usuel, on définit une surface par une 

équation du type 

f(x,y,z) = K, 

où K est une constante réelle. La généralisation de cette notion s’effectue sans difficulté. 

On appellera hypersurface de V4 l’ensemble des points x tels que f(x) = K, f étant une 

fonction scalaire sur V4 et K une constante. En coordonnées locales x α , l’équation implicite de 

l’hypersurface s’écrit 

¯f(x α ) = K. (1.16) 

L’hypersurface sera dite différentiable si f est différentiable. 

Le préfixe hyper traduit simplement le fait que l’ensemble des points de V4 vérifiant la 

relation (1.16) est un espace de points tridimensionnel, au lieu d’être un espace bidimensionnel 

comme l’est une surface de l’espace usuel. 

8

1.5 Courbe différentiable sur une variété 

On appelle courbe paramétrée sur la variété V4 une application C : λ → C(λ) de IR dans V4. 

En coordonnées locales x µ , un point C(λ) est représenté par quatre nombres (C µ (λ)). On dit 

que les quatre équations 

x µ = C µ (λ) (1.17) 

constituent les équations paramétriques locales de la courbe C. 

La courbe C est dite différentiable si les fonctions C µ (λ) sont des fonctions différentiables 

de λ. 

1.6 Coïncidence d’événements. Ordre temporel 

Après cet intermède mathématique, revenons à la physique. 

Coïncidence d’événements.— Nous considérons comme primitive la notion de coïncidence 

de deux événements : deux événements a et b seront dits coïncider s’ils surviennent à la 

même place et au même moment. La notion de simultanéité impliquée dans cette définition est 

objective parce que a et b surviennent au même endroit. En revanche, il est impossible d’affirmer 

que deux événements a et b se produisant en deux lieux différents sont simultanés sans 

convention préalable. 

Ordre temporel.— Les notions de particules et de coïncidence d’événements permettent 

de définir indépendamment d’une convention ce que l’on doit entendre par l’affirmation “a 

précède b 5 . Pour cela, adoptons comme axiome que les seuls événements susceptibles d’affecter 

une particule sont soit l’apparition de cette particule, soit sa disparition 6 . Cet axiome s’accorde 

bien avec la notion de particule considérée comme une entité sans structure par une certaine 

classe d’observateurs. 

Nous pouvons maintenant définir la relation “a précède b” comme signifiant qu’il existe une 

séquence de particules P1, P2, ..., Pn telle que a coïncide avec l’apparition de P1, la disparition 

de P1 coïncide avec l’apparition de P2, ..., la disparition de Pn coïncide avec b. Autrement dit, a 

précède b si et seulement si b est la disparition d’une chaîne ininterrompue de particules apparaissant 

en a (fig. 1.1). Cette définition implique évidemment que l’apparition d’une particule 

précède toujours sa disparition. Elle entraîne également de manière immédiate que la relation 

a précède b est transitive : si a précède b et b précède c, alors a précède c. La relation a précède 

b est donc une relation d’ordre, que nous noterons : 

a b ⇐⇒ a précède b. (1.18) 

On peut bien entendu définir la relation “a précède b au sens strict”, soit a ≺ b, par 

a ≺ b ⇐⇒ a b et a = b. (1.19) 

5 Voir par ex. S. A. Basri, A Deductive Theory of Space and Time (North-Holland, Amsterdam, 1966). 

6 Nous préférons les termes d’apparition et disparition plutôt que création et annihilation pour rester cohérents 

avec la vision essentiellement macroscopique adoptée ici. 

9

a 

P 

2 

P 1 

P 

3 

Fig. 1.1 – L’événement a précède l’événement b. 

En nous inspirant d’une terminologie couramment employée en relativité, nous dirons qu’il 

existe une séparation du genre temps (ou encore temporelle) entre deux points-événements a et b 

si a précède b ou si b précède a. Plus généralement, nous dirons qu’une courbe de l’espace-temps 

est du genre temps si quels que soient les points x et y de cette courbe infiniment voisins, x et 

y ont une séparation du genre temps. 

1.7 Horloges standard. Temps propre. Ligne d’univers 

d’une particule 

Horloges standard.— Du point de vue intuitif, une horloge est un système physique 

susceptible de délivrer localement un signal regardé comme rigoureusement périodique et de 

compter les périodes. Une horloge permet donc non seulement de déterminer des intervalles 

de temps, mais aussi d’assigner des dates à des événements survenant à l’horloge elle-même, à 

condition bien entendu de prendre un événement de l’histoire de l’horloge comme origine du 

comptage des périodes. 

Pour être plus précis et faire le lien avec ce qui a été exposé plus haut, nous posons qu’une 

horloge H est un système physique très localisé qui génère et compte une séquence d’événements 

a1, a2, ..., an, ... ordonnés par la relation d’ordre ≺ : a1 ≺ a2 ≺ ... ≺ an ≺ .... Les horloges 

considérées ici sont des idéalisations d’horloges réelles, dont l’exactitude et la stabilité seraient 

tenues pour parfaites. De plus, nous supposons qu’elles sont toutes rigoureusement de même 

construction, et fondées sur le même type d’atomes s’il s’agit d’horloges atomiques, par exemple. 

Nous dirons que ces horloges sont des horloges standards, dont l’ensemble sera noté Hs. 

Les intervalles de temps séparant deux événements consécutifs ai, ai+1 sont alors regardés 

comme égaux par définition. On appelle période propre de l’horloge H la durée de ces intervalles 

de temps égaux. On définit une unité de temps propre comme la durée d’un nombre entier N 

10 

b 

P 

4 

P 

5

fixé de périodes consécutives. L’entier N est appelé la fréquence propre de l’horloge. Mesurée 

avec l’unité de temps choisie, la valeur commune de toutes les périodes est le nombre T donné 

par 

T = 1 

. (1.20) 

N 

Temps propre.— On admet comme un axiome qu’à toute particule P on peut associer une 

horloge standard HP ∈ H coïncidant avec P à tout instant : on dit que P et HP sont comouvantes. 

Nous dirons que le temps τ généré par HP depuis un événement origine a0 constitue 

par définition le temps propre de la particule P écoulé depuis l’événement a0 appartenant à 

l’histoire de la particule (fig. 3). En principe, il faudrait préciser que le temps propre ainsi 

défini est relatif à la classe d’horloges standards Hs, mais on admettra ici que toutes les classes 

d’horloges standards réalisent le même temps propre, à un changement d’unité près bien entendu. 

Il faut toutefois noter que cette unicité de la réalisation du temps propre ne va pas de 

soi et fait actuellement l’objet de nombreuses recherches tant théoriques qu’expérimentales. 

Lignes d’univers.— Les notions de variété des événements et de temps propre introduites 

ci-dessus permettent de définir ce qu’on appelle la ligne d’univers d’une particule. 

Définition 1.7.1 Soit P une particule. On appelle ligne d’univers de cette particule la courbe 

CP de la variété fondamentale V4 qui au temps propre τ de la particule fait correspondre le 

point-événement occupé par la particule à l’instant τ. 

La ligne d’univers d’une particule est donc une courbe paramétrée par le temps propre de 

la particule 7 . Il résulte de ce qui a été dit plus haut que la ligne d’univers d’une particule 

quelconque est toujours une courbe du genre temps. On appelle aussi cette ligne l’histoire de 

la particule. 

Il est évident que quels que soient les points-événements a et b sur CP on a soit (i) a coïncide 

avec b, soit (ii) a précède b, soit (iii) b précède a. Il est dès lors clair que la relation a précède b 

est une relation d’ordre sur la ligne d’univers de chaque particule. 

Bien entendu, la notion de ligne d’univers s’étend sans difficulté aux observateurs, dans 

la mesure où on peut les assimiler à des objets d’extension spatiale négligeable, donc à des 

particules. 

7 En fait, on prend souvent comme paramètre le temps propre multiplié par une constante bien choisie. 

En relativité, par exemple, on prend généralement comme paramètre la quantité s = cτ, où c est la vitesse 

invariante. 

11

Chapitre 2 

Champs de vecteurs. Champs de 

tenseurs 

La description des interactions physiques nécessite l’emploi de champs de vecteurs et de 

champs de tenseurs sur la variété des événements. Le but de ce chapitre est de dégager les 

définitions et les règles de calcul algébrique de ces champs. Ici encore, nous nous contenterons 

de développer une approche intuitive. 

2.1 Champs de vecteurs 

Considérons deux points-événements infiniment voisins situés dans un même domaine de 

carte locale U. Pour faire court, nous désignerons ces points respectivement par x et x + dx. 

Ces points ont pour coordonnées locales respectives x µ et x µ +dx µ . Admettons comme point de 

départ intuitif que les accroissements infiniment petits dx µ peuvent être considérés comme les 

composantes d’un vecteur infinitésimal. Effectuons une transformation de coordonnées locales 

admissibles telle que (1.5). En différenciant, on obtient les relations 

dx ρ′ 

3 

 

ρ ∂x 

= 

µ=0 

′ 

∂x µ 

 

dx 

x 

µ , (2.1) 

qui peuvent être lues comme une loi de transformation des composantes d’un vecteur. 

Dans ce qui suit, toutes les opérations sont effectuées en un point x donné. C’est pourquoi 

nous omettrons désormais l’indice x dans les formules de transformation. En outre, nous 

utiliserons systématiquement la convention suivante pour alléger l’écriture : 

Convention d’Einstein.— Toute expression dans laquelle figure un même indice une fois 

en position haute et une fois en position basse doit être comprise comme une somme effectuée 

sur l’indice répété. Ainsi : 

AµB µ 3 

= AµB 

µ=0 

µ , AµνB µν 3 3 

= AµνB 

µ=0 ν=0 

µν , etc. (2.2) 

12

Nous écrirons donc les relations (2.1) sous la forme 

dx ρ′ 

= ∂xρ′ 

∂x µ dxµ . (2.3) 

La transformation inverse de (2.3) est obtenue en échangeant les rôles des x µ et des xρ′ encore en différenciant (1.6) : 

ou 

dx µ = ∂xµ 

. (2.4) 

∂xσ′ dx σ′ 

En substituant (2.3) dans (2.4) après avoir changé l’indice ρ ′ en σ ′ , il vient 

ce qui entraîne les relations 

dx µ = ∂xµ 

∂x σ′ 

∂x µ 

∂xσ′ où δ µ ν est le système de quantités défini par 

∂xσ′ dxν 

∂xν ∂x σ′ 

∂x ν = δµ ν , (2.5) 

δ µ ν = 1 si µ = ν, δ µ ν = 0 si µ = ν. (2.6) 

Lorsqu’on échange les rôles des coordonnées x µ et xρ′ , il vient : 

∂x ρ′ 

∂x ν 

∂x ν 

∂x σ′ = δ σ′ 

ρ ′ , (2.7) 

où δσ′ ρ ′ est défini par la même convention que δµ ν. 

Les relations (2.5) et (2.7) sont fondamentales en analyse tensorielle, comme on aura l’occasion 

de le voir dans la suite. On notera qu’elles expriment simplement que les matrices 

jacobiennes (∂x µ /∂xσ′ ) et (∂xρ′ /∂xν ) sont inverses l’une de l’autre. 

Ce qui précède nous conduit à proposer la définition suivante. 

Définition 2.1.1 On appelle champ de vecteurs sur un domaine de V4 tout objet représenté 

en coordonnées locales x α par un système de fonctions V µ (x) qui se transforment selon la loi 

V ρ′ 

(x) = ∂xρ′ 

∂x µ V µ (x) (2.8) 

lorsqu’on effectue le changement de coordonnées locales admissibles défini par (1.5). 

En échangeant le rôle de coordonnées x µ et xρ′ , on obtient la loi de transformation : 

V µ (x) = ∂xµ 

∂x ρ′ V ρ′ 

(x). (2.9) 

Les fonctions V µ (x) sont par définition les composantes du champ de vecteurs V dans le 

système de coordonnées locales x α . 

13

Vecteur tangent à une courbe.— Revenons à la courbe C définie par les équations 

paramétriques (1.17) dans le domaine U d’ un système de coordonnées locales x µ , les fonctions 

C µ (λ) étant supposées différentiables. Considérons un point x0 de la courbe C correspondant à 

une valeur λ0 du paramètre et examinons comment se transforment les quatre quantités 

v µ x0 = 

 

µ dC (λ) 

dλ 

λ0 

(2.10) 

lors d’un changement de coordonnées locales défini par (1.5). Les équations paramétriques de 

la courbe C sont dans le nouveau système de coordonnées 

où les fonctions Cρ′ (λ) sont définies par 

x ρ′ 

= C ρ′ 

(λ), 

C ρ′ 

(λ) = x ρ′ 

(C α (λ)). 

D’après le théorème de dérivation des fonctions composées, les quantités 

sont données par 

v ρ′ 

x0 = 

v ρ′ 

x0 = 

dC ρ ′ 

(λ) 

dλ 

 

ρ ∂x ′ 

∂x µ 

x0 

 

λ0 

v µ x0 . (2.11) 

La comparaison de cette loi de transformation avec la formule (2.8) montre que les quantités 

v α x0 définies par (2.10) sont les composantes d’un vecteur en x0. Ce vecteur est appelé le vecteur 

tangent en x0 à la courbe paramétrée C. 

2.2 Champs de vecteurs covariants 

Il existe cependant un autre type d’objets que l’on considère aussi comme “vectoriels” bien 

qu’ils obéissent à une loi de transformation différente de (2.8). Pour le voir, donnons-nous une 

fonction Φ définie sur V4. Les composantes du gradient de Φ sont définies en coordonnées locales 

x µ par 

(gradΦ) µ = ∂Φ 

. (2.12) 

∂x µ 

Examinons comment se transforment ces composantes lorsqu’on effectue le changement 

de coordonnées locales défini par (1.5). En utilisant le théorème de dérivation des fonctions 

composées, il vient : 

∂Φ 

∂xρ′ = ∂ 

∂xρ′ Φ(x µ (x σ′ 

)) = ∂xµ 

∂xρ′ ∂Φ 

∂x µ 

d’où on déduit la loi de transformation 

(gradΦ) ρ ′ = ∂xµ 

∂x ρ′ (gradΦ) µ . (2.13) 

14

En échangeant les rôles des coordonnées x µ et xρ′ , on obtient : 

(gradΦ) µ = ∂xρ′ 

∂x µ (gradΦ) ρ ′ . (2.14) 

Ces lois de transformation sont différentes des lois (2.3 et (2.4). Nous sommes ainsi conduits 

à définir un nouveau type de champs vectoriels. 

Définition 2.2.1 On appelle champ de vecteurs covariants sur un domaine de V4 un objet φ 

représenté en coordonnées locales xα par un système de fonctions φµ(x) qui se transforment 

selon la loi 

∂xµ 

φρ ′(x) = 

∂xρ′ φµ(x) (2.15) 

lorsqu’on effectue le changement de coordonnées locales admissibles défini par (1.6). 

En échangeant le rôle de coordonnées x µ et xρ′ , on obtient évidemment : 

φµ(x) = ∂xρ′ 

φρ ′(x). (2.16) 

∂x µ 

Les fonctions φµ sont les composantes du champ de vecteurs covariants 1 φ dans le système 

de coordonnées locales x α . 

2.3 Définition générale des champs de tenseurs 

Donnons-nous deux champs de vecteurs X µ et Y ν et examinons comment se transforment 

les 4 2 = 16 produits U λµ = X λ Y µ lorsqu’on effectue un changement de coordonnées locales. Il 

vient d’après (2.8) : 

X ρ′ 

Y σ′ 

= ∂xρ′ ∂xσ′ 

Xλ 

∂xλ ∂x µ Y µ = ∂xρ′ 

∂xλ ∂xσ′ ∂x µ XλY µ . (2.17) 

Remplaçons XλY µ par Uλµ dans le troisième membre de (2.17) et posons Uρ′ σ ′ 

On voit que les quantités Uλµ se transforment selon la loi 

U ρ′ σ ′ 

= Xρ′ Y σ′ . 

= ∂xρ′ 

∂xλ ∂xσ′ ∂x µ Uλµ . (2.18) 

Donnons-nous en outre un champ de vecteurs covariants φν. En utilisant (2.15) et (2.17), 

on voit immédiatement que les 4 3 = 64 quantités W λµ ν = X λ Y µ φν se transforment selon la loi 

W ρ′ σ ′ ∂xρ′ 

τ ′ = 

∂xλ ∂xσ′ ∂x µ 

∂x ν 

∂x τ ′ W λµ ν. (2.19) 

Nous sommes ainsi conduits à considérer une classe d’objets mathématiques bien plus 

générale que la classe des champs de vecteurs contravariants ou covariants. Ces objets nouveaux 

sont les champs de tenseurs, que l’on peut définir comme suit. 

1 Un vecteur covariant est aussi appelé un covecteur. 

15

Définition 2.3.1 On appelle champ de tenseurs k fois covariants et l fois contravariants sur 

un domaine de V4 tout objet T représenté en coordonnées locales xα par un système de 4k+l ν1...νl 

fonctions T (x) qui se transforment selon la loi 

µ1...µk 

T 

ρ ′ 1 ...ρ′ k 

σ ′ 1 ...σ′ l 

(x) = ∂xµ1 

∂x ρ′ 1 

· · · ∂xµk 

∂x ρ′ k 

∂xσ′ 1 

∂xν1 · · · ∂xσ′ l 

∂xνl ν1...νl Tµ1...µk 

(x) (2.20) 

lorsqu’on effectue le changement de coordonnées locales admissibles défini par (1.5) et (1.6). 

On dit encore que le champ de tenseurs T considéré est de type (k,l). La somme k + l est 

appelée l’ordre du tenseur T. 

ν1...νl 

Les quantités Tµ1...µk 

(x) sont appelées les composantes en x du champ de tenseurs T 

dans les coordonnées locales xα . 

On obtient en échangeant les rôles des coordonnées x µ et xρ′ : 

ν1...νl 

µ1...µk (x) = ∂xρ′ 1 

∂x µ1 · · · ∂xρ′ k 

∂x µk 

∂xν1 ∂xσ′ · · · 

1 

∂xνl 

∂xσ′ l 

T 

T 

ρ ′ 1 ...ρ′ k 

σ ′ 1 ...σ′ l 

(x). (2.21) 

Selon la définition 2.3.1, un champ de tenseurs 0 fois covariants et une fois contravariants 

peut être considéré comme un champ de vecteurs. C’est pourquoi, par abus de langage, on 

appelle souvent champs de vecteurs contravariants les champs de vecteurs introduits dans 

la définition 1. Cette terminologie a l’avantage de bien distinguer les champs de vecteurs 

proprement dits des champs de vecteurs covariants et, pour cette raison, nous l’utiliserons 

fréquemment. 

Il résulte également de la définition 2.3.1 qu’un champ de tenseurs une fois covariants et 0 

fois contravariants peut être considéré comme un champ de vecteurs covariants. 

Enfin, pour la généralité des théorèmes, les fonctions scalaires seront regardées comme des 

champs de tenseurs de type (0, 0). 

Par souci de concision, nous appellerons souvent les champs de vecteurs ou de tenseurs 

simplement “vecteurs” ou “tenseurs”. 

2.4 Exemples de champs de tenseurs 

Les quantités U λµ et W λµ ν définies dans la section précédente sont des exemples de champs 

de tenseurs engendrés par des produits de composantes de vecteurs contravariants ou covariants. 

Il existe toutefois une infinité d’autres champs de tenseurs qui ne résultent pas de multiplications 

de composantes de champs de vecteurs ou de covecteurs. Nous donnons ci-dessous deux exemples 

qui nous seront particulièrement utiles. 

Tenseur de Kronecker.— Considérons le système de fonctions K β α(x) définies par 

K β α(x) = δ β α. (2.22) 

On vérifiera facilement que le système des K β α(x) est un champ de tenseurs, qu’on appelle 

le champ de tenseurs de Kronecker d’ordre 2. Par abus de langage, on désigne le champ de 

tenseurs K β α(x) par δ β α. 

16

Tenseur métrique sur V4.— On définit une métrique sur V4 par la donnée en chaque 

point x d’une forme quadratique de différentielles 

ds 2 = gµν(x α )dx µ dx ν 

(2.23) 

dont la valeur est invariante par les transformations de coordonnées admissibles. On suppose 

que les quantités gµν sont symétriques par rapport aux indices µ et ν et que la matrice carrée 

(gµν) est inversible : 

(2.24) 

et 

gµν = gνµ 

dét(gµν) = 0. (2.25) 

En substituant (2.4) dans (2.23), on obtient en chaque point x : 

ds 2 = gµν(x α )dx µ dx ν = gµν(x α ) ∂xµ 

∂x ρ′ 

∂x ν 

∂x σ′ dx ρ′ 

dx σ′ 

. (2.26) 

Cette équation montre que l’expression de ds2 dans les coordonnées locales xρ′ par la forme quadratique 

est donnée 

ds 2 = gρ ′ σ ′(x)dxρ′ dx σ′ 

, (2.27) 

où les quantités gρ ′ σ ′ sont reliées aux gµν par la loi de transformation 

gρ ′ ∂xµ 

σ ′ = 

∂xρ′ ∂x ν 

∂x σ′ gµν . (2.28) 

En comparant (2.28) avec (2.20), on voit que les quantités gµν se transforment comme 

les composantes d’un tenseur g deux fois covariant. On notera que les quantités gρ ′ σ ′ sont 

symétriques en ρ ′ et σ ′2 . 

Une variété V4 munie d’une métrique g est appelée une variété riemannienne. On désigne 

une telle variété par le doublet (V4,g). Lorsque la forme quadratique (2.23) est définie positive, 

la variété (V4,g) est dite proprement riemannienne 3 . 

Produit scalaire.— On voit aisément à partir de la loi de transformation (2.28) qu’à tout 

couple de vecteurs X et Y on peut faire correspondre une quantité réelle g(X,Y ) invariante 

par les changements de coordonnées en posant : 

g(X,Y ) = gµνX µ Y ν . (2.29) 

L’application définie par (2.29) est bilinéaire, puisqu’elle est linéaire par rapport à chacun 

de ses arguments. Il résulte en effet de la définition même de g(X,Y ) que 

g(X + Z,Y ) = g(X,Y ) + g(Z,Y ), g(X,Y + Z) = g(X,Y ) + g(X,Z) 

2 On dit que le tenseur g est symétrique (voir Sect. 8). 

3 Lorsque la forme quadratique (2.23) n’est pas définie positive, on dit parfois que (V4,g) est pseudoriemannienne. 

Nous verrons que les métriques utilisées en relativité appartiennent à cette catégorie. 

17

pour tout vecteur Z et que 

g(λX,Y ) = g(X,λY ) = λg(X,Y ). 

quelque soit le nombre réel λ. 

En outre, l’application g est symétrique, puisqu’on a 

g(X,Y ) = g(Y,X) 

en raison de la symétrie des gµν par rapport aux indices µ et ν. Enfin, l’application g est dite 

non dégénérée car la matrice des gµν est inversible par hypothèse. 

L’ensemble de ces quatre propriétés caractérise un produit scalaire 4 en chaque point x ∈ V4. 

Il en résulte que la donnée d’une métrique induit la donnée d’un produit scalaire en chaque 

point de V4. Réciproquement, la donnée d’un produit scalaire en chaque point de V4 définit une 

métrique sur V4. 

2.5 Addition et multiplication des tenseurs 

On peut définir l’addition de deux tenseurs du même type et la multiplication tensorielle 

de deux tenseurs de types quelconques. 

Addition tensorielle.— Donnons-nous par exemple deux tenseurs deux fois covariants Sµν 

et Tµν. On vérifie facilement que la somme des composantes Sµν +Tµν se transforme comme un 

tenseur deux fois covariant. En appliquant (2.20), il vient en effet 

Sρ ′ σ ′ + Tρ ′ ∂xµ 

σ ′ = 

∂xρ′ relation dont on déduit immédiatement 

∂x ν 

∂x σ′ Sµν + ∂xµ 

∂x ρ′ 

∂x ν 

∂x σ′ Tµν, 

Sρ ′ σ ′ + Tρ ′ ∂xµ 

σ ′ = 

∂xρ′ ∂xν ∂xσ′ (Sµν + Tµν). 

Plus généralement, on peut formuler le théorème suivant. 

ν1...νl 

ν1...νl 

Théorème 2.5.1 Soient Sµ1...µk 

et Tµ1...µk deux tenseurs de type (k,l). Les quantités 

ν1...νl U définies par 

µ1...µk 

U 

ν1...νl 

µ1...µk 

= S 

ν1...νl 

µ1...µk 

sont les composantes d’un tenseur de type (k,l). 

Le tenseur U de composantes U 

ν1...νl 

µ1...µk 

+ T 

ν1...νl 

µ1...µk 

est appelé la somme des tenseurs S et T. 

Multiplication tensorielle.— Donnons-nous maintenant un tenseur deux fois covariant 

Sαβ et un vecteur contravariant V µ qui peut être considéré, on l’a vu, comme un tenseur 0 fois 

covariant et une fois contravariant. Il est facile de voir que les produits des composantes SαβV µ 

4 Soulignons que le produit scalaire associé à une métrique g arbitraire n’est pas nécessairement défini positif. 

18

constituent les composantes d’un tenseur mixte de type (2, 1). On peut en effet écrire d’après 

(2.20) 

Sγ ′ 

α ∂x ρ′ 

δ ′V = 

∂xγ′ ∂xβ ∂xδ′ 

ρ ∂x 

Sαβ 

′ 

µ 

V = 

∂x µ ∂xα 

∂xγ′ ∂xβ ∂xδ′ ∂xρ′ ∂x µ SαβV µ . 

Ce théorème se généralise aisément. 

ν1...νl 

σ1...σs 

Théorème 2.5.2 Soient Sµ1...µk 

et Tρ1...ρr deux tenseurs de types respectifs (k,l) et 

ν1...νlνl+1...νl+s 

(r,s). Les quantités W 

définies par 

W 

µ1...µkµk+1...µk+r 



= S 

ν1...νl 

µ1...µk 

constituent les composantes d’un tenseur de type (k + r,l + s). 

T 

µk+1...µk+r 

νl+1...νl+s 

(2.30) 

Le tenseur W défini par (2.30) est appelé le produit tensoriel des tenseurs S et T. On désigne 

W par le symbole S ⊗ T, ce qui revient à poser 

(S ⊗ T) 



= S 

ν1...νl 

µ1...µk 

νl+1...νl+s 

Tµk+1...µk+r 

. (2.31) 

On notera qu’à la différence de la multiplication usuelle, T ⊗ S n’est en général pas égal à 

S ⊗ T. On a en effet d’après (2.31) 

(T ⊗ S) 

ν1...νsνs+1...νs+l 

µ1...µrµr+1...µr+k 

= T 

ν1...νs 

µ1...µr 

expression manifestement différente du second membre de (2.31). 

2.6 Contraction 

S 

νs+1...νs+l 

µr+1...µr+k 

Il existe encore une autre opération sur les tenseurs, la contraction des indices, qui permet 

de définir un tenseur mixte de type (k − 1,l − 1) à partir d’un tenseur mixte de type (k,l) 

lorsque k ≥ 1 et l ≥ 1. Etant donné par exemple un tenseur T de type (2, 2), de composantes 

T γδ 

αβ , considérons les quantités T γ 

α obtenues en donnant des valeurs égales aux indices β et δ 

et en sommant par rapport à l’indice répété : 

T γ 

α = T γβ 

αβ . (2.32) 

Examinons comment se transforment les quantités T γ 

α lors d’un changement de coordonnées 

locales x µ → xρ′ . On pose par définition 

T ρ′ 

µ ′ 

= T 

ρ ′ ν ′ 

µ ′ ν ′ 

Il vient donc en appliquant (2.20) pour transformer T 

T ρ′ 

µ ′ 

∂xα 

= 

∂x µ′ 

∂xβ ∂xν′ ∂xρ′ ∂xγ . 

ρ ′ ν ′ 

µ ′ ν ′ 

∂xν′ γδ ∂xα 

T 

∂xδ αβ = 

∂x µ′ 

∂xρ′ ∂xγ ∂xβ ∂xν′ 19 

: 

∂xν′ γδ 

T 

∂xδ αβ . 

,

D’où, compte tenu de (2.5) : 

T ρ′ 

µ ′ 

∂xα 

= 

∂x µ′ 

∂x ρ′ 

∂x 

δβ 

γ δ 

T γδ 

αβ 

= ∂xα 

∂x µ′ 

∂xρ′ γβ ∂xα 

T 

∂xγ αβ = 

∂x µ′ 

∂xρ′ γ 

T 

∂xγ α . (2.33) 

Ce calcul montre que les quantités T γ 

α constituent les composantes d’un tenseur mixte de 

type (1, 1). 

La généralisation de cette propriété est immédiate et conduit au théorème qui suit. 

Théorème 2.6.1 Soit T un tenseur de type (k,l) de composantes 

avec k ≥ 1,l ≥ 1. Les quantités 

T 

ν1...νj−1νj+1...νl 

µ1...µi−1µi+1...µk 

T 

ν1...νj−1νjνj+1...νl 

µ1...µi−1µiµi+1...µk 

= T 

µ1...µi−1ρ µi+1...µk 

, 

ν1...νj−1ρ νj+1...νl 

(2.34) 

obtenues en posant µi = νj = ρ et en sommant sur l’indice répété ρ constituent les composantes 

d’un tenseur de type (k − 1,l − 1). 

L’opération définie par (2.34) s’appelle une contraction de deux indices. Bien entendu, cette 

opération peut être effectuée autant de fois qu’il y a de couples d’indices libres, l’un covariant, 

l’autre contravariant. 

Remarque importante.— Il faut être très attentif à la position des indices que l’on 

contracte. Si nous reprenons le tenseur T γβ 

αβ examiné ci-dessus, il est clair qu’on peut obtenir 

par contraction quatre tenseurs de type (1, 1) qui sont en général différents, à savoir : 

T 

γ 

(1)α 

λγ 

= Tλα , T 

γ 

(2)α 

γλ 

= Tλα , T 

γ 

(3)α 

λγ 

= Tαλ , T 

γ 

(4)α 

= T γλ 

αλ . (2.35) 

Les quatre tenseurs ainsi définis sont parfois appelés premières traces du tenseur mixte 

T γβ 

αβ . 

Une nouvelle contraction des indices libres restants donne maintenant des tenseurs de type 

(0, 0), i.e. des fonctions scalaires 

T 

µ 

(1)µ 

λµ 

= Tλµ , T 

µ 

(2)µ 

µλ 

= T λµ , T 

µ 

(3)µ 

λµ 

= Tµλ , T 

µ 

(4)µ 

= T µλ 

µλ 

mais cette opération donne seulement deux fonctions scalaires distinctes, puisqu’on a manifestement 

On pourra poser 

T λµ 

λµ 

T(1) = T 

µ 

(1)µ 

µλ 

= T µλ et T µλ λµ 

λµ = Tµλ . 

µ 

= T(4)µ 

, T(2) = T 

µ 

(2)µ 

= T 

µ 

(3)µ 

. (2.36) 

On peut appeler les quantités T(1) et T(2) les secondes traces du tenseur T γδ 

αβ . On notera 

qu’étant des fonctions scalaires, les traces T(1) et T(2) demeurent invariantes par changement de 

coordonnées locales. Nous verrons que leur rôle en physique est capital, notamment en relativité. 

Dans le cas d’un tenseur T β 

α , il existe une seule première trace définie par 

Tr(T) = T α 

α . (2.37) 

20

On appelle cet invariant simplement la trace du tenseur mixte T β 

α . Le plus souvent, on désigne 

cette trace par T. Il faut donc veiller à ne pas la confondre avec le tenseur T lui-même. 

Multiplication contractée.— En pratique, on est souvent amené à combiner la multiplication 

tensorielle et la contraction d’indices appartenant à deux tenseurs différents en facteurs. 

Soient par exemple Sαβ et T γδ les composantes de deux tenseurs S et T. Leur produit tensoriel 

U = S ⊗ T a pour composantes 

U γδ 

αβ = SαβT γδ . 

Une contraction de U sur un indice appartenant à S et un indice appartenant à T permet 

de former les quatre tenseurs mixtes U(1), U(2),, U(3) et U(4) d’ordre 2 suivants : 

U γ 

(1)α = SλαT λγ , U γ 

(2)α = SλαT γλ , 

U γ 

(3)α = SαλT λγ , U γ 

(4)α = SαλT γλ , 

qui sont en général distincts. 

Les produits contractés sur deux couples d’indices donnent seulement deux invariants : 

U (1) = U µ 

(1)µ = SλµT λµ , U (2) = U µ 

(2)µ = SλµT µλ . 

On remarquera que la contraction d’un tenseur par rapport à deux (ou 2p) indices peut 

toujours être considérée comme une multiplication contractée de T par le tenseur mixte de 

Kronecker defini par (2.22). Reprenons par exemple le tenseur T γδ 

αβ déjà utilisé ci-dessus. On 

peut écrire en effet 

etc. 

T γλ 

αλ 

T λγ 

αλ 

2.7 Critères de tensorialité 

γλ 

= δβ λTαβ = δλ νT γν 

αλ , 

λγ 

= δβ λTαβ = δλ νT νγ 

αλ , 

La multiplication contractée permet de former un critère général de tensorialité très pratique 

pour s’assurer qu’un système de quantités que l’on introduit dans un calcul est un tenseur. 

Commençons par un exemple en montrant qu’un système de quantités T α βγε constitue les 

composantes d’un tenseur de type (3, 1) si et seulement si quel que soit le tenseur deux fois 

contravariant U µν , les quantités T α βγεU βγ sont les composantes d’un tenseur une fois covariant 

et une fois covariant. 

Le caractère nécessaire de la condition énoncée résulte de ce qui a été dit plus haut de la 

multiplication contractée. Pour montrer son caractère suffisant, effectuons une transformation 

de coordonnées x µ → xρ′ . Par hypothèse, les quantités T α βγεU βγ se transforment comme les 

composantes d’un tenseur une fois covariant et une fois covariant. On a donc d’après (2.20) 

T λ′ 

µ ′ ν ′ ρ ′Uµ′ ν ′ 

= ∂xλ′ 

∂xα ∂xε ∂xρ′ T α βγεU βγ . (2.38) 

21

Or, U étant un tenseur deux fois contravariant, on peut remplacer les quantités U µ′ ν ′ 

figurant 

dans le premier membre de (2.38) par 

Il vient : 

U µ′ ν ′ 

= ∂xµ′ 

∂x β 

∂x ν′ 

∂x γ Uβγ . 

T λ′ 

µ ′ ν ′ ρ ′ 

∂x µ′ 

∂xβ ∂xν′ ∂xγ Uβγ = ∂xλ′ 

∂xα ∂xε ∂xρ′ T α βγεU βγ . (2.39) 

Les équations (2.39) devant être satisfaites quels que soient les tenseurs U βγ , on doit avoir 

T λ′ 

µ ′ ν ′ ρ ′ 

∂x µ′ 

∂xβ ∂xν′ ∂xλ′ 

= 

∂xγ ∂xα ∂x ε 

∂x ρ′ T α βγε. (2.40) 

Opérons la multiplication contractée des deux membres de (2.40) par ∂xβ 

∂x 

un réarrangement de l’ordre des termes 

T λ′ 

µ ′ ν ′ ρ ′ 

∂x µ′ 

∂xβ ∂xβ ∂xσ′ ∂xν′ ∂xγ ∂xγ ∂xτ ′ = ∂xλ′ 

∂xα ∂x β 

∂x σ′ 

∂xγ ∂xτ ′ 

En tenant compte des relations (2.7), les équations (2.41) s’écrivent 

T λ′ 

µ ′ ν ′ ρ ′δµ′ σ ′δν′ 

λ′ 

τ ′ = T σ ′ τ ′ ρ 

∂xλ′ 

′ = 

∂xα ∂xβ ∂xσ′ ∂xγ ∂xτ ′ 

∂xγ 

σ′ ∂x 

τ′ . Il vient avec 

∂x ε 

∂x ρ′ T α βγε. (2.41) 

∂x ε 

∂x ρ′ T α βγε. (2.42) 

Les équations (2.42) montrent que les quantités T α βγε se transforment comme les composantes 

d’un tenseur de type (3, 1). CQFD. 

Le théorème que nous venons de montrer admet la généralisation suivante. 

Théorème 2.7.1 Pour qu’un système de 4r+s ν1...νs 

quantités Tµ1...µr 

constitue les composantes 

d’un tenseur de type (r,s) dans un système de coordonnées locales xα , il faut et il suffit que 

quel que soit le tenseur U β1...βl de type (k,l) avec k ≤ r et l ≤ s, le système de quantités 

α1...αk 

T 

µ1...µr 

ν1...νs 

U 

µ1...µl 

ν1...νk 

soit le système de composantes d’un tenseur r − k fois covariant et s − l fois contravariant. 

(2.43) 

Ce théorème a pour corollaire la proposition suivante, très souvent utilisée comme critère. 

Théorème 2.7.2 Pour qu’un système de 4r+s ν1...νs 

quantités Tµ1...µr 

constitue les composantes 

d’un tenseur de type (r,s) dans un système de coordonnés locales xα , il faut et il suffit que quels 

que soient les r vecteurs contravariants X(k) de composantes X αk 

(k) et quels que soient les s 

vecteurs covariants φ (l) de composantes φ (l) 

, la quantité 

βl 

I = T 

µ1...µr 

ν1...νs 

X µ1 

(1) ...Xµr 

(r) φ(1) 

ν1 ...φ(s) 

νs 

soit invariante lorsqu’on effectue un changement de base. 

22 

(2.44)

2.8 Tenseurs symétriques et tenseurs antisymétriques 

Tenseurs symétriques.— Soit T un tenseur deux fois covariant. Supposons que les composantes 

Tµν de T dans un système de coordonnées locales x α soient telles que l’égalité 

Tνµ = Tµν 

(2.45) 

soit satisfaite pour tous les couples d’indices (µ,ν). On déduit aisément de la loi de transformation 

(2.20) que les composantes de T dans un autre système de coordonnées locales xβ′ vérifient 

aussi la propriété Tσ ′ ρ ′ = Tρ ′ σ ′. Les relations de symétrie (2.45) traduisent donc une propriété 

intrinsèque. C’est pourquoi on dit que T est un tenseur symétrique. 

Un tenseur métrique est un exemple de tenseur deux fois covariant symétrique. 

Tenseurs antisymétriques.— Considérons maintenant un tenseur deux fois covariant F 

dont les composantes Fµν dans les coordonnées locales x α vérifient les relations 

Fµν = −Fνµ 

(2.46) 

pour tous les couples d’indices (µ,ν). Alors des relations analogues sont satisfaites par les 

composantes de F dans n’importe quel autre système de coordonnées locales. On dit que F est 

un tenseur antisymétrique. 

Ces considérations s’appliquent également aux tenseurs deux fois contravariants. 

Parties symétrique et antisymétrique d’un tenseur.— On peut toujours exprimer 

un tenseur T deux fois covariant (ou deux fois contravariant) arbitraire comme une somme 

d’un tenseur symétrique et d’un tenseur antisymétrique. En effet, n’importe quel système de 

16 quantités Tµν peut s’écrire sous la forme 

où T(µν) et T[µν] sont respectivement définis par 

Tµν = T(µν) + T[µν], (2.47) 

T(µν) = 1 

2 (Tµν + Tνµ) = T(νµ), (2.48) 

T[µν] = 1 

2 (Tµν − Tνµ) = −T[νµ], (2.49) 

et il est aisé de montrer que T(µν) et T[µν] sont des composantes de tenseurs de type (2, 0). Du 

fait que la décomposition (2.47) est unique, on appelle T(µν) et T[µν] respectivement la partie 

symétrique de T et la partie antisymétrique du tenseur T. 

Les notions qui précèdent peuvent être étendues aux tenseurs d’ordre supérieur à 2. 

2.9 Composantes covariantes et contravariantes 

23

Donnons-nous une variété différentielle V4 munie d’une métrique g, et considérons un champ 

de vecteurs contravariants V µ . Du fait que g est un tenseur deux fois covariant de composantes 

gµν, les quantités 

Vν = gνρV ρ 

(2.50) 

sont les composantes d’un tenseur de type (1, 0), i.e. d’un vecteur covariant V ∗ (voir multiplication 

contractée, sect. 2.6). On convient de regarder le vecteur contravariant V et le vecteur 

covariant V ∗ qui lui est associé comme étant un seul et même vecteur dont les quantités V µ 

sont les composantes contravariantes et les quantités Vν définies par (2.50) sont les composantes 

covariantes. 

On peut aisément déterminer les composantes contravariantes V µ en fonction des composantes 

covariantes Vν. On a supposé en effet que la condition (2.25) est satisfaite dans n’importe 

quel système de coordonnées locales admissibles. Les équations (2.50) forment donc un système 

régulier de quatre équations linéaires à quatre inconnues V µ lorsque les composantes covariantes 

Vν sont données (système de Kramer). La théorie élémentaire des systèmes de Kramer montre 

que ce système admet une solution unique qui peut s’écrire sous la forme 

V µ = g µν Vν, (2.51) 

les quantités g µν étant des fonctions des coordonnées indépendantes des quantités Vν. En substituant 

(2.50) dans (2.51), on voit que 

V µ = g µν gνρV ρ . (2.52) 

Comme les équations (2.52) doivent être satisfaites quelles que soint le vecteur V , on en 

déduit que les quantités g µν doivent satisfaire les seize relations 

g µν gνρ = δ µ ρ. (2.53) 

Les relations (2.53) montrent que la matrice (g µν ) est l’inverse de la matrice (gµν). 

On a le théorème important suivant, dont la démonstration est donnée dans l’appendice 1. 

Théorème 2.9.1 Les quantités g µν sont les composantes d’un tenseur symétrique deux fois 

contravariant, i.e. obéissent à la loi de transformation : 

g ρ′ σ ′ 

= ∂xρ′ 

∂x µ 

∂xσ′ ∂xν gµν . (2.54) 

Ce théorème permet d’associer à tout vecteur covariant φ de composantes φρ un vecteur 

contravariant φ∗ dont les composantes φ µ sont définies par 

φ σ = g ρσ φρ. (2.55) 

De nouveau, on convient de regarder les vecteurs φ et φ∗ comme un seul et même vecteur 

dont les quantités φρ sont les composantes covariantes et les quantités φ σ sont les composantes 

contravariantes. 

24

Sur une variété riemannienne, on parlera donc dsormais de vecteurs tout court, mais on 

distinguera soigneusement les composantes contravariantes et les composantes covariantes de 

ces vecteurs. 

Les considérations qui précèdent s’étendent sans difficulté aux tenseurs d’ordre ≥ 2. Étant 

donné par exemple un tenseur S deux fois contravariant de composantes S µν , on regardera 

comme identifiable à S le tenseur deux fois covariant de composantes 

ainsi que les tenseurs mixtes de composantes 

Les quantités S µν µ . 

, Sαβ, S β 

riantes, covariantes et mixtes du tenseur S. 

Sαβ = gαµgβνS µν 

(2.56) 

µ . 

S β = gβνS µν . ν 

, S α = gαµS µν . (2.57) 

et S . ν 

α seront respectivement appelées composantes contrava- 

De même, étant donné un tenseur deux fois covariant T de composantes Tµν, on dira que 

les quantités Tµν sont les composantes covariantes de T, et on définira les composantes contravariantes 

et mixtes de T respectivement par les équations 

et 

T ρσ = g ρµ g σν Tµν 

(2.58) 

T ρ 

. ν = g ρµ Tµν, T σ 

µ . = g σν Tµν . (2.59) 

L’extension aux tenseurs d’ordre supérieur à 2 s’ensuit naturellement. 

Remarque importante.— Il faudra faire très attention à la disposition des indices quand 

on évalue des composantes covariantes ou mixtes à partir de composantes contravariantes par 

exemple. Pour les composantes mixtes d’un tenseur deux fois covariant Tµν, par exemple, on 

n’a pas T µ 

. ν = T µ 

ν . , sauf si Tµν est symétrique. 

D’après les relations (2.58), les composantes contravariantes du tenseur métrique g sont les 

quantités g ρµ g σν gµν. Or, d’après (2.53), on a g σν gµν = δ σ µ. En conséquence : 

g ρµ g σν gµν = g ρµ δ σ µ = g ρσ . (2.60) 

Les relations (2.60) montrent que les quantités g µν sont les composantes contravariantes du 

tenseur métrique g, les quantités gµν étant elles-même les composantes covariantes du même 

tenseur. 

Calculons maintenant les composantes mixtes du tenseur métrique. Compte tenu de la 

symétrie du tenseur métrique, les composantes mixtes g ρ . ν et g ρ 

ν . sont confondues et peuvent 

être désignées par g ρ ν. On a d’après (2.59) 

D’où en appliquant (2.53) : 

g ρ ν = g ρµ gµν . 

g ρ ν = δ ρ ν. (2.61) 

25

Cette dernière équation montre que les composantes mixtes du tenseur métrique s’identifient 

aux composantes du tenseur de Kronecker d’ordre 2 défini dans la sect. 2.4. 

On notera que l’utilisation des composantes contravariantes, covariantes ou mixtes des vecteurs 

et des tenseurs permet d’obtenir des expressions particulièrement concises de la plupart 

des expressions utilisées en analyse tensorielle. Ainsi, le produit scalaire de deux vecteurs de 

composantes contravariantes X µ et Y ν s’écrit comme nous l’avons vu 

g(X,Y ) = gµνX µ Y ν . 

Développée, cette expression est une double somme, l’une sur l’indice µ, l’autre sur l’indice 

ν, contenant 16 termes. Or, la même expression s’écrit en tenant compte de la formule (2.50) 

définissant les composantes covariantes d’un vecteur : 

g(X,Y ) = XνY ν = g(X,Y ) = X µ Yµ. (2.62) 

Les second et troisième membres de (2.62) sont des sommes simples, comportant 4 termes. 

Enfin, en utilisant les relations (2.51) et (2.53), on voit facilement que le produit scalaire 

g(X,Y ) peut s’exprimer en fonction des composantes covariantes des vecteurs X et Y selon la 

formule 

g(X,Y ) = g µν XµYν. (2.63) 

Appendice 1 : démonstration du théorème 2.9.1 

L’inverse d’une matrice symétrique étant elle-même symétrique, les quantités g µν impliquées 

dans les équations (2.51) sont symétriques par rapport aux indices µ et ν : 

g νµ = g µν . (2.64) 

La loi de transformation des g µν est nécessairement telle que les relations 

gτ ′ λ ′gλ′ σ ′ 

= δ σ′ 

τ ′ 

soient satisfaites dans le système de coordonnées locales xρ′ . On a 

et 

gτ ′ λ 

∂xα 

′ = 

∂xτ ′ 

∂x β 

∂x λ′ gαβ 

(2.65) 

(2.66) 

δ σ′ ∂xσ′ 

τ ′ = 

∂xα ∂xβ ∂xτ ′ δ α β. (2.67) 

du fait que les quantités gτ ′ λ ′ et δσ′ τ ′ sont respectivement les composantes d’un tenseur deux fois 

covariant et d’un tenseur mixte d’ordre 2. Substituons (2.66) et (2.67) dans (2.65) et effectuons 

la multiplication contractée des deux membres de l’équation obtenue par ∂xρ′ 

∂x µ 

∂xτ′ ∂xν g µν . On obtient 

∂x ρ′ 

∂x µ 

τ ′ 

∂x 

∂xν ∂xα ∂xτ ′ 

∂xβ ∂xλ′ g µν gαβg λ′ σ ′ 

= ∂xρ′ 

∂x µ 

26 

τ ′ 

∂x 

∂xν ∂xσ′ ∂xα ∂xβ ∂xτ ′ g µν δ α β 

(2.68)

En modifiant l’ordre des facteurs et en utilisant de façon répétée les relations (2.5), (2.7) et 

(2.53), on voit que le premier membre de (2.68) s’écrit 

∂x ρ′ 

∂x µ 

τ ′ 

∂x 

∂xν ∂xα ∂xτ ′ 

∂xβ ∂xλ′ g µν gαβg λ′ σ ′ 

= ∂xρ′ 

∂x µ 

soit encore 

∂xρ′ ∂x µ 

τ ′ 

∂x 

∂xν ∂xα ∂x 

∂xτ ′ 

β 

Le second membre de (2.68) devient 

∂x ρ′ 

∂x µ 

τ ′ 

∂x 

∂xν ∂x λ′ g µν gαβg λ′ σ ′ 

∂xβ ∂xλ′ δ α ν g µν gαβg λ′ σ ′ 

= ∂xρ′ 

∂x µ 

∂x µ 

∂x λ′ g λ′ σ ′ 

, 

= δ ρ′ 

λ ′gλ′ σ ′ 

= g ρ′ σ ′ 

. (2.69) 

∂xβ ∂x 

∂xτ ′ 

σ′ 

∂xα gµνδ α β = ∂xρ′ 

∂x µ 

∂xσ′ ∂xα δβ νδ α βg µν = ∂xρ′ 

∂x µ 

∂xσ′ ∂xν gµν . (2.70) 

La comparaison de (2.69) et de (2.70) montre que les quantités g µν se transforment selon la 

formule (2.54), ce qui démontre le théorème 2.9.1. 

27

Chapitre 3 

Espace-temps de Minkowski 

Dans ce chapitre, nous montrons que le principe d’inertie, l’hypothèse que l’espace est 

euclidien, de dimension 3 et isotrope, et le postulat qu’il existe une vitesse finie invariante par 

les changements de référentiels galiléens conduisent directement à l’espace-temps de Minkowski 

comme scène universelle. 

3.1 Principes fondamentaux 

Définition 3.1.1 (Référentiels galiléens) On appelle référentiel galiléen tout référentiel S 

auquel on peut associer un espace proprement euclidien 1 à trois dimensions E3[S] et une échelle 

de temps T [S] de telle sorte qu’une particule isolée (i.e. soustraite à toute action extérieure) 

soit au repos par rapport à S ou décrive une droite de E3[S] avec un mouvement uniforme. 

E3[S] est appelé l’espace physique du référentiel S. On désignera les points de cet espace 

par des lettres majuscules (O,A,B,C,...) pour les différencier des points-événements qui seront 

toujours représentés par des lettres minuscules (x,y,...). L’hypothèse que E3[S] est un espace 

proprement euclidien permet d’associer à un point O arbitraire de E3[S] un repère orthonormé 

(O,e1,e2,e3) par rapport auquel on définit les notions usuelles de la cinématique telles que le 

vecteur position x et le vecteur vitesse v d’une particule à chaque instant t de l’échelle de temps 

T [S]. Dans ce chapitre, nous supposerons toujours que E3[S] est rapporté à un tel repère, les 

coordonnées spatiales étant désignées par x i , avec i = 1, 2, 3. 

Bien entendu, cette définition ne vaut que parce qu’on admet la validité du postulat fondamental 

suivant. 

Postulat 3.1.1 (Principe d’inertie restreint) Des référentiels galiléens sont en principe 

réalisables dans toute région de l’univers dépourvue de champ de gravitation. 

Nous proposons 2 d’appeler le postulat 3.1.1 principe d’inertie restreint pour bien le distinguer 

du principe d’inertie usuel (i.e. galiléo-newtonien). Selon ce dernier en effet, la loi de 

1La notion d’espace proprement euclidien est un cas particulier de la notion d’espace (ponctuel) affine : voir 

l’annexe A. 

2La terminologie adoptée ici nous est propre, en effet. 

28

gravitation newtonienne peut être formulée dans un référentiel galiléen arbitraire (voir sect. 

7.1). A contrario, le postulat 3.1.1 n’affirme pas qu’on puisse maintenir la notion de référentiel 

galiléen lorsque l’interaction gravitationnelle n’est pas négligeable. 

Il résulte de ce qui précède que la physique considérée dans les chapitres 3 à 6 doit être 

regardée comme une physique valide dans un univers (ou une région de l’univers) sans gravitation, 

sans qu’on puisse pour l’instant se prononcer sur sa validité ou sa non-validité dans un 

champ de gravitation. Nous verrons dans le chapitre 7 pourquoi et comment cette physique 

doit être modifiée quand la gravitation est prise en compte. 

Les énoncés ci-dessus doivent être complétés par un postulat qui précise le lien entre les 

variables mathématiques que sont les dates t et les coordonnées cartésiennes orthonormées x i 

et les mesures que l’on peut effectuer avec des horloges standard et des étalons de longueur au 

repos par rapport au référentiel galiléen considéré. 

Postulat 3.1.2 Soit S un référentiel galiléen arbitraire muni d’un repère orthonormé (O,e1,e2,e3) 

et d’une échelle de temps t tels que le postulat 3.1.1 soit valide. Alors 

a) si deux événements xA et xB se produisent au même point x de E3[S] (i.e. si x i A = x i B), 

la différence de dates tB − tA est égale au temps propre mesuré entre xA et xB par une horloge 

standard au repos au point x; 

b) si A et B sont deux points arbitraires de l’espace E3[S] de coordonnées respectives x i A 

et x i B, la distance entre ces deux points mesurée au moyen d’étalons standards de longueur au 

repos par rapport au référentiel S est égale à la quantité 

lAB = 

 

(x 1 B − x 1 A) 2 + (x 2 B − x 2 A) 2 + (x 3 B − x 3 A) 2 . (3.1) 

Ces deux postulats sont admis aussi bien par la physique préeinsteinienne que par la relativité. 

Toutefois la physique préeinsteinienne postulait également que pour deux événements 

quelconques xA et xB observés dans deux systèmes de référence galiléens S et S ′ en mouvement 

l’un par rapport à l’autre, on pouvait poser 

t ′ B − t ′ A = tB − tA , (3.2) 

hypothèse qui revenait à supposer l’existence d’un temps absolu. Or, nous le verrons dans la 

section suivante, la relation (3.2) n’est absolument pas impliquée par les postulats 3.1.1 et 3.1.2, 

et s’est en outre avérée incompatible avec le postulat d’existence d’une vitesse invariante énoncé 

ci-dessous. 

Postulat 3.1.3 (Isotropie de l’espace) L’espace physique associé à un référentiel galiléen 

arbitraire est isotrope en chacun de ses points. 

Rappelons qu’un milieu est dit isotrope en un point lorsque ses propriétés sont les mêmes 

dans toutes les directions issues de ce point. Le postulat 3.1.3 revient à énoncer que deux 

référentiels déduits l’un de l’autre par une rotation des axes spatiaux sont équivalents pour 

formuler les lois de la physique. 

Voici maintenant le postulat qui implique une rupture radicale avec la physique préeinsteinienne. 

29

Postulat 3.1.4 (Existence d’une vitesse invariante) Il existe une vitesse invariante par 

les changements de référentiels galiléens. Cette vitesse est notée c. 

Ce postulat signifie qu’une particule ou une interaction se propageant avec la vitesse c par 

rapport à un référentiel galiléen donné se propage également avec la vitesse c par rapport à 

n’importe quel autre référentiel galiléen. Bien entendu, conformément au postulat d’isotropie 

de l’espace, la vitesse c est indépendante de la direction et du sens de la propagation. On notera 

que l’énoncé n’affirme nullement que la vitesse c soit effectivement réalisable par une particule 

ou par un signal. Le postulat 3.1.4 n’affirme pas non plus que la constante c est une vitesse 

limite ni qu’elle constitue la borne supérieure de toutes les vitesses possibles. 

La vitesse invariante c est une constante universelle. Historiquement, ce sont les problèmes 

posés par l’électrodynamique et l’optique à la fin du XIX e siècle qui ont conduit Einstein à 

postuler en 1905 que la vitesse de la lumière dans le vide était une constante indépendante 

du référentiel galiléen et de l’état de mouvement de la source 3 . C’est pourquoi on appelle 

généralement c vitesse de la lumière dans le vide, mais cette terminologie doit impérativement 

être abandonnée. Nous allons voir en effet que l’existence d’une vitesse invariante c dicte en 

quelque sorte la structure de l’espace-temps, c’est-à-dire le cadre fondamental dans lequel 

nous décrivons toutes les interactions, et pas seulement les phénomènes électromagnétiques. 

La constante c n’est donc pas liée à une interaction particulière. 

Bien entendu, il est en pratique légitime de poser que la vitesse de propagation de la 

lumière dans le vide est numériquement égale à c. Cette affirmation est en effet conforme 

à l’expérience. En outre, cette égalité numérique est une conséquence directe de la théorie 

électromagnétique de Maxwell formulée dans le cadre relativiste que nous sommes en train de 

construire. Mais ces arguments ne sont pas du tout équivalents à l’affirmation d’une identité 

essentielle de c avec la vitesse de la lumière puisqu’on peut concevoir des théories relativistes 

de l’électromagnétisme prédisant une vitesse de propagation différentes de c. C’est pourquoi 

nous éviterons systématiquement la terminologie courante, en appelant la constante c vitesse 

invariante ou encore vitesse fondamentale 4 . 

3.2 Lois de transformation des coordonnées galiléennes 

Selon ce qui précède, un événement peut être repéré dans un référentiel galiléen arbitraire 

par une date t et trois coordonnées cartésiennes orthogonales x i . Du fait que la constante 

universelle c a la dimension d’une vitesse, on remplacera la date t par une coordonnée x 0 ayant 

la dimension d’une longueur en posant 

x 0 = ct. (3.3) 

3 A. Einstein, Zur Electrodynamik bewegter Körper [Sur l’électrodynamique des corps en mouvement], Annalen 

d. Physik, t. XVII, pp. 891-921, 1905. Trad. De M. Solovine : Sur l’électrodynamique des corps en mouvement, 

Gauthier-Villars, Paris, 1955. 

4 On a proposé d’autres dénominations pour c, comme par ex. “constante de structure spatio-temporelle” ou 

encore “constante de structure de l’espace-temps”, voire “constante de Lorentz”. L’important est d’éviter une 

terminologie trompeuse. 

30

On repérera donc désormais un événement dans un reférentiel galiléen donné au moyen de 

quatre coordonnées (x0 ,x1 ,x2 ,x3 ) qu’on appellera des coordonnées galiléennes homogènes (ou 

simplement coordonnées galiléennes5 ). Pour abréger, le système (x0 ,x1 ,x2 ,x3 ) sera représenté 

par (xα ), l’indice α prenant l’une quelconque des valeurs 0, 1, 2, 3. D’une façon générale, on 

représentera les indices variant de 0 à 3 par des lettres grecques α,β,...,λ,µ,ν,..., réservant les 

lettres latines i,j,k,l,... pour les indices variant de 1 à 3. 

On admet qu’à un événement donné correspond un quadruplet de coordonnées galiléennes 

(xα ) et un seul, chacune des variables xα pouvant prendre n’importe quelle valeur entre −∞ 

en ∞. 

Considérons maintenant deux référentiels galiléens S et S ′ en mouvement l’un par rapport 

à l’autre. Un point-événement x admet des coordonnées galiléennes (xα ) par rapport à S et 

(xβ′ ) par rapport à S ′ . Chaque coordonnée xβ′ est évidemment une fonctions des coordonnées 

(xα ), de sorte qu’on peut poser 

x β′ 

= F β′ 

(x 0 ,x 1 ,x 2 ,x 3 ) = F β′ 

(x α ). (3.4) 

Ces transformations de coordonnées galiléennes ne peuvent être arbitraires car elles doivent 

faire correspondre un mouvement rectiligne uniforme (ou le repos) dans S ′ à un mouvement 

rectiligne uniforme (ou le repos) dans S d’après la définition 3.1.1 et le postulat 3.1.1. On peut 

montrer 6 que les transformations les plus générales ayant cette propriété sont nécessairement 

de la forme 

α x α + b β′ 

x β′ 

= Aβ′ 

Bλxλ , (3.5) 

+ K 

où les quantités A β′ 

α ,b β′ 

,Bλ et K sont des constantes 7 . 

On admet qu’à des coordonnées galiléennes finies dans un référentiel doivent toujours correspondre 

des coordonnées galiléennes finies dans n’importe quel autre référentiel 8 . Il faut donc 

prendre les quatre constantes Bλ du dénominateur égales à 0 et supposer K = 0. Il est clair 

qu’on ne diminue pas la généralité en posant K = 1. En conséquence, nous poserons désormais 

que les formules de transformation des coordonnées galilénnes sont de la forme 

x β′ 

= A β′ 

α x α + b β′ 

, (3.6) 

où les quantités Aβ′ α et bβ′ sont des constantes. Bien entendu, nous exigerons que les relations 

(3.6) soient inversibles, de sorte qu’on puisse écrire 

où A α β ′ et bα sont également des constantes. 

x α = A α β ′xβ′ + b α , (3.7) 

5 On a aussi proposé d’appeler ces coordonnées des coordonnées galiléennes réduites. Voir A. Lichnerowicz, 

Éléments de calcul tensoriel, Armand Colin. 

6 Ce théorème a été démontré par V. Fock dans son ouvrage The Theory of Space Time and Gravitation, 

Pergamon Press, 1959. 

7 On notera que le dénominateur figurant dans le second membre de (3.5) est le même pour chacune des 

quatre coordonnées. 

8 Ne pas exiger cette condition et maintenir la généralité des transformations homographiques (3.5) conduirait 

à une “relativité étendue” dont la discussion sortirait du cadre de ce cours. On notera que la présence d’un 

dénominateur non constant impliquerait l’abandon du postulat d’homogénéité et d’isotropie de l’espace associé 

à un référentiel galiléen arbitraire 

31

On note que ces transformations sont des transformations affines. C’est pourquoi nous 

poserons que la variété des événements compatible avec le principe d’inertie et les principes 

d’homogénéité de l’espace et du temps est un espace affine 9 A4 associé à l’espace vectoriel IR 4 . 

Par abus de langage, nous identifierons A4 et IR 4 . 

Les constantes bβ′ et bα sont arbitraires et peuvent être prises égales à 0 par un choix 

judicieux de l’origine des temps et de l’origine des axes spatiaux dans chacun des référentiels 

considérés. Par contre, les constantes Aβ′ α et Aα β ′ doivent évidemment dépendre du mouvement 

relatif des référentiels galiléens S et S ′ l’un par rapport à l’autre. 

3.3 Mouvement relatif de deux référentiels galiléens 

Il est remarquable que les lois de transformation (3.6) et (3.7) permettent de spécifier sans 

nouvelle hypothèse le mouvement d’un référentiel galiléen par rapport à un autre référentiel 

galiléen. Écrivons les relations (3.7) sous la forme plus explicite 

x 0 = A 0 0 ′x0′ + A 0 j ′xj′ + b 0 , (3.8) 

x i = A i 0 ′x0′ + A i j ′xj′ + b i , (3.9) 

et considérons une particule P ′ au repos par rapport au référentiel S ′ . Les coordonnées x j′ 

de P ′ par rapport à S ′ étant des constantes, la différentiation des éqs. (3.8) et (3.9) montre 

immédiatement que le vecteur vitesse w de P ′ par rapport au référentiel S est un vecteur 

constant dont les composantes w i sont données par 

w i = dxi 

dt 

≡ cdxi 

dx0 = cAi 0 ′dx0′ 

A0 0 ′dx0′ = c Ai0 ′ 

A0 0 ′ 

. (3.10) 

Les composantes constantes w i sont indépendantes de la particule au repos par rapport à 

S ′ choisie. Par définition, le vecteur constant w est le vecteur vitesse de S ′ par rapport à S. Les 

formules de transformations (3.7) entraînent donc que deux référentiels galiléens S et S ′ sont 

en mouvement rectiligne uniforme l’un par rapport à l’autre. 

3.4 Intervalle entre deux points-événements 

Nous allons voir que l’existence d’une vitesse invariante c entraîne une profonde nouveauté 

par rapport à l’ancienne physique : l’existence d’un intervalle spatio-temporel entre deux pointsévénements 

arbitraires dont la valeur est indépendante du référentiel. 

Pour l’établir, donnons-nous deux référentiels galiléens arbitraires S et S ′ et considérons 

deux points-événements infiniment voisins x et x + dx. Les coordonnées galiléennes de x et 

9 On trouvera la définition générale d’un espace affine de dimension n dans l’annexe A. Le choix d’un espace 

affine comme cadre de la physique relativiste fut proposé par le mathématicien Hermann Weyl dès les années 

20. Cet auteur affirme en effet “ ... l’univers [en l’absence de champ gravitationnel, N.d.A.] est un espace 

quadridimensionnel euclidien affine” dans le Chap. III de son ouvrage Temps, Espace, Matière : leçons sur la 

théorie de la relativité générale, trad. franç. de la 4 ème édition all. de Raum-Zeit-Materie, 1921. 

32

x + dx sont respectivement (xα ) et (xα + dxα ) dans S et (xβ′ ) et (xβ′ + dxβ′ ) dans S ′ . Dans 

ce paragraphe, nous appelons (L) la transformation du type défini par (3.6) exprimant les 

coordonnées (xβ′ ) en fonction des (xα ). On se souviendra que les coefficients Aβ′ α et bβ′ étant 

des constantes, on a par différenciation 

dx β′ 

= A β′ 

α dx α . (3.11) 

Supposons d’abord que les points-événements x et x + dx soient reliés par une particule ou 

une interaction se propageant avec la vitesse c par rapport à S. Dans ce référentiel, la distance 

entre x et x + dx est 

dist(x,x + dx) = 

 

(dx 1 ) 2 + (dx 2 ) 2 + (dx 3 ) 2 . 

Une propagation avec la vitesse c entre x et x + dx est donc caractérisée par la relation 

 

(dx 1 ) 2 + (dx 2 ) 2 + (dx 3 ) 2 = c|dt| = |dx 0 |, 

qui peut encore s’écrire en élevant les deux membres au carré : 

(dx 0 ) 2 − (dx 1 ) 2 − (dx 2 ) 2 − (dx 3 ) 2 = 0. (3.12) 

D’après le postulat 3.1.4, la propagation considérée s’effectue également avec la vitesse c 

par rapport au référentiel galiléen S ′ . La relation 

doit donc être satisfaite par les dx β′ 

(dx 0′ 

) 2 − (dx 1′ 

) 2 − (dx 2′ 

) 2 − (dx 3′ 

) 2 = 0. (3.13) 

définis par (3.11) lorsque les dx α vérifient la condition 

(3.12). 

Supposons maintenant que x et x + dx soient deux points-événements infiniment proches 

arbitraires. Dans S, nous pouvons leur associer l’intervalle ds 2 défini par 10 

ds 2 = (dx 0 ) 2 − (dx 1 ) 2 − (dx 2 ) 2 − (dx 3 ) 2 . (3.14) 

De même, dans le référentiel galiléen S ′ , nous pouvons leur associer l’intervalle 

ds ′2 = (dx 0′ 

) 2 − (dx 1′ 

) 2 − (dx 2′ 

) 2 − (dx 3′ 

) 2 . (3.15) 

D’après ce que nous venons de voir, la transformation (L) doit être telle que 

ds 2 = 0 =⇒ ds ′2 = 0. (3.16) 

Comment (L) transforme-t-elle l’intervalle ds 2 lorsque ds 2 = 0 ? La réponse vient du 

théorème suivant, que nous énoncerons sans démonstration. 

Théorème 3.4.1 Soit (L) une transformation affine telle que la condition (3.16) soit satisfaite. 

Il existe une constante réelle Φ[L] telle que l’égalité 

ds ′2 = Φ[L]ds 2 , (3.17) 

est réalisée pour n’importe quelle paire de points-événements x et x + dx. 

10 Nous appelons ds 2 l’intervalle par abus de langage. En fait, la notion courante d’intervalle correspondrait à 

la racine carrée de ds 2 , mais ds 2 n’est pas défini positif, comme on le verra dans la suite... 

33

Du point de vue mathématique, il est clair que la constante Φ[L] peut recevoir une valeur 

arbitraire. Si en effet une transformation (L) satisfait la condition (3.16), la transformation 

affine (Lk) définie par 

x β′ 

(k) = k(Aβ′ α x α + b β′ 

), k = constante = 0 

satisfait également cette condition et transforme l’intervalle ds 2 en ds 2 k = Φ[Lk]ds 2 , avec Φ[Lk] = 

k 2 Φ[L]. Pour lever cet arbitraire sur Φ[L], il faut maintenant faire intervenir des considérations 

physiques. 

Tout d’abord Φ[L] ne peut dépendre que des coefficients A β′ 

α , puisque l’équation (3.17) est 

une relation entre les différentielles dx α et dx β′ 

= A β′ 

α dx α . Or, les coefficients A β′ 

α figurant dans 

l’expression (3.6) doivent dépendre de la vitesse w de S par rapport à S ′ . Nous pouvons donc 

considérer que le facteur Φ[L] est lui-même une fonction de w, ce qui nous conduit à écrire 

(3.17) sous la forme 

ds ′2 = Φ(w)ds 2 . (3.18) 

Mais le postulat d’isotropie de l’espace entraîne que le facteur de proportionnalité Φ(w) 

dépend uniquement de la valeur absolue de la vitesse w. On peut donc écrire 

Bien entendu, on a de même 

ds ′2 = F(|w|)ds 2 . (3.19) 

ds 2 = F(|w ′ |)ds ′2 , (3.20) 

où w ′ est la vitesse de S par rapport à S ′ . Les équations (3.19) et (3.20) entraînent que 

Or, il est manifeste que 

F(|w|)F(|w ′ |) = 1. (3.21) 

|w ′ | = |w|. (3.22) 

En effet, il existe certainement un référentiel galiléen S0 dans lequel les origines O et O ′ se 

déplacent sur une droite commune avec des vitesses opposées u0 et −u0. Pour les observateurs 

au repos par rapport à S0, les observateurs liés à S et à S ′ sont dans des situations symétriques 

et doivent en conséquence s’attribuer des vitesses relatives égales en valeur absolue, sinon le 

postulat d’isotropie ne serait pas respecté. 

Il résulte de (3.21) et (3.22) que [F(|w|)] 2 = 1. Comme on doit poser F = 1 lorsque w = 0, 

on prendra 

F(|w|) = 1. (3.23) 

Par conséquent, les transformations de coordonnées galiléennes (3.6) doivent être telles que 

l’égalité 

ds 2 = ds ′2 

(3.24) 

soit satisfaite pour n’importe quel couple de points-événements infiniment voisins. L’égalité 

(3.24) signifie que le ds 2 entre deux points-événements infiniment voisins est une quantité 

absolue, i.e. invariante par les changements de référentiels et indépendante de tout choix d’observateurs. 

D’où la proposition suivante, qui constitue la proposition fondamentale sur laquelle 

est bâtie toute la théorie. 

34

Proposition 3.4.1 (Invariance de l’intervalle) Soient S et S ′ deux référentiels galiléens. 

Toute transformation (L) exprimant les coordonnées galiléennes d’un point-événement arbitraire 

par rapport à S ′ en fonction des coordonnées galiléennes de ce point-événement par rapport 

à S est une transformation affine (3.6) qui laisse invariantes la valeur et la forme de 

l’intervalle ds 2 défini par (3.14) ou de manière équivalente par (3.25)-(3.26) . 

Les transformations (3.6) laissant invariant l’intervalle entre deux points-événements sont 

appelées transformations de Lorentz inhomogènes lorsque les constantes b µ′ ne sont pas toutes 

nulles et transformations de Lorentz homogènes lorsque b µ′ = 0. Ces transformations forment 

un groupe, qu’on appelle le groupe de Lorentz. Nous verrons dans le chapitre suivant comment 

déterminer ces transformations. 

Du fait que l’intervalle ds 2 entre deux points-événements x et x + dx possède une valeur 

indépendante du référentiel galiléen choisi, on peut munir la variété fondamentale V4 de la 

métrique définie par la forme quadratique de différentielles (3.14), à laquelle on donne le nom 

de métrique de Minkowski. La variété fondamentale que nous avons identifée avec l’espace affine 

IR 4 munie de cette métrique est appelée l’espace-temps de Minkowski. La théorie de la relativité 

restreinte a pour objet de construire la physique dans cet espace-temps. 

La métrique (3.14) diffère d’une métrique proprement euclidienne par la présence du signe 

- devant chaque terme spatial (dx i ) 2 . D’une manière générale, la différence σ entre le nombre 

de signes + et le nombre de signes - dans la forme diagonale d’une métrique constitue ce qu’on 

appelle la signature de cette métrique. La signature de la métrique de Minkowski écrite sous la 

forme (3.14) est donc σ = −2. 

Nous utiliserons la signature σ = −2 dans ce cours, mais il faut noter qu’on pourrait tout 

aussi bien écrire la métrique de Minkowski sous la forme 

ds 2 = (dx 1 ) 2 + (dx 2 ) 2 + (dx 3 ) 2 − (dx 0 ) 2 , 

auquel cas la signature serait égale à 2. L’écriture conventionnelle avec σ = 2 est d’usage 

recommandé par l’Union Astronomique Internationale. 

Dans un système de coordonnées galiléennes (x α ) arbitraire, la métrique de l’espace-temps 

de Minkowski peut s’écrire sous la forme plus condensée 

les quantités ηαβ étant définies par 

ds 2 = ηαβ dx α dx β , (3.25) 

η00 = 1, η11 = η22 = η33 = −1, ηαβ = 0 si α = β. (3.26) 

Dans n’importe quel autre système de coordonnées galiléennes (xβ′ ), la métrique s’écrira 

bien entendu 

avec 

ds 2 = ηγ ′ δ ′ dxγ′ dx δ′ 

, (3.27) 

η0 ′ 0 ′ = 1, η1 ′ 1 ′ = η2 ′ 2 ′ = η3 ′ 3 ′ = −1, ηγ ′ δ ′ = 0 si γ′ = δ ′ . 

35

3.5 Classification des intervalles. Cône isotrope 

Il résulte immédiatement du caractère affine des transformations de Lorentz que l’on peut 

parler de l’invariance de l’intervalle entre deux points-événements x et y dont les coordonnées 

diffèrent par des quantités finies. Si (x α ) et (y α ) sont les coordonnées galiléennes respectives de 

x et de y par rapport à un référentiel galiléen arbitraire, l’intervalle entre x et y est défini par 

la relation 

s 2 xy = (y 0 − x 0 ) 2 − (y 1 − x 1 ) 2 − (y 2 − x 2 ) 2 − (y 3 − x 3 ) 2 , (3.28) 

qui s’écrit encore 

s 2 xy = ηαβ(y α − x α )(y β − x β ), (3.29) 

Soient deux points-événements x et y distincts. Cherchons sous quelle condition il existe 

un référentiel galiléen S0 dans lequel ces deux points-événements ont les mêmes coordonnées 

spatiales. Dans un tel référentiel, l’intervalle s 2 xy aura pour expression 

s 2 xy = (y 0 0 − x 0 0) 2 

puisque par hypothèse x i 0 = y i 0 pour i = 1, 2, 3. L’équation (3.30) montre qu’on doit avoir 

(3.30) 

s 2 xy > 0. (3.31) 

On dit qu’un intervalle satisfaisant à la condition (3.31) est du genre temps. 

Par définition, x et y sont simultanés dans un référentiel S si y 0 = x 0 dans ce référentiel. 

Pour qu’un tel référentiel existe, il faut que la condition 

s 2 xy < 0 (3.32) 

soit satisfaite. Si en effet on a y 0 = x 0 dans S, l’intervalle s 2 xy a pour expression 

s 2 xy = −(y 1 − x 1 ) 2 − (y 2 − x 2 ) 2 − (y 3 − x 3 ) 2 

Un intervalle satisfaisant à la condition (3.32) est dit du genre espace. 

Enfin, l’intervalle entre x et y est dit isotrope si 

(3.33) 

s 2 xy = 0. (3.34) 

L’équation (3.34) est la condition nécessaire et suffisante pour qu’une particule se mouvant 

(ou une interaction se propageant) avec la vitesse c puisse relier x et y. 

Les conditions (3.31), (3.32) et (3.34) sont complètement indépendantes du référentiel 

puisque l’intervalle est un invariant. La classification qui en résulte a donc une signification absolue. 

Cette classification conduit à introduire en chaque point-événement x l’objet géométrique 

intrinsèque (i.e. indépendant du référentiel) qu’on appelle le cône isotrope 11 de sommet x. 

11 On dit aussi cône de lumière de sommet x, mais nous éviterons cette terminologie pour les raisons invoquées 

à la fin de la sect. 3.1. 

36

Γ 

+ 

x 

Ailleurs de x 

Γ 

− 

x 

Futur de x 

x 

Passé de x 

Ailleurs de x 

Fig. 3.1 – Passé, futur, et ailleurs d’un point x. 

Définition 3.5.1 (Cône isotrope de sommet x) Étant donné un point-événement x quelconque, 

on appelle cône isotrope de sommet x et on note Γx l’ensemble des points-événements 

y tels que l’intervalle entre x et y soit nul. Dans un référentiel galiléen arbitraire, l’équation du 

cône Γx est : 

s 2 xy ≡ ηαβ(y α − x α )(y β − x β ) = 0. (3.35) 

Le cône Γx est composé du point x, d’une nappe Γ + x correspondant à y 0 −x 0 > 0, dite nappe 

future, et d’une nappe Γ − x correspondant à y 0 − x 0 < 0, dite nappe passée. Le cône isotrope de 

sommet x divise donc l’espace-temps de Minkowski en trois régions attachées à x (voir fig. 3.1). 

1. Le futur de x, défini comme l’ensemble Fx des points-événements y tels que s 2 xy ≥ 0 et 

y 0 − x 0 > 0 : 

Fx = {y | s 2 xy ≥ 0 et y 0 − x 0 > 0}. (3.36) 

2. Le passé de x, défini comme l’ensemble Px des points-événements y tels que s 2 xy ≥ 0 et 

y 0 − x 0 < 0 : 

Px = {y | s 2 xy ≥ 0 et y 0 − x 0 < 0}. (3.37) 

3. L’ailleurs de x, défini comme l’ensemble Ax des points-événements y tels que s 2 xy < 0 : 

Ces dénominations se comprennent par elles-mêmes. 

3.6 Lignes d’univers du genre temps 

Ax = {y | s 2 xy < 0}. (3.38) 

On dira qu’un point-événement x appartient à l’histoire d’une particule si la particule 

coïncide avec l’événement x au moment où il se produit. D’après ce qui a été expliqué dans le 

premier chapitre, cette notion est totalement indépendante du choix d’un système de référence. 

37

Donnons-nous un référentiel galiléen arbitraire S rapporté à un système de coordonnées 

galilénnes (x 0 ,x i ) et considérons une particule P de vecteur vitesse v par rapport à S, ce vecteur 

pouvant varier au cours du temps. Soient x et x+dx deux points-événements infiniment voisins 

appartenant à l’histoire de P. Compte tenu de la relation dx = vdt, l’élément d’intervalle ds 2 

entre ces deux points-événements est d’après (3.14) : 

x 

0 

O 

ds 2 = c 2 dt 2 − dx 2 = (c 2 − |v| 2 )dt 2 . (3.39) 

x 

2 

x (s) 

Fig. 3.2 – Ligne d’univers d’une particule. 

On voit que ds2 > 0 si et seulement si |v| < c. Or, ds2 est un invariant. On peut donc écrire 

ds2 = (c2 − |v ′ | 2 )dt ′2 dans tout référentiel galiléen S ′ rapporté à des coordonnées galiléennes 

(x0′ ,xj′ ), v ′ étant la vitesse de P par rapport à S ′ . D’où la proposition qui suit. 

Proposition 3.6.1 Si une particule est de vitesse |v| < c en x dans un référentiel galiléen, 

alors cette particule est de vitesse inférieure à c en x dans tous les référentiels galiléens. 

Un corollaire immédiat de ce qui précède est que si une particule avait une vitesse |v| > c 

dans un référentiel galiléen donné, elle aurait une vitesse supérieure à c dans n’importe quel 

autre référentiel galiléen. Enfin, on retrouve évidemment à partir de (3.39) qu’une particule de 

vitesse |v| égale à c dans S sera également de vitesse c dans n’importe quel autre référentiel, 

ce qui est naturel puisque c est par hypothèse une vitesse invariante. 

On dira qu’un référentiel galiléen S0 est instantanément comouvant avec la particule en x 

lorsque x et x + dx ont les mêmes coordonnées spatiales dans S0, i.e. lorsque (dx i )S0 = 0. 

Cette définition signifie simplement que la particule P est au repos instantané par rapport à 

S0 au moment où se produit l’événement x. Or, d’après ce que nous avons vu dans la section 

précédente, cette occurrence se réalise uniquement si ds 2 > 0. Il faut donc que la condition 

|v| < c soit satisfaite dans un référentiel galiléen arbitraire. Un référentiel galiléen devant 

évidemment être comouvant avec chacun de ses points (i.e. avec chacune des particules qui lui 

sont liées), on est conduit à formuler la proposition qui suit. 

38 

x 

1

Proposition 3.6.2 La valeur absolue de la vitesse relative de deux référentiels galiléens arbitraires 

est toujours inférieure à la vitesse fondamentale c. 

Il est dès lors naturel de supposer que les observateurs sont constitués de particules dont 

la vitesse est toujours inférieure à c. Il est en effet difficile de concevoir un observateur (i.e. un 

instrument de physique) qui ne pourrait être au repos par rapport à aucun référentiel galiléen. 

C’est pourquoi nous poserons le postulat qui suit. 

Postulat 3.6.1 Soit P un observateur considéré comme ponctuel, décrit dans un référentiel 

galiléen arbitraire muni d’un système de coordonnées galiléennes (x 0 ,x 1 ,x 2 ,x 3 ), avec x 0 = ct. 

Pour tout couple d’événements infiniment voisins appartenant à l’histoire de cet observateur, 

l’inégalité 

ds 2 = c 2 dt 2 − (dx 1 ) 2 − (dx 2 ) 2 − (dx 3 ) 2 > 0 (3.40) 

est satisfaite. 

La condition (3.40) traduit simplement le postulat qu’un observateur a toujours une vitesse 

inférieure à c dans n’importe quel référentiel galiléen. En fait, on admet de façon plus générale 

qu’il n’existe pas de particules ayant une vitesse > c. On peut montrer en effet que l’existence 

de telles particules (tachyons) entraînerait des violations de la causalité. 

Il découle de ce qui précède que les courbes de l’espace-temps le long desquelles l’inégalité 

(3.40) est satisfaite jouent un rôle fondamental dans la théorie puisqu’elles peuvent être considérées 

comme des histoires d’observateurs possibles. On les appelle lignes d’univers du genre temps 

(fig. 3.2). 

3.7 Temps propre 

Par hypothèse, la particule considérée dans ce qui suit possède une ligne d’univers du genre 

temps. On désigne par x et x + dx deux points-événements infiniment voisins appartenant à 

l’histoire de cette particule : x + dx est supposé situé dans le futur de x, et on adopte dès lors 

la convention ds > 0 pour l’intervalle entre x et x + dx. 

Par rapport au référentiel S0 instantanément comouvant en x avec cette particule (cf. section 

précédente), l’intervalle ds 2 entre x et x + dx a pour expression d’après (3.30) : 

ce qui entraîne avec notre convention de signe sur ds : 

ds 2 = c 2 dt 2 0 , (3.41) 

ds = cdt0 . (3.42) 

D’après la partie a) du postulat 3.1.2, dt0 est la durée mesurée entre x et x + dx par une 

horloge standard au repos par rapport à S0. La quantité dt0 représente donc ce qu’on peut 

appeler le laps de temps propre dτ mesuré entre x et x + dx par une horloge standard H0 en 

mouvement inertiel instantanément comouvante avec la particule P. Si la particule P est ellemême 

en mouvement inertiel (particule isolée), il est naturel de regarder la quantité dτ donnée 

par 

dτ = ds 

(3.43) 

c 

39

comme le laps de temps propre de la particule écoulé entre les points-événements x et x + dx. 

Cette identification de dt0 avec un laps de temps propre infinitésimal de la particule s’impose 

d’elle-même. 

Lorsque la particule P est animée d’un mouvement quelconque (mouvement non inertiel ou 

accéléré), la relation (3.42) et l’interprêtation de dt0 comme temps propre de H0 restent vraies 

mais il ne va plus de soi qu’on peut identifier dt0 avec un laps de temps propre de la particule 

accélérée. On admet néanmoins cette identification en la posant comme une définition. 

Définition 3.7.1 Soit P une particule dont la ligne d’univers est du genre temps. On appelle 

temps propre de cette particule entre deux événements x et x + dx de son histoire la quantité 

dτ définie par 

dτ = ds 

. (3.44) 

c 

Il faut souligner que la relation (3.44) est complètement indépendante du référentiel choisi, 

ainsi que du système de coordonnées adopté. Nous avons vu en effet que ds est une quantité 

invariante attachée à deux points-événements x et x + dx : une telle quantité est absolue. 

Dans la pratique, il sera souvent indispensable d’expliciter dτ en fonction des coordonnées. 

Lorsqu’on choisit un référentiel galiléen arbitraire S rapporté à un système de coordonnés 

galiléennes x 0 = ct,x i , on a évidemment 

dτ = 1 

c 

c 

2dt2 − (dx1 ) 2 − (dx2 ) 2 − (dx3 ) 2 . (3.45) 

La définition 3.7.1 est adoptée parce que l’expérience montre que le temps propre délivré 

par une horloge atomique idéale satisfait la relation (3.44), au moins tant que l’accélération de 

cette horloge n’est pas trop grande... C’est pourquoi on adopte en pratique le postulat suivant. 

Postulat 3.7.1 (Hypothèse des horloges atomiques) Le laps de temps dτ mesuré entre 

deux événements x et x + dx de l’histoire d’une horloge atomique idéale ne dépend pas de 

l’accélération de cette dernière et satisfait la relation dτ = ds/c. 

Le postulat 3.7.1 équivaut à l’hypothèse que deux atomes identiques situés au même pointévénement 

et instantanément comouvants présentent le même spectre de raies à un observateur 

donné, indépendamment de leurs accélérations respectives 12 . Il faut souligner le caractère approché 

de ce postulat, qui contraste avec les postulats précédents que l’on pouvait tenir pour 

rigoureux. On ne voit en effet pas pourquoi les raies spectrales d’un atome seraient totalement 

insensibles à l’accélération de ce dernier. Néanmoins, on peut noter que l’accélération des atomes 

utilisés dans les horloges atomiques dans les conditions expérimentales usuelles est bien plus 

faible que l’accélération d’un électron autour du noyau. Le postulat 3.7.1 paraît donc légitime 

et n’est contredit par aucune expérience. 

12 En toute rigueur, il faut restreindre cet énoncé aux raies de très hautes fréquences telles que celles qui sont 

utilisées dans les horloges actuelles (approximation de l’optique géométrique). Pour les basses fréquences, l’effet 

Doppler est affecté par l’accélération de la source (ainsi que par l’accélération de l’observateur). 

40

Compte tenu de (3.39), l’équation (3.44) donne la relation suivante entre la différentielle de 

temps propre et la différentielle de temps coordonnée : 

 

 

v 2 

dτ = dt 1 − 

c 

. (3.46) 

On écrit souvent (3.46) sous la forme 

où Γ est défini par 

Γ = 

dt 

dτ 

 

= Γ, (3.47) 

1 

1 − v 

c 

Γ est appelé le facteur de Lorentz 13 . 

Il résulte immédiatement de (3.48) que Γ = 1 si v = 0 et 

2 . (3.48) 

Γ > 1 si v = 0. (3.49) 

L’inégalité (3.49) est équivalente à dt > dτ si v = 0. C’est pourquoi on appelle (3.47) 

la formule de dilatation des durées. Il faut toutefois faire très attention à la signification des 

quantités qui interviennent dans cette formule. La quantité dτ est indépendante du référentiel 

dans lequel on décrit le mouvement (on a souligné ci-dessus que dτ est une quantité intrinsèque). 

Par contre, dt et v sont des quantités qui dépendent du référentiel dans lequel on décrit le 

mouvement. 

Bien entendu, les relations (3.44) et (3.45) peuvent être intégrées le long de la ligne d’univers 

d’une particule. On obtient alors la proposition fondamentale suivante. 

Proposition 3.7.1 Soit P une particule dont la ligne d’univers C est de genre temps. On 

appelle x1 et x2 deux points-événements de l’histoire de cette particule, numérotés de telle sorte 

que x2 soit dans le futur de x1. Le temps propre τ12[C] mesuré entre x1 et x2 par une horloge 

standard comouvante avec la particule P est alors donné par 

x2 

τ12[C] = 

x1 

dτ = 1 

c 

x2 

ds, (3.50) 

où les intégrales sont des intégrales curvilignes prises le long de C. 

Soit 

x α = x α (ℓ) (3.51) 

un système d’équations paramétriques de la ligne d’univers de P dans un système de coordonnées 

galiléennes xα arbitrairement choisi, les xα (ℓ) désignant des fonctions continûment 

différentiables d’un paramètre réel ℓ lui-même arbitrairement choisi. Si on appelle ℓ1 et ℓ2 les 

valeurs de ℓ correspondant respectivement à x1 et à x2, τ12[C] est alors donné par 

ℓ2 

τ12[C] = 

l’intégrale étant prise le long de C. 

ℓ1 

dx 0 

dℓ 

2 − dx 1 

dℓ 

x1 

2 − dx 2 

dℓ 

2 

dx3 2 

− dℓ 

dℓ, (3.52) 

13 Ce facteur est très souvent représenté par la lettre γ, mais nous évitons cette notation pour éviter tout 

risque de confusion avec le paramètre postnewtonien γ dans les théories de la gravitation. 

41

Le paramétre ℓ intervenant dans l’éq. (3.52) étant arbitraire, nous pouvons prendre le tempscoordonnée 

t comme paramètre, et la formule (3.52) s’écrit alors 

De l’inégalité 

t2 

τ12[C] = 

t1 

 

1 − 1 

c2 

dxdt 2dt t2 

= 

t1 

 

1 − 1 

c2 2 dxdt ≤ 1, on déduit qu’on a toujours 

dt 

. (3.53) 

Γ 

τ12[C] ≤ t2 − t1 . (3.54) 

L’égalité τ12[C] = t2 − t1 est réalisée si et seulement si la vitesse de P par rapport à S est 

constamment nulle. Dans tous les autres cas, on a l’inégalité au sens strict 

τ12[C] < t2 − t1 . (3.55) 

L’inégalité (3.55) s’applique en particulier lorsque x1 et x2 sont des événements se produisant 

au même point A de l’espace du référentiel S, alors que la particule P n’est pas au repos par 

rapport à S entre x1 et x2 (fig. 3.3). L’inégalité (3.55) constitue alors ce qu’on a appelé le 

“paradoxe des jumeaux” ou encore le “paradoxe du voyageur de Langevin”. La différence t2 −t1 

est en effet le temps propre vécu entre x1 et x2 par un observateur au repos en A, tandis que 

τ12[C] est le temps propre vécu par un observateur OC comouvant avec la particule P. Si on 

appelle C0 la ligne d’univers d’un observateur au repos en A, la formule (3.53) donne 

et l’inégalité (3.55) devient 

t2 − t1 = τ12[C0] 

τ12[C] < τ12[C0], 

ce qui montre qu’entre les événements x1 et x2, l’observateur au repos en A a vieilli davantage 

que l’observateur qui a voyagé. 

Cette conséquence remarquable de la relativité restreinte a été vérifiée expérimentalement 

avec des horloges atomique embarquées à bord d’un avion effectuant le tour de la Terre 14 , ainsi 

qu’avec des muons du rayonnement cosmique 15 . 

On remarque qu’un observateur au repos en A par rapport à S est en mouvement rectiligne 

uniforme dans n’importe quel autre référentiel galiléen. Comme l’inégalité τ[C0] ≤ τ[C] est 

invariante par les changements de référentiels, nous pouvons énoncer la proposition suivante. 

Proposition 3.7.2 Soient x1 et x2 deux points-événements distincts reliés par la ligne d’univers 

C d’une particule P dont la vitesse est constamment inférieure à c. Si C0 désigne la droite 

de l’espace-temps de Minkowski passant par x1 et x2, l’inégalité 

τ12[C] ≤ τ12[C0] (3.56) 

est satisfaite, l’égalité étant réalisée si et seulement si C est confondue avec C0. 

14 Expérience de Hafele et Keating. Voir par ex. J. C. Hafele, American Journal of Physics, vol. 40, p. 81 

(1972). 

15 Expérience de D. H. Frisch et J. H. Smith, American Journal of Physics, vol. 31, p. 342 (1963). Une analyse 

très claire est donnée par Y. Simon, Relativité restreinte, Cours et applications, Vuibert, 2004. 

42

ct 

ct 

x 

0 

2 2 

x 

x 

1 1 

i i x = x = x 

1 

C C 

0 

2 

i 

A 

Fig. 3.3 – “Paradoxe des jumeaux” : on a τ12[C] < t2 − t1, alors que τ12[C0] = t2 − t1. 

Il résulte de cette proposition que la droite de genre temps C0 reliant x1 et x2 réalise la 

ligne d’univers de plus long temps propre entre x1 et x2. Étant donné que ds et dτ diffèrent par 

un facteur constant, on peut énoncer que C0 réalise un extremum (ici un maximum) de ds. 

Cette propriété fondamentale signifie que la ligne d’univers d’une particule libre (mouvement 

inertiel) est une géodésique16 du genre temps de l’espace-temps de Minkowski. 

On notera que la propriété de C0 de réaliser le plus long temps propre est en contraste 

total avec la propriété bien connue de la droite euclidienne usuelle de réaliser comme on le 

sait le plus court chemin spatial entre deux points donnés. En fait, la propriété de longueur 

temporelle maximale de C0 est due à la présence du signe - devant chacun des termes (dxi ) 2 

dans la métrique de Minkowski. 

Exercice : mouvement uniformément accéléré au sens relativiste.— On considère 

un observateur P dont la ligne d’univers C est définie dans un référentiel galiléen S par les 

équations paramétriques 17 : 

x 0 = c2 aτ 

sinh , 

a c 

x 

(3.57) 

1 = c2 

 

cosh 

a 

aτ 

 

− 1 , 

c 

(3.58) 

x 2 = 0, (3.59) 

x 3 = 0, (3.60) 

où τ varie entre 0 et ∞ et a est une constante ayant la dimension d’une accélération (m.s −2 ). 

On suppose a > 0. 

1. Déterminer x 1 en fonction du temps t = x 0 /c. En déduire l’expression de la vitesse 

v 1 = dx 1 /dt et de la dérivée dv 1 /dt en fonction de t. Montrer que le mouvement défini par 

(3.57)-(3.60) se confond pratiquement avec un mouvement uniformément accéléré au sens usuel 

le long de l’axe des x 1 lorsque t

une expression approchée de x 1 (t),v 1 (t) et dv 1 (t)/dt lorsque t >> c/a. Comment interprêter 

ces résultats ? 

2. Calculer (x 0 ) 2 −(x 1 +c 2 /a) 2 en tout point de C. En déduire la nature géométrique de C. 

Donner une représentation graphique de C dans le plan Ox 1 x 0 . Cette représentation graphique 

permet-elle de comprendre les réponses apportées à la première question ? 

3. Déterminer le temps propre de la particule entre le point-événement correspondant à τ0 

et le point-événement correspondant à τ. Comment peut-on interprêter le paramètre τ figurant 

dans (3.57) et (3.58) ? 

4. Exprimer ce temps propre en fonction de la coordonnée t. Appliquer la formule obtenue 

en posant a = g = 9, 81 m.s −1 dans les cas suivants : a) t = 1 jour ; b) t = 10 6 années. On 

prendra c = 3×10 8 m.s −1 , 1 jour = 86400 s, 1 année = 3, 15569×10 7 s. Commenter les résultats 

obtenus. 

Solution. 

1. Les équations (3.59) et (3.60) montrent que le mouvement de P s’effectue sur l’axe des 

x 1 . Il est facile d’éliminer le paramètre τ entre les éqs. (3.57) et (3.58). En utilisant l’identité 

cosh 2 x − sinh 2 x = 1 l’équation (3.57) peut s’écrire 

x 1 = c2 

a 

 

1 + sinh 2 aτ 

c 

 

− 1 

(3.61) 

Or, d’après (3.57) 

sinh aτ at 

= . (3.62) 

c c 

Substituons dans (3.61). On obtient l’équation horaire cherchée : 

x 1 = c2 

⎡ 

⎣ 1 + 

a 

a2t2 ⎤ 

− 1⎦ 

. (3.63) 

c2 On déduit de (3.63) l’expression de la vitesse 


v 1 = dx1 

dt = 

v 1 = 

at 

 

1 + a2 t 2 

c 2 

c 

 

1 + c2 

a 2 t 2 

La dérivée de v 1 par rapport à t est donnée par 

dv 1 

dt = 

 

a 

1 + a2 t 2 

c 2 

L’équation (3.66) montre immédiatement que 

dv 1 

dt 

(3.64) 

. (3.65) 

3/2 . (3.66) 

≈ a (3.67) 

lorsque t

préeinsteinienne. On notera que pour a = g = 9, 81 m.s −2 , on a c/a = 3, 06 × 10 7 s ≈ 1 an. 

Cette durée permet de comprendre pourquoi la différence entre les deux mouvements n’est pas 

facilement décelable dans les conditions d’expérimentations usuelles. 

La formule (3.64) montre que lorsque t s’accroît, la vitesse de P s’approche indéfiniment de 

la vitesse constante c. Lorsque t >> c/a, on peut négliger 1 dans le radical 

écrire 

x 1 (t) ≈ ct, v 1 dv 

(t) ≈ c, 

1 

≈ 0. (3.68) 

dt 

 

1 + a2 t 2 

c 2 et on peut 

Vu dans le référentiel S, le mouvement de P tend à se confondre avec un mouvement 

uniforme s’effectuant avec la vitesse c, sans jamais toutefois atteindre cette limite ! 

2. L’identité cosh 2 x − sinh 2 x = 1 entraîne que 

(x 0 ) 2 − 

 

x 1 + c2 

a 

2 

= − c4 

a 2. 

(3.69) 

Cette équation montre que la ligne d’univers de P est un arc d’hyperbole admettant la 

droite isotrope x0 = x1 + c2 comme asymptote lorsque τ → ∞. 

a 

3. Considérons deux points-événements infiniment voisins x et x+dx appartenant à la ligne 

d’univers de P. En différentiant les équations par rapport au paramètre τ, on voit que 

dx 0 = c cosh aτ 

c dτ, dx1 = c sinh aτ 

c dτ, dx2 = 0, dx 3 = 0. (3.70) 

L’élément ds 2 le long de C est donc donné par 

ds 2 = (dx 0 ) 2 − (dx 1 ) 2 = c 2 

 

cosh 2 aτ 

c − sinh2 

aτ 

dτ 

c 

2 = c 2 dτ 2 . (3.71) 

On en conclut que le paramètre τ figurant dans les équations (3.57)-(3.60) est le laps de temps 

propre de l’observateur qui s’écoule entre le point-événement (0, 0, 0, 0) et le point-événement 

x(τ) dont les coordonnées sont données par les équations (3.57)-(3.60). 

4. On peut écrire (3.57) sous la forme 

at 

c 

= sinh aτ 

c 

. (3.72) 

On sait que l’inverse de la fonction sinus hyperbolique est la fonction sinh −1 x = ln(x+ √ 1 + x 2 ). 

On tire donc immédiatement de (3.72) 

τ = c 

a ln 

⎡ 

⎣ at 

c + 

 

Si at/c > 1, (3.72) donne 

1 + a2 t 2 

c 2 

⎤ 

⎦. (3.73) 

τ = t − 1 a 

6 

2 

c2 t3 + ... (3.74) 

τ ≈ c 2at 

ln . (3.75) 

a c 

45

Exemples numériques.— Afin de pouvoir appliquer ces calculs à des astronautes, on a pris 

une accélération a égale à l’accélération g de la pesanteur terrestre. On doit donc remplacer 

a/c par g/c = 3, 27 × 10 −8 . 

a) Si t = 1 jour = 86400 s, on a gt/c = 2, 825×10 −3 . La formule (3.74) peut donc s’appliquer. 

Il vient 

τ = 1 jour − 0, 115 s. (3.76) 

Cette différence serait évidemment mesurable avec une bonne montre à quartz. On peut alors 

se demander pourquoi on ne met pas facilement en évidence l’effet voyageur de Langevin. Pour 

le comprendre, calculons la distance x 1 parcourue par l’observateur P pendant cette journée. 

D’après (3.63), x 1 = 36, 6 millions de km, soit approximativement la moitié de la distance 

Terre-Mars lors d’une conjonction des deux planètes ! Noter qu’on trouverait pratiquement la 

même distance parcourue en utilisant la loi horaire usuelle x 1 ≈ 1 

2 gt2 . C’est naturel puisqu’on 

est ici dans le cas où t est nettement inférieur à c/g. En effet c/g ≈ 3 × 10 7 s ≈ 1 an. 

b) Si t = 10 6 ans = 3, 15569 × 10 7 s, on obtient avec (3.75) 

τ = 14, 1 ans. (3.77) 

La différence avec la valeur de t = 10 6 ans est ici énorme. La distance x 1 parcourue est alors 

de l’ordre de 10 6 années-lumière puisque la majeure partie du parcours s’effectue à une vitesse 

très voisine de celle de la lumière (on le voit aisément avec l’éq. (3.65)). On en conclut qu’un 

voyage aller-retour entre la Terre et un objet situé à deux millions d’années-lumière 18 avec un 

accélération de 1 g ne durerait que 4 × 14, 1 = 56, 4 ans pour l’astronaute, alors qu’il se serait 

écoulé quatre millions d’années sur Terre depuis son départ... L’aventure vous tenterait-elle ? 

18 Tel est l’ordre de grandeur de la distance entre notre Galaxie et la galaxie d’Andromède. 

46

Chapitre 4 

Cinématique relativiste 

Ce chapitre est consacré à la formulation “tridimensionnelle” de la cinématique de la relativité 

restreinte. 

4.1 Notations 

Dans le chapitre précédent, nous avons postulé qu’on peut associer à tout référentiel galiléen 

S un espace affine proprement euclidien E3[S]. Un repère (O,ei) (i = 1, 2, 3) étant choisie dans 

E3[S], on représentera un 3-vecteur de composantes a i par rapport à ce repère indifféremment 

par le triplet (a 1 ,a 2 ,a 3 ) ou par la lettre grasse a définie par a = a i ei. Le repère (O,ei) sera 

toujours supposé orthonormé. En conséquence, le produit scalaire de deux 3-vecteurs a = 

(a 1 ,a 2 ,a 3 ) et b = (b 1 ,b 2 ,b 3 ) aura pour expression 

a.b = a 1 b 1 + a 2 b 2 + a 3 b 3 . (4.1) 

4.2 Transformations spéciales de Lorentz 

Donnons-nous deux référentiels galiléens S et S ′ en mouvement l’un par rapport à l’autre. 

Nous avons vu dans le chapitre précédent que les coordonnées galiléennes (xα ) d’un pointévénement 

x par rapport à S s’expriment en fonction des coordonnées galiléennes (xβ′ ) de ce 

point-événement par rapport à S ′ par des relations affines 

x α = A α β ′xβ′ + b α 

(A α β ′ = const., bα = const.) (4.2) 

ayant la propriété de laisser invariantes la valeur et la forme de l’intervalle élémentaire ds 2 , i.e. 

d’être telles que 

(dx 0 ) 2 − (dx 1 ) 2 − (dx 2 ) 2 − (dx 3 ) 2 = (dx 0′ 

) 2 − (dx 1′ 

) 2 − (dx 2′ 

) 2 − (dx 3′ 

) 2 . (4.3) 

Les constantes bα sont arbitraires, alors que les constantes Aα β ′ dépendent de la vitesse w 

de S ′ par rapport à S. Les équations (3.10) du chap. 3 peuvent s’écrire 

A i 0 ′ = βiA 0 0 ′ , (4.4) 

47

à condition de poser comme nous le ferons désormais 

β i = dxi 

dx 

c 

0 = wi 

. (4.5) 

Choisissons comme origine O ′ le point de S ′ qui coïncide avec O à l’instant t = 0. De plus, 

choisissons l’origine des dates t ′ dans S ′ de telle sorte que la coïncidence de O et O ′ ait lieu à 

l’instant t ′ = 0. Alors l’événement de coordonnées galiléennes (0, 0, 0, 0) par rapport à S ′ doit 

avoir les coordonnées galiléennes (0, 0, 0, 0) par rapport à S, ce qui entraîne 

b α = 0 (4.6) 

pour α = 0, 1, 2, 3. Réciproquement, les conditions (4.6) entraînent que les origines O et O ′ 

coïncident lorsque t = 0 et t ′ = 0. 

Dans ce qui suit, nous supposerons toujours satisfaites les relations (4.6). Rappelons qu’on 

appelle transformations homogènes de Lorentz les transformations correspondantes. 1 

x 

3 

x 

2 

x 3' 

x 

2' 

O O' x1 

Fig. 4.1 – Repères Ox1x2x3 et O ′ x1′ x2′ x3′ . 

Pour une horloge standard comouvante avec l’origine O ′ , on a d’après (4.2) : 

w 

x 0 = A 0 0 ′x0′ . (4.7) 

Cette relation montre qu’on a nécessairement A0 0 ′ = 0. De plus, la quantité A00 ′ étant 

une constante, nous pouvons toujours choisir les échelles de temps de telle sorte que des x0′ croissants correspondent à des x0 croissants. C’est pourquoi nous supposerons dans ce qui suit 

que 

A 0 0 ′ > 0. (4.8) 

Les transformations de Lorentz qui satisfont la condition (4.8) sont dites orthochrones. 

Supposons pour l’instant qu’il existe des transformations de Lorentz homogènes orthochrones 

prenant la forme simple 

1 On omet souvent l’épithète homogène. 

x 0 = A 0 0 ′x0′ 

48 

+ A 0 1 ′x1′ , (4.9) 

x 

1'

x 1 = A 1 0 ′x0′ + A 1 1 ′x1′ , (4.10) 

x 2 = A 2 2 ′x2′ , (4.11) 

x 3 = A 3 3 ′x3′ . (4.12) 

Du fait que A 2 0 ′ = A3 0 ′ = 0, les équations (4.4) entraînent que β2 = 0 et β 3 = 0, ce qui 

équivaut à 

w 2 = 0, w 3 = 0. (4.13) 

On posera pour simplifier l’écriture 

w 1 = w (4.14) 

et 

β 1 = β, avec β = w 

. 

c 

(4.15) 

Une transformation définie par les équations (4.9)-(4.11) correspond donc à un repère 

O ′ x1′ x2′ x3′ dont chaque point se déplace parallèlement à l’axe Ox1 w = cβ. 

avec une vitesse constante 

Soit P ′ un point lié à l’axe O ′ x1′ . On a x2′ P ′ = 0 et x3′ P ′ = 0. Il résulte alors de (4.11) que 

x 2 P ′ = 0 et x3 P ′ = 0 : le mouvement de P ′ dans S s’effectue donc sur l’axe Ox 1 . Nous avons 

vu ci-dessus que ce mouvement s’effectue avec la vitesse w. On peut donc énoncer que chaque 

point lié à l’axe O ′ x1′ glisse avec la vitesse w sur l’axe Ox1 . En particulier, le point O ′ décrit 

la droite Ox 1 selon l’équation horaire x 1 = wt (rappelons que d’après notre choix des origines 

spatiales et temporelles, O ′ coïncide avec O à l’instant t = 0). 

Un raisonnement analogue montre que chaque point lié au plan O ′ x1′ x2′ glisse sur le plan 

Ox1x2 , et que chaque point lié au plan O ′ x1′ x3′ glisse sur le plan Ox1x3 . Enfin, il découle 

immédiatement de la forme de la transformation qu’à chaque instant t, l’ensemble des points 

liés à O ′ x2′ (resp. O ′ x3′ ) est situé dans S sur un axe issu de O ′ et parallèle à Ox2 (resp. Ox3 ). 

Le repère O ′ x1′ x2′ x3′ dessiné dans Ox1x2x3 à un instant t donné est donc parallèle au repère 

Ox 1 x 2 x 3 , comme on l’a représenté sur la figure 4.1. 

Il découle de (4.10) qu’on a pour chaque événement se produisant sur O ′ x1′ à l’instant 

t ′ = 0 : 

x 1 = A 1 1 ′x1′ . 

Cette relation montre que le signe de la constante A1 1 ′ dépend de l’orientation relative des 

. Nous supposerons désormais que cette orientation est choisie de telle sorte 

axes Ox 1 et O ′ x 1′ 

que l’inégalité 

A 1 1 ′ > 0 (4.16) 

soit satisfaite (“Ox1 et Ox1′ sont de même sens”). De même, les relations (4.11) et (4.12) 

entraînent qu’on peut toujours choisir l’orientation relative des axes Ox2 et O ′ x2′ d’une part, 

Ox3 et O ′ x3′ d’autre part de telle façon que les inégalités 

A 2 2 ′ > 0, A33 ′ > 0 (4.17) 

soient satisfaites. 

Explicitons maintenant les transformations de Lorentz orthochrones du type (4.9)-(4.11). 

Les équations (4.4) se réduisant à 

A 1 0 ′ = βA00 ′, (4.18) 

49

la relation d’invariance (3.14) se traduit par l’équation 

(A 0 0 ′dx0′ 

+ A 0 1 ′dx1′ ) 2 − (βA 0 0 ′dx0′ + A 1 1 ′dx1′ ) 2 − (A 2 2 ′)2 (dx 2′ 

) 2 − (A 3 3 ′)2 (dx 3′ 

) 2 

= (dx 0′ 

) 2 − (dx 1′ 

) 2 − (dx 2′ 

) 2 − (dx 3′ 

) 2 

(4.19) 

qui doit être vérifiée quels que soient dx 0 ,dx 1 ,dx 2 ,dx 3 . En développant le membre de gauche de 

(4.19) et en identifiant des deux membres terme à terme, on obtient compte tenu des conditions 

(4.8), (4.16) et (4.17) : 

A 0 0 ′ = A11 ′ = 

1 

√ 

1 − β2 , A01 ′ = A10 ′ = 

En conséquence, la transformation cherchée s’écrit : 

x 0 = x0′ + βx1′ √ 

1 − β2 , x1 = x1′ + βx0′ √ 

1 − β2 , x2 = x 2′ 

β 

√ 

1 − β2 , A22 ′ = A33 ′ = 1. (4.20) 

, x 3 = x 3′ 

. (4.21) 

On appelle transformation spéciale de Lorentz une telle transformation. On peut montrer 

que les transformations de Lorentz homogènes orthochrones les plus générales s’obtiennent par 

composition d’une transformation spéciale et de rotations des axes spatiaux des référentiels 

galiléens S et S ′ . 

En résolvant le système d’équations (4.21) en x 0′ 

, x 1′ 

, x 2′ 

x 0′ 

= x0 − βx 1 

√ 1 − β 2 

, x1′ 

= x1 − βx 0 

√ 1 − β 2 

, x2′ 

et x3′ , on obtient : 

= x 2 , x 3′ 

= x 3 . (4.22) 

La transformation (4.22) inverse de (4.21) est clairement une transformation spéciale de 

Lorentz obtenue en échangeant les rôles joués par xα et xβ′ et en changeant β en −β. Il 

s’ensuit que le vecteur vitesse w ′ du référentiel S par rapport au référentiel S ′ est le vecteur 

w ′ admettant les composantes w1′ = −w, w2′ = 0,w3′ = 0 par rapport au système d’axes 

orthonormés O ′ x1′ x2′ x3′ . 

La transformation de Lorentz (4.21) est à comparer avec la transformation admise par la 

physique préeinsteinienne, qui s’écrirait ici 

t = t ′ , x 1 = x 1′ 

+ wt ′ , x 2 = x 2′ 

, x 3 = x 3′ 

. (4.23) 

La transformation (4.23) s’appelle une transformation spéciale de Galilée. Il est immédiat 

de former son inverse : 

t ′ = t, x 1′ 

= x 1 − wt, x 2′ 

= x 2 , x 3′ 

= x 3 . (4.24) 

On note en particulier que les transformations de Galilée n’impliquaient aucune limitation 

sur la vitesse w alors que les formules de transformations (4.21) et (4.22) n’ont de sens que si 

−1 < β < 1 ⇐⇒ −c < w < c. (4.25) 

Nous retrouvons donc ici que la valeur absolue de la vitesse de translation w d’un référentiel 

galiléen par rapport à un autre référentiel galiléen est toujours inférieure à la vitesse fondamentale 

c. 

50

4.3 Loi de composition relativiste des vitesses 

Nous supposons que les origines des coordonnées et les axes spatiaux sont choisis de telle 

sorte que S et S ′ soient reliés par la transformations spéciale de Lorentz (4.21). Si v ′ désigne 

le vecteur vitesse d’une particule isolée P par rapport à S ′ , et si w est le vecteur vitesse de S ′ 

par rapport à S, la vitesse v de P par rapport à S n’est plus donnée par la loi d’addition bien 

connue en cinématique galiléenne 

v = v ′ + w . (4.26) 

Pour trouver la nouvelle loi de composition des vitesses, considérons deux événements infiniment 

voisins appartenant à l’histoire de P, de coordonnées galiléennes respectives (x0′ ,x1′ ,x2′ ,x3′ ) 

et (x0′ +dx0′ ,x1′ +dx1′ ,x2′ +dx2′ ,x3′ +dx3′ ). Par rapport à S, ces deux événements sont séparés 

par des éléments différentiels dx 0 ,dx 1 ,dx 2 ,dx 3 obtenus en différentiant la transformation de Lorentz 

(4.21) : 

dx 0 = dx0′ + βdx1′ √ , dx 

1 − β2 1 = dx1′ + βdx0′ √ , dx 

1 − β2 2 = dx 2′ 

Si on note vi′ les composantes du vecteur vitesse v ′ , on peut substituer dxi′ dans les éqs. (4.27). Il vient : 

dx 0 

1 

= √ 1 + 

1 − β2 w v 

c 

1′ 

 

dx 

c 

0′ 

, 

dx 1 

1 w v1′ 

= √ + 

1 − β2 c c 

d’où après division des dx i par dt = dx 0 /c : 

v 1 = v1′ + w 

w v1′ 

1 + 

c2 , v 2 = 

, dx 3 = dx 3′ 

. (4.27) 

dx 0′ 

, dx 2 = v2′ 

c dx0′ , dx 3 = v3′ 

c dx0′ , 

√ 1 − β 2 

1 + 

w v1′ 

c 2 

v 2′ 

, v 3 = 

√ 1 − β 2 

1 + 

w v1′ 

c 2 

= (vi′ /c)dx0′ v 3′ 

. (4.28) 

On note que ces formules sont nettement plus compliquées que la loi d’addition galiléenne. 

On remarquera en particulier que dx2 = dx2′ et dx3 = dx3′ n’entraînent pas que v2 = v2′ et 

v3 = v3′ . En fait, la présence du terme √ 1 − β2 dans les expressions de v2 et v3 implique que 

ces composantes tendent vers 0 lorsque |w| → c, v2′ et v3′ restant inchangées. 

Il est possible d’obtenir une expression du dénominateur commun à v 1 ,v 2 et v 3 qui soit 

indépendante du choix des axes de l’espace lié au référentiel S ′ . On a vu plus haut que la 

vitesse relative de S par rapport à S ′ est en effet le vecteur w ′ de composantes w1′ = −w, 

w2′ = 0,w3′ = 0. En conséquence, la quantité wv1′ dans le second membre de (4.32) est en 

réalité l’opposé du produit scalaire du vecteur w ′ par le vecteur vitesse v ′ . On peut donc 

écrire : 

wv 1′ 

= −w ′ .v ′ . (4.29) 

Substituons (4.29) dans(4.28). Il vient : 

v 1 = v1′ + w 

1 − w′ .v ′ 

c2 , v 2 √ 

1 − β2 = 

1 − w′ .v ′ 

c2 51 

v 2′ 

, v 3 = 

√ 1 − β 2 

1 − w′ .v ′ 

c 2 

v 3′ 

. (4.30)

On calcule aisément le carré de la norme de v à partir des formules (4.28). En notant que 

on obtient 2 : 

(v 1′ 

) 2 + (1 − β 2 )[(v 2′ 

) 2 + (v 3′ 

) 2 ] = (1 − β 2 )v ′2 2 1 

+ β (v ′ 

) 2 

v 2 = 

⎛ 

1 

⎝1 + wv1′ 

c 2 

⎞2 

Compte tenu de (4.29), cette dernière relation s’écrit encore 

v 2 = 

à condition de poser 

 

1 

1 − w′ .v ′ 

c 2 

⎠ 

2 

(4.31) 

 

(1 − β 2 )v ′2 + w 2 + 2wv 1 ′ 

+ β 2 (v 1′ 

) 2 

. (4.32) 

 

(1 − β ′2 )v ′2 + w ′2 − 2w ′ .v ′ + (β ′ .v ′ ) 2 

, (4.33) 

β ′ = w′ 

c = (β′ , 0, 0) = (−β, 0, 0). (4.34) 

Il faut bien entendu se souvenir que β ′2 2 ′2 2 = β et w = w . 

La relation (4.33) présente l’intérêt d’exprimer v2 sous une forme qui est indépendante du 

choix des axes spatiaux dans les référentiels S et S ′ . On a donc une relation générale, et on 

peut oublier qu’on l’a démontrée en utilisant une transformation spéciale de Lorentz. Autrement 

dit : l’équation (4.33) exprime le carré de la vitesse d’une particule par rapport à S en fonction 

d’éléments qui sont tous relatifs au référentiel S ′ et qui ne dépendent pas du choix des axes. En 

fait, v2 est exprimé en fonction de v ′2 ′2 ′ ′ , w et de l’angle que forment v avec w (on a en effet 

w ′ .v ′ = |w ′ ||v ′ | cos(w ′ ,v ′ )). 

On obtient l’expression des composantes de la vitesse v ′ en fonction des composantes de la 

vitesse v en échangeant les rôles des quantités primées et non primées et en remplaçant w par 

−w dans les équations (4.28). Il vient : 

√ √ 

1 − β2 1 − β2 v 1′ 

= v1 − w 

w v1 

1 − 

c2 , v 2′ 

= 

1 − 

w v1 

c 2 

v 2 , v 3′ 

= 

1 − 

w v1 

c 2 

v 3 . (4.35) 

Là encore, le dénominateur commun aux quantités vi′ peut s’exprimer sous une forme 

indépendante du choix des axes de l’espace lié au référentiel S. On a : 

v 1′ 

= v1 − w 

1 − w.v 

c2 , v 2′ 

√ 

1 − β2 = 

1 − w.v 

c2 v 2 , v 3′ 

√ 

1 − β2 = 

1 − w.v 

c2 v 3 . (4.36) 

Un calcul analogue à celui qu’on a fait ci-dessus pour trouver l’expression de v 2 donne pour 

le carré de la norme de v ′ : 

v ′2 = 

 

1 

1 − w.v 

c 2 

2 

 

(1 − β 2 )v 2 + w 2 − 2w.v + (β.v) 2 

, (4.37) 

2 On notera qu’il faudrait écrire β 2 au lieu de β 2 et β ′2 au lieu de β ′2 partout dans ce chapitre. 

52

où 

β = w 

= (β, 0, 0). (4.38) 

c 

Tout comme (4.33), la formule (4.37) est générale. 

On vérifie facilement avec ces formules que |v| = c si et seulement si |v ′ | = c. On peut en 

outre montrer qu’on a |v| < c si et seulement si |v ′ | < c, en supposant bien entendu |w| < c. 

Remarque.— Contrairement à ce que les équations (4.34) et (4.38) en termes de composantes 

pourraient laisser penser, les vecteurs (tridimendionnels) β et β ′ ne sont pas colinéaires 

car ils appartiennent à des espace tridimensionnels distincts, puisqu’associés à des référentiels 

en mouvement relatif. On n’écrira donc jamais β ′ = β ni w ′ = −w. 

4.4 Aberration de la lumière 

On appelle aberration de la lumière le fait que les rayons venant d’une source d’apparence 

ponctuelle 3 (satellite, étoile, quasar, ...) sont vus dans des directions différentes lorsqu’ils sont 

observés dans des systèmes de référence en mouvement l’un par rapport à l’autre. En effet 

un observateur lié à un référentiel voit une source lumineuse dans la direction définie dans ce 

référentiel par le vecteur vitesse du rayon lumineux qui lui arrive de cette source au moment de 

son observation. Le phénomène d’aberration résulte donc de la propagation de la lumière avec 

une vitesse finie et de la loi de composition des vitesses. 

Au départ, nous nous donnons les référentiels galiléens S et S ′ avec les origines et les 

systèmes d’axes fixés dans la section 4.2. Nous verrons que ce choix particulier n’empêche pas 

d’obtenir la formule fondamentale de l’aberration en toute généralité. En physique galiléenne, 

le vecteur vitesse V l d’un rayon lumineux par rapport à S est relié au vecteur vitesse V ′ 

l de ce 

rayon par rapport à S ′ par la formule résultant immédiatement de (4.26) 

V l = V ′ 

l + w. (4.39) 

La formule (4.39) est très simple mais son utisation pratique soulève une grave difficulté de 

principe. En effet, le calcul de la différence de directions au moyen de (4.39) va faire intervenir 

la direction et la norme des vecteurs V l et V ′ 

l. Or l’astronome qui veut utiliser cette formule 

peut seulement mesurer la vitesse du rayon lumineux dans son propre référentiel (i.e., la Terre), 

et encore une telle mesure est-elle fort délicate en pratique. Il ne peut pas rester immobile 

avec ses instruments dans un référentiel S ′ lié au barycentre du système solaire par exemple. 

En conséquence notre astronome ne peut pas faire de calcul théorique précis sans faire des 

hypothèses sur la vitesse de la lumière dans le référentiel S ′ . 

3 L’effet d’aberration fut mis en évidence pour la première fois par Römer en 1676 en comparant les observations 

des éclipses des satellites de Jupiter avec les tables de Cassini. L’aberration annuelle des étoiles fut 

découverte en 1726 par Bradley à la suite de mesures destinées à mettre en évidence une parallaxe stellaire. 

Pour une analyse très complète du point de vue astronomique, voir par ex. Astronomie générale, A. Danjon. 

(Edit. A. Blanchard, Paris, seconde éd., 1994). 

53

Les difficultés rencontrées par la conception préeinsteinienne disparaissent complètement 

en relativité restreinte si on admet comme nous le ferons désormais la validité de l’hypothèse 

suivante 4 : 

Hypothèse sur la lumière.— La lumière se propage dans le vide avec la vitesse c. 

Il suffit dès lors d’appliquer la loi de composition relativiste des vitesses à des points se 

déplaçant avec la vitesse c pour obtenir une théorie complète de l’aberration dans le vide. 

Commençons par traiter le problème simple du changement de direction apparente d’un 

rayon lumineux par rapport à l’axe des x 1 . 

Changement de direction apparente d’un rayon lumineux.— Considérons un rayon 

lumineux se propageant parallèlement à une droite ∆ fixe par rapport au référentiel S. On 

appelle α l’angle que forme ∆ avec l’axe Ox1 (voir fig. 4.2). Par rapport au référentiel S ′ , 

ce rayon se propage parallèlement à une droite ∆ ′ faisant un angle α ′ avec l’axe Ox1′ . On se 

propose de déterminer α ′ en fonction de α. 

x x 

3 3' 

∆ ∆' 

α α' 

O O' 

Fig. 4.2 – Aberration de la lumière. 

Par raison de symétrie, nous pouvons supposer que le rayon arrivant en O se propage dans 

le plan Ox 1 x 3 . Pour un rayon venant de l’infini et arrivant vers l’axe Ox 1 , les composantes du 

vecteur vitesse par rapport à S sont alors 

v 1 = −c cos α , v 2 = 0 v 3 = −c sin α . (4.40) 

L’application des formules (4.35) donne immédiatement 

x 

v 1′ cos α + β 

= −c , (4.41) 

1 + β cosα 

4 On peut justifier cette hypothèse si on admet la validité des équations de Maxwell formulées de manière 

à satisfaire au principe d’équivalence des référentiels galiléens (généralement appelé principe de relativité, le 

principe d’équivalence des référentiels galiléens est formulé dans la section 5.1). 

54 

1 

x 

1'

Or, on a évidemment 

v 2′ 

= 0, 

v 3′ 

√ 

1 − β2 = −c sin α . (4.42) 

1 + β cosα 

v 1′ 

= −c cos α ′ , v 3′ 

= −c sin α ′ . (4.43) 

Substituons les expressions (4.43) dans (4.41)-(4.42). Nous obtenons les formules de transformation 

suivantes : 

cos α ′ cos α + β 

= , (4.44) 

1 + β cos α 

sin α ′ √ 

1 − β2 = sin α . (4.45) 

1 + β cos α 

Bien entendu, les formules (4.44) et (4.45) ne sont pas indépendantes. On peut les condenser 

en une seule formule très élégante en utilisant l’identité : 

tan α′ 

2 

sin α′ 

= . (4.46) 

1 + cosα ′ 

En substituant (4.44) et (4.45) dans le second membre de (4.46), il vient en effet : 

tan α′ 

2 = 

√ √ 

1 − β2 sin α 

1 − β2 sin α 

 

= 

cos α+β 

(1 + β cos α) 1 + 

(1 + β)(1 + cosα) 

1+β cos α 

D’où on déduit : 

tan α′ 

2 = 

 

1 − β α 

tan . (4.47) 

1 + β 2 

On obtient les formules permettant de calculer l’angle α en fonction de α ′ en échangeant 

le rôle des quantités primées et non primées (noter que β doit être remplacé par −β dans cet 

échange). Il vient : 

et 

cosα = cos α′ − β 

, (4.48) 

1 − β cos α ′ 

√ 

1 − β2 sin α = 

1 − β cos α ′ sin α′ , (4.49) 

tan α 

2 = 

 

1 + β α′ 

tan . (4.50) 

1 − β 2 

Distance angulaire entre deux sources.— Considérons deux rayons lumineux ∆(1) et 

∆(2) respectivement émis par les sources ponctuelles E(1) et E(2) et arrivant simultanément en 

O à l’instant t = 0. La distance angulaire séparant les deux sources telle qu’elle est vue par 

un observateur en O au repos par rapport au référentiel S est l’angle φ entre ∆(1) et ∆(2). 

55

Demandons-nous quelle est la distance angulaire φ ′ entre E(1) et E(2) vue à l’instant t ′ = 0 par 

un observateur en O ′ au repos par rapport au référentiel S ′ . 

Précisons les notations. Etant donné un rayon lumineux arbitraire, on appelle l le vecteur 

unitaire caractérisant la direction et le sens de la propagation de ce rayon par rapport au 

référentiel S. Le vecteur vitesse v du rayon est alors donné par 

v = c l, avec |l| = 1. (4.51) 

Par rapport au référentiel S ′ , ce rayon se propage bien entendu avec le vecteur vitesse v ′ 

v ′ = c l ′ , avec |l ′ | = 1. (4.52) 

Les rayons ∆(1) et ∆(2) seront donc respectivement caractérisés par les vecteurs l(1) et l(2) 

dans S et par les vecteurs correspondants l ′ (1) et l ′ (2) dans S ′ . Il résulte des équations (4.51) et 

(4.52) et de la loi de composition des vitesses (4.36) que les composantes de l ′ (1) et de l ′ (2) sont 

respectivement données par 

l 1′ 

(1) = l1 (1) 

− β 

1 − β.l(1) 

, l 2′ 

(1) = 

l 1′ 

(2) = l(2) − β 

, l 

1 − β.l(2) 

2′ 

(2) = 

√ 1 − β 2 

l 

1 − β.l(1) 

2 (1) , l 3′ 

(1) = 

√ 1 − β 2 

l 

1 − β.l(2) 

2′ 

(2) , l 3′ 

(2) = 

√ 1 − β 2 

l 

1 − β.l(1) 

3 (1) , (4.53) 

√ 1 − β 2 

l 

1 − β.l(2) 

3′ 

(2) . (4.54) 

L’angle φ ′ cherché étant l’angle formé par les deux vecteurs l ′ (1) et l ′ (2), on peut écrire : 

cos φ ′ = l ′ (1).l ′ (2) 

(4.55) 

puisque |l ′ (1)| = 1 et |l ′ (2)| = 1. Explicitons le second membre de (4.55) en tenant compte de 

(4.53) et de (4.54). Il vient : 

cos φ ′ = 

On a évidemment 

3 

i ′ =1 

l i′ 

(1)l i′ 

(2) 

= (1 − β2 ) 

l1 (1) l1 (2) + l2 (1) l2 (2) + l3 (1) l3 

(2) + β2l1 (1) l1 (2) + β2 − βl1 (1) − βl1 (2) 

[1 − β.l(1)] [1 − β.l(2)] 

l 1 (1)l 1 (2) + l 2 (1)l 2 (2) + l 3 (1)l 3 (2) = l(1).l(2) 

et, compte tenu du choix d’axes que nous avons fait : 

. (4.56) 

(4.57) 

βl 1 (1) = β.l(1) , βl 1 (2) = β.l(2). (4.58) 

En substituant (4.57) et (4.58) dans (4.56) et en notant que β 2 ≡ 1 − (1 − β 2 ), on obtient 

cos φ ′ = (1 − β2 )[l(1).l(2) − 1] + [1 − β.l(1)][1 − β.l(2)] 

[1 − β.l(1)] [1 − β.l(2)] 

= (1 − β2 )[l(1).l(2) − 1] 

+ 1. (4.59) 

[1 − β.l(1)] [1 − β.l(2)] 

56

On a évidemment l(1).l(2) = cos φ. Compte tenu de l’identité 1−cos x = 2 sin 

(4.59) s’écrit donc 

2 φ′ 

sin 

2 = 

2 1 

2 

x, la relation 

1 − β2 φ 

sin2 . (4.60) 

[1 − β.l(1)] [1 − β.l(2)] 2 

Cette relation présente l’intérêt d’être complètement indépendante du choix des axes spatiaux 

dans les référentiels S et S ′ . L’utilisation d’une transformation spéciale de Lorentz ne nous a 

donc pas empéché d’obtenir un résultat général. 

La formule (4.60) est fondamentale pour l’astrométrie puisqu’elle établit un lien direct entre 

deux quantités angulaires qui sont en principe directement mesurables. Du point de vue astronomique, 

il est cependant plus commode de caractériser les rayons lumineux par des vecteurs 

unitaires orientés vers les sources lumineuses. C’est pourquoi nous poserons 

n(1) = −l(1) n(2) = −l(2) , n ′ (1) = −l ′ (1) , n(2) = −l(2) . (4.61) 

Nous formulerons donc la proposition fondamentale suivante. 

Proposition 4.4.1 Supposons qu’un observateur O au repos par rapport à un référentiel galiléen 

S observe simultanément deux sources ponctuelles E(1) et E(2) respectivement dans les 

directions n(1) et n(2) (dans S). Soit φ l’angle entre n(1) et n(2) définissant dans S la distance 

angulaire entre E(1) et E(2). Un observateur O ′ lié à un référentiel galiléen S ′ de vecteur vitesse 

w par rapport à S et coïncidant avec O au moment de l’observation voit E(1) et E(2) 

respectivement dans les directions n ′ (1) et n ′ (2) formant l’angle φ ′ donné par la relation : 

2 φ′ 

sin 

2 = 

les vecteurs n(1), n(2), n ′ (1) et n ′ (2) étant définis par (4.61). 

1 − β2 φ 

sin2 , (4.62) 

[1 + β.n(1)] [1 + β.n(2)] 2 

La relation (4.62) donne φ ′ en fonction de quantités qui sont toutes définies dans S. On 

obtient une relation donnant φ en fonction de quantités toutes définies dans S ′ en échangeant 

les rôles des quantités primées et non primées : 

2 φ 

sin 

2 = 

1 − β ′2 

[1 + β ′ .n ′ (1)] [1 + β ′ .n ′ φ′ 

sin2 , (4.63) 

(2)] 2 

dans laquelle on a posé β ′ = w ′ /c, w ′ étant le vecteur vitesse de S par rapport à S ′ . Nous 

avons vu dans la section précédente que β ′2 = β 2 , mais qu’on ne peut écrire w ′ = −w. 

4.5 Effet Doppler-Fizeau 

Une onde peut très généralement être représentée par une superposition d’ondes planes 

monochromatiques. En outre, la nature scalaire, vectorielle ou tensorielle d’une onde donnée 

ne change pas la théorie de l’effet Doppler-Fizeau. C’est pourquoi nous nous bornerons ici à 

l’étude d’une onde plane monochromatique scalaire définie en chaque point-événement x par 

l’équation 

u(x) = A cos S(x), (4.64) 

57

où A est l’amplitude supposée constante et S(x) est la phase ayant la forme suivante dans un 

reférentiel galiléen S donné : 

S(x) = ωt − k.x , 

3 

k.x = k 

i=1 

i x i , (4.65) 

où ω est la pulsation de l’onde et k le vecteur d’onde par rapport à S. 

Rappelons que suivant des résultats classiques, la fréquence ν de l’onde et sa longueur d’onde 

λ par rapport à S sont respectivement données par les relations 

ν = ω 

2π 

2π 

, λ = , (4.66) 

|k| 

d’où on tire l’expression bien connue de la vitesse de propagation par rapport à S : 

V = ν λ = ω 

. (4.67) 

|k| 

Déterminons l’expression de la phase S(x) lorsqu’on effectue une transformation spéciale de 

Lorentz définie par (4.21). On obtient 

avec 

et 

S(x) = ω 

= 

c x0 − k 1 x 1 − k 2 x 2 − k 3 x 3 

1 

√ 1 − β 2 

ω 

c 

− βk1 

Dans le référentiel S ′ , la phase S(x) s’écrit donc sous la forme 

k 1′ 

= 

 

x 0′ 

 

− k 1 − ω 

c β 

 

x 1′ 

 

− k 2 x 2′ 

− k 3 x 3′ 

. (4.68) 

S(x) = ω′ 

c x0′ − k 1′ 

x 1′ 

− k 2′ 

x 2′ 

− k 3′ 

x 3′ 

, (4.69) 

ω ′ = 

1 

√ ω − wk 

1 − β2 1 

(4.70) 

 

1 

√ k 

1 − β2 1 − ω 

c β 

 

, k 2′ 

= k 2 , k 3′ 

= k 3 . (4.71) 

Il résulte de ces équations que l’onde (4.64) est vue dans le référentiel S ′ comme une onde 

plane dont la pulsation ω ′ est donnée par (4.70) et le vecteur d’onde k ′ est le vecteur dont les 

composantes sont données par (4.71). On déduit de (4.70) que la fréquence ν ′ de l’onde telle 

qu’elle serait mesurée par un observateur au repos par rapport à S ′ est 

ν ′ = ω′ 

2π = 

 

1 

√ ν − w 

1 − β2 k1 

 

2π 

(4.72) 

On note que wk 1 est la valeur du produit scalaire usuel du 3-vecteur vitesse w et du 3vecteur 

d’onde k, puisque w = (w, 0, 0). Utilisant la notation classique (4.1), on peut donc 

poser : 

wk 1 = w.k . (4.73) 

58

En conséquence, la relation (4.72) s’écrit encore 

ν ′ 

1 

= √ ν − 

1 − β2 w.k 

 

, (4.74) 

2π 

On sait que la direction et le sens dans lesquels l’onde se propage par rapport au référentiel 

S sont respectivement la direction et le sens du vecteur k. On peut tout aussi bien caractériser 

cette direction et ce sens par le vecteur unitaire l défini par 

l = k 

. (4.75) 

|k| 

Compte tenu de (4.66), (4.67) et (4.75), la relation (4.74) s’écrit finalement 

ν ′ 

ν 

= √ 1 − 

1 − β2 w.l 

 

. 

V 

Déterminons maintenant la longueur d’onde λ ′ par rapport au référentiel S ′ . On a 

λ ′ = 2π 

|k ′ . (4.76) 

| 

D’après (4.67) et (4.73), la première équation de (4.71) élevée au carré peut sécrire 

(k 1′ 

) 2 = 1 

1 − β2 

(k 1 ) 2 2 

− |k| 

2V 

c2 

2 w.l 

 

− β2 

V 

Compte tenu de cette équation et de k2′ = k2 ,k3′ = k3 , il vient 

|k ′ | 2 = (k 1′ 

) 2 + (k 2′ 

= |k|2 

1 − β2 

1 − β 2 2 

+ β 

2V 

− 2V 

c2 c 

) 2 + (k 3′ 

) 2 

(β.l) + (β.l)2 

La longueur d’onde par rapport au référentiel S ′ a donc pour expression : 

λ ′ = λ 

√ 

1 − β2 . 

1 − β2 + β2 V 2 

c2 − 2 V 

c 

(β.l) + (β.l)2 

 

(4.77) 

. (4.78) 

La vitesse de propagation V ′ de l’onde par rapport à S ′ se déduit aisément des expressions 

obtenues pour ν ′ et λ ′ . Il vient : 

V ′ = ν ′ λ ′ = ν′ 

ν 

λ ′ 

V = V 

λ 

 

1 − w.l 

V 

1 − β2 + β2 V 2 

c2 − 2 V 

c 

(β.l) + (β.l)2 

Les formules trouvées ci-dessus expriment les rapports ν ′ /ν, λ ′ /λ et V ′ /V sous une forme 

qui est indépendante du choix des axes spatiaux dans les référentiels S et S ′ . Autrement dit, 

nous pouvons oublier que nous nous sommes servis de la transformation spéciale de Lorentz 

pour les établir. En conséquence, nous avons établi des relations générales. Rappelons que nous 

avons déjà rencontré ce type de déduction dans la section 4.4. 

Nous sommes ainsi conduits à la proposition suivante : 

59 

.

Proposition 4.5.1 Soit une onde monochromatique plane décrite dans un référentiel galiléen 

arbitraire S par l’équation 

 

ω 

u(x) = A cos 

c x0 

− k.x . 

Soit S ′ un référentiel galiléen ayant une vitesse w par rapport à S. Si ν, λ et V désignent 

respectivement la fréquence, la longueur d’onde et la vitesse de phase de l’onde telles qu’elles 

sont mesurées dans le référentiel S, alors la fréquence ν ′ , la longueur d’onde λ ′ et la vitesse de 

phase V ′ mesurées dans le référentiel S ′ sont respectivement données par 

ν ′ = 

λ ′ = λ 

 

1 − w.l 

 

, 

V 

(4.79) 

√ 

1 − β2 1 − β2 + β2 V 2 

c2 − 2 V 

, 

c 

(β.l) + (β.l)2 

(4.80) 

ν 

√ 1 − β 2 

V ′ = V 

où l est le vecteur unitaire défini par (4.75). 

1 − w.l 

V 

1 − β2 + β2 V 2 

c2 − 2 V 

c 

(β.l) + (β.l)2 

, (4.81) 

Onde monochromatique émise par une source éloignée.— Considérons maintenant 

une onde monochromatique émise par une source ponctuelle E dont l’éloignement est beaucoup 

plus grand que la dimension du récepteur R utilisé pour son observation. Nous supposons que 

le récepteur est situé en un point xR immobile par rapport à un référentiel galiléen S et que la 

source E est animée d’un mouvement rectiligne uniforme de vecteur vitesse w par rapport à S. 

Nous pouvons assimiler l’onde arrivant sur le récepteur R à une onde monochromatique plane. 

L’onde arrivant sur le récepteur R a été émise en x(tE) à l’instant tE défini par 

|xR − xE(tE)| = V (tR − tE). (4.82) 

Le vecteur l parallèle à la direction de cette onde incidente et orienté dans le sens de 

propagation est donc défini par 

l = xR − xE(tE) 

. (4.83) 

|xR − xE(tE)| 

Il faut noter que tE est une fonction de tR, de w et de la position x0 de E à un instant 

initial t0 arbitrairement choisi. 

Le référentiel galiléen S0 comouvant avec la source E joue le rôle joué par le référentiel 

S ′ dans ce qui précède. La fréquence ν ′ dans la formule (4.79) est maintenant la fréquence ν0 

de la source émettrice qui serait mesurée par un observateur au repos par rapport à S0. On 

appelle ν0 la fréquence propre de E. La fréquence ν observée dans S à l’instant tR se déduit 

immédiatement de (4.79). Nous pouvons donc formuler la proposition qui suit. 

Proposition 4.5.2 (Effet Doppler-Fizeau) Soit R un récepteur au repos par rapport à un 

référentiel galiléen S observant un train d’ondes monochromatiques de fréquence propre ν0 émis 

60

par une source se mouvant avec un vecteur vitesse w constant par rapport à S. La fréquence ν 

du train d’ondes mesurée par R à l’instant tR est donnée par la relation : 

√ 

1 − β2 ν = ν0 

1 − w.l 

, (4.84) 

V 

où V désigne la vitesse de propagation des ondes par rapport à S et l est le vecteur défini par 

(4.83). 

Pour un train d’ondes monochromatiques se déplaçant avec la vitesse invariante c (cas de 

la lumière, par exemple), on a V = c et la relation (4.84) s’écrit 

√ 

1 − β2 ν = ν0 , (4.85) 

1 − β.l 

où β est défini par (4.38). L’équation (4.85) est l’expression relativiste de l’effet Doppler-Fizeau 

pour les radiations lumineuses se propageant dans le vide. 

61

Chapitre 5 

Dynamique relativiste (I) 

Nous nous sommes jusqu’ici uniquement préoccupés de construire une cinématique. Nous 

avons en effet décrit les mouvements des particules et des observateurs sans nous intéresser 

aux causes susceptibles de produire ces mouvements. Dans ce chapitre, nous allons formuler une 

dynamique compatible avec le cadre défini par l’espace-temps de Minkowski. Pour cela, les postulats 

que nous avons introduits jusqu’ici sont insuffisants. Il nous faut introduire de nouveaux 

postulats, dont le plus important est ce que l’on appelle fort improprement le principe de relativité 

et qu’il nous paraît bien préférable de nommer le principe d’équivalence des référentiels 

galiléens. 

Les notations et conventions utilisées dans ce chapitre sont les mêmes que dans le chapitre 

précédent. En particulier, un vecteur de l’espace affine proprement euclidien E3[S] associé à 

un référentiel galiléen S est représenté par une lettre grasse ou par le triplet constitué par ses 

composantes par rapport à un trièdre orthonormé (O,ei). 

5.1 Principe d’équivalence des référentiels galiléens 

Nous allons avoir besoin d’un nouveau principe pour fonder une physique et en particulier 

une dynamique compatibles avec la cinématique exposée dans les chapitres précédents. Ce principe 

est universellement appelé “principe de relativité”, mais cette dénomination est regrettable 

car elle ne renseigne pas sur le contenu effectif du dit principe. Il s’agit en fait d’un principe 

postulant l’équivalence complète des référentiels galiléens pour formuler les lois de la physique. 

D’où la dénomination proposée ici. 

Postulat 5.1.1 (Principe d’équivalence des référentiels galiléens ou principe de relativité) 

Les lois physiques gouvernant les interactions ont la même forme dans tous les 

référentiels galiléens. 

Nous notons que le postulat d’existence d’une vitesse c invariante par les changements de 

référentiels galiléens est compatible avec le principe d’équivalence des référentiels galiléens. Un 

physicien déterminant cette vitesse fondamentale dans un référentiel galiléen S donné va trouver 

la même valeur de c qu’un autre physicien effectuant des expériences analogues dans un autre 

référentiel galiléen S ′ en mouvement par rapport à S précisément parce que c est invariante (on 

suppose bien entendu que les mêmes systèmes d’unités sont utilisés dans S et S ′ ). 

62

5.2 Quantité de mouvement et énergie cinétique d’une 

particule isolée 

Considérons une particule se mouvant avec une vitesse v par rapport à un reférentiel galiléen 

arbitraire S. Selon la mécanique newtonienne, cette particule possède une quantité de 

mouvement p et une énergie cinétique Ec respectivement définies par 

et 

p = mv (5.1) 

Ec = 1 

2 mv2 , (5.2) 

où m est un nombre réel positif appelé la masse inerte (ou simplement la masse) de la particule. 

Comment peut-on définir des grandeurs analogues en relativité restreinte ? On suppose bien 

entendu que les particules considérées ont toutes des lignes d’univers du genre temps. 

On commence d’abord par généraliser le concept de masse en admettant le postulat qui 

suit. 

Postulat 5.2.1 À toute particule P dont la ligne d’univers est du genre temps, on peut attribuer 

un nombre réel positif m qu’on appelle la masse inerte (ou simplement masse) de P. La 

quantité scalaire m est indépendante du référentiel1 . 

Le postulat 5.2.1 ne stipule nullement que la masse d’une particule reste nécessairement 

inchangée au cours de l’histoire de cette particule. Considérons par exemple un atome. Il découle 

de ce qui va être établi dans la suite que si cet atome émet ou absorbe un photon, sa masse 

inerte varie : dans le premier cas sa masse inerte diminue, dans le second cas sa masse augmente. 

Nous allons maintenant chercher à définir la quantité de mouvement p et l’énergie cinétique 

Ec d’une particule en supposant que ces grandeurs sont de la forme suivante : 

 

p = M m, v 

 

v (5.3) 

c 

et 

 

Ec = Ec m, v 

 

, (5.4) 

c 

où M(m, v/c) et Ec(m, v/c) sont des fonctions de la masse et du vecteur vitesse de la particule. 

Le principe d’équivalence des référentiels galiléens entraîne que M(m, v/c) et Ec(m, v/c) 

sont des fonctions universelles de la masse inerte m et du vecteur vitesse v, i.e. des fonctions 

qui ne dépendent pas du référentiel galiléen par rapport auquel la particule est décrite. De 

plus le principe d’isotropie de l’espace implique que M(m, v/c) et Ec(m, v/c) doivent dépendre 

seulement de m et de la valeur absolue de v ou encore du carré de v. En conséquence on cherche 

à déterminer p et Ec sous la forme 

 

p = M 

m, v2 

c 2 

v (5.5) 

1 On évitera de parler de masse relativiste variant avec la vitesse comme on a continué à le faire longtemps 

après la naissance de la relativité restreinte. Les anciens traités introduisaient souvent la masse longitudinale 

et la masse transversale. La quantité m introduite dans le postulat 5.2.1 était alors souvent appelée la masse 

propre. 

63

et 

où on a posé 

Ec = Ec 

 

m, v2 

c 2 

 

, (5.6) 

v = |v|. (5.7) 

On admet que (5.5) et (5.6) coïncident avec les expressions newtoniennes lorsque la vitesse 

|v| devient infiniment petite. On doit donc avoir 

et 

lim 

|v|→0 M 

 

2Ec 

lim 

|v|→0 

 

m, v2 

c 2 

m, v2 

c 2 

 

 

= m (5.8) 

mv 2 = 1. (5.9) 

On admet en outre que la valeur absolue de la quantité de mouvement M(m,v 2 /c 2 )v et 

l’énergie cinétique Ec(m,v 2 /c 2 ) sont des fonctions continues, monotones croissantes de v sur 

l’intervalle 0 ≤ v < c. Comme la quantité de mouvement et l’énergie cinétique doivent prendre 

la valeur nulle lorsque v = 0 d’après (5.8) et (5.9), les fonctions M(m,v 2 /c 2 ), M(m,v 2 /c 2 )v et 

Ec(m,v 2 /c 2 ) sont > 0 lorsque v = 0. 

Sous ces hypothèses, on démontre que les fonctions universelles M(m,v 2 /c 2 ) et Ec(m,v 2 /c 2 ) 

sont complètement déterminées en écrivant que lors d’une collision élastique de deux particules 

de masses identiques, la somme vectorielle des quantités de mouvement et la somme des énergies 

totales sont conservées quel que soit le référentiel gali̷léen dans lequel on décrit le processus (voir 

Annexe D). On trouve ainsi qu’une particule de vitesse v a pour quantité de mouvement le 

vecteur 

et pour énergie cinétique la quantité 

p = mv 

 

1 − v2 

c2 ⎛ 

⎞ 

(5.10) 

Ec = mc 2 

⎜ 1 

⎜ 

⎝ 

 

1 − v2 

c2 ⎟ 

− 1⎟ 

⎠ . (5.11) 

Lorsque la vitesse de la particule est petite devant la vitesse fondamentale c, on peut faire un 

développement approché des seconds membres de (5.11) et (5.10). Compte tenu de (1−x 2 ) −1/2 ≈ 

1 + 1 

2 x2 + 3 

8 x4 + ..., on obtient 

et 

p = m 

Ec = 1 

2 mv2 

 

 

1 + 1 v 

2 

2 

 

+ ... v (5.12) 

c2 1 + 3 

4 

v2 

+ ... . (5.13) 

c2 Ces deux dernières formules montrent comment les expressions relativistes de la quantité de 

mouvement et de l’énergie cinétique diffèrent des expressions newtoniennes aux faibles vitesses. 

64

5.3 Energie d’une particule. Inertie de l’énergie 

La formule (5.11) suggère que la quantité mc 2 est une énergie qui appartient en propre 

à la particule lorsque celle-ci est au repos par rapport au référentiel choisi pour décrire les 

phénomènes. On peut montrer la validité de ce point de vue en considérant le cas d’un choc 

mou de deux particules de masses identiques m0 animées de vitesse opposées avant la collision. 

Dans un référentiel galiléen S, donnons-nous deux particules isolées (1) et (2) identiques se 

mouvant sur la même ligne droite avec des vitesses v(1) et v(2) opposées : v(2) = −v(1). On peut 

toujours choisir l’origine O et l’axe Ox 1 de telle sorte que le mouvement des deux particules 

s’effectue sur Ox 1 et que la collision frontale se produise en O. On appelle m0 la masse de 

chaque particule incidente. On suppose que la collision est un choc tel que les deux particules 

fusionnent parfaitement en donnant une particule unique ayant une masse M (choc mou). Il 

résulte immédiatement de la conservation de la quantité de mouvement totale que la particule 

résultante est au repos par rapport au référentiel S. Pour simplifier, nous posons 

v = v 1 (1) = −v 1 (2). (5.14) 

Pour déterminer la masse M de la particule résultante, décrivons la collision dans le référentiel 

galiléen S ′ se mouvant avec la vitesse v(1) par rapport au référentiel S. Nous supposons que les 

axes de S et de S ′ sont disposés comme on l’a représenté sur la Fig. 4.1 du chapitre précédent. 

Par rapport à S ′ , la vitesse v1′ (1) de la particule (1) est nulle et la vitesse v1′ 

(2) de la particule (2) 

est selon la loi de composition des vitesses énoncée par les éqs. (4.35) (w doit être remplacé ici 

par v) : 

v 1′ −v − v 

(2) = 

1 − v(−v) 

c2 = − 2v 

1 + v2 

c2 . (5.15) 

La vitesse de la particule résultante par rapport à S ′ est évidemment −v. La conservation 

de la quantité de mouvement totale se traduit donc dans S ′ par l’équation 

− 

 

 

1 

− 

 

m0 

c 2 

4v2 

1+ v2 

c2 2 2v 

1 + v2 

c 2 

= − Mv 

 

1 − v2 

c2 . (5.16) 

Après une division des deux membres par −v et un petit calcul, (5.16) donne pour la masse 

de la particule résultant de la collision : 

M = 2m0 

 

1 − v2 

c2 . (5.17) 

Cette formule montre que la masse M de la particule résultant d’un choc parfaitement mou, 

i.e. sans rebond, est plus grande que la somme des masses m0 des particules incidentes. D’où 

la conclusion fondamentale : le principe newtonien stipulant que la masse inerte d’un système 

est égale à la somme des masses inertes des particules constituant ce système ne peut être 

maintenu. 

Nous allons voir que la relation (5.17) permet d’établir l’équivalence entre masse inerte et 

énergie au repos à condition d’admettre la validité des trois hypothèses suivantes : 

65

1.— On peut attribuer à toute particule de masse inerte m une énergie définie par une 

relation de la forme 

E = Ec + Er, (5.18) 

où Ec est l’énergie cinétique donnée par (5.11) et Er est l’énergie au repos de la particule. 

2.— L’énergie au repos d’une telle particule dépend uniquement de sa masse inerte. Il résulte 

alors du principe d’équivalence des référentiels galiléens que Er est indépendante du référentiel 

galiléen. Autrement dit, Er est une fonction universelle de m, ce qui nous permet de poser 

Er = Er(mc 2 ). (5.19) 

3.— La fonction universelle Er(mc 2 ) est une fonction continue de m telle que 

Er(0) = 0. (5.20) 

Il est possible de déterminer la fonction Er(mc2 ) en écrivant la conservation de l’énergie 

totale. Dans le référentiel S, on a en effet d’après (5.18) et (5.19) : 

⎛ ⎞ 

2m0c 2 

⎜ 1 

⎜ 

⎝ 

 

1 − v2 

c2 ⎟ 

− 1⎟ 

⎠ + 2Er(m0c 2 ) = Er(Mc 2 ). (5.21) 

Compte tenu de (5.17), (5.21) s’écrit 

Er(Mc 2 ) − Mc 2 = 2 

Er(m0c 2 ) − m0c 2 

. (5.22) 

Posons M = 2m1. La relation (5.22) s’écrit alors 

Er(2m1c 2 ) − 2m1c 2 = 2Er(m0c 2 ) − 2m0c 2 . (5.23) 

Cette relation doit être vérifiée pour toute masse m0 et pour toute masse m1 ≥ m0 puisque 

v peut être choisie arbitrairement entre 0 et c. Pour m1 = m0, (5.23) donne 

Er(2m0c 2 ) = 2Er(m0c 2 ) (5.24) 

La relation (5.24) entraîne évidemment Er(2m1c 2 ) = 2Er(m1c 2 ) puisque la fonction E(mc 2 ) 

est universelle. L’équation (5.23) peut donc s’écrire après division des deux membres par 2 : 

Er(m1c 2 ) − Er(m0c 2 ) = m1c 2 − m0c 2 . (5.25) 

Il résulte immédiatement de l’équation (5.25) et de l’hypothèse 3 que la fonction universelle 

Er(m) est donnée par la célèbre relation 

Er(mc 2 ) = mc 2 . (5.26) 

Nous avons établi cette relation en étudiant le choc mou de deux particules, mais nous 

aurions pu par exemple remplacer les deux particules par deux sphères matérielles identiques 

subissant un choc mou. C’est pourquoi on admet la validité générale du postulat qui suit. 

Postulat 5.3.1 (Principe de l’inertie de l’énergie) Tout système physique de masse inerte 

m possède une énergie au repos Er = mc 2 . Réciproquement, tout système possédant une énergie 

totale au repos Er a une masse inerte m = Er/c 2 . 

Le postulat 5.3.1 s’est avéré en excellent accord avec l’expérience. Cette extension du principe 

de l’inertie de l’énergie est à la base, on le sait, de l’exploitation de l’énergie nucléaire et 

permet d’expliquer le rayonnement des étoiles. 

66

5.4 Relations entre l’énergie et la quantité de mouvement 

d’une particule 

Il résulte de ce qui précède qu’on peut attribuer à toute particule de masse inerte m et de 

vecteur vitesse v une énergie E et une quantité de mouvement p respectivement définies par 

et 

E = Er + Ec = mc2 

 

1 − v2 

c2 (5.27) 

p = mv 

 

1 − v2 

c2 . (5.28) 

L’énergie E peut s’exprimer en fonction de m et de p. Formons en effet le carré de chacun 

des membres de (5.28). Il vient : 

p 2 = m2v2 1 − v2 

c2 , 

ce qui entraîne 

m 2 c 2 + p 2 = m 2 c 2 + m2v2 1 − v2 

c2 = m2c2 1 − v2 

c2 . (5.29) 

Rapprochée de l’expression de l’énergie donnée par (5.27), l’équation (5.29) montre que 

l’énergie d’une particule s’exprime en fonction de la masse et de la quantité de mouvement par 

la relation 

E = 

 

m 2 c 4 + c 2 p 2 . (5.30) 

On peut également exprimer le vecteur quantité de mouvement en fonction de l’énergie E 

et du vecteur vitesse v. En effet, l’équation (5.27) donne 

m 

 

1 − v2 

c2 = E 

c 2. 

En substituant (5.31) dans (5.28), il vient donc : 

p = E 

c 2v. 

(5.31) 

(5.32) 

Les relations (5.30) et (5.32) sont fondamentales en théorie des particules de masse non 

nulle. Elles permettent également d’élaborer la théorie des particules de masse nulle, comme 

nous allons le voir maintenant. 

5.5 Particules de masse nulle 

67

Les formules obtenues jusqu’ici montrent que si la masse d’une particule est supposée = 0, 

l’énergie et la quantité de mouvement sont des quantités réelles si et seulement si la vitesse |v| 

de la particule est inférieure à c. Nous pouvons en conclure qu’une particule de masse inerte m 

réelle non nulle a une ligne d’univers du genre temps. 

Peut-il exister des particules de masse nulle ? Les formules (5.27) et (5.28) montrent qu’une 

particule de masse nulle se mouvant avec une vitesse inférieure à c possède une énergie et une 

quantité de mouvement toutes deux nulles. Or, un objet ne transportant ni énergie ni quantité 

de mouvement ne semble pas pouvoir constituer une entité physique observable. Le formalisme 

de la théorie rend toutefois possible l’existence de masses nulles transportant une énergie et une 

quantité de mouvement différentes de zéro. On voit en effet que poser m = 0 dans l’ équation 

(5.30) entraîne la relation 

E = c|p| 

qui est compatible avec l’équation (5.32) et avec la condition E = 0 si la vitesse de la particule 

est égale à la vitesse fondamentale c. Nous pouvons donc énoncer la proposition suivante. 

Proposition 5.5.1 Une particule se mouvant avec une vitesse égale à c est une particule de 

masse nulle. L’énergie E et la quantité de mouvement p d’une telle particule sont liées par la 

relation : 

|p| = E 

. (5.33) 

c 

On notera que la relation fondamentale (5.33) peut encore s’écrire de manière équivalente 

E2 c2 − p2 = 0. (5.34) 

Nous avons vu qu’on pouvait admettre expérimentalement que la vitesse de propagation 

de la lumière dans le vide est égale à la vitesse fondamentale. Par ailleurs, l’étude de l’effet 

photoélectrique a conduit Einstein à admettre que l’énergie transportée par une onde électromagnétique 

monochromatique de fréquence ν est distribuée en paquets discrets ou quanta d’énergie 

E = hν, où h est la constante de Planck2 . Ces quanta d’énergie lumineuse sont appelés des 

photons. La relativité restreinte conduit donc à admettre que les photons sont des particules de 

masse nulle. 

Il résulte de (5.33) qu’un photon d’énergie hν possède une quantité de mouvement donnée 

par 

|p| = hν 

. (5.35) 

c 

5.6 Loi fondamentale de la dynamique 

Donnons-nous un référentiel galiléen S et considérons une particule de masse m soumise 

à des forces dont la résultante dans S est le vecteur F. En physique prérelativiste, la loi 

fondamentale de la dynamique (ou seconde loi de Newton) se traduit par l’équation 

2 h = 6,626 × 10 −34 J.s. 

F = d(mv) 

. (5.36) 

dt 

68

qui redonne la relation bien connue 

F = ma, a = dv 

, (5.37) 

dt 

lorsque la masse m est invariable. 

La relation (5.36) suggère de formuler le postulat suivant, qui s’est avérée en excellent accord 

avec l’expérience : 

Postulat 5.6.1 (Principe fondamental de la dynamique relativiste) Dans un référentiel 

galiléen arbitraire, le mouvement d’une particule de masse inerte m soumise à des forces de 

résultante F est gouverné par l’équation 

F = dp 

dt 

Ce postulat entraîne la proposition qui suit. 

⎛ 

⎞ 

d ⎜ mv 

= ⎜ 

dt 

⎝ 

 

1 − v2 

c2 ⎟ 

⎠ . (5.38) 

Proposition 5.6.1 Soit P une particule de masse m soumise à des forces de résultante F. La 

variation de l’énergie E de la particule est lié à la puissance de la force résultante F par la 

relation : 

dE 

dt = F.v + c2 

dm 

dt 

1 − v2 

. 

c2 (5.39) 

Démonstration de la proposition 5.6.1.— En utilisant la règle de dérivation de Leibniz, la 

loi de la dynamique (5.38) s’écrit 

à condition de poser 3 

F = dm 

dt 

v 

√ 

1 − β2 m dv 

+ √ 

1 − β2 dt + 

β = |v| 

c 

m 

(1 − β 2 ) 3/2 

1 

c2 

v. dv 

 

v, (5.40) 

dt 

v 

= . (5.41) 

c 

Notant que v.dv/dt = c 2 βdβ/dt, on déduit de (5.40) que la puissance de F s’écrit 

Or, on voit que 

F.v = mc2 

√ 

1 − β2 βdβ 

dt + mc2β2 (1 − β2 ) 3/2βdβ dt + 

mc2 √ 

1 − β2 βdβ 

dt + mc2β2 (1 − β2 ) 3/2βdβ dt ≡ 

≡ 

β2 √ 

1 − β2 c2dm . (5.42) 

dt 

mc2 (1 − β2 ) 3/2[1 − β2 + β 2 ]β dβ 

dt 

mc2 (1 − β2 ) 3/2βdβ dt 

3 On notera que la quantité β définie par (5.41) est relative à la particule, alors que la quantité β du chap. 4 

était relative au référentiel galiléen utilisé pour décrire le mouvement. 

69

Mais on vérifie facilement que 

mc2 (1 − β2 ) 3/2βdβ dt 

 

2 d mc 

= √ − 

dt 1 − β2 Substituons le second membre de (5.43) dans (5.42). Il vient 

Du fait que 

l’équation (5.44) s’écrit 

F.v = d 

 

2 mc 

√ − 

dt 1 − β2 1 

−√ 

1 − β2 c2dm 

dt + 

1 

√ 1 − β 2 c2dm 

dt + 

β 2 

√ 1 − β 2 c2dm 

dt 

1 

√ 1 − β 2 c2dm 

dt 

β 2 

√ 1 − β 2 c2dm 

dt 

 

≡ − 1 − β2c 2dm 

dt 

F.v = d 

 

2 mc 

√ − c 

dt 1 − β2 2dm 

 

1 − β 

dt 

2 

(5.43) 

(5.44) 

Cette équation est équivalente à (5.39). C. Q. F. D. 

Lorsque la masse m reste invariable, l’énergie E figurant dans la formule (5.39) peut être 

remplacée par l’énergie cinétique Ec définie par (5.11). On a alors la relation 

dEc 

dt 

= F.v, (5.45) 

équation formellement analogue à la relation existant entre la variation d’énergie cinétique et la 

puissance de la force en mécanique newtonienne usuelle. L’équation (5.45) est souvent présentée 

comme une justification a posteriori du postulat fondamental 5.6.1. 

En multipliant le numérateur et le dénominateur par c 2 , l’équation (5.38) de la dynamique 

peut encore s’écrire 

F = 

m 

 

1 − v2 

c2 dv 

dt 

⎛ 

⎞ 

v d ⎜ mc 

+ ⎜ 

c2. dt 

⎝ 

2 

 

1 − v2 

c2 ⎟ 

⎠ = 

m 

 

1 − v2 

c 2 

a + v 

c 2 

dE 

. (5.46) 

dt 

Remplaçons dE/dt par l’expression (5.39) dans (5.46). On voit que l’équation fondamentale 

de la dynamique peut s’écrire sous la forme 

F = 

m 

 

1 − v2 

c2 ⎡ 

a + ⎣ (F.v) 

 

+ 1 − 

c2 v2 

c2 ⎤ 

dm 

⎦ v. (5.47) 

dt 

L’équation (5.47) montre qu’en relativité le 3-vecteur force et le 3-vecteur accélération ne 

sont généralement pas colinéaires. On notera que si la masse de la particule demeure constante 

au cours de l’interaction, la colinéarité de F et de a se produit si et seulement si F est orthogonal 

à v ou parallèle à v. 

70

5.7 Particule chargée dans un champ électromagnétique 

Pour illustrer ce qui précède, considérons une particule de charge électrique e en mouvement 

dans un champ électromagnétique donné 4 , caractérisé par un champ électrique E(t,x) et une 

induction magnétique B(t,x). On admet que le premier membre de l’équation fondamentale de 

la dynamique s’identifie à la force de Lorentz F = e [E + v × B]. Le mouvement de la particule 

satisfait donc l’équation 5 

⎛ 

d 

⎝ 

dt 

mv 

 

1 − v2 

c2 ⎞ 

⎠ = e [E + v × B] . (5.48) 

Dans tout ce qui suit, on suppose que la masse de la particule est invariable. On notera que 

l’équation (5.48) se réduit à 

ma = e [E + v × B] (5.49) 

si la particule se meut avec une vitesse très petite par rapport à la vitesse fondamentale c. 

La partie de la force de Lorentz due à l’induction magnétique B est orthogonale au vecteur 

vitesse : seul le champ électrique fournit un travail. L’équation (5.39) s’écrit donc ici 

⎛ 

d 

⎝ 

dt 

mc2 

 

1 − v2 

c2 ⎞ 

⎠ dt = e(E.v). (5.50) 

Dans la théorie de Maxwell, le champ électrique E(t,x) s’exprime à partir d’un potentiel 

V (t,x) et d’un potentiel vecteur A(t,x) par la relation 

où ∇V est le vecteur gradient du potentiel scalaire V . On a donc 

E = −∇V − ∂A 

, (5.51) 

∂t 

e(E.v) = −ev.∇V − ev. ∂A 

. (5.52) 

∂t 

Or, la dérivée totale de V (t,x) par rapport au temps le long de la ligne d’univers de la 

particule chargée est 


dV 

dt 

ev.∇V = e dV 

dt 

Substituons (5.54) dans (5.52). Il vient 

e(E.v) = −e dV 

dt 

∂V 

= v.∇V + , (5.53) 

∂t 

+ e∂V 

∂t 

− e∂V . (5.54) 

∂t 

− ev.∂A . (5.55) 

∂t 

4 On veut dire par là que le champ électromagnétique est imposé par un ou des systèmes extérieurs et n’est en 

aucune manière influencé par la particule chargée considérée. On dit aussi que cette particule est une particule 

d’épreuve. On notera que cette approche n’est acceptable que si on peut négliger l’émission de radiation par la 

particule chargée. 

5 Toutes les quantités sont exprimées dans le sytème SI. 

71

Substituons maintenant (5.55) dans (5.50) . Nous obtenons la relation : 


⎛ 

d 

⎝ 

dt 

mc2 

 

1 − v2 

c2 ⎞ 

⎠ = −e dV 

dt 

⎛ 

d 

⎝ 

dt 

mc2 

 

1 − v2 

c2 ⎞ 

+ e 

∂V 

∂t 

 

∂V 

+ eV ⎠ = e 

∂t 

− v.∂A 

∂t 

− v.∂A 

∂t 

 

 

(5.56) 

. (5.57) 

Le second membre de (5.57) n’est généralement pas une différentielle totale le long de la 

ligne d’univers de la particule. Il est donc en règle générale impossible de définir une énergie 

totale conservée pour une particule chargée soumise à un champ électromagnétique donné. 

Lorsque le champ électromagnétique est indépendant du temps (on dit aussi constant ou 

encore stationnaire), il est toutefois possible de définir une loi de conservation de l’énergie. 

Dans ce cas en effet, on peut choisir la jauge du champ de telle sorte que les potentiels V et A 

soient des fonctions indépendantes du temps, ce qui entraîne la nullité du second membre de 

(5.57). La quantité figurant entre les parenthèses dans le premier membre est alors constante 

au cours du mouvement de la particule. Nous pouvons donc énoncer la proposition qui suit. 

Proposition 5.7.1 Dans un champ électromagnétique indépendant du temps de potentiel V = 

V (x), le mouvement d’une particule chargée de masse invariable m et de charge e est tel que 

la relation de conservation 

mc2 

1 − v2 

c2 + eV (x) = Cte (5.58) 

soit satisfaite. 

L’intégrale première (5.58) est évidemment précieuse pour l’étude du mouvement, comme 

on va le voir dans la section suivante. 

5.8 Un exemple : mouvement d’une charge dans un champ 

magnétique constant uniforme 

Supposons qu’il n’y ait pas de champ électrique et que le champ magnétique soit indépendant 

du temps6 . Le premier membre de (5.58) se confond alors avec l’énergie de la particule7 

E = 

mc 2 / 

1 − v2 

c 2 puisqu’on peut toujours poser V = 0. On a dès lors l’intégrale première 

E = mc2 

 

1 − v2 

c2 = Cte. (5.59) 

6On notera que d’après les équations de Maxwell, E(t,x) = 0 entraîne ∂B(t,x)/∂t = 0 dans les régions 

vides de charges. 

7Dans cette section, nous utilisons la lettre calligraphique E pour l’énergie de la particule afin d’éviter toute 

confusion avec le champ électrique. 

72

Il est commode décrire (5.38) en remplaçant p par son expression donnée par (5.32). On 

obtient ainsi l’équation du mouvement 

dp 

dt 

E 

= 

c2 dv 

dt 

= ev × B, 

soit en divisant les deux membres par la constante E/c 2 

dv 

dt 

= ec2 

E 

(v × B). (5.60) 

On peut remplacer E par mc 2 lorsque la particule est de vitesse très petite par rapport à c 

(approximation non relativiste). Lae rapport ec 2 /E se réduit alors à e/m. 

Lorsque le champ magnétique constant est en outre supposé uniforme, on peut poser 

B = Bk, (5.61) 

où B est une constante et k un vecteur unitaire constant. A condition de poser 

l’équation du mouvement (5.60) s’écrit alors 

dv 

dt 

ω = eBc2 

, (5.62) 

E 

= ω(v × k). (5.63) 

La quantité ω est appelée fréquence synchrotron ou encore fréquence de gyration. On notera 

que pour une particule de masse donnée, la fréquence synchrotron dépend de la vitesse de la 

particule. Il suit en effet de (5.59) que 

ω = eB 

m 

1 

, (5.64) 

Γ 

où Γ est le facteur de Lorentz de la particule (cf. Chap. 3). La quantité eB/m est appelée 

fréquence cyclotron. 

À titre d’exercice, on déduira de cette équation que la trajectoire de la particule est une 

hélice dont l’axe est parallèle au vecteur B et dont le rayon R est donné par 

R = E(v⊥)0 

, (5.65) 

e|B|c2 où (v⊥)0 est la valeur absolue de la projection du vecteur vitesse initiale de la particule sur un 

plan orthogonal à B. 

Pour démontrer cette relation, on pourra au choix expliciter et intégrer les équations (5.63) 

dans un système d’axes orthonormés (O,x 1 ,x 2 ,x 3 ) tel que Ox 3 soit parallèle à B, ou bien 

utiliser une méthode vectorielle fondée sur la décomposition du vecteur vitesse v de la particule 

en un vecteur v|| parallèle à B et un vecteur v⊥ orthogonal à B. 

La formule (5.65) est à la base de la conception des synchrocyclotrons et des synchrotrons, 

accélérateurs de particules permettant d’obtenir des vitesses relativistes. Le complexe du CERN 

73

près de Genève abrite plusieurs synchrotrons, dont le plus grand du monde, le Large Hadron 

Collider (LHC), inauguré en 2008. 

Lorsque |v| est très faible devant c, on a E ≈ mc 2 . La relation (5.65) se réduit alors à 

R ≈ m(v⊥)0 

e|B| 

(5.66) 

Cette relation approchée est suffisante pour rendre compte du fonctionnement des cyclotrons, 

qui sont des accélérateurs de particules limités à des vitesses petites devant c. 

74

Chapitre 6 

Dynamique relativiste (II) 

Dans le chapitre précédent, nous avons montré comment on peut édifier la dynamique 

relativiste des particules en maintenant la distinction entre l’espace affine à trois dimensions 

associé à un référentiel galiléen arbitraire et le temps dans le même référentiel. Le but de ce 

nouveau chapitre est formuler les équations de la dynamique en termes de vecteurs et de tenseurs 

sur l’espace-temps de Minkowski. Cette reconstruction est en fait indispensable pour développer 

une dynamique des milieux continus, et préparer ainsi le terrain aux théories relativistes de la 

gravitation. 

6.1 Quadri-vecteur vitesse unitaire d’une particule 

6.2 Quadrivecteur impulsion-énergie 

6.3 Quadrivecteur accélération 

6.4 Loi de la dynamique en formalisme quadridimensionnel 

6.5 Dynamique des milieux continus 

75

Chapitre 7 

Gravitation et relativité 

La gravitation est une interaction qui rend les corps interdépendants les uns des autres, 

indépendamment de leurs charges électriques ou des actions de contact qu’ils peuvent subir. 

Dans le chapitre 5, nous avons supposé de manière explicite l’absence de cette interaction pour 

énoncer le principe d’équivalence des référentiels galiléens (ou principe de relativité). Il nous 

allons voir maintenant que les idées relativistes entraînent inéluctablement une modification 

radicale de notre conception de l’interaction gravitationnelle. Nous commençons par exposer la 

théorie de Newton dans le cadre préeinsteinien. 

7.1 La théorie newtonienne de la gravitation 

Dans ce chapitre, nous considérons uniquement des particules de masse invariable. 

Loi newtonienne de la gravitation.— Soient P1 et P2 deux particules quelconques dont 

les vecteurs position respectifs sont des fonctions du temps x1(t) et x2(t). La particule P1 exerce 

sur la particule P2 une force attractive dont l’expression F 12(t) à l’instant t est donnée par : 

F 12(t) = −G 

m1m2 

|x2(t) − x1(t)| 2 

x2(t) − x1(t) 

, (7.1) 

|x2(t) − x1(t)| 

où m1 et m2 sont les masses inertes respectives de P1 et P2 et G est une constante universelle, 

appelée constante de la gravitation. La particule P2 exerce sur P1 une force F 21(t) = −F 12(t). 

Rappelons qu’on appelle masse inerte d’une particule P le coefficient m figurant dans 

l’énoncé de la loi fondamentale de la dynamique galiléenne 

F étant la résultante des forces agissant sur P à l’instant t. 

F = ma, a(t) = d2 x(t) 

dt 2 , (7.2) 

La loi de gravitation (7.1) présente un certain nombre de propriétés fondamentales qu’il 

importe de dégager. 

76

P1.— La force gravitationnelle newtonienne est une action à distance. La théorie newtonienne 

ne fournit en effet aucune hypothèse plausible permettant de concevoir la gravitation 

comme une action de contact. 

P2.— Du fait de la décroissance de |F | selon une loi de puissance de la distance, la gravitation 

est une interaction dite de portée infinie, par opposition aux forces décroissant exponentiellement, 

qui sont dites de portée finie (interaction décrite par un potentiel de Yukawa, par 

exemple). 

P3.— En accord avec l’invariance galiléenne, la propagation de la gravitation s’effectue avec 

une vitesse infinie. On dit encore que l’interaction gravitationnelle newtonienne est instantanée. 

P4.— L’expression (7.1) est valide qu’il y ait ou non d’autres masses. La théorie newtonienne 

admet donc qu’il n’y a pas d’effet d’écran. C’est pourquoi on généralise la formule (7.1) en 

posant que la force gravitationnelle exercée par une distribution volumique de matière sur une 

particule de masse m en x à l’instant t est donnée par : 

 

F(x,t) = −Gm 

V (t) 

ρ(x ′ ,t) 

|x − x ′ | 2 

x − x ′ 

|x − x ′ | d3 x ′ , (7.3) 

où ρ(x ′ ,t) est la densité volumique de masse inerte et V (t) est le volume occupé par la distribution 

considérée à l’instant t. 

P5.— On démontre que l’équation (7.3) peut s’écrire sous la forme : 

F(x,t) = ∇xU(x,t), (7.4) 

où ∇x désigne l’opérateur gradient opérant au point x et U est la fonction définie par 

 

ρ(x 

U(x,t) = G 

V (t) 

′ ,t) 

|x − x ′ | d3x ′ . (7.5) 

La fonction U(x,t) est appelée le potentiel de gravitation créé à l’instant t par la distribution 

matérielle répartie dans le volume V (t). On montre qu’à l’extérieur du volume V (t), U(x,t) est 

solution de l’équation de Laplace : 

∆2U = 0, (7.6) 

et qu’à l’intérieur du volume V empli de matière, U(x,t) vérifie l’équation de Poisson : 

∆2U(x,t) = −4πGρ(x,t), (7.7) 

où ∆2 est l’opérateur laplacien, défini en coordonnées cartésiennes orthonormées par 

∆2U(x,t) = δij 

∂ 2 U 

∂xi∂xj = ∂2U (∂x1 ) 2 + ∂2U (∂x2 ) 2 + ∂2U 77 

(∂x 3 ) 2. 

(7.8)

P6.— Les quantités m1 et m2 figurant dans l’équation (7.1) sont les masses inertes des 

particules P1 et P2, avons-nous dit. Si nous supposons que le système constitué par les particules 

P1 et P2 est isolé, l’équation du mouvement de P2 est d’après (7.2) : 

m2 

d2x2(t) = −G 

dt2 m1m2 

|x2(t) − x1(t)| 2 

En divisant les deux membres de (7.2) par m2, il vient l’équation : 

d2x2(t) = −G 

dt2 m1 

|x2(t) − x1(t)| 2 

x2(t) − x1(t) 

. (7.9) 

|x2(t) − x1(t)| 

x2(t) − x1(t) 

, (7.10) 

|x2(t) − x1(t)| 

dans laquelle la masse inerte m2 ne figure pas. On obtient bien entendu l’équation du mouvement 

de P1 en échangeant les rôles de m1 et m2 : 

d2x1(t) = G 

dt2 m2 

|x2(t) − x1(t)| 2 

x2(t) − x1(t) 

, (7.11) 

|x2(t) − x1(t)| 

et là encore, on constate l’absence de la masse inerte de la particule dont on décrit le mouvement. 

En mécanique newtonienne, les équations du mouvement des particules P1 et P2 en interaction 

gravitationnelle ont la forme du système (7.10)-(7.11) dans n’importe quel référentiel 

galiléen. La loi de gravitation newtonienne satisfait donc le principe de relativité galiléenne. 

La loi (7.10) entraîne que deux particules de masses inertes distinctes lâchées en un point 

donné au même instant avec des vecteurs vitesse identiques restent en coïncidence, pourvu 

que ces deux particules soient seulement soumises à des forces gravitationnelles. Cette caractéristique 

fondamentale de l’interaction gravitationnelle, postulée par Newton, est en fait 

remarquablement vérifiée avec un précision de 10 −13 par l’expérience en laboratoire. On l’appelle 

le principe d’équivalence faible ou selon la terminologie que nous adopterons la propriété 

d’universalité de la loi de chute libre. On parle d’universalité car nul objet n’échappe à la force 

gravitationnelle : il n’existe aucun moyen de construire une cage de Faraday gravitationnelle. 

Soulignons que par chute libre, nous entendons le mouvement d’une particule qui n’est soumise 

à aucune autre force que la gravitation. 

Historiquement, la propriété d’universalité de la loi de chute libre a servi de fil directeur 

pour introduire les théories métriques de la gravitation. Pour l’instant, nous nous contenterons 

de noter à quel point il est surprenant que les quantités m1 et m2 figurant dans (7.1) soient les 

masses inertes des particules P1 et P2. A priori, une loi de force centrale attractive en inverse 

du carré de la distance devrait s’écrire 

F 12 = −G M(a) 1 M (p) 

2 

|x2 − x1| 2 

x2 − x1 

, (7.12) 

|x2 − x1| 

où M (a) 

1 désignerait la masse grave (ou gravitationnelle) active créant la force F 12 et M (p) 

2 

désignerait la masse grave (ou gravitationnelle) passive subissant l’action de la masse active 

M (a) 

1 . Naturellement, la force F 21 agissant sur la particule P1 devrait s’écrire 

F 21 = G M(p) 1 M (a) 

2 

|x2 − x1| 2 

78 

x2 − x1 

, (7.13) 

|x2 − x1|

M (p) 

1 étant la masse grave passive de la particule P1 et M (a) 

2 la masse grave active de la particule 

P2. Il n’y a aucune raison d’identifier la masse grave active et la masse grave passive avec la 

masse inerte qui est une notion introduite indépendamment de la gravitation. On peut tout au 

plus limiter l’arbitraire sur le rapport (masse grave active)/(masse grave passive) en se référant 

au principe de l’égalité de l’action et de la réaction. Il découle en effet immédiatement des 

équations (7.12) et (7.13) et de F 12 + F 21 = 0 que 

M (a) 

1 

M (p) 

1 

= M(a) 2 

M (p) 

2 

= constante universelle. (7.14) 

La loi de Newton ne se contente pas de postuler (7.14) : elle identifie purement et simplement 

sans aucunement l’expliquer la masse inerte d’une particule avec sa masse grave passive (à une 

constante multiplicative universelle près, bien entendu, prise ici égale à l’unité). 

P7.— Il est enfin un caractère de la gravitation qui reste encore très énigmatique : la 

force gravitationnelle est extrêmement faible. La constante de la gravitation ayant pour valeur 

numérique G = 6, 67 × 10 −11 m 3 .s −2 .kg −1 , le rapport de la force gravitationnelle et de la force 

électrostatique qu’exercent l’un sur l’autre deux protons est donné par 

Fgrav 

Felec 

mp étant la masse du proton et e sa charge. 

= 4πε0G m2 p 

e 2 ≈ 8, 3 × 10−37 , 

7.2 Analyse critique de la théorie newtonienne 

La théorie newtonienne a permis une description remarquablement précise d’un ensemble 

impressionnant de phénomènes physiques (mouvements et figures des corps célestes, comportements 

des fluides, etc.). Pourtant, il est clair qu’en dépit de ses succès, la conception newtonienne 

présente de graves défauts internes et s’est en outre trouvée en contradiction avec l’observation 

dès la seconde moitié du XIX e siècle. 

Incohérences conceptuelles 

1.— Nous avons vu que la théorie newtonienne décrit la gravitation comme une action à 

distance. Or, ce point de vue est acceptable comme description mathématique, mais pas comme 

théorie “fondamentale”. Il y a en effet action seulement là où il y a un être pour effectuer 

cette action. L’idée d’action à distance est donc inintelligible, comme l’a souligné le philosophe 

Leibniz, contemporain de Newton 1 . 

2.— Un autre défaut tout aussi grave de la conception newtonienne est de considérer la 

gravitation comme une interaction se propageant avec une vitesse infinie et d’entrer ainsi en 

1 Newton a reconnu ce point, tout en soulignant qu’il n’avait pu trouver un mécanisme physique plausible 

pour expliquer l’attraction par des actions de contact. 

79

contradiction frontale avec la relativité restreinte 2 , qui s’est révélée en parfait accord avec 

l’expérience. La théorie de la gravitation doit donc être profondément modifiée. Par analogie 

avec la théorie de l’électromagnétisme proposée par Maxwell, il est naturel de supposer que 

la gravitation est un champ ayant une propagation s’effectuant avec une vitesse cg finie. Si 

on admettait en outre que l’interaction gravitationnelle satisfait au principe de relativité dans 

l’espace-temps de Minkowski, on devrait même en conclure que cg = c et s’attendre notamment 

à l’existence d’ondes gravitationnelles se propageant avec la vitesse fondamentale, comme l’avait 

déjà vu H. Poincaré dès 1905 3 . 

3.— L’équation de Poisson (7.7) couple le potentiel de gravitation avec la densité ρ de 

masse inerte. Or, la relativité restreinte montre que toutes les formes d’énergie contribuent 

à la masse d’un système matériel. Une théorie cohérente devrait donc considérer toutes les 

distributions d’énergie comme des sources du champ gravitationnel. Par exemple, un champ 

électromagnétique devrait engendrer un champ gravitationnel. 

4.— Il serait peu cohérent d’admettre qu’une distribution d’énergie puisse créer un champ 

gravitationnel sans subir l’action du champ créé par une autre distibution d’énergie (dans 

le cas contraire, il existerait des situations physiques dans lesquelles le principe d’égalité de 

l’action et de la réaction serait violé, ce qui pourrait entraîner la possibilité du mouvement 

perpétuel, par ex.). Une théorie viable devrait donc prévoir qu’une masse de matière comme le 

Soleil courbe un rayon lumineux tout comme elle incurve la trajectoire d’une planète ou d’une 

comète. L’introduction des quanta de lumière ou photons conforte ce point de vue. N’oublions 

pas que des calculs de déflexion de la lumière avaient déjà été tentés dans le cadre newtonien 

par Cavendish (1784) et Soldner (1801) précisément en supposant une structure corpusculaire 

de la lumière. 

Désaccord historique avec l’observation 

Avant même l’irruption des idées relativistes, la théorie newtonienne présentait un grave 

désaccord avec les observations astronomiques. Dès 1859, Le Verrier avait en effet mis en 

évidence une avance résiduelle du périhélie de Mercure qu’il estimait être de l’ordre de 38”/siècle, 

inexpliquée par la mécanique céleste. L’existence de ce désaccord fut confirmé ultérieurement 

par Newcomb (1882, 1895), puis par Doolitle (1912). La valeur actuellement admise pour 

l’avance non newtonienne du périhélie de Mercure est 42,98”/siècle. Diverses explications ad 

hoc furent proposées en restant dans le cadre de la physique galiléenne : existence d’une planète 

intramercurielle (Vulcain), perturbation produite par un nuage de poussières à l’origine de la 

lumière zodiacale 4 , modification de la loi de gravitation visant à se rapprocher d’un modèle 

électrodynamique, etc. Ces tentatives ne purent cependant pas s’imposer, soit parce qu’elles 

ne furent pas confirmées par l’observation (on n’a jamais observé de planète intramercurielle), 

2 Notons que même avant l’apparition des théories relativistes, la propagation instantanée de la gravitation 

était très difficilement acceptable. Comment concevoir en effet que si je bouge mon stylo, l’univers entier en soit 

instantanément informé ? Le son, les ondes sismiques, la lumière se propagent avec une vitesse finie. Pourquoi 

la gravitation ferait-elle exception ? 

3 Cf. Sur la dynamique de l’électron, Rendiconti del Circolo mathematico di Palermo, t. 21, 1906. Réédité par 

J. Gabay, Paris. 

4 Déjà une hypothèse de matière noire... 

80

soit parce qu’elles contenaient trop d’arbitraire (poussières, modèles inspirés par l’electrodynamique) 

ou manquaient de cohérence interne. 

7.3 Introduction des théories métriques 

À l’évidence, les conceptions relativistes exigent l’abandon de la théorie newtonienne de 

la gravitation. De prime abord, il peut sembler naturel de chercher à construire une (ou des) 

nouvelle(s) théorie(s) du champ de gravitation en conservant le cadre de l’espace-temps de 

Minkowski. Cette démarche a suscité de nombreux travaux 5 . On sait aujourd’hui que cette 

construction est possible. Elle s’avère toutefois beaucoup moins simple conceptuellement que 

la démarche consistant à munir la variété des événements d’une métrique plus générale que la 

métrique de Minkowski, selon l’approche initiée par Einstein. C’est cette approche géométrique 

que l’on retient ici. 

L’abandon du cadre spatio-temporel de Minkowski est motivé par un constat simple : le 

caractère universel de l’interaction gravitationnelle rend le principe d’inertie invérifiable. En 

effet, pour être considérée comme isolée, une particule devrait être située à une distance infinie 

de toutes les concentrations matérielles, de manière à ne subir aucune action gravitationnelle 

mesurable. Or, rien n’indique que la matière et l’énergie de l’univers soit contenue dans un 

volume borné en dehors duquel il y aurait un “vide” d’extension spatiale indéfinie. Nous pouvons 

donc accepter l’idée qu’il faut abandonner le principe d’inertie tel que nous l’avons formulé au 

chap. 3 et le remplacer par un principe qui tienne compte d’emblée du fait qu’une particule 

dépourvue de charge électrique, de moment magnétique et de “spin” n’est pas isolée mais 

effectue toujours un mouvement de chute libre dans un champ de gravitation. 

Quel serait ce nouveau principe ? Dans la section 7.1, nous avons souligné qu’une particule 

en chute libre tombe selon une loi de mouvement indépendante de sa masse inerte (propriété 

d’universalité de la loi de chute libre). Une manière naturelle d’expliquer cette indépendance 

serait de caractériser le mouvement de chute libre par une loi purement géométrique ne faisant 

pas intervenir la masse. Or, il se trouve que la relativité restreinte fournit d’emblée une indication 

précise de ce que peut être une telle loi. Dans le chap. 3, nous avons en effet montré que la 

ligne d’univers d’une particule en mouvement rectiligne uniforme par rapport à un référentiel 

galiléen arbitraire réalisait un extremum (en fait un maximum) de ds. Cette condition signifie 

que le mouvement d’une particule isolée dans un espace-temps dépourvu de gravitation est 

défini par le principe variationnel 6 

 

δ 

 

dx 

ηµν 

µ 

dℓ 

dxν dℓ = 0, (7.15) 

dℓ 

x µ = x µ (ℓ) étant les équations paramétriques de la ligne d’univers et les points x1 et x2 entre 

lesquels on calcule l’intégrale étant maintenues fixes quand on effectue la variation. L’équation 

5 dans l’espoir notamment de construire une théorie quantique du champ de gravitation analogue à 

l’électrodynamique quantique, mais ces tentatives n’ont pas jusqu’ici été couronnées de succès. 

6 sous réserve qu’on choisisse des coordonnées galiléennes. 

81

(7.15) peut donc être considérée comme la formulation variationnelle du principe d’inertie dans 

l’espace-temps de Minkowski. 

Nous sommes ainsi conduits au problème préliminaire suivant : 

Problème préliminaire.— Étant donnée une variété des événements dans laquelle l’interaction 

gravitationnelle n’est pas négligeable, peut-on se donner un intervalle élémentaire ds2 plus général que la métrique de Minkowski tel que le principe variationnel7 

δ ds = 0 (7.16) 

rende compte de la chute libre des corps d’épreuve selon la loi de Newton en première approximation? 

La réponse à cette question exige certaines définitions et soulève plusieurs problèmes distincts 

qu’il faut analyser séparément. 

Particule d’épreuve.— Il nous faut d’abord préciser ce qu’on appelle une particule d’épreuve 

(on dit aussi une particule-test). 

Définition 7.3.1 Une particule d’épreuve est un corps électriquement neutre ayant un champ 

gravitationnel propre négligeable et des dimensions si petites que ses paramètres “internes” 

(charges 8 , moment magnétique, moment cinétique intrinsèque, etc.) ont une influence négligeable 

sur son mouvement. 

Cette restriction des postulats fondamentaux aux particules d’épreuve vient de ce que les 

développements ultérieurs des théories relativistes de la gravitation ont montré qu’une particule 

qui possède certains caractères de “structure interne” comme un moment cinétique interne n’a 

pas les mêmes équations de mouvement qu’une particule qui en est dépourvue. 

Quel type de ds 2 choisir ?.— Il est nécessaire de spécifier quel type de métrique pourrait 

éventuellement généraliser la métrique de Minkowski de manière à rendre compte de la 

gravitation. 

1. Un premier critère de choix repose sur le théorème suivant que nous énonçons sans 

démonstration 9 . 

Théorème 7.3.1 Soit (V4,g) une variété riemannienne de dimension 4. Un point x étant 

choisi arbitrairement dans V4, il existe des systèmes de coordonnées locales y β qui permettent 

d’écrire le ds 2 en x sous la forme 

ds 2 p 

= (dy 

α=0 

α ) 2 − 

3 

(dy 

β=p+1 

β ) 2 , (7.17) 

p étant un entier caractéristique de la métrique tel que 0 ≤ p ≤ 3. 

7 Chaque fois que nous invoquons un principe variationnel dans ce chapitre, il est sous-entendu que les 

points de V4 entre lesquels on calcule l’intégrale curviligne sont maintenues fixes lorsqu’on effectue la variation, 

exactement comme pour l’équation (7.15). 

8 La somme algébrique de ces charges doit bien entendu être nulle pour assurer la neutralité électrique globale. 

9 Cette propriété découle du fait que la matrice (gµν) est symétrique et inversible, donc diagonalisable. 

82

L’entier σ = 2(p + 1) − 4 s’appelle la signature de la métrique g sur V4 (la signature d’une 

métrique sur une variété de dimension n serait σ = 2(p + 1) − n, avec 0 ≤ p ≤ n − 1). Pour 

que le ds 2 réduit à (7.17) en x ait la forme du ds 2 de Minkowski, il faut que la métrique g soit 

de signature σ = −2. Nous supposerons donc désormais que la métrique susceptible de décrire 

l’action d’un champ de gravitation est précisément de signature −2, ce qui entraîne p = 0. Ces 

métriques sont dites lorentziennes ou encore hyperboliques normales. 

2. Dans un domaine D de la variété V4 où se manifeste un champ gravitationnel, le principe 

variationnel (7.16) ne doit pas se réduire au principe (7.15), puisque ce dernier conduit au 

principe d’inertie. Il ne doit donc pas exister de systèmes de coordonnées locales dans lesquelles 

les gµν se réduisent à leurs valeurs galiléennes ηµν en tout point de D. Une métrique qui satisfait 

à cette condition est dite douée de courbure dans le domaine D, alors que la métrique de 

Minkowski est dite plate. Le point de vue développé ici conduit donc à considérer la gravitation 

comme une manifestation de la courbure d’une métrique lorentzienne. 

Il faut souligner que cette conclusion ne contredit en rien le théorème 7.3.1, qui exprime 

la possibilité d’une forme minkowskienne de la métrique en un point arbitraire, sans que cela 

implique que le même système de coordonnées va donner une forme minkowskienne en tout 

autre point. 

De quelle nature sont les lignes d’univers des particules matérielles ?.– Pour que 

la quantité ds figurant dans (7.16) soit réelle, il faut que le ds 2 correspondant soit > 0. Par 

analogie avec les principes de la relativité restreinte dégagés dans le chapitre 3, nous sommes 

ainsi conduits à proposer les définitions et à poser au moins à titre provisoire les postulats 

suivants : 

Définition 7.3.2 Une courbe de l’espace-temps (V4,g) est dite du genre temps si ds 2 > 0 le 

long de cette courbe. 

Postulat 7.3.1 Les lignes d’univers des particules matérielles sont des courbes du genre temps. 

Ce postulat est une généralisation immédiate du fait que la ligne d’univers d’une particule 

matérielle de l’espace-temps de Minkowski est toujours du genre temps. Il s’applique bien 

entendu aux observateurs ponctuels. 

Nous pouvons maintenant généraliser la définition et le postulat relatifs au temps propre 

énoncés dans le chapitre 3. 

Définition 7.3.3 (Définition du temps propre) Soit une particule matérielle P de ligne 

d’univers C. Le laps de temps propre de P écoulé entre les événements x1 et x2 appartenant à 

C est la quantité τ12[C] définie par 

τ12[C] = 1 

x2 

ds, (7.18) 

c x1 

où l’intégrale du second membre est calculée le long de la ligne C. 

Lorsque la ligne d’univers C est décrite par les équations paramétriques x α = x α (ℓ) dans un 

système de coordonnées locales arbitraires (x α ), l’expression du temps propre τ12[C] est donnée 

83

par l’intégrale curviligne : 

τ12[C] = 1 

ℓ2 

gµν(x 

c ℓ1 

α (ℓ)) ˙x µ ˙x ν dℓ, ˙x µ = dxµ (ℓ) 

, (7.19) 

dℓ 

où ℓ1 et ℓ2 sont respectivement les valeurs de ℓ pour x1 et x2. 

Cette définition s’applique à toutes les particules matérielles, même si leur mouvement n’est 

pas une chute libre. On notera que le paramètre ℓ de la ligne C peut être choisi de manière 

arbitraire. Il est clair en effet que l’intégrale figurant dans le second membre de l’équation (7.19) 

ne dépend pas du choix de paramétrage de C. 

Postulat 7.3.2 (Hypothèse des horloges) La quantité τ12[C] définie par (7.18) ou (7.19) 

est le temps délivré par une horloge atomique idéale comouvante avec la particule P entre les 

événements x1 et x2, que la particule soit en chute libre ou non. 

Nature des lignes d’univers des particules d’épreuve en chute libre.– La généralisation 

la plus naturelle de la relativité restreinte consiste à admettre que la chute libre d’une particule 

est gouvernée par le principe variationnel suivant. 

Postulat 7.3.3 La ligne d’univers d’une particule matérielle d’épreuve en chute libre est une 

courbe de genre temps dont les équations paramétriques x α = x α (ℓ) satisfont le principe varia- 

tionnel : 

 

δ 

ℓ étant un paramètre arbitraire. 

 

ds = 0 ⇐⇒ δ 

 

gµν(xα (ℓ)) dxµ 

dℓ 

dxν dℓ = 0, (7.20) 

dℓ 

Toute courbe de genre temps qui satisfait (7.20) coïncide avec une géodésique de genre temps 

de l’espace-temps (V4,g) 10 . 

Compte tenu de la définition 7.3.3, on peut également dire que la ligne d’univers d’une 

particule d’épreuve en chute libre satisfait la condition 

 

δ dτ = 0. (7.21) 

On obtient ainsi une généralisation d’une propriété vérifiée en relativité restreinte par les 

particules isolées (particules en mouvement inertiel). L’effet “voyageur de Langevin” se retrouve 

donc ici. 

La propriété qu’ont les rayons lumineux en relativité restreinte d’être des droites isotropes 

de la métrique de Minkowski peut se généraliser en admettant le postulat suivant 11 . 

Postulat 7.3.4 Les rayons lumineux sont des géodésiques isotropes 12 du ds 2 , c’est-à-dire des 

géodésiques le long desquelles ds 2 = 0. 

10 On utilise ici le théorème C.2.5 énoncé dans l’annexe C. 

11 On notera que ce postulat peut en fait se déduire des équations de Maxwell formulées dans le cadre des 

théories métriques. 

12 Se reporter à l’annexe C, sect. C.2 pour la définition des géodésiques isotropes. Soulignons sans insister ici 

que le principe variationnel (7.20) ne peut être valide pour ces géodésiques. 

84

Peut-on retrouver la loi de Newton en première approximation ?– Cherchons maintenant 

comment doit s’écrire la métrique pour qu’on puisse retrouver en première approximation 

le mouvement newtonien d’une particule à partir du principe variationnel (7.20). Pour retrouver 

un principe d’action minimale pour une particule de masse unité, il faut multiplier ds par −c. 

Nous écrirons donc (7.20) sous la forme 

⎛ 

 

δ ⎝−c 

 

gµν(xα (ℓ) dxµ 

dℓ 

dxν ⎞ 

⎠ dℓ = 0, (7.22) 

dℓ 

ℓ étant un paramètre arbitraire de la ligne d’univers le long de laquelle l’intégrale du second 

membre est calculée. Si on prend le temps coordonnée t = x0 /c comme paramètre, on voit 

que (7.22) est formellement équivalent au principe variationnel δ Ldt = 0 formulé avec le 

lagrangien 

L(x i , ˙x j ,t) = −c 2 

 

g00(xk ,t) + 2 

c g0i(xk ,t) ˙x i + 1 

c2gij(x k ,t) ˙x i ˙x j , (7.23) 

où les quantités ˙x j sont définies par 

˙x j = dxj 

. (7.24) 

Pour comparer avec la théorie newtonienne, nous allons supposer que le champ gravitationnel 

est faible partout. Cette hypothèse consiste à admettre qu’il existe des systèmes de 

coordonnées locales x µ tels que les composantes gµν du tenseur métrique s’écrivent 

dt 

gµν(x) = ηµν + hµν(x), (7.25) 

où ηµν = diag (1, −1, −1, −1) et où les hµν(x) sont des termes perturbateurs très petits : 

|hµν(x)| ≪ 1. La métrique écrite sous la forme (7.25) est alors très voisine de la métrique de 

Minkowski ds 2 Mink = ηµνdx µ dx ν . Pour cette raison, on appelle les x µ figurant dans le second 

membre de (7.25) des coordonnées quasi galiléennes. 

Nous allons supposer en outre que le mouvement de la particule d’épreuve est très lent par 

rapport au système de coordonnées quasi galiléennes x µ . On a donc | ˙x j |/c ≪ 1. 

Sous ces deux hypothèses, le lagrangien (7.23) s’écrit en première approximation : 

L(x i , ˙x j ,t) = −c 2 

 

≈ −c 2 + 1 

2 

3 

( ˙x 

i=1 

i ) 2 + 1 

c2hij ˙x i ˙x j 

1/2 

3 

( ˙x 

i=1 

i ) 2 − c2 

2 h00 + ... (7.26) 

1 + h00 + 2 

c h0i ˙x i − 1 

c 2 

Or, en théorie newtonienne, le lagrangien d’une particule de masse unité dans un champ 

gravitationnel de potentiel U(x,t) est : 

LN = 1 

2 

3 

( ˙x 

i=1 

i ) 2 + U(x,t) + C , (7.27) 

C étant une constante arbitraire 13 . La comparaison de (7.26) et (7.27) montre immédiatement 

qu’il suffit de poser 

h00(x) ≈ − 2U(x,t) 

c 2 + C ′ , h0i ≈ 0, hij ≈ 0 (7.28) 

13 L’énergie potentielle n’est en effet définie qu’à une constante arbitraire près. 

85

pour retrouver la loi de gravitation newtonienne en première approximation, C ′ étant une 

constante arbitraire. Si on suppose comme nous le ferons désormais que la métrique (7.25) 

coïncide avec la métrique de Minkowski à l’infini, il faudra poser C ′ = 0, ce qui entraîne 

h00(x) ≈ − 2U(x,t) 

c 2 . (7.29) 

La réponse au problème préliminaire posé ci-dessus est donc positive si la métrique lorentzienne 

satisfait le postulat suivant : 

Postulat 7.3.5 Lorsque le champ gravitationnel est créé par N corps, il existe une classe de 

systèmes de coordonnées locales x α = (x 0 ,x) tels que la métrique prenne en première approximation 

la forme : 

ds 2 

= 1 − 2U 

c2 

(dx 0 ) 2 − (dx 1 ) 2 − (dx 2 ) 2 − (dx 3 ) 2 , (7.30) 

où U est le potentiel newtonien engendré par l’ensemble des N masses, tel qu’il est défini par 

l’équation (7.5). 

On notera que la métrique (7.30) se réduit à la métrique de Minkowski lorsque U(x,t) = 0. 

Une telle conclusion était évidente par avance, puisqu’en l’absence de champ de gravitation, 

une particule en chute libre est isolée et son mouvement est en conséquence purement inertiel. 

Les résultats ci-dessus encouragent donc la construction d’un cadre théorique dans lequel 

les mouvements d’une particule d’épreuve seraient entièrement définis par les géodésiques d’une 

métrique g de signature −2. La restitution de la loi newtonienne en première approximation 

n’est cependant pas suffisante à elle seule pour valider la démarche, car elle ne nous a pas fait 

découvrir une nouvelle conséquence susceptible d’être vérifiée expérimentalemnt. Heureusement, 

une telle conséquence existe : c’est l’effet Doppler gravitationnel (dit aussi effet Eintein). 

7.4 Une conséquence de l’approximation newtonienne : 

l’effet Doppler gravitationnel 

Nous nous contenterons ici de raisonner sur un champ gravitationnel stationnaire. Par champ 

stationnaire, nous entendons un champ tel qu’il existe des systèmes de coordonnées locales dans 

lesquels les potentiels de gravitation gµν ne dépendent pas du “temps”, i.e. de la coordonnée 

que nous avons appelée x 0 : de tels systèmes de coordonnées sont dits adaptés au caractère stationnaire. 

Pour simplifier, nous allons admettre que ce champ est décrit avec une approximation 

suffisante par la métrique (7.30) avec un potentiel U indépendant de t = x 0 /c. 

Supposons que l’on dispose d’un émetteur A susceptible d’émettre un certain type de signaux 

en un point xA de coordonnées spatiales fixes (x i A = const.) et que ces signaux soient captés par 

un récepteur B en un point xB lui aussi de coordonnées spatiales x i B fixes. La seule hypothèse 

faite sur le signal est que le temps de propagation entre A et B, soit tB − tA, est une quantité 

86

qui dépend uniquement des coordonnées spatiales de A et de B, ce qu’on peut écrire 14 

tB − tA = T (xA,xB), (7.31) 

où x désigne le point de coordonnées spatiales (xi ) dans chaque hypersurface x0 = constante. 

Bien entendu, on admet que l’émetteur A et le récepteur B sont munis chacun d’une horloge 

standard comouvante, HA pour A et HB pour B. Appelons TA la période du signal émis en A, 

telle qu’elle est mesurée par l’horloge HA et cherchons à déterminer la période TB du signal 

reçu par B, telle qu’est mesurée par HB. Du fait que l’émetteur A est au repos, le temps propre 

le long de sa ligne d’univers s’obtient à partir du postulat 7.3.2 en posant dxi = 0 dans la 

métrique (7.30), ce qui donne 

 

dτA ≈ 1 − 2UA 

dt. (7.32) 

c2 On déduit immédiatement de (7.32) que la période TA du signal émis correspond au laps de 

temps coordonnée ∆tA donné par 

∆tA ≈ 

TA 

 

1 − 2UA 

c 2 

. (7.33) 

Le même raisonnement s’applique au récepteur B qui est également au repos. La liaison 

entre la période TB du signal reçu en B et le temps coordonnée ∆tB est fournie par une relation 

analogue à (7.33) : 

∆tB ≈ 

1 − 2UB 

c2 . (7.34) 

Or, on a ∆tB = ∆tA, puisque le temps de parcours entre l’émission et la réception ne dépend 

pas de l’instant d’émission (voir éq. (7.31)). En rapprochant (7.33) et (7.34), il vient : 

 

2UA 

TA 

≈ 1 − c 

TB 

2 

1 − 2UB 

c2 . (7.35) 

Cette formule montre qu’une horloge au repos en A semble ralentie à un observateur au 

repos qui l’observe en B, si le potentiel de gravitation est plus faible en B qu’en A. D’après 

(7.35) en effet, UA > UB =⇒ TB > TA. 

La fréquence ν d’un signal mesurée par un observateur est par définition l’inverse de la 

période de ce signal mesurée par l’observateur à l’aide de son horloge standard. On déduit 

immédiatement de (7.35) que si νA désigne la fréquence du signal émis en A telle qu’elle est 

mesurée avec l’horloge standard HA, la fréquence νB du signal mesurée en B avec l’horloge 

standard HB est donnée par la relation : 

νB 

νA 

= TA 

TB 

TB 

 

2UA 

≈ 1 − c2 1 − 2UB 

c2 . (7.36) 

14 Une telle hypothèse restreint bien entendu la classe des processus physiques que nous considérons comme 

des signaux, mais l’important est qu’elle soit compatible avec le caractère stationnaire de la métrique. Il est clair 

par exemple que les signaux lumineux ou acoustiques ont cette propriété dans un environnement stationnaire. 

En revanche, il faut souligner que l’équation (7.31) n’a aucune raison d’être vraie si le champ gravitationnel varie 

au cours du temps : dans ce cas, tB − tA dépend aussi de l’instant d’émission tA, ou de l’instant de réception 

tB du signal. 

87

A l’extérieur du Soleil, on a U/c 2 ≤ 2, 12 × 10 −6 . On peut donc écrire à des termes en 10 −12 

près 

νB 

≈ 1 − 

νA 

UA − UB 

c2 . (7.37) 

L’existence de l’effet Doppler gravitationnel a été prédite par Einstein dès 1907. 

Comme nous l’avons dit plus haut, la seule hypothèse faite sur le signal est celle qui est 

exprimée par l’équation (7.31). Il en résulte que la nature physique du signal n’intervient pas 

dans les seconds membres de (7.35), (7.36) et (7.37) : le signal peut être lumineux, acoustique, 

élastique ou s’effectuer par des émissions à intervalles réguliers de particules matérielles produites 

par un appareil standard (un canon à électrons, par ex). Il faut toutefois souligner que 

cette propriété n’est pas générale car elle suppose que l’émetteur et le récepteur sont plongés 

dans un champ stationnaire et sont au repos par rapport à n’importe quel système de coordonnées 

adapté à la stationnarité du champ. Dans le cas général d’un champ gravitationnel 

variable, le rapport νB/νA dépendra de la nature du signal. 

Exemple 1.— On considère un atome au repos en un point A à la surface d’un corps à 

symétrie sphérique, dont une raie spectrale bien déterminée est observée en un point B au repos 

à l’infini. Le décalage spectral de la raie défini par 

est d’après (7.36) 

∆ν 

ν = νB − νA 

νA 

= νB 

νA 

− 1 

∆ν 

≈ −GM 

ν c2 , (7.38) 

R 

où M est la masse du corps central et R son rayon. 

Pour le Soleil, on a M = 1, 989 × 10 30 kg et R = 6, 96 × 10 8 m. La formule (7.38) donne 

∆ν 

ν ≈ 2, 12 × 10−6 . (7.39) 

Le signe moins montre que les raies émises sur le Soleil sont décalées vers le rouge pour 

un observateur au repos à l’infini. Un effet de cet ordre a été effectivement observé mais l’interprétation 

des résultats est très délicate en raison des nombreux effets parasites dus à la 

température et à l’atmosphère solaires. On a également observé un décalage des raies spectrales 

émises par des naines blanches, mais les résultats ont été encore plus incertains. 

Exemple 2.— On suppose maintenant que A est au niveau du sol et que B est à une 

altitude h au dessus de A. Du fait que UA − UB = gh, le décalage de fréquence ∆ν/ν défini 

comme dans l’exemple ci-dessus est alors donné par la formule approchée 

∆ν 

ν 

≈ −gh , (7.40) 

c2 g étant l’accélération de la pesanteur. Pour h = 1m, on trouve au sol 15 

∆ν 

ν ≈ −10−16 . 

15 L’estimation ∆ν/ν ≈ 10 −16 pour ∆h = 1 m est à comparer avec la précision de l’ordre de 4 × 10 −16 en 

fraction de fréquence qui est obtenue avec les meilleures horloges atomiques actuelles. 

88

L’existence du glissement de fréquences donné par (7.40) fut vérifié dans le champ terrestre 

pour la première fois par Pound et Rebka en 1960 16 , puis de manière plus précise (1 %) par 

Pound et Snider en 1964 17 , en faisant “tomber” un rayon lumineux d’une hauteur de 22 m dans 

une tour de l’université de Harvard. Une vérification à 10 −4 près de la formule (7.37) a par la 

suite été faite avec un maser à hydrogène embarqué dans une fusée par Vessot, Levine et al. 18 . 

Il semble qu’on puisse aujourd’hui gagner au moins un facteur 30 sur le résultat de Vessot et al. 

en comparant une fontaine atomique à atomes de Césium refroidis embarquée dans un satellite 

avec une horloge atomique au sol (mission ACES en préparation). 

7.5 Conclusion 

La démarche conceptuelle consistant à décrire l’action de la gravitation par une métrique 

semble fructueuse et incite à poursuivre l’effort de reconstruction de la physique lorsqu’on prend 

en compte la gravitation. Il faut cependant être conscients que les postulats que nous venons 

d’introduire ne sont nullement suffisants pour construire une théorie unique. Ils constituent 

seulement le socle d’une classe très large (en fait infinie !) de théories que l’on appelle les théories 

métriques de la gravitation. Dans un tel cadre, les composantes gµν du tenseur métrique sont 

souvent appelées potentiels de gravitation en raison de leur rôle déterminant dans la description 

de l’interaction gravitationnelle. 

Dans les deux chapitres qui suivent, nous allons expliciter un certain nombre d’effets prédits 

par ces théories et voir comment ces effets peuvent être utilisés pour discriminer les dites théories 

dans le cadre de ce qu’on appelle l’approximation postnewtonienne paramétrée de premier ordre 

(1PPN). 

16R. V. Pound & G. A. Rebka, Apparent weight of photons, Physical Review Letters, vol. 4, p. 337, 1960. 

17R. V. Pound & J. L. Snider, Effect of gravity on nuclear resonance, Physical Review Letters, vol. 13, p. 539, 

1964. 

18Voir R. F. C. Vessot, M. W. Levine et al., Physical Review Letters, vol. 45, p. 2081, 1980, et les références 

citées dans cet article. 

89

Chapitre 8 

Notion d’approximation 

postnewtonienne des théories 

métriques 

Dans ce chapitre, nous étudions comment on peut définir une approximation postnewtonienne 

paramétrée des théories métriques dans le cas simple d’une masse à symétrie sphérique 

isolée. Cette approche élémentaire s’avère suffisante pour calculer les effets les plus importants 

prévus par les théories métriques de la gravitation. 

8.1 Notion d’approximation postnewtonienne 

Comme on l’a vu à la fin du chapitre précédent, les vérifications expérimentales de l’effet 

Doppler gravitationnel dont on dispose aujourd’hui montrent que le concept de théorie métrique 

est viable et incite en conséquence à creuser l’idée. On ne peut cependant s’en tenir à la métrique 

quasi newtonienne (7.30), car l’étude des géodésiques de cette métrique conduit à une avance du 

périhélie de Mercure égale à 2/3 de l’avance effectivement observée. Or, il semble à première vue 

impossible de former une meilleur approximation de la métrique sans avoir développé une théorie 

complète de la gravitation, avec des équations permettant de déterminer les dix potentiels gµν 

en fonction des masses créant le champ. En conséquence, devons-nous dès maintenant chercher 

à construire une théorie rigoureuse ou mieux encore une classe de théories rigoureuses pour 

tester l’idée que la gravitation puisse être décrite par une métrique ? 

Nous allons voir qu’il n’en est rien et qu’il est possible de progresser en développant une idée 

d’Eddington 1 . Nous pouvons tout d’abord décider de nous intéresser uniquement au champ de 

gravitation engendré par une masse à symétrie sphérique (le Soleil par ex.) 2 . De plus, nous pouvons 

supposer que le champ est indépendant du temps, comme nous l’avons fait dans la section 

7.4. On peut montrer que sous ces hypothèses, il est toujours possible de choisir les coordonnées 

1 A. S. Eddington, The Mathematical Theory of Relativity, paragr. 47. Cambridge University Press, 1922. 

2 Cette approximation s’est avérée suffisante jusqu’ici pour la lumière, mais nous verrons qu’on ne peut s’en 

contenter pour le périhélie de Mercure. 

90

(x 0 ,x i ) de telle sorte que la métrique cherchée s’écrive sous la forme simple suivante 3 : 

ds 2 = A(r)(dx 0 ) 2 − B(r) 

(dx 1 ) 2 + (dx 2 ) 2 + (dx 3 ) 2 

, (8.1) 

où A(r) et B(r) sont des quantités qui dépendent uniquement de la coordonnée radiale r définie 

par 

r = 

 

(x 1 ) 2 + (x 2 ) 2 + (x 3 ) 2 , (8.2) 

l’origine O des coordonnées x i étant le centre de la masse attractive. 

Il faut noter que la réduction de la métrique à la forme (8.1) ne contenant que deux fonctions 

inconnues A(r) et B(r) est un résultat rigoureux indépendant de la théorie lorsqu’on impose la 

symétrie sphérique statique. Nous pourrons donc utiliser cette forme quand nous chercherons à 

résoudre les équations de la relativité générale (équations d’Einstein) dans le cas de la symétrie 

sphérique. 

En second lieu, nous pouvons postuler que la métrique (8.1) doit se réduire à la métrique 

de Minkowski lorsqu’on s’éloigne indéfiniment de la masse centrale. Nous imposons donc les 

conditions de comportement asymptotique 

lim A(r) = 1, lim B(r) = 1. (8.3) 

r→∞ r→∞ 

Le potentiel newtonien d’une masse M à symétrie sphérique est donné par 

U = GM 

r 

Compte tenu de (8.4), on doit avoir à l’approximation newtonienne 

A(r) = 1 − 2GM 

c 2 r 

. (8.4) 

+ · · ·, (8.5) 

le symbole + · · · correspondant à des termes beaucoup plus petits que 2GM/c 2 r dans le système 

solaire. Nous voyons intervenir la quantité 2m définie par 

2m = 2GM 

c 2 . (8.6) 

La quantité 2m ayant la dimension d’une longueur, on l’appelle le rayon gravitationnel ou 

encore le rayon de Schwarzschild 4 du corps. A titre d’exemple, le rayon de Schwarzschild du 

Soleil vaut 

2m⊙ = 2, 953km, (8.7) 

à comparer avec le rayon R⊙ du Soleil, qui vaut 6, 96 × 105 km. En conséquence, la variable u 

sans dimension définie par 

u = m 

r 

(8.8) 

3 Pour la métrique (8.1), on a donc g00 = A(r), g0i = gi0 = 0, gij = −B(r)δij. Les coordonnées spatiales 

telles que la partie spatiale de la métrique soit de la forme F(x α ) (dx) 2 + (dx) 2 + (dx) 2 sont dites isotropiques 

ou encore isotropes. 

4 Il serait beaucoup plus approprié d’appeler 2m le paramètre d’échelle gravitationnel, car la notion de rayon 

demande à être précisée, mais nous nous conformons à l’usage. 

91

est inférieure à m⊙/R⊙ = 2, 12 × 10 −6 dans le système solaire. Sur l’orbite de Mercure, u ≈ 

2, 6 × 10 −8 . 

Il résulte de ces considérations que nous pouvons supposer que le champ gravitationnel est 

faible dans le système solaire et admettre en conséquence que la métrique (8.1) s’écarte très peu 

de la métrique de Minkowski. Il est compatible avec ces hypothèses d’admettre qu’à l’extérieur 

du Soleil, A et B figurant dans la métrique (8.1) sont des fonctions analytiques de la variable 

u au voisinage de u = 0, qui correspond au domaine à l’infini de l’espace 5 . En conséquence, A 

et B peuvent être développés en séries de puissances entières de u. Nous pouvons donc poser 

A(r) = 1 − 2m 3β1 m 

+ 2βm2 − 

r r2 2 

3 

+ · · · , 

r3 (8.9) 

B(r) = 1 + 2γ m 3δ m 

+ 

r 2 

2 

γ2 m 

+ 

r2 2 

3 

+ · · · 

r3 (8.10) 

où β,γ,δ,β1,γ2,... sont des constantes sans dimension que l’on appelle des paramètres postnewtoniens, 

car leur introduction permet de décrire des effets gravitationnels qui ne peuvent 

être prédits par l’approximation newtonienne. Les valeurs de ces paramètres vont dépendre de 

la théorie métrique qu’on va considérer. 

Pour l’instant, nous n’avons pas construit une théorie métrique susceptible d’attribuer des 

valeurs définies aux paramètres postnewtoniens. Nous allons donc considérer β, γ, δ, etc. comme 

des quantités qu’il nous faudra déterminer en confrontant les effets prédits à partir de (8.9) et 

(8.10) avec des observations ou des expériences 6 . 

8.2 Quels termes faut-il retenir à l’approximation postnewtonienne? 

Pour étudier les effets mentionnés ci-dessus, il est primordial de savoir quels sont les termes 

qu’on peut négliger dans les développements (8.9)-(8.10) en fonction de l’ordre d’approximation 

postnewtonienne que l’on désire atteindre. Nous allons voir que les termes à retenir ne sont pas 

les mêmes selon que l’on s’intéresse aux rayons lumineux (propagation “rapide”) ou aux planètes 

du système solaire (corps “lents”). 

La déduction des tests classiques repose sur l’étude des géodésiques de la métrique (8.1). 

C’est pourquoi nous allons effectuer la discussion en partant du principe variationnel qui définit 

les géodésiques d’un espace-temps (V4,g) vu dans le chap. 7. Rappelons que si nous prenons 

le temps coordonnée t = x 0 /c comme paramètre dans (7.22), la détermination des géodésiques 

se ramène à la résolution des équations du mouvement d’un système dynamique décrit par la 

fonction de Lagrange 

L(x i , ˙x j ,t) = −c 2 

 

g00(x k ,t) + 2 

c g0i(x k ,t) ˙x i + 1 

c 2gij(x k ,t) ˙x i ˙x j , (8.11) 

5 Notons que cette hypothèse d’analyticité ne va pas de soi. On pourrait supposer que A et B contiennent 

des termes de portée finie du type potentiel de Yukawa, par exemple. On suppose ici que dans le domaine 

astronomique tout au moins, les termes de portée finie ont une action négligeable. 

6 Les coefficients numériques devant β,γ,δ,β1,γ2,... sont choisis de telle sorte que l’on ait β = 1,γ = 1,δ = 

1,β1 = 1,γ2 = 1,... en relativité générale, comme on le verra dans le Chapitre 10. 

92

où les quantités ˙x j sont définies par 

˙x j = dxj 

. (8.12) 

dt 

Les équations différentielles des géodésiques sont alors les équations de Lagrange associées 

à la fonction de Lagrange (8.11) : 

d 

dt 

 

∂L ∂ ˙x i 

− ∂ L 

= 0. (8.13) 

∂xi Pour la métrique (8.1), la fonction de Lagrange (8.11) s’écrit simplement 

L(x i , ˙x j ,t) = −c 2 

 

A(r) − 1 

c 2B(r)δij ˙x i ˙x j . (8.14) 

Sous les hypothèses que nous avons faites, les fonctions A(r) et B(r) peuvent être respectivement 

remplacées par les développements (8.9) et (8.10). À quel ordre doit-on arrêter ces 

développements pour avoir une approximation cohérente ? 

Supposons d’abord que nous voulions déterminer les rayons lumineux. Les quantités c −1 ˙x i 

sont de l’ordre de 1, puisque la vitesse de la lumière est de l’ordre de c (nous disons de l’ordre 

ce c et non égale à c car nous n’avons pas encore défini rigoureusement la notion de vitesse). 

On a donc 

1 

c 2δij ˙x i ˙x j ≈ 1 (8.15) 

dans (8.14). Il en résulte que les développements de A et de B doivent être arrêtés aux termes 

de même puissance de m/r. Ainsi, pour une description cohérente des rayons lumineux, la 

première approximation postnewtonienne peut se contenter des dévelopements 

A(r) = 1 − 2m 

r 

, B(r) = 1 + 2γm 

r 

, (8.16) 

tandis que l’approximation postpostnewtonienne nécessite les développements suivants 

A(r) = 1 − 2m 

r 

3δ 

+ 2βm2 , B(r) = 1 + 2γm + 

r2 r 2 

m2 . (8.17) 

r2 Il résulte de ces formules que la métrique quasi newtonienne (7.30) ne peut fournir une 

approximation cohérente pour la lumière : la déviation que l’on pourrait calculer à partir de 

cette métrique ou de la dynamique newtonienne usuelle appliquée à des corpuscules allant à la 

vitesse de la lumière n’est pas une approximation de la déviation prédite à partir de (8.16). 

Examinons maintenant le cas d’une planète ou de n’importe quel autre corps autogravitant 

dont l’orbite ne va jamais à l’infini (état de liaison gravitationnelle). Les équations de la 

dynamique newtonienne montrent que le carré de la vitesse d’un tel corps satisfait la relation 


v 2 ∼ GM 

r 

, (8.18) 

1 

c2δij ˙x i ˙x j ∼ m 

. (8.19) 

r 

93

On déduit de cette équivalence d’ordres de grandeur que si on arrête le développement de 

B au terme en m n /r n , il faut aller jusqu’au terme en m n+1 /r n+1 dans le développement de A. 

Ainsi la première approximation postnewtonienne cohérente pour les corps autogravitants en 

état de liaison gravitationnelle est définie par 

A(r) = 1 − 2m 

r 

l’approximation postpostnewtonienne correspond à 

A(r) = 1 − 2m 

r 

3β1 

+ 2βm2 − 

r2 2 

+ 2βm2 , B(r) = 1 + 2γm , (8.20) 

r2 r 

m3 3δ 

, B(r) = 1 + 2γm + 

r3 r 2 

m2 , (8.21) 

r2 et ainsi de suite. 

La forme approchée (8.20) est dite approximation 1PN de la métrique à symétrie sphérique 

statique (8.1) car le potentiel A = g00 contient un terme d’ordre (v/c) 2 ×(le terme m/r donnant 

l’approximation newtonienne). On a en effet m 2 /r 2 ≈ (v/c) 2 × m/r. Par extension, la forme 

(8.21) est dite approximation 2PN de la métrique, et on peut définir l’approximation kPN pour 

k ≥ 3 si besoin est. Pour abréger, on dit que les effets en v n /c n et en m n /r n sont d’ordre 1/c n , 

ce que l’on dénote par O(1/c n ) ou plus simplement par O(n). 

8.3 Conclusion 

On voit que l’approximation 1PN de la métrique suffit pour déterminer les effets relativistes 

d’ordre 1/c 2 sur les rayons lumineux, mais qu’il faut impérativement considérer l’approximation 

2PN si on veut calculer les effets d’ordre 1/c 4 sur la lumière. 

94

Chapitre 9 

Quelques effets classiques prévus par 

les théories métriques 

Nous allons maintenant déterminer un certain nombre d’effets spécifiquement prédits à 

partir de la métrique postnewtonienne définie par (8.1) et (8.20) et pouvant servir de tests des 

théories métriques : l’effet de retard dans la propagation des signaux électromagnétiques, la 

déviation gravitationnelle des rayons lumineux et l’avance séculaire relativiste du périhélie des 

planètes. 

9.1 Temps de propagation d’un rayon lumineux entre 

deux points 

Supposons qu’un photon émis au point xA à l’instant tA soit reçu en un point xB à l’instant 

tB (fig. 9.1). Du fait que la métrique (8.1) s’écarte légèrement de la métrique de Minkowski, on 

doit avoir 

x 0 B − x 0 A = c(tB − tA) = |xB − xA| + c∆T (xA,xB), (9.1) 

le terme c∆T (xA,xB) devant s’annuler en l’absence de champ gravitationnel (GM = 0), de 

telle sorte qu’on retrouve alors l’expression de x 0 B − x 0 A dans l’espace-temps de Minkowski. On 

a effectivement le théorème suivant. 

Proposition 9.1.1 Soit un photon émis en xA à l’instant tA et reçu en xB à l’instant tB dans 

un espace-temps statique à symétrie sphérique dont la métrique est écrite sous la forme : 

ds 2 

= 1 − 2m 

 

+ · · · c 

r 2 dt 2 

− 1 + 2γ m 

+ · · · dx 

r 12 + 

dx 22 + 

dx 32 

, (9.2) 

les termes négligés étant d’ordre 1/c4 . 

Le temps de parcours tB − tA est donné par les expressions équivalentes 

tB − tA = RAB 

+ (γ + 1)GM 

c c3 

rB + N AB.xB 

ln 

+ O(1/c 

rA + N AB.xA 

5 ), (9.3) 

= RAB 

+ (γ + 1)GM 

c c3 

rA − N AB.xA 

ln 

+ O(1/c 

rB − N AB.xB 

5 ), (9.4) 

95

qui peuvent encore s’écrire sous la forme 

où 1 

et 


c 

+ (γ + 1)GM 

c 3 ln 

rA = |xA|, rB = |xB|, nA = xA 

, nB = xB 

 

rA + rB + RAB 

+ O(1/c 

rA + rB − RAB 

5 ), (9.5) 

rA 

rB 

(9.6) 

RAB = |xB − xA|, N AB = xB − xA 

. (9.7) 

Il est clair que le terme relativiste logarithmique dans le second membre de (9.5) est toujours 

positif si A et B sont distincts, car on sait aujour’hui que γ + 1 est très voisin de 2. La durée 

du trajet d’un rayon lumineux entre deux points est donc toujours supérieure au temps RAB/c 

que mettrait ce rayon en l’absence de champ gravitationnel. La mesure de cet effet de retard 

a été proposée comme test de la relativité générale par Shapiro dès 1964 2 . C’est pourquoi on 

appelle souvent cet effet l’effet Shapiro. 

Démonstration.— On peut donner une démonstration élémentaire des formules (9.3)-(9.5) 

sans intégrer explicitement les équations différentielles des géodésiques isotropes. Compte tenu 

de la forme (9.2) de la métrique, la propriété que ds 2 = 0 le long d’un rayon mumineux se 

traduit par la relation 

 

 

 

cdt = 

1 + 2γ m 

r 

1 − 2 m 

r 

RAB 

 

|dx| = 1 + (γ + 1) m 

 

|dx| + O(1/c 

r 

4 ), (9.8) 

où dx est le vecteur infinitésimal dx = (dx1 ,dx2 ,dx3 ) pris le long du rayon lumineux et |dx| 

la norme euclidienne usuelle de dx : 

|dx| = 

 

δijdx i dx j . (9.9) 

On peut toujours choisir le paramètre affine λ le long du rayon de telle sorte que λ = 0 en 

xA et λ = 1 en xB. Avec ce choix la trajectoire du rayon est alors décrite par une équation de 

la forme 

x(λ) = RABN ABλ + xA + X(λ), (9.10) 

où RABN ABλ + xA est la droite reliant xA et xB (approximation d’ordre zéro) et X(λ) 

représente la perturbation gravitationelle subie par le rayon. La fonction X(λ) doit évidemment 

satisfaire aux conditions aux limites 

X(0) = 0, X(1) = 0. (9.11) 

1 On notera que nA, nB et NAB sont des vecteurs unitaires au sens usuel. 

2 I. I. Shapiro, Physical Review Letters, vol. 13, p. 789 (1964). 

96

A 

o 

N AB 

n A 

o 

O 

n B 

Fig. 9.1 – Retard gravitationnel des rayons lumineux. 

D’après (9.8) et (9.10), la différence tB − tA a pour expression : 

tB − tA = 1 

 

1 

1 + (γ + 1) 

c 0 

m 

 

 

RABN AB + 

|x(λ)| 

dX 

dλ 

o 

B 

 

 

 

 

dλ + O(1/c5 ), (9.12) 

Les équations d’Euler-Lagrange des géodésiques 3 entraînent que X(λ) est d’ordre 1/c 2 . En 

conséquence, dX/dλ est aussi d’ordre 1/c 2 . Du fait que nous voulons seulement calculer la 

contribution gravitationnelle d’ordre 1/c 3 dans tB − tA, nous pouvons donc négliger le terme 

(dX/dλ) 2 dans le calcul de |dx/dλ|, puisque ce terme est d’ordre 1/c 4 . Cette approximation 

donne : 

 

dx(λ) 

 

= RAB 1 + 

dλ N AB 

RAB 

d’où après substitution dans le second membre de (9.12) : 


c 

 

1 

1 + (γ + 1) 

0 

m 

|x(λ)| + N AB 

RAB 

· dX 

 

dλ + O(1/c 

dλ 

4 ). (9.13) 

· dX 

 

dλ + O(1/c 

dλ 

5 ). (9.14) 

Or, la dernière intégrale du second membre de (9.14) est nulle en raison des conditions aux 

limites (9.11). En effet 

1 N AB 

0 

RAB 

En conséquence, (9.14) s’écrit 


c 

3 Equations (C.19) de l’annexe C. 

· dX 

dλ dλ = N AB 

RAB 

+ (γ + 1)mRAB 

c 

97 

· [X(1) − ·X(0)] = 0. (9.15) 

1 

0 

dλ 

|x(λ)| + O(1/c5 ). (9.16)

Le terme m/|x(λ)| étant d’ordre 1/c 2 , on peut négliger la contribution de X(λ) dans |x(λ)| 

et poser simplement 

et 

m 

|x(λ)| = 

Compte tenu des identités 

on trouve 

m 

 

R 2 ABλ 2 + 2RAB(N AB.xA)λ + r 2 A 

R 2 AB + 2RAB.xA + r 2 A ≡ r 2 B 

RAB + N AB.xA ≡ (xB − xA).N AB + xA.N AB ≡ N AB.xB , 

1 

m 

0 

dλ 

|x(λ)| 

 

m rB + N AB.xB 

= ln 

RAB rA + N AB.xA 

D’où l’expression de tB − tA donnée par (9.3). 

En utilisant l’identité de “polarisation” 

on voit que 

Mais on a aussi l’identité 

qui entraîne 

|x||y| + x.y ≡ 1 

(|x| + |y|) 

2 

2 − (x − y) 2 

, 

rB + N AB.xB = rBRAB + RAB.xB 

RAB 

|x||y| + x.y ≡ 1 

(x + y) 

2 

2 − (|x| − |y|) 2 

, 

rA + N AB.xA = rARAB + RAB.xA 

Il résulte de (9.19) et (9.20) que 

rB + N AB.xB 

rA + N AB.xA 

RAB 

 

+ O(1/c 5 ). (9.17) 

+ O(1/c 4 ). (9.18) 

= 1 (rA + RAB) 

2 

2 − r2 A 

. (9.19) 

RAB 

= 1 r 

2 

2 B − (rA − RAB) 2 

. (9.20) 

RAB 

= (rA + RAB) 2 − r2 A 

r2 B − (rA − RAB) 2 = rA + rB + RAB 

. (9.21) 

rA + rB − RAB 

L’équation (9.21) entraîne immédiatement (9.5). La formule (9.5) montre que la quantité 

tB − tA est inchangée lorsqu’on échange xA et xB (cette propriété est en fait liée au caractère 

statique de la métrique). On voit facilement en échangeant le rôle de A et de B que (9.3) peut 

également s’écrire sous la forme (9.4). 

L’expression (9.5) est très commode pour évaluer le temps de parcours d’un photon entre 

une station terrestre et un satellite artificiel. Les expressions (9.3) ou (9.4) sont d’un emploi 

courant dans la modélisation de l’effet Shapiro dans le système solaire, mais il est des cas où il 

est utile d’introduire la distance minimale entre le rayon lumineux et l’origine des coordonnées. 

On peut alors se servir de l’expression de tB − tA fournie par le corollaire qui suit. 

98

Corollaire 9.1.1 Sous les hypothèses du théorème 9.1.1, le temps de parcours tB − tA peut 

encore s’écrire sous la forme : 


c 

+(γ + 1) GM 

c3 ln rArB [1 + (nB − nA).N AB − (N AB.nA)(N AB.nB)] 

r2 + O(1/c 

c 

5 ), 

(9.22) 

où rc est la distance euclidienne entre le point O et la droite passant par les points xA et xB : 

rc = rArB 

RAB 

sin ψAB, (9.23) 

ψAB étant l’angle entre les vecteurs nA et nB. 

Dans le cas où A et B sont très éloignés de l’origine O et rc ≪ inf (rA,rB), on a avec une 

approximation suffisante 

tB − tA ≈ RAB 

c 

+ (γ + 1)GM 

c3 

4rArB 

ln 

Démonstration.— Un raisonnement géométrique élémentaire montre que 4 

D’où : 

rB + N AB.xB 

rA + N AB.xA 

(N AB.xA) 2 = r 2 A − r 2 c 

= (rB + N AB.xB)(rA − N AB.xA) 

r 2 A − (N AB.xA) 2 

= rArB 

r 2 c 

r 2 c 

 

+ O(1/c 5 ). (9.24) 

[1 + (nB − nA)N AB − (N AB.nA)(N AB.nB)], (9.25) 

qui entraîne immédiatement (9.22) par substitution dans (9.3). 

Supposons que A et B soient très éloignés du Soleil et que le rayon lumineux passe très près 

de la surface solaire . Alors nB ≈ nA et N AB ≈ nB, ce qui entraîne 

1 + (nB − nA).N AB − (N AB.nA)(N AB.nB) ≈ 4. 

D’où (9.24) en substituant dans (9.22). 

L’équation (9.24) est l’expression de tB − tA que l’on a utilisée pour interpréter le décalage 

des fréquences des signaux radio échangés entre la Terre et la sonde Cassini lors de son passage 

derrière le Soleil. On a ainsi pu effectuer la meilleure détermination du paramètre γ obtenue à 

ce jour 5 : 

γ − 1 = (2, 1 ± 2, 3) × 10 −5 . (9.26) 

4 De même, on a (NAB.xB) 2 = r 2 B − r2 c . 

5 B. Bertotti, L. Iess & P. Tortura, Nature, vol. 425, p. 374 (2003). 

99

9.2 Équations des géodésiques d’une métrique à symétrie 

sphérique statique 

Pour déterminer la déviation des rayons lumineux et l’avance séculaire du périhélie, nous 

allons appliquer la théorie des géodésiques exposée dans la section C.2 de l’annexe C. Nous 

utilisons une métrique à symétrie sphérique telle que (8.1), que nous recopions ici 

ds 2 = A(r)(dx 0 ) 2 − B(r) 

(dx 1 ) 2 + (dx 2 ) 2 + (dx 3 ) 2 

, (9.27) 

les quantités A(r) et B(r) étant pour l’instant des fonctions différentiables arbitraires. 

Les calculs effectués dans cette section sont rigoureux. 

Introduisons les coordonnées sphériques r,θ,ϕ définies par 

x 1 = r sin θ cos ϕ, x 2 = r sin θ sin ϕ, x 3 = r cos θ . (9.28) 

La métrique (9.27) s’écrit alors sous la forme 

ds 2 = A(r)(dx 0 ) 2 − B(r)(dr 2 + r 2 dθ 2 + r 2 sin 2 θdϕ 2 ). (9.29) 

La fonction de Lagrange L correspondant à cette métrique est donnée par 

2L = A(r)( ˙x 0 ) 2 − B(r)(˙r 2 + r 2 ˙ θ 2 + r 2 sin 2 θ ˙ϕ 2 ), (9.30) 

où on utilise la notation ˙x = dx/dλ, λ étant un paramètre affine arbitraire de la géodésique. 

L’intégrale première 2L = K = const. s’écrit alors 

A(r)( ˙x 0 ) 2 − B(r)(˙r 2 + r 2 ˙ θ 2 + r 2 sin 2 θ ˙ϕ 2 ) = K , (9.31) 

avec K > 0 pour une géodésique du genre temps et K = 0 pour une géodésique isotrope. 

Du fait que L ne dépend explicitement ni de x 0 ni de ϕ (de telles variables sont dites 

cycliques ou ignorables), il existe deux autres intégrales premières : 

∂L 

∂ ˙x 0 ≡ A(r) ˙x0 = E , (9.32) 

∂L 

∂ ˙ϕ ≡ −B(r)r2 sin 2 θ ˙ϕ = −L, (9.33) 

où E et L sont des constantes d’intégration. Notons que L correspond au moment cinétique 

conservé en mécanique newtonienne. 

Pour obtenir un système complet d’équations du mouvement, il suffit d’adjoindre l’équation 

d’Euler-Lagrange pour la variable θ : 

d 

dλ [−B(r)r2 ˙ θ] + B(r)r 2 sin θ cos θ ˙ϕ 2 = 0. (9.34) 

En raison de la symétrie sphérique, on peut poser que le mouvement s’effectue dans un plan 

fixe passant par l’origine O. Il est alors possible de choisir l’orientation des axes de telle sorte 

que la géodésique étudiée soit dans le plan équatorial d’équation 

θ = π 

. (9.35) 

2 

100

Avec ce choix d’axes, on a ˙ θ = 0 et la géodésique est alors déterminée par le système des 

trois intégrales premières 

 

0 2 2 dx dr 

A(r) − B(r) − B(r)r 

dλ dλ 

2 

2 dϕ 

= K , (9.36) 

dλ 

A(r) dx0 

dλ 

B(r)r 2dϕ 

dλ 

De (9.37) et (9.38), on déduit : 

= E , (9.37) 

dx 0 

dλ 

= L. (9.38) 

= E 

A(r) , 

dϕ 

dλ 

L 

= 

r2 . (9.39) 

B(r) 

Substituons ces expressions dans (9.36) et divisons des deux membres par B(r). Nous obtenons 

l’équation différentielle du premier ordre à variables séparables : 

2 dr E 

= 

dλ 

2 

L2 

− 

A(r)B(r) r2 1 

B2 K 

− . (9.40) 

(r) B(r) 

Deux cas sont à distinguer. 

1. L = 0. Dans ce cas ˙ϕ = 0, ce qui entraîne ϕ = constante. La géodésique est dite radiale. 

L’équation (9.40) se réduit alors à 

2 dr E 

= 

dλ 

2 K 

− . (9.41) 

A(r)B(r) B(r) 

En éliminant dλ entre (9.41) et la première équation de (9.39), il vient : 

 

dr 

dx0 2 = A(r) 

 

1 − 

B(r) 

K 

E2A(r) 

. (9.42) 

Cette équation du premier ordre à variables séparables permet de trouver la relation entre 

r et le temps coordonnée t sous forme de quadrature. 

2. L = 0. Dans ce cas, on peut éliminer dλ entre (9.40) et (9.38), ce qui donne : 

2 dr 

= r 

dϕ 

4 

 

2 E 

L2 1 K 

− 

A(r) L2 

B(r) − 1 

r2 

. (9.43) 

L’équation (9.43) est une équation différentielle du premier ordre à variables séparables 

qui permet en principe de déterminer l’angle ϕ en fonction de la variable radiale r lorsque les 

fonctions A(r) et B(r) sont connues. Il est toutefois plus pratique d’utiliser u = m/r comme 

fonction inconnue plutôt que r. En substituant dr = −mu−2du dans (9.43) et en multipliant 

les deux membres par u4 , on obtient une équation qui peut s’écrire sous la forme : 

2 du 

dϕ 

= m2 E 2 

L 2 

B(u) m2 

− K 

A(u) L2 B(u) − u2 . (9.44) 

101

Cette équation différentielle est elle aussi à variables séparables. En prenant la racine carrée 

de chaque membre de (9.44), on obtient l’équation 

dϕ = ± 

du 

m2E2 L2 B(u) m2 − K A(u) L2 B(u) − u2 , (9.45) 

qui permet d’exprimer ϕ en fonction de u par une quadrature. 

L’intégration de l’équation (9.45) permet de déterminer l’angle de déviation de la lumière 

ainsi que l’avance du périhélie sous la forme d’une intégrale exacte. Pour obtenir une expression 

approchée de u (ou de r) en fonction de ϕ, il est toutefois commode de différencier (9.44) par 

rapport à ϕ. On obtient ainsi 

2 du d 

dϕ 

2u d 

= 

dϕ2 du 

m 2 E 2 

L 2 

B(u) 

A(u) 

 

m2 du 

− K B(u) − 2udu . (9.46) 

L2 dϕ dϕ 

Si l’orbite ou le rayon lumineux ne sont pas circulaires, du/dϕ = 0 sauf au péricentre ou à 

l’apocentre. On peut alors diviser les deux membres de (9.46) par 2du/dϕ. En faisant passer le 

terme u du second membre dans le premier membre, il vient : 

d2u 1 

+ u = 

dϕ2 2 

d 

du 

m 2 E 2 

L 2 

B(u) 

A(u) 

 

m2 

− K B(u) . (9.47) 

L2 L’équation (9.47) se prête mieux que l’équation (9.44) à des calculs perturbatifs. 

9.3 Déviation de la lumière par une masse à symétrie 

sphérique 

On doit poser K = 0 pour un rayon lumineux. L’équation (9.44) se réduit alors à 

2 du 

= 

dϕ 

m2E2 L2 B(u) 

A(u) − u2 . (9.48) 

Nous posons que le rayon lumineux atteint le point le plus proche de l’origine (péricentre 

P) lorsque ϕ = 0 et nous appelons rp la valeur de r en ce point (fig. 9.2). La solution de (9.48) 

doit donc satisfaire aux conditions aux limites 

 

du 

= 0, up ≡ u|ϕ=0 = 

dϕ 

m 

. (9.49) 

ϕ=0 

En substituant ces expressions dans (9.48), on voit que la constante m2E2 /L2 est donnée 

par 

m2E2 L2 = u2 Ap 

p , (9.50) 

Bp 

où 

rp 

Ap = A(up), Bp = B(up). (9.51) 

102

L’équation (9.47) s’écrit donc maintenant 

d2u 1 

+ u = 

dϕ2 2 u2 Ap 

p 

Bp 

d 

du 

 

B(u) 

. (9.52) 

A(u) 

L’équation (9.52) est rigoureuse. Nous allons l’appliquer au calcul de la déviation de la 

lumière à l’approximation postnewtonienne du premier ordre en posant (voir chapitre 8) : 

A(u) = 1 − 2u + · · · , B(u) = 1 + 2γu + · · · . (9.53) 

Pour évaluer l’ordre de grandeur des différentes quantités intervenant dans les équations du 

mouvement, il est très commode d’introduire le paramètre sans dimension ǫ défini par 

ǫ = up = m 

. (9.54) 

D’après ce que nous avons vu précédemment, une quantité d’ordre ǫ est d’ordre 1/c 2 . Nous 

pourrons donc poser 

rp 

O(ǫ) ∼ O(1/c 2 ) = O(2), O(ǫ 2 ) ∼ O(1/c 4 ) = O(4). (9.55) 

Rappelons qu’on a ǫ ≤ 2, 13 × 10−6 à l’extérieur du Soleil. 

Il est clair que le second membre de (9.47) est d’ordre ǫ2 . À l’approximation du premier 

ordre en ǫ, l’équation (9.52) se réduit donc à 

d2u + u = 0. (9.56) 

dϕ2 La solution de cette équation satisfaisant aux conditions aux limites (9.49) est 

u = up cos ϕ ⇐⇒ rp = r cos ϕ, (9.57) 

ce qui montre que le rayon lumineux coïncide avec la droite orthogonale en P au rayon vecteur 

joignant O et P. Pour calculer la déviation relativiste du rayon lumineux, il faut donc retenir 

les termes d’ordre ǫ2 dans le second membre de (9.52). À cet ordre d’approximation, il suffit de 

prendre : 

Ap 

B(u) 

= 1 + O(ǫ), 

Bp 

A(u) = 1 + 2(γ + 1)u + O(ǫ2 ) =⇒ d 

 

B(u) 

= 2(γ + 1) + O(ǫ). 

du A(u) 

Compte tenu de (9.53), l’équation (9.52) devient : 

d2u dϕ2 + u = (γ + 1)u2p = (γ + 1) m2 

r2 . (9.58) 

p 

La solution de cette équation satisfaisant aux conditions (9.49) est 

ce qui est équivalent à 

u = up {[1 − (γ + 1)up] cos ϕ + (γ + 1)up} , (9.59) 

r = 

rp 

. (9.60) 

[1 − (γ + 1)up] cos ϕ + (γ + 1)up 

103

δ/2 ^ 

O P 

δ/2 

^ 

Fig. 9.2 – Déviation d’un rayon lumineux par une masse centrale. 

L’équation (9.60) est l’équation polaire d’une branche d’hyperbole de paramètre p et d’excentricité 

e donnés par 

p = 

r 2 p 

(γ + 1)m = rp(e + 1), e = 

rp 

− 1. 

(γ + 1)m 

La déviation totale du rayon entre −∞ et ∞ est l’angle δ que forment les deux asymptotes. 

Soit ϕ∞ la limite de l’angle ϕ lorsque r → ∞, i.e. u → 0. On a de façon évidente 

L’équation (9.59) donne donc pour δ/2 

up 

 

[1 − (γ + 1)up] cos 

Or, l’angle δ étant petit, on a l’approximation 

ϕ∞ = π 

2 + 

δ 

. (9.61) 

2 

 

π 

cos 

2 + 

 

δ δ 

≈ − sin 

2 2 

La substitution de (9.63) dans (9.62) montre immédiatement que 

 

π 

2 + 

 

δ 

+ (γ + 1)up = 0. (9.62) 

2 

δ 

≈ − . (9.63) 

2 

δ = 2(γ + 1) m 

+ O(ǫ 2 ), (9.64) 

rp 

104

soit 

Si γ = 1, on a 

δ = 2(γ + 1) GM 

c 2 rp 

+ O(4). (9.65) 

δ = 1, 75”. (9.66) 

pour un rayon lumineux frôlant le Soleil. 

La première observation de cet effet fut effectuée par Eddington lors de l’éclipse totale de 

Soleil de 1919 et joua un grand rôle dans l’histoire de la théorie de la relativité générale, en dépit 

d’erreurs systématiques de l’ordre de 30% sur l’effet à mesurer. Ultérieurement, des mesures de 

déviation d’ondes émises par des radio-sources et passant près du Soleil ont permis d’améliorer 

les estimations de γ. Ainsi, par exemple, Fomalont et Sramec ont-ils trouvé en 1976 grâce à 

une technique interférométrique 6 

γ = 1, 014 ± 0, 018. (9.67) 

Toutefois, l’exactitude de ces mesures “historiques” est restée limitée, en raison principalement 

d’effets difficilement modélisables dus à la couronne solaire. Heureusement, les mesures de 

type interférométriques (V.L.B.I.) se sont diversifiées et considérablement raffinées 7 et surtout, 

on a pu effectuer des déterminations de γ extrêmement précises à partir de mesures radar entre 

la Terre et une planète ou une sonde, et tout récemment par effet Doppler sur les liens radio 

avec la sonde Cassini, comme nous l’avons signalé dans la section 9.1. 

9.4 Avance séculaire du périhélie d’une planète 

Pour étudier le mouvement du périhélie d’une planète, nous supposons ici que la planète 

est assimilable à une particule d’épreuve, ce qui revient à négliger l’influence de sa structure 

interne sur son mouvement. En outre, nous négligeons l’influence des autres planètes et nous 

supposons que le Soleil est un corps isolé dans l’univers, engendrant un champ gravitationnel à 

symétrie sphérique statique. La ligne d’univers de la planète est alors une géodésique du genre 

temps de la métrique. 

Du fait que l’on peut choisir l’abscisse curviligne s comme paramètre affine sur toute 

géodésique du genre temps, nous posons 

K = 1 

dans les équations des géodésiques, de sorte que (9.44) et (9.47) s’écrivent respectivement 

et 

2 du 

= 

dϕ 

m2E2 L2 B(u) 

A(u) 

d2u 1 m 

+ u = 

dϕ2 2 

2E2 L2 d 

du 

m2 

− B(u) − u2 

L2 

B(u) 

A(u) 

(9.68) 

− 1 m 

2 

2 

L2 dB(u) 

. (9.69) 

du 

6 Voir E. B. Fomalont & R. A. Sramek, Physical Review Letters, vol. 36, p. 1475 (1976). 

7 Voir D. E. Lebach et al., Physical Review Letters, vol. 75, p.1439 (1995). 

105

Dans ce qui suit, nous supposons que l’orbite est quasi elliptique (fig. 9.3). Au cours du 

mouvement, la variable r va donc passer de sa valeur rp au périhélie à sa valeur ra à l’aphélie 

et on peut définir le demi-grand axe a et l’excentricité e en posant : 

rp = a(1 − e), ra = a(1 + e). (9.70) 

En outre, nous imposons ϕ = 0 pour l’un des périhélies, considéré comme périhélie de 

référence. Nous appelons ϕa l’angle de l’aphélie qui succède au périhélie de référence. 

La solution de (9.68) décrivant cette orbite doit satisfaire aux conditions aux limites suivantes 

: 

 

du 

= 0, up ≡ u|ϕ=0 = m 

; (9.71) 

dϕ 

 

du 

dϕ 

ϕ=0 

ϕ=ϕa 

= 0, ua ≡ u|ϕ=ϕaph 

rp 

m 

= . (9.72) 

ra 

Compte tenu de l’équation du mouvement (9.68), ces conditions aux limites s’écrivent : 

m2E2 Bp 

L 2 

Ap 

m2E2 Ba 

où Ap, Bp sont définis par (9.51), et Aa,Ba sont définies par 

L 2 

Aa 

− m2 

L 2 Bp − u 2 p = 0, (9.73) 

− m2 

L 2 Ba − u 2 a = 0, (9.74) 

Aa = A(ua), Ba = B(ua). (9.75) 

Les équations (9.51) et (9.75) constituent un système de deux équations linéaires satisfaites 

par les deux inconnues m 2 E 2 /L 2 et m 2 /L 2 . La résolution de ce système est aisée. Il vient : 

et 

m 2 E 2 

m2 = 

L2 ApAa 

= 

L2 Aa − Ap 

u 2 p 

Bp 

− u2 a 

Ba 

 

 

1 Ap 

u 

Aa − Ap Bp 

2 p − Aa 

u 

Ba 

2 

a 

(9.76) 

. (9.77) 

Toutes les équations données jusqu’ici dans cette section sont rigoureuses et peuvent être 

appliquées dans n’importe quelle théorie métrique. Nous allons maintenant remplacer Ap, Bp, 

Aa et Ba par leurs développements postnewtoniens respectifs obtenus à partir de 

A(u) = 1 − 2mu + 2βu 2 + · · · , B(u) = 1 + 2γu + · · · (9.78) 

Pour définir l’ordre de grandeur des différentes quantités intervenant dans notre problème, 

nous pouvons nous servir du paramètre up comme nous l’avons fait pour la lumière ou encore 

poser pour plus de commodité 

ǫ = m 

. (9.79) 

L’approximation du premier ordre par rapport à ǫ correspond à l’approximation newtonienne. 

Il faudra donc développer le second membre de (9.69) jusqu’au second ordre en ǫ. En 

a 

106

conséquence, il faut former le développement des constantes du mouvement m 2 E 2 /L 2 et m 2 /L 2 

à l’ordre ǫ 2 . Un calcul de développements limités donne 8 : 

et 

m2 = 

L2 m 2 E 2 

= 

L2 m 

a(1 − e 2 ) + 

m 

a(1 − e 2 ) + 

m2 a2 (1 − e2 

2[β − 2(γ + 1)](1 − e 

) 

2 ) + γ 

+ O(ǫ 3 ) (9.80) 

m2 a2 (1 − e2 

2[β − 2(γ + 1)](1 − e 

) 

2 ) + γ + 1 

+ O(ǫ 3 ). (9.81) 

La comparaison de (9.80) et (9.81) montre immédiatement que 

m2 L2 = m2E2 m 

+ 

L2 2 

a2 (1 − e2 ) + O(ǫ3 ). (9.82) 

Substituons (9.82) dans (9.69). Nous obtenons l’équation du mouvement : 

d2u 1 

+ u = 

dϕ2 2 

m 2 E 2 

L 2 

d 

du 

 

B(u) 

− 

A(u) 

dB(u) 

 

du 

− 1 

2 

m 2 

a 2 (1 − e 2 ) 

dB(u) 

du + O(ǫ3 ) (9.83) 

où la constante m 2 E 2 /L 2 doit être remplacée par son expression approchée (9.80). Cette 

constante étant du premier ordre en ǫ, il suffit de retenir le développement du premier ordre 

pour l’expression entre accolades dans le second membre de (9.83). On a : 

soit 

D’où 

d 

du 

B(u) 

A(u) − B(u) = 2u + 2[2(γ + 1) − β]u2 + O(u 3 ). 

 

B(u) 

− 

A(u) 

dB(u) 

du = 2 + 4[2(γ + 1) − β]u + O(u2 ). (9.84) 

Pour terminer le calcul du second membre de (9.83), il suffit de noter que 

1 

2 

m 2 

a 2 (1 − e 2 ) 

dB(u) 

du 

Substituons (9.84) et (9.85) dans (9.83). Il vient : 

d 2 u 

dϕ2 + u = m2E2 L 

= γ m2 

a 2 (1 − e 2 ) + O(ǫ3 ). (9.85) 

2 {1 + 2[2(γ + 1) − β]u} − γ m2 

a 2 (1 − e 2 ) + O(ǫ3 ), 

d2 

u 

+ 1 − 2 

dϕ2 m2E2 L2 

[2(γ + 1) − β] u = m2E2 m2 

− γ 

L2 a2 (1 − e2 . (9.86) 

) 

Dans le premier membre de (9.86), la constante m 2 E 2 /L 2 peut être remplacée par son 

expression approchée du premier ordre 

m 2 E 2 

= 

L2 8 On déduit aisément de ces formules que E 2 = 1 − m 

a + O(ǫ2 ) . 

m 

a(1 − e 2 ) + O(ǫ2 ). (9.87) 

107

Le second membre de (9.86) est quant à lui donné par 

m 2 E 2 

m2 

− γ 

L2 a2 (1 − e2 ) = 

m 

a(1 − e2 

1 − 

) 

6m 

a(1 − e 2 ) 

 

2(γ + 1) − β 

3 

(9.88) 

Substituons (9.87) et (9.88) dans (9.86). Nous obtenons finalement l’équation du mouvement 

approchée 

d2 

u 6m 

+ 1 − 

dϕ2 a(1 − e2 

2(γ + 1) − β m 

u = 

) 3 a(1 − e2 

6m 

1 − 

) a(1 − e2 

2(γ + 1) − β 

. (9.89) 

) 3 

Cette équation différentielle est de la forme u ′′ + ω 2 u = const., qu’il est facile d’intégrer. La 

solution de (9.89) correspondant à un périhélie atteint en ϕ = 0 est 

où ω est la constante définie par 

ω = 

u = 

m 

a(1 − e2 (1 + e cos ωϕ), (9.90) 

) 

 

 

 

6m 

1 − 

a(1 − e2 2(γ + 1) − β 

) 3 

≈ 1 − 

3m 

a(1 − e2 2(γ + 1) − β 

. (9.91) 

) 3 

Du fait que u = m/r, on déduit immédiatement de (9.90) qu’à l’approximation 1PN, l’orbite 

relativiste d’une planète autour du Soleil est décrite en coordonnées polaires (r,ϕ) par l’équation 

où ω est donné par (9.91) que l’on peut encore écrire 

r = a(1 − e2 ) 

, (9.92) 

1 + e cos ωϕ 

ω = 1 − 3GM 

c2a(1 − e2 2(γ + 1) − β 

. (9.93) 

) 3 

Les expressions (9.92) et (9.93) sont correctes à des termes d’ordre ε 2 près. On notera que 

l’orbite képlérienne prévue par la théorie newtonienne serait obtenue en posant ω = 1 dans 

(9.92) (on a alors l’équation d’une ellipse de foyer O, de demi-grand axe a et d’excentricité e.) 

L’équation polaire (9.92) permet de déduire très facilement l’avance ∆ϕper du périhélie par 

révolution. En effet, ∆ϕper est défini par 

soit 

ω(2π + ∆ϕper) = 2π , 

 

1 

∆ϕper = 2π − 1 . (9.94) 

ω 

En substituant (9.93) dans (9.94), il vient à des termes d’ordre 1/c4 près 

∆ϕper = 6πGM 

c2a(1 − e2 2(γ + 1) − β 

) 3 

108 

rad/révolution. (9.95)

A 

Pour la planète Mercure, on a 

1 

A 

2 

O 

Fig. 9.3 – Avance séculaire du péricentre. 

6πGM⊙ 

c 2 a(1 − e 2 ) 

P 

3 

P 

2 

A 

P 

3 

1 

= 42, 98 ”/siècle . (9.96) 

Par ailleurs, l’avance séculaire résiduelle du périhélie de Mercure déduite des observations 

est très voisine de 43 ”/siècle. Citons par exemple deux résultats récents obtenus à partir de 

deux systèmes d’éphémérides, DE 405 et EPM 2000 : 

(∆ϕper) obs = 43, 004 ± 0, 002 ”/siècle (DE 405) 

= 43, 0115 ± 0, 0085 ”/siècle (EPM 2000) . (9.97) 

La comparaison de (9.95) et (9.96) montre que le rapport (2(γ + 1) − β)/3 prédit doit être 

très voisin de 1 pour que la théorie métrique soit acceptable. Il faut néanmoins tenir compte du 

moment quadrupolaire J2 du Soleil pour avoir une contrainte fiable sur la combinaison 2(γ + 

1)−β. Un calcul plus complet que celui que nous avons fait ci-dessus montre que le déplacement 

du périhélie d’une planète ayant une orbite d’inclinaison i est donné par l’expression 9 

∆ϕper = 6πGM⊙ 

c 2 a(1 − e 2 ) 

2(γ + 1) − β 

3 

− 

R2 ⊙ 

2ma(1 − e2 ) J2(3 sin 2 

i − 1) 

rad/révolution, (9.98) 

où R⊙ est le rayon équatorial du Soleil. Pour Mercure, la prédiction théorique est alors donnée 

par 

 

2(γ + 1) − β 

∆ϕper = 42, 98 + 3 × 10 

3 

−4 

 

J2 

10−7 ”/siècle . (9.99) 

9 Voir par ex. S. Pireaux, J.-P. Rozelot & S. Godier, Astrophys. Space Sci., vol. 284, pp. 1159-1194 (2003). 

109

Il est malheureusement difficile de donner un intervalle de valeurs acceptables très serré 

pour la quantité [2(γ +1) −β]/3 car on ne connaît pas bien la valeur du moment quadrupolaire 

J2 du Soleil 10 . Il est cependant admis qu’on peut poser 

9.5 Que faire pour aller plus loin? 

 

 

1 

 

 

[2(γ + 1) − β] − 1 

≤ 0, 001. (9.100) 

3 

Ce chapitre a montré que l’hypothèse selon laquelle la gravitation est une manifestation de 

la courbure d’une métrique conduit à prédire un certain nombre d’effets qui sont effectivement 

observés. Le schéma “phénoménologique” contenant deux paramètre postnewtoniens β et γ 

proposé par Eddington permet de tester cette hypothèse avant même d’avoir formulé une théorie 

complète. 

Nous avons vu que les valeurs “simples” γ = 1 et β = 1 sont compatibles avec les mesures 

effectuées dans le système solaire. Nous pourrons donc considérer ces valeurs comme 

des valeurs “standard”, sans oublier toutefois qu’aucune observation ne peut évidemment les 

imposer de manière formelle. Il convient donc de garder à l’esprit qu’une classe étendue de 

théories métriques va s’avérer envisageable, d’autant que nous n’avons pas étudié tous les tests 

présentement disponibles. 

Il est toutefois clair que nous ne pouvons nous contenter d’un tel schéma phénoménologique, 

et ce pour plusieurs raisons. 

1. Il est évidemment simpliste de supposer qu’une planète comme Mercure par exemple est 

une particule ponctuelle de masse négligeable gravitant dans un champ à symétrie sphérique 

invariable au cours du temps. Mercure est un corps étendu ayant un champ gravitationnel propre 

en interaction non seulement avec le Soleil mais aussi avec tous les autres objets du système 

solaire, eux-mêmes en interaction avec le reste de l’Univers. En fait, le champ gravitationnel 

du système solaire est un champ dynamique, créé par des corps étendus qui se déforment sans 

cesse en raison de leurs mouvements et de leurs interactions mutuelles. 

2. On sait depuis longtemps qu’il existe de nombreux sites astrophysiques dans lesquels le 

champ de gravitation ne peut être considéré comme faible (étoiles à neutrons, pulsars binaires, 

noyaux des galaxies, etc.). 

3. Nous avons déjà souligné que la relativité restreinte “prédisposait” à considérer l’interaction 

gravitationnelle comme devant se propager par ondes se déplaçant avec la vitesse c. 

4. Enfin, bien que nous ne puissions insister ici, la théorie de Newton dans sa formulation 

usuelle soulève beaucoup de difficultés quand on veut formuler les problèmes cosmologiques de 

manière vraiment cohérente. 

Il est donc maintenant impératif de chercher une théorie ou une classe de théories qui 

apportent des réponses précises aux quatre types de problèmes que nous venons d’évoquer et 

qui prédisent des valeurs de β et γ suffisamment proches de 1 pour être en bon accord avec les 

observations. 

10 La plupart des modèles du Soleil conduisent à des valeurs est de l’ordre de quelques 10 −7 pour J2. On prend 

souvent J2 = (2 ± 0,4) × 10 −7 . 

110

Nous allons voir dans le chapitre suivant qu’il existe une théorie qui 1) décrit entièrement 

le champ de gravitation par une métrique, 2) prédit exactement γ = 1 et β = 1, 3) n’est en 

contradiction avec aucun autre test actuel. Cette théorie est la relativité générale 11 . 

11 L’affirmation que la relativité générale n’est contredite par aucun test ne signifie pas que cette théorie ne 

rencontre aucune difficulté. C’est ainsi que l’anomalie Pioneer n’a pas reçu d’interprêtation faisant consensus, 

et que la cosmologie dresse plusieurs défis. Mais aucun de ces problèmes ne peut être pour le moment considéré 

comme un test. 

111

Chapitre 10 

La relativité générale 

Dans le chapitre 7, nous avons formulé un cadre général définissant ce qu’on appelle les 

théories métriques de la gravitation. Nous avons souligné que la description complète du champ 

de gravitation ne se réduisait pas nécessairement à une métrique lorentzienne. Il existe cependant 

une théorie dans laquelle le champ de gravitation est entièrement décrit par la métrique et 

qui est en bon accord avec l’expérience et avec la quasi totalité des observations, c’est la relativité 

générale, certainement la plus élégante de toutes les théories ayant survécu aux différents 

tests que l’on a pu mener jusqu’ici. Nous exposons brièvement la démarche qui conduit aux 

équations d’Einstein, puis nous montrons comment on détermine la métrique de Schwarzschild 

et quelques unes de ses conséquences astronomiques. 

10.1 Les équations d’Einstein 

Pour construire une théorie purement métrique de la gravitation, il faut formuler des 

équations de champ gouvernant les composantes gµν de la métrique. Nous allons nous laisser 

guider par la théorie newtonienne de la gravitation. 

Nous avons rappelé dans le chapitre 7 que le potentiel newtonien U d’une distribution de 

matière de densité de masse inertielle ρ(x,t) vérifie l’équation de Laplace 

à l’extérieur de la matière, et vérifie l’équation de Poisson 

∆2U = 0 (10.1) 

∆2U = −4πGρ(x,t) (10.2) 

à l’intérieur des masses, ∆2U étant l’opérateur laplacien défini par 

∆2U = ∂2 U 

(∂x 1 ) 2 + ∂2 U 

(∂x 2 ) 2 + ∂2 U 

(∂x 3 ) 2 = δij ∂iU∂jU , (10.3) 

où les coordonnées x i sont des coordonnées cartésiennes orthonormées. 

Les équations aux dérivées partielles (10.1) et (10.2) sont du second ordre. Nous allons donc 

postuler que les équations satisfaites par la métrique sont aussi du second ordre. 

112

Du fait qu’il y a dix gµν indépendants 1 , il faut un système de dix équations aux dérivées 

partielles. Gouvernant un tenseur, ces équations doivent elles-mêmes être des égalités de tenseurs. 

Ces tenseurs doivent être deux fois contravariants (ou deux fois covariants) et symétriques 

afin d’obtenir les dix relations souhaitées. Il est donc légitime de supposer que les équations 

cherchées sont de la forme 

S µν (g,∂g,∂ 2 g) = κT µν , (10.4) 

où S µν (g,∂g,∂ 2 g) est un tenseur construit uniquement avec les gµν, leurs dérivées premières et 

leurs dérivées secondes, κ est une constante de couplage et T µν est un tenseur qui décrit les 

sources du champ gravitationnel. 

En observant le second membre de l’équation de Poisson (10.2), on pourrait penser que T µν 

doit être construit à partir de la densité de masse inertielle de la matière. Mais nous avons 

vu dans la section 7.2 qu’il y a de bonnes raisons d’admettre que non seulement la matière 

constituée d’atomes ou de particules, mais également toutes les autres formes d’énergie sont des 

sources du champ de gravitation. En particulier, une distribution d’énergie électromagnétique 

telle qu’un faisceau lumineux par exemple doit créer un champ de gravitation. 

La relativité restreinte établit aussi que l’énergie divisée par c et la quantité de mouvement 

(ou impulsion) d’une particule constituent les composantes d’un quadrivecteur appelé 

le quadrivecteur impulsion-énergie. On peut montrer qu’on peut définir un quadrivecteur densité 

d’impulsion-énergie pour un champ quelconque (champ scalaire, champ électromagnétique, 

etc.). Il est donc naturel de penser que les composantes de l’impulsion de la matière et des 

autres distributions d’énergie doivent aussi contribuer au champ de gravitation. 

Les raisons énumérées ci-dessus conduisent à postuler que T µν doit être l’extension à un 

espace-temps muni d’une métrique douée de courbure de ce qu’on appelle un tenseur impulsionénergie 

en relativité restreinte. Nous nous contenterons d’indiquer ici que pour un fluide parfait 2 

de densité propre 3 d’énergie µc 2 et de pression p, le tenseur impulsion-énergie est de la forme 

où u µ est le quadrivecteur vitesse unitaire du fluide défini par 

T µν = (µc 2 + p)u µ u ν − pg µν , (10.5) 

u µ = dxµ 

ds 

, (10.6) 

les dérivées dx µ étant prises le long de la ligne d’univers de chaque particule du fluide. On 

notera que le vecteur u µ est tangent à la ligne d’univers d’une particule du fluide. En outre, u µ 

est unitaire car on a 

gµνu µ u ν dx 

= gµν 

µ dx 

ds 

ν 

ds = gµνdx µ dxν ds2 = ds2 

= 1. (10.7) 

ds2 Dans certains cas, on peut au moins en première approximation négliger la pression du 

fluide. Le tenseur impulsion-énergie (10.5) se réduit alors à 

T µν = µc 2 u µ u ν . (10.8) 

1 Ne pas oublier que les gµν sont symétriques. 

2 Un fluide est dit parfait lorsqu’on peut négliger les forces de frottement internes (viscosité) et les échanges 

de chaleur entre ses différentes parties. Le mouvement d’un fluide parfait est donc adiabatique. 

3 Par définition, la densité propre d’une quantité est la valeur de cette quantité par unité de volume dans le 

référentiel comouvant avec le fluide. 

113

On dit que (10.8) décrit un schéma matière pure ou incohérente. 

On peut aussi construire des tenseurs impulsion-énergie décrivant un fluide avec courant 

d’entropie, un plasma, un champ électromagnétique, un champ scalaire, etc. 

On postule enfin que les dix composantes du tenseur impulsion-énergie figurant dans le 

second membre de (10.4) doivent satisfaire les quatre équations suivantes : 

∇µT µν = 0, (10.9) 

qui sont appelées équations de conservation. Ces quatre équations qu’il faut ajouter aux dix 

équations du champ (10.4) sont les équations du mouvement des sources du champ de gravitation. 

Pour être compatible avec les équations de conservation (10.9), le tenseur S µν doit satisfaire 

les quatre équations 

∇µS µν = 0 (10.10) 

quelle que soit la métrique g, que cette métrique soit solution des équations du champ (10.4) 

ou non. Autrement dit, les équations (10.10) doivent être des identités. Or, on démontre que 

les tenseurs S µν symétriques que l’on peut construire uniquement avec gµν, ∂αgλρ et ∂α∂βgστ et 

qui vérifient les identités (10.10) sont nécessairement de la forme 

S µν = G µν − Λg µν , (10.11) 

où G µν est le tenseur d’Einstein défini par l’équation (C.68) de l’annexe C et Λ est une constante 

arbitraire. Rappelons que l’expression du tenseur d’Einstein est donnée par la formule 

où 

et 

G µν = R µν − 1 

2 Rgµν , (10.12) 

R µν = g µα g νβ Rαβ 

(10.13) 

R = g αβ Rαβ, (10.14) 

les quantités Rαβ étant les composantes covariantes du tenseur de Ricci explicitées par les 

équations (C.65) de l’annexe C. 

Les hypothèses faites ci-dessus nous amènent donc au postulat fondamental suivant, énonçant 

les célèbres équations d’Einstein. 

Postulat 10.1.1 (Équations d’Einstein) 

a) Dans les régions de l’espace-temps balayées par une distribution de matière ou d’énergie 

décrite par un tenseur impulsion-énergie T µν , les potentiels de gravitation gµν sont solutions 

des équations dites du cas intérieur 

G µν ≡ R µν − 1 

2 Rgµν = κT µν + Λg µν . (10.15) 

b) Dans les régions ne contenant aucune distribution de matière ou d’énergie, les potentiels 

de gravitation sont solutions des équations dites du cas extérieur 

G µν ≡ R µν − 1 

2 Rgµν = Λg µν . (10.16) 

114

Dans les équations (10.15) et (10.16), κ est une constante de couplage gravitationnel définie 

par 

κ = 8πG 

c4 (10.17) 

et Λ est une constante appelée constante cosmologique. 

La formule (10.17) donnant la valeur de la constante de couplage κ est déterminée par la 

nécessité de retrouver la loi de gravitation newtonienne à l’approximation des champs faibles. 

En revanche, la constante cosmologique Λ n’est actuellement reliée à aucune autre constante 

de la physique. La seule certitude est que sa valeur est extrêmement faible et la rend de ce fait 

négligeable en dehors du contexte cosmologique. Son existence paraît liée à ce qu’on appelle 

l’énergie du vide telle que la conçoit la théorie quantique des champs, mais le problème majeur 

est que la valeur de Λ devrait être énorme, au lieu d’être très faible. L’existence et la valeur 

phénoménologique de Λ constituent l’une des grandes énigmes de la physique théorique et de la 

cosmologie contemporaines (nature de énergie noire provoquant l’accélération de l’expansion). 

En notant que g µρ gµν = δ ρ ν entraîne g µν gµν = 4, on voit facilement que les équations d’Einstein 

peuvent encore s’écrire comme l’indique la proposition ci-dessous. 

Proposition 10.1.1 

a) Dans le cas intérieur, les équations d’Einstein (10.15) sont équivalentes à 

R µν 

= κ T µν − 1 

2 Tgµν 

 

− Λg µν 

b) Dans le cas extérieur, les équations (10.16) sont équivalentes à 

(10.18) 

R µν = −Λg µν . (10.19) 

Les dix équations d’Einstein ne permettent pas à elles seules de résoudre un problème de 

gravitation. Il faut impérativement leur ajouter les quatre équations du mouvement (10.9), 

qui peuvent être considérées comme des conditions d’intégrabilité. Mais cette adjonction n’est 

elle-même pas suffisante. Il faut également écrire les relations entre les variables de champ 

définissant les sources (par ex. une équation d’état µ = f(p) pour un fluide parfait), ainsi que 

l’ensemble des conditions aux limites nécessaires pour qu’une métrique solution des équations 

d’Einstein ait un sens physique. 

10.2 La métrique de Schwarzschild extérieure 

Nous allons chercher les solutions des équations d’Einstein à l’extérieur d’un corps massif 

à symétrie sphérique. Nous supposons que les solutions sont statiques, i.e. indépendantes du 

temps. En outre, nous négligeons la constante cosmologique. Enfin, nous supposons que la 

métrique tend à coïncider avec la métrique de Minkowski lorsqu’on s’éloigne indéfiniment du 

corps central. On dit que la métrique doit être asymptotiquement plate à l’infini spatial. 

115

Il est commode d’exprimer la métrique dans un système de coordonnées locales sphériques 

(ρ,θ,ϕ). On peut montrer par des arguments de symétrie que ces coordonnées peuvent toujours 

être choisies de telle sorte que la métrique ne contienne que deux potentiels inconnus et s’écrive 

sous la forme 

ds 2 = e ν(ρ) (dx 0 ) 2 − e λ(ρ) dρ 2 − ρ 2 (dθ 2 + sin 2 θdϕ 2 ). (10.20) 

En un point infiniment éloigné de la source du champ, la métrique (10.20) doit coïncider 

avec la métrique de Minkowski écrite en coordonnées sphériques usuelles, c’est-à-dire : 

ds 2 = (dx 0 ) 2 − dρ 2 − ρ 2 (dθ 2 + sin 2 θdϕ 2 ). (10.21) 

Cette condition se traduit par les conditions aux limites 

lim ν(ρ) = 0, lim λ(ρ) = 0. (10.22) 

ρ→∞ ρ→∞ 

Le calcul des composantes contravariantes du tenseur d’Einstein correspondant à la métrique 

(10.20) s’effectue à partir des expressions explicites de R µν et de R fournies par les équations 

(10.13) et (10.14) du présent chapitre et par les équations (C.65) de l’annexe C. Un calcul assez 

long mais sans difficulté particulière montre que les seules composantes contravariantes du 

tenseur d’Einstein correspondant à la métrique (10.20) non identiquement nulles sont données 

par : 

G 00 = e−ν(ρ) 

ρ 2 

G 11 = e−λ(ρ) 

ρ 2 

G 22 = e−λ(ρ) 

ρ 2 

 

1 − e −λ(ρ) (1 − ρλ ′ ) 

, (10.23) 

 

e −λ(ρ) (1 + ρν ′ ) − 1 

, (10.24) 

ν ′ − λ ′ 

2ρ 

ν′′ 

+ 

2 + ν′ − λ ′ 

2 

ν ′ 

 

, (10.25) 

2 

G 33 ≡ 1 

sin 2 θ G22 , (10.26) 

où f ′ désigne la dérivée d’une fonction f(ρ) par rapport à ρ. 

Compte tenu de (10.23)-(10.26), le système des équations d’Einstein du vide (G µν = 0) se 

réduit aux trois équations suivantes : 

1 − e −λ(ρ) (1 − ρλ ′ ) = 0, (10.27) 

e −λ(ρ) (1 + ρν ′ ) − 1 = 0, (10.28) 

2(ν ′ − λ ′ ) + 2ρν ′′ + ρ(ν ′ − λ ′ )ν ′ = 0. (10.29) 

On vérifie facilement que (10.29) est conséquence de (10.27) et (10.28). L’équation (10.27) 

peut s’écrire sous la forme 

d 

e 

dρ 

−λ(ρ) ρ 

= 1. (10.30) 

L’intégration de (10.30) donne immédiatement e−λ(ρ) ρ = ρ + C, C étant une constante 

arbitraire. Il s’ensuit que 

e −λ(ρ) = 1 + C 

. (10.31) 

ρ 

116

Maintenant, additionnons membre à membre (10.27) et (10.28). Il vient : 

ν ′ + λ ′ = 0. (10.32) 

L’unique solution de (10.32) compatible avec les conditions aux limites (10.22) est 

On déduit de (10.31) et de (10.33) que 

ν + λ = 0 ⇐⇒ ν = −λ . (10.33) 

e ν(ρ) = e −λ(ρ) = 1 + C 

. (10.34) 

ρ 

Or, nous avons vu qu’on doit avoir g00 ≈ 1 − 2U/ρ loin de la masse centrale de manière à 

retrouver la loi de Newton en première approximation. Du fait qu’on a U ≈ GM/ρ pour un 

corps attractif de masse M à symétrie sphérique, il faut donc poser 

C = −2m , avec m = GM 

c 2 . (10.35) 

En substituant (10.35) dans (10.34), on voit que la solution à symétrie sphérique statique 

des équations d’Einstein du vide sans constante cosmologique s’écrit 

ds 2 

= 1 − 2m 

 

(dx 

ρ 

0 ) 2 − dρ2 

1 − 2m 

ρ 

− ρ 2 (dθ 2 + sin 2 θdϕ 2 ). (10.36) 

Cette solution est célèbre : on l’appelle la métrique de Schwarzschild extérieure. 

Lorsqu’on ne néglige pas la constante cosmologique, les solutions des équations d’Einstein 

du vide G µν = Λg µν s’écrivant sous la forme (10.20) sont données par 

ds 2 = 

 

1 − 2m 

ρ 

Λ 

− 

3 ρ2 

 

(dx 0 ) 2 − 

1 − 2m 

ρ 

dρ 2 

− Λ 

3 ρ2 − ρ2 (dθ 2 + sin 2 θdϕ 2 ), (10.37) 

où m est une constante arbitraire que l’on peut encore interpréter comme un terme de masse 

centrée sur l’origine ρ = 0. 

On peut voir que Λ > 0 correspond à une force répulsive proportionnelle à ρ en première approximation, 

tandis que Λ < 0 correspond à une force attractive. Dans ce qui suit, on supposera 

Λ = 0. 

10.3 Forme isotropique de la métrique de Schwarzschild 

Il est possible d’écrire la métrique de Schwarzschild sous une forme isotropique (voir chapitre 

8) en effectuant le changement de coordonnée radiale défini par 

 

ρ = r 1 + m 

2 2r 

117 

= r + m + m2 

. (10.38) 

4r

On trouve 

ds 2 = 

 

m 1 − 2r 

1 + m 

2 (dx 

2r 

0 ) 2 

− 

1 + m 

2r 

Un développement en puissances de m/r donne 

1 − m 

2r 

 

1 + m 

2r 

1 + m 

2r 

2 

4 

= 1 − 2m 

r 

= 1 + 2m 

r 

4 

dr 2 + r 2 (dθ 2 + sin 2 θdϕ 2 ) 

. (10.39) 

+ 2m2 + ..., (10.40) 

r2 + 3 

2 

m2 + ... (10.41) 

r2 La comparaison des développements (10.40) et (10.41) avec les développements postnewtoniens 

(8.21) montre immédiatement que γ = 1 et β = 1. On en conclut que la métrique de 

Schwarzschild est en excellent accord avec les tests classiques. On notera par ailleurs que le 

paramètre postpostnewtonien δ = 1, ce qui est intéressant pour la théorie des rayons lumineux 

à l’approximation dite 2PN. 

Nous allons maintenant montrer que ces valeurs de γ et β peuvent également s’obtenir en 

calculant directement la déflexion d’un rayon lumineux et l’avance séculaire du périhélie par 

des intégrations approchées des équations des géodésiques de la métrique de Schwarzschild. On 

verra que les calculs sont beaucoup plus simples avec la forme (10.36) que les calculs effectués 

au chapitre 9 avec la forme isotropique de la métrique. 

10.4 Géodésiques de la métrique de Schwarzschild 

La fonction de Lagrange L correspondant à la métrique (10.36) a pour expression 

 

2L = 1 − 2m 

 

( ˙x 

ρ 

0 ) 2 − 

˙ρ2 

1 − 2m 

ρ 

− ρ 2 ˙ θ 2 − ρ 2 sin 2 θ ˙ϕ 2 , (10.42) 

où on utilise la notation ˙x = dx/dλ, λ étant un paramètre affine arbitraire de la géodésique. 

L’intégrale première 2L = K = const. s’écrit alors 

 

1 − 2m 

 

( ˙x 

ρ 

0 ) 2 − 

˙ρ2 

1 − 2m 

ρ 

− ρ 2 ˙ θ 2 − ρ 2 sin 2 θ ˙ϕ 2 = K , (10.43) 

avec K > 0 pour une géodésique du genre temps, K = 0 pour une géodésique isotrope et K < 0 

pour une géodésique du genre espace. 

Du fait que L ne dépend explicitement ni de x 0 ni de ϕ, il existe deux autres intégrales 

premières : 

 

∂L 

≡ 1 − 

∂ ˙x 0 2m 

 

˙x 

ρ 

0 = E , (10.44) 

∂L 

∂ ˙ϕ ≡ −ρ2 sin 2 θ ˙ϕ = −L, (10.45) 

118

où E et L sont des constantes d’intégration. Notons que E correspond à l’intégrale de l’énergie 

conservée et que L correspond au moment cinétique conservé en mécanique newtonienne. 

Pour obtenir un système complet d’équations du mouvement, il suffit d’ajouter l’équation 

d’Euler-Lagrange pour la variable θ : 

d 

dλ (−ρ2 ˙ θ) + ρ 2 sin θ cos θ ˙ϕ 2 = 0. (10.46) 

On peut montrer que le mouvement s’effectue dans un plan fixe passant par l’origine O en 

raison de la symétrie sphérique. Il est alors possible de choisir les axes de telle sorte que la 

géodésique étudiée soit dans le plan équatorial d’équation 

θ = π 

. (10.47) 

2 

Avec ce choix, on a ˙ θ = 0 et les géodésiques sont alors déterminée par le système des trois 

intégrales premières 

et 

 

1 − 2m 

 

0 2 

dx 

− 

ρ dλ 

1 

1 − 2m 

2 dρ 

− ρ 

dλ ρ 

2 

2 dϕ 

= K , (10.48) 

dλ 

 

1 − 2m 

 

0 dx 

= E , (10.49) 

ρ dλ 

ρ 2dϕ 

dλ 

= L. (10.50) 

De (10.49) et (10.50), on déduit respectivement 

dx 0 

dλ 

dϕ 

dλ 

= E 

1 − 2m 

ρ 

(10.51) 

L 

= . (10.52) 

ρ2 Substituons (10.51) et (10.52) dans (10.48), puis multiplions les deux membres de l’équation 

. Il vient : 

obtenue par 1 − 2m 

r 

2 dρ 

= E 

dλ 

2 

− 1 − 2m 

 

2 L 

+ K . (10.53) 

ρ ρ2 En éliminant dλ entre (10.51) et (10.53), on obtient 

 

dρ 

dx0 2 

= 1 − 2m 

2 

1 − 1 − 

ρ 

2m 

 

2 L 

ρ E2 Enfin, en éliminant dλ entre (10.52) et (10.53), il vient : 

1 K 

+ 

ρ2 E2 

(10.54) 

 

2 dϕ L 

ρ = 1 − 

dx0 E 

2m 

 

, (10.55) 

ρ 

119

équation qui est à comparer avec la loi des aires en mécanique newtonienne. 

Les équations (10.53)-(10.55) déterminent entièrement les solutions comprises dans le plan 

θ = π/2. Ces trois équations sont du premier ordre à variables séparables. On peut donc 

exprimer leur solution générale par quadrature. 

On notera également que les équations (10.51), (10.52), (10.53) et dθ/dλ = 0 fournissent les 

composantes dx µ /dλ du vecteur tangent à la géodésique solution. 

Deux cas sont à distinguer. 

1. L = 0. Dans ce cas ˙ϕ = 0, ce qui entraîne ϕ = constante. La géodésique est dite radiale. 

Les équations (10.53) et (10.54) se réduisent alors au système 

2 dρ 

dλ 

= E 2 

− K 1 − 2m 

 

, 

ρ 

(10.56) 

 

dρ 

dx0 2 = 

 

1 − 2m 

2 

1 − 

ρ 

K 

E2 

1 − 2m 

 

. 

ρ 

(10.57) 

Ces deux équation du premier ordre à variables séparables permettent d’exprimer le paramètre 

affine λ et la coordonnée temporelle x 0 en termes de fonctions élémentaires de la 

variable radiale ρ. 

2. L = 0. Dans ce cas, on peut éliminer dλ entre (10.53) et (10.50), ce qui donne : 

2 dρ 

= ρ 

dϕ 

4 

 

2 E 

− 1 − 

L2 2m 

 

1 K 

+ 

ρ ρ2 L2 

. (10.58) 

Les équations (10.58), (10.54) et (10.55) déterminent complètement les géodésiques contenues 

dans le plan θ = π/2. Ces équations différentielles sont du premier ordre à variables 

séparables, tout comme dans le cas où L = 0. Toutefois, les intégrales obtenues par quadrature 

s’expriment maintenant en toute rigueur par des fonctions elliptiques, plus compliquées à utiliser 

que les fonctions dites élémentaires. C’est pourquoi nous nous contenterons ici de solutions 

approchées qui ont été jusqu’ici suffisantes pour les vérifications expérimentales effectuées dans 

le système solaire. 

Pour étudier les courbes solutions, on utilisera 4 

u = m/ρ (10.59) 

comme fonction inconnue plutôt que ρ. En substituant ρ = m/u et dρ = −mu−2du dans (10.58), 

puis en multipliant les deux membres par u4 , on obtient une équation qui peut s’écrire sous la 

forme : 2 du 

= 

dϕ 

m2 (E2 − K) 

L2 + 2Km2 

L2 u − u2 + 2u 3 . (10.60) 

Cette équation différentielle est elle aussi à variables séparables. En prenant la racine carrée 

de chaque membre de (10.60), on obtient l’équation 

dϕ = ± 

du 

 

m 2 E 2 

L 2 − (1 − 2u) 

u2 + K m2 

, (10.61) 

4 On ne confondra pas la fonction u ici définie avec la quantité u = m/r introduite dans la section 9.2. 

120 

L 2

qui permet d’exprimer ϕ en fonction de u par une quadrature. 

10.5 Déviation des rayons lumineux 

On doit poser K = 0 dans le cas de la lumière. Pour les rayons lumineux non radiaux, 

l’équation (10.60) se réduit alors à 

2 du 

= 

dϕ 

m2E2 L2 − u2 + 2u 3 . (10.62) 

Considérons un rayon lumineux venant de l’infini, atteignant le point le plus proche de 

l’origine (péricentre) lorsque ϕ = ϕp et repartant vers l’infini lorsque ϕ croît à partir de ϕp (cf. 

fig. 9.2, chap. 9). L’analyse du signe du trinôme du troisième degré en u dans le second membre 

de (10.62) montre que cette configuration est réalisable lorsque ρp > 3m. Appelons ρp la valeur 

de ρ correspondant au péricentre et posons 

La fonction u atteint son maximum au péricentre. On a donc 

u = up =⇒ 

Il en résulte que la constante m 2 E 2 /L 2 est donnée par 

m 2 E 2 

up = m 

. (10.63) 

ρp 

2 du 

= 0. (10.64) 

dϕ u=up 

L 2 = u2 p − 2u 3 p . (10.65) 

Dans le mouvement considéré, ρ est une fonction croissante de ϕ après le passage du rayon 

par le péricentre. On a alors du/dϕ < 0 sur cette partie de la trajectoire. L’intégration de 

(10.52) par quadrature est immédiate. Compte tenu de (10.65), il vient : 

up 

ϕ(u) − ϕp = 

u 

du 

 

u2 p − u2 − 2u3 . (10.66) 

p + 2u3 Lorsque ρ → ∞, u → 0. L’angle ϕ tend alors vers la valeur ϕ∞ définie par l’intégrale : 

up 

ϕ∞ − ϕp = 

0 

du 

 

u2 p − u2 − 2u3 . (10.67) 

p + 2u3 La différence ϕ∞ − ϕp est l’angle que fait l’asymptote avec le rayon vecteur joignant le 

centre O au péricentre. Par raison de symétrie, l’angle total formé par les deux asymptotes est 

2(ϕ∞ − ϕp). La déviation totale δ subie par le rayon lumineux entre −∞ et ∞ peut se définir 

comme la différence 2(ϕ∞ −ϕp)−π. Il en résulte que la déviation du rayon lumineux est donnée 

par 

up 

δ = 2(ϕ∞ − ϕp) − π = 2 

0 

121 

du 

 

u2 p − u2 − 2u3 − π . (10.68) 

p + 2u3

Cette formule est rigoureuse. Pour former un développement de δ en puissances entières de 

up = m/ρp, notons que up est une racine du polynôme du troisième degré en u sous le le radical 

puisqu’on a du/dϕ = 0 lorsque u = up. On voit aisément que 

u 2 p − u 2 − 2u 3 p + 2u 3 ≡ (up − u) 

up + u − 2(u 2 p + upu + u 2 ) 

Compte tenu de (10.69), l’expression (10.68) donnant δ s’écrit 

up 

δ = 2 

0 

Effectuons le changement de variable : 

Compte tenu des égalités 

l’expression de δ devient 

≡ (up − u) 

(1 − 2up)(up + u) − 2u 2 

. (10.69) 

du 

 

(up − u) [(1 − 2up)(up + u) − 2u 2 ] 

− π . (10.70) 

u = up cos 2ψ , 0 ≤ ψ ≤ π 

. (10.71) 

4 

up − u = 2up sin 2 ψ , up + u = 2up cos 2 ψ , 

π 

δ = 4 

4 

0 

dψ 

 

1 − 2up cos 2ψ + 1 

2 cos−2 ψ − π . (10.72) 

A l’extérieur du Soleil, on a up ≤ 2, 13 × 10 −6 , la borne supérieure de cette inégalité correspondant 

à ρp = ρ⊙, ρ⊙ étant le rayon du Soleil en coordonnées (ρ,θ,ϕ). On se contentera ici 

de développer le terme sous le signe somme au premier ordre par rapport à up, ce qui donne 

soit tous calculs faits 

π 

4 δ = 4 1 + up cos 2ψ + 

0 

1 

2 cos−2 

ψ + O(u 2 

p) dψ − π (10.73) 

δ = 4up = 4GM 

c 2 ρp 

La déviation totale d’un rayon rasant la surface solaire vaut donc 

 

δ⊙ = 4GM⊙ 

c 2 ρ⊙ 

+ O 

G 2 M 2 ⊙ 

c 4 ρ 2 ⊙ 

+ O(u 2 p). (10.74) 

= 1, 75”. (10.75) 

Compte tenu de (10.38), l’équation (10.74) s’écrit en terme de coordonnée radiale isotrope 

δ = 4GM 

c 2 rp 

+ O(4). (10.76) 

En comparant l’expression (10.76) de la déviation avec la formule (9.65), on voit que la 

relativité générale prévoit 

γ = 1. (10.77) 

122

Valeur de δ au second ordre.— Le calcul de la déviation δ à l’approximation du second 

ordre est simple à partir de (10.72). On obtient : 

δ = 4GM 

c 2 ρp 

+ 

15π 

16 

 

− 1 

2 2GM 

+ O 

c 2 ρp 

 

3 3 G M 

c 6 ρ 3 p 

. (10.78) 

Le terme du second ordre correspond à une déviation de l’ordre de 7 microsecondes d’arc 

pour un rayon rasant le Soleil. Il faut toutefois noter que si la valeur totale de la déviation est 

inchangée par les transformations de coordonnées 5 , l’expression formelle du terme du second 

ordre est par contre très “sensible” au système de coordonnées utilisé car la valeur de la variable 

radiale correspondant au péricentre change lorsqu’on passe d’un système de coordonnées à 

l’autre. Ainsi, la déviation obtenue en intégrant les équations des géodésiques isotropes de la 

métrique écrite sous la forme (10.39) est donnée par 

δ = 4GM 

c 2 rp 

+ 

15π 

32 

 

− 1 

2 2GM 

+ O 

c 2 rp 

 

3 3 G M 

c 6 r 3 p 

. (10.79) 

On vérifie aisément l’équivalence des relations (10.78) et (10.79) en écrivant que ρp et rp 

sont liés par l’équation (10.38). 

10.6 Avance séculaire du périhélie d’une planète 

Pour étudier le mouvement du périhélie d’une planète, on admet ici que la planète est 

assimilable à une particule d’épreuve, ce qui revient à négliger l’influence de sa structure interne 

sur son mouvement. En outre, on néglige l’influence des autres planètes et on suppose que le 

Soleil est à symétrie sphérique. 

On peut toujours choisir les coordonnées de telle sorte que le mouvement de la planète 

soit situé dans le plan θ = π/2. L’orbite de la planète est alors solution de l’équation (10.60). 

Puisque la ligne d’univers de la planète est une géodésique du genre temps, on peut choisir 

l’abscisse curviligne s comme paramètre affine, ce qui entraîne 

de sorte que (10.60) s’écrit 

K = 1, 

2 du 

= 

dϕ 

m2 (E2 − 1) 

L2 + 2m2 

L2 u − u2 + 2u 3 . (10.80) 

Nous raisonnons sur la demi-révolution comprise entre le passage au péricentre P1 de coordonnées 

polaires (ρp,ϕp) et le passage à l’apocentre A1 de coordonnées polaires (ρa,ϕa) (cf. fig. 

9.3, chap. 9). Le mouvement est supposé s’effectuer dans le sens direct. On pose : 

up = m 

, ua = m 

. (10.81) 

ρp 

5 l’angle de déviation entre −∞ et ∞ est en effet une grandeur intrinsèque indépendante des coordonnées 

utilisées pour repérer les événements. 

123 

ρa

Durant la demi-période considérée, la fonction u(ϕ) est décroissante. On a donc pendant 

cette demi-période : 

du 

dϕ = − 

. (10.82) 

m 2 (E 2 −1) 

L 2 

+ 2m2 

L 2 u − u 2 + 2u 3 

En conséquence, l’angle ϕa − ϕp balayé par le rayon vecteur est donné par l’intégrale 

ub 

ϕa − ϕp = 

ua 

m 2 (E 2 −1) 

L 2 

du 

+ 2m2 

L 2 u − u 2 + 2u 3 

. (10.83) 

Par raison de symétrie, l’angle balayé par le rayon vecteur entre deux passages successifs par 

un péricentre (i.e. pendant une révolution complète) est égal à 2(ϕa − ϕp). Cet angle vaudrait 

2π en théorie newtonienne. L’avance relativiste ∆ϕp du péricentre par révolution est donc par 

définition 

∆ϕp = 2(ϕa − ϕp) − 2π . (10.84) 

Pour évaluer ϕa − ϕp, il faut factoriser le polynôme P(u) du troisième degré en u figurant 

dans l’intégrale (10.83). Les quantités up et ua définies par (10.81) sont racines de ce polynôme 

puisqu’on doit avoir (du/dϕ) 2 p = (du/dϕ) 2 a = 0. En désignant par u3 la troisième racine de P(u), 

on peut donc écrire 

m 2 (E 2 − 1) 

L 2 

+ 2m2 

L 2 u − u2 + 2u 3 = 2(up − u)(u − ua)(u3 − u). (10.85) 

Développons le second membre de (10.83) et comparons avec le premier membre. Il vient : 

d’où après simplification par u 2 

2u 2 (up + ua + u3) = −u 2 . 

u3 = 1 

2 − (up + ua). (10.86) 

Substituons (10.86) dans (10.85). Il vient : 

m 2 (E 2 − 1) 

L 2 

+ 2m2 

L 2 u − u2 + 2u 3 = (up − u)(u − ua)[1 − 2(up + ua) − 2u]. (10.87) 

Compte tenu de (10.87) et de (10.83), l’expression (10.84) donnant l’avance du péricentre 

est 

ub 

du 

∆ϕp = 2 

− 2π . 

ua (up − u)(u − ua)[1 − 2(up + ua) − 2u] 

(10.88) 

Cette formule est rigoureuse. 

À l’approximation 1PN, la formule (10.88) donne 

ub 

∆ϕp = 2 

ua 

1 + (up + ua) + u 

 

(up − u)(u − ua) du − 2π + O(m2 /r 2 p). (10.89) 

Le calcul des intégrales figurant dans le second membre de (10.89) est élémentaire. On 

obtient : 

∆ϕp = 3π(up + ua) + O(m 2 /ρ 2 p). (10.90) 

124

Au cours du mouvement, la variable ρ va passer de sa valeur ρp au périhélie à sa valeur 

ρa à l’aphélie. On peut définir le demi-grand axe a∗ et l’excentricité e∗ dans le système de 

coordonnées (ρ,θ,ϕ) en posant : 

On a donc 

up + ua = 

ρp = a∗(1 − e∗), ρa = a∗(1 + e∗). (10.91) 

m 

a∗(1 − e∗) + 

m 

a∗(1 + e∗) = 

2m 

a∗(1 − e2 . (10.92) 

∗) 

En substituant (10.92) dans (10.90), on obtient l’expression suivante pour l’avance du 

péricentre par révolution 

∆ϕp = 6πGM 

c 2 a∗(1 − e 2 ∗) + O(m2 /a 2 ∗) rad/révolution. (10.93) 

D’après la formule de transformation (10.38), les valeurs de a∗ et e∗ coïncident avec les 

valeurs de a et e définies par les équations (9.70) à des termes d’ordre 1/c 2 près. En conséquence, 

la comparaison de l’expression de ∆ϕp donnée par (10.93) avec la formule (9.95) donne à 

nouveau 

β = 1 (10.94) 

lorsqu’on tient compte de γ = 1. 

10.7 Horizon et trou noir 

Effet Doppler gravitationnel.— Soit une source A au repos en un point de coordonnées 

(rA,θA,ϕA) émettant un signal périodique. Supposons que le signal émis par cette source soit 

reçu par un observateur B au repos en un point de coordonnées (rB,θB,ϕB). Un raisonnement 

analogue à celui que nous avons fait dans la section 7.4 montrerait que la fréquence νB du signal 

observé par B est reliée à la fréquence propre νA du signal émis par A selon la formule 

νB 

νA 

 

 

 

= 

(g00)A 

(g00)B 

(10.95) 

dans n’importe quel espace-temps statique. Dans l’espace-temps de Schwarzschild, on a g00 = 

1 − 2m/ρ, ce qui entraîne 

 

 

2m 

νB 1 

− ρA = 

νA 1 − 2m . 

ρB 

(10.96) 

On notera que les formules (10.95) et (10.96) sont rigoureuses sous les hypothèses faites. La 

relation (10.96) donne bien entendu en première approximation la formule (7.37), puisqu’on a 

évidemment dans le cas de la symétrie sphérique 

 

 

2m 

1 

− ρA 

1 − 2m 

ρB 

 

1 

≈ 1 − m 

ρA 

U étant le potentiel newtonien du corps central. 

− 1 

 

≈ 1 − 

ρB 

UA − UB 

c2 , 

125

Horizon. Trou noir.— Fixons ρB supposé > 2m dans la formule exacte (10.96). On voit 

que le rapport νB/νA tend vers 0 lorsque ρA → 2m. Ainsi, plus une source statique est située prés 

de l’hypersurface ρ = 2m, plus son spectre de fréquences est perçu comme décalé vers le rouge. 

Si ρA = 2m, le décalage spectral vers le rouge vu par n’importe quel observateur extérieur 

B est infini, ce qui revient à dire que la source A devient inobservable. On appelle horizon 

toute hypersurface dont chaque point serait vu comme infiniment décalé vers le rouge par tout 

observateur extérieur. L’espace-temps de Schwarzschild admet donc l’hypersurface d’équation 

ρ = 2m comme horizon. 

Il résulte de qui vient d’être dit que les événements ayant lieu sur l’hypersurface ρ = 2m 

sont inobservables par des observateurs de coordonnée radiale ρ > 2m (observateurs extérieurs). 

Cette conclusion est corroborée par l’analyse de la propagation d’un signal lumineux dans 

l’espace-temps de Schwarzshild. Pour simplifier, nous considérons uniquement le cas où le signal 

se propage radialement. On peut alors utiliser (10.57) avec K = 0, ce qui donne 

dx 0 = ± dρ 

1 − 2m 

ρ 

= ± ρdρ 

, (10.97) 

ρ − 2m 

le signe étant + si le rayon s’éloigne de l’origine (rayon “sortant”) et − si le rayon se rapproche 

du centre (rayon “entrant”). L’intégration de (10.97) est immédiate. Si le signal est au point 

de coordonnée radiale ρi à l’instant ti = x 0 i/c, l’équation horaire de son mouvement est 

si le rayon est sortant et 

x 0 − x 0 

 

 

i = ρ − ρi + 2m ln 

 

x 0 − x 0 

 

 

i = ρi − ρ − 2m ln 

 

 

ρ − 2m 

 

, (10.98) 

ρi − 2m 

 

ρ − 2m 

 

 

ρi − 2m 

(10.99) 

si le rayon est entrant. 

La formule (10.98) montre que x 0 − x 0 i → ∞ lorsque ρi → 2m. Un signal radial envoyé 

par une source ponctuelle située sur l’horizon atteindrait un observateur extérieur à l’instant 

t = x 0 /c = ∞. Autant dire qu’un tel signal ne peut atteindre aucun observateur extérieur. 

Il résulte de ce qui précède qu’un objet à symétrie sphérique de masse M et de rayon 

ρg = 2m = 2GM/c 2 serait invisible pour tout observateur de coordonnée radiale ρ > 2m. C’est 

cette propriété qui est à l’origine de la notion de trou noir en relativité générale. 

Observateur en chute libre radiale.— L’existence d’un horizon ayant les propriétés cidessus 

est assez déroutante pour notre intuition courante relative au temps et à l’espace. Mais 

nous allons voir que nous ne sommes pas au bout de nos surprises en examinant maintenant le 

mouvement radial d’une particule d’épreuve matérielle accompagnée par une horloge standard 

comouvante. La ligne d’univers de cette particule est une géodésique radiale de genre temps. 

On peut poser K = 1 dans (10.56) et (10.57) à condition de choisir le paramètre affine λ de 

telle sorte que dλ = ds. Les équations (10.56) et (10.57) s’écrivent alors sous la forme 

ds = ± 

ρdρ 

 

(E 2 − 1)ρ 2 + 2mρ 

126 

(10.100)

et 

dx 0 Eρ 

= ± 

2dρ 

(ρ − 2m) 

(E 2 − 1)ρ 2 + 2mρ 

. (10.101) 

On peut intégrer explicitement (10.100) et (10.101) pour une valeur arbitraire de E. Pour 

simplifier, nous allons nous contenter d’examiner le cas où E 2 = 1. La variable radiale peut 

aller jusqu’à l’infini, la quantité dρ/dx 0 tendant alors vers 0 d’après (10.101). On dit que 

le mouvement radial correspondant est parabolique. L’intégration de (10.101) donne avec des 

notations déjà introduites pour les rayons lumineux 

x 0 − x 0 

2 

i = ± 

3 √ 2m ρ3/2 + 1 

 

√ √ 

√ ρ 

1/2 ρ + 2m 

 

2mρ − 2m ln 

2 

√ 

√ 

ρ − 2m 

ρi 

, (10.102) 

le signe + devant le crochet correspondant à une particule qui s’éloigne du centre (particule 

sortante) et le signe − à une particule qui se rapproche du centre (particule entrante). Pour 

une particule sortante, (10.102) montre que x 0 − x 0 i → ∞ si ρi → 2m. Ce comportement est 

analogue à ce que nous avions trouvé pour la lumière, ce qui n’est pas surprenant : un rayon 

lumineux est plus rapide que toute particule douée de masse... 

La surprise se produit en revanche quand on intègre (10.100). On a pour E 2 = 1 : 

s − si = c(τ − τi) = ± 2 

3 √ 

2m 

ρ 3/2 − ρ 3/2 

i 

 

, (10.103) 

τ étant le temps propre de la particule. 

La formule (10.103) montre que le temps propre de la particule reste fini lorsque ρi → 2m. 

Cette propriété remarquable est en fait vraie pour toutes les particules matérielles en chute libre 

dans l’espace-temps de Schwarzschild, que ces particules aient un mouvement radial ou non, 

quelle que soit la valeur de la constante du mouvement E. En conséquence, pour un observateur 

tombant dans un trou noir de Schwarzschild, la traversée de l’horizon s’effectue à une date finie 

de son échelle de temps propre. On ne discutera pas ici du destin ultérieur d’un observateur 

effectuant une telle traversée. On indiquera seulement que cette traversée sera sans retour vers 

l’univers extérieur... 

127

Annexe A 

Espaces affines. Espaces euclidiens 

Cette annexe est consacrée à quelques rappels concernant la notion d’espace ponctuel affine 

à n dimensions, qui constitue une extension naturelle de notre intuition de l’espace géométrique 

usuel. 

A.1 Espaces affines 

A.1.1 Définition d’un espace affine 

Les espaces de la géométrie ordinaire tels que la droite, le plan et l’espace usuel à trois 

dimensions ne sont pas donnés dans notre intuition comme des espaces vectoriels, mais comme 

des ensemble dont les éléments sont appelés des points. Toutefois, on voit dès l’enseignement 

secondaire que ces ensembles sont structurés de telle sorte qu’à tout couple de points (A,B) 

on fasse correspondre un et un seul vecteur d’origine A et d’extrémité B, noté −→ 

AB, la correspondance 

étant telle que soient satisfaites les relations vectorielles usuelles. Ces espaces sont 

appelés des espaces affines (réels) de dimensions 1, 2 ou 3, selon les cas. En fait la notion 

d’espace affine1 est aisément généralisable en dimension n arbitraire, comme on va le voir avec 

les définitions qui suivent. 

Définition A.1.1 Soit En un espace vectoriel réel de dimension n. Un ensemble An est appelé 

un espace affine réel à n dimensions associé à l’espace vectoriel En si à tout couple (x,y) 

d’éléments de An on peut faire correspondre un et un seul vecteur de En noté −→ xy, la loi de 

correspondance ayant les propriétés suivantes : 

a) −→ xy = − −→ yx; 

b) −→ xz = −→ xy + −→ yz (relation de Chasles); 

c) Pour tout o ∈ An et pour tout X ∈ En, il existe un et un seul élément x ∈ An tel que 

−→ox = X. 

1 Pour souligner que les éléments d’un espace affine sont des points, la terminologie espace ponctuel affine est 

parfois utilisée. 

128

Les éléments de An sont appelés des points. On omettra dorénavant l’épithète réel. 

Il résulte immédiatement de la propriété a) et des propriétés élémentaires des espaces vectoriels 

que −→ xx = 0 pour tout x ∈ An. 

Exemple d’espace affine réel.– Donnons-nous un espace vectoriel réel En de dimension n. 

L’ensemble IR n peut être muni d’une structure d’espace ponctuel affine associé à En, et ce d’une 

infinité de façons distinctes. Choisissons en effet une base arbitraire de En, que nous noterons ei. 

Étant donné deux points de IR n , x = (x 1 ,x 2 ,....,x n ) et y = (y 1 ,y 2 ,....,y n ), posons en utilisant 

la convention d’Einstein 

−→xy = (y i − x i )ei. (A.1) 

On vérifie aisément que la correspondance (x,y) → −→ xy définie par (A.1) possède les propriétés 

qui munissent IR n d’une structure d’espace ponctuel affine associé à En. 

En fait, on voit par la démonstration qui précède qu’il existe sur IR n autant de structures 

d’espace ponctuel affine associé à un espace vectoriel donné En qu’il existe de bases distinctes 

de l’espace En. Mais ces structures sont toutes isomorphes et peuvent en conséquence être 

“identifiées”. En outre tous les espaces vectoriels réels de dimension n sont isomorphes et 

peuvent s’identifier à l’espace vectoriel usuel (IR n , +,.) ( 2 ). C’est pourquoi on peut par un 

léger abus de langage identifier un espace ponctuel affine réel An défini in abstracto comme 

ci-dessus avec l’espace IR n des n-uplets de nombres réels associé à l’espace vectoriel (IR n , +,.) 

selon la loi de correspondance (8.15), où ei est la base canonique de (IR n , +,.) définie par 

e1 = (1, 0,..., 0),e2 = (1, 1,..., 0),...,en = (0, 0,..., 1). 

A.1.2 Repère d’un espace affine 

Définition A.1.2 Soit An un espace affine associé à un espace vectoriel En. Un repère affine 

(ou cartésien) de An est l’ensemble constitué par un point o de An et une base {e1,e2,...,en} = 

{ei} de l’espace vectoriel En. Un tel repère est noté (o, {e1,e2,...,en}) ou en abrégé (o, {ei}). 

Le point o est appelé l’origine du repère. 

Définition A.1.3 Soient (o, {ei}) un repère de l’espace affine An et x un point arbitraire de 

An. On appelle coordonnées cartésiennes (ou affines) de x par rapport au repère (o, {ei}) les 

composantes x i du vecteur −→ ox par rapport à la base {ei}. 

Autrement dit, le n-uplet (x 1 ,x 2 ,...,x n ) constitue les coordonnées cartésiennes d’un point 

x par rapport au repère (o, {ei}) si et seulement si 

−→ox = x i ei. (A.2) 

Il résulte de la propriété c) dans la définition 1 que le n-uplet (x 1 ,x 2 ,...,x n ) constituant 

les coordonnées cartésiennes de x est unique et que réciproquement, la donnée d’un n-uplet 

2 On appelle ainsi l’ensemble IR n des n-uplets de nombres réels x = (x 1 ,x 2 ,...,x n ) muni de la structure 

d’espace vectoriel obtenue en définissant la somme de deux n-uplets x = (x 1 ,x 2 ,...,x n ) et y = (y 1 ,y 2 ,...,y n ) 

par x + y = (x 1 + y 1 ,x 2 + y 2 ,...,x n + y n ) et la multiplication d’un n-uplet x par un scalaire réel λ en posant 

λ.x = (λx 1 ,λx 2 ,...,λx n ). 

129

(x 1 ,x 2 ,...,x n ) définit un et un seul point x de An. Un repère étant choisi, on peut donc “identifier” 

un point et ses coordonnées cartésiennes comme on le fait d’habitude en géométrie 

ordinaire. Pour abréger, nous désignerons par (x i ) le n-uplet (x 1 ,x 2 ,...,x n ) et nous poserons 

souvent x = (x i ). 

Considérons deux points x et y de An, de coordonnées affines respectives x i et y i par rapport 

au repère (o, {ei}). Il vient en appliquant les propriétés a) et b) : 

−→xy = −→ xo + −→ oy = −→ oy − −→ ox. 

D’où, en tenant compte tenu de la définition des coordonnées d’un point de An et en utilisant 

les règles de calcul sur les espaces vectoriels : 

−→xy = y i ei − x i ei = (y i − x i )ei. (A.3) 

Les composantes du vecteur −→ xy par rapport à la base ei sont donc les n quantités y i − x i . 

C’est pourquoi on note fréquemment y − x le vecteur −→ xy : 

Avec cette notation, la propriété a) s’écrit 

et la relation de Chasles b) devient 

A.1.3 Changements de repères 

y − x = −→ xy . (A.4) 

y − x = −(x − y) (A.5) 

z − x = (z − y) + (y − x). (A.6) 

Cherchons les relations existant entre les coordonnées cartésiennes d’un point arbitraire x 

par rapport à deux repères distincts (o, {ei}) et (o ′ , {ej ′}). 

Nous pouvons poser pour les deux bases {ei} et {ej ′} : 

les coefficients Ai j ′ et Aj′ i étant reliés par les relations 

ei = A j′ 

i ej ′, ej ′ = Ai j ′ei, (A.7) 

A j′ 

i A k j ′ = δk i ⇐⇒ A i j ′Al′ 

i = δ l′ 

′. (A.8) 

Soient xi et xj′ les coordonnées respectives du point x par rapport aux repères (o, {ei}) et 

(o ′ , {ej ′}). On a 

−→ 

o ′ x = x j′ 

ej ′ . (A.9) 

Or, le premier membre de (A.9) peut s’écrire 

j 

−→ 

o ′ x = −→ o ′ o + −→ ox . (A.10) 

130

On peut poser 

et exprimer −→ ox par rapport à la base {ej ′} : 

−→ 

o ′ o = a j′ 

ej ′ (A.11) 

−→ox = x i ei = x i A j′ 

i ej ′ . (A.12) 

Substituons (A.11) et (A.12) dans (A.10) et identifions le résultat obtenu avec le second 

membre de (A.9). Nous obtenons la formule de transformation de coordonnées cartésiennes : 

x j′ 

= A j′ 

i x i + a j′ 

. (A.13) 

Il est bien entendu possible d’exprimer les coordonnées xi en fonction des xj′ . Posons 

−→ 

oo ′ = a i ei 

et échangeons le rôle joué par les deux repères. Il vient : 

A.2 Espace euclidien 

A.2.1 Définition d’un espace euclidien 

(A.14) 

x i = A i j ′xj′ + a i . (A.15) 

Un espace vectoriel En est dit euclidien lorsqu’on a défini un produit scalaire g(X,Y ) de 

deux vecteurs arbitraires X et Y sur cet espace. Un tel espace est généralement noté (En,g). 

Nous sommes ainsi conduits à définir un espace euclidien comme suit. 

Définition A.2.1 On appelle espace euclidien de dimension n un espace affine An dont l’espace 

vectoriel associé En est muni d’un produit scalaire g. Cet espace ponctuel est noté (An,g). 

On notera qu’on devrait en toute rigueur parler d’un espace affine euclidien, mais on abrège... 

Dans un espace euclidien (An,g), on peut définir ce que l’on appelle par abus de langage le 

carré d’une distance ou d’un intervalle sxy entre deux points arbitraires x et y en posant 

s 2 xy = g( −→ xy, −→ xy) = g(y − x,y − x), (A.16) 

relation qu’on peut encore écrire en utilisant la notation g(X,Y ) = X.Y : 

s 2 xy = −→ xy. −→ xy = (y − x).(y − x) = (y − x) 2 . (A.17) 

Un repère (o, {ei}) quelconque étant choisi, soient x i et y i les coordonnées respectives de x 

et y. À condition de poser 

gij = g(ei,ej) = ei.ej, 

131

l’expression de l’intervalle (A.17) par rapport au repère (o, {ei}) est donnée par la formule 

fondamentale 

s 2 xy = gij(y i − x i )(y j − x j ). (A.18) 

Si y est infiniment proche de x, on peut poser y i = x i + dx i . Le “carré” de l’intervalle 

élémentaire entre les deux points s’exprime alors par la forme quadratique de différentielles 

ds 2 = gijdx i dx j . (A.19) 

Le ds 2 (A.19) est appelée la métrique de l’espace euclidien (An,g). 

A.2.2 Espace euclidien rapporté à un repère orthonormé 

Un repère (o, {ei}) de l’espace euclidien (An,g) sera dit orthonormé (au sens du produit 

scalaire g) si la base {ei} est orthonormée au sens de g, i.e. si on a 

avec 

gij = ηij, (A.20) 

ηij = ǫi = ±1 si i = j, ηij = 0 si i = j. (A.21) 

On montre qu’il existe un entier p ≥ 0 dépendant uniquement du produit scalaire g tel 

qu’on ait dans tout repère orthonormé au sens de g) : 

1 ≤ i ≤ p =⇒ ǫi = 1, p + 1 ≤ i ≤ n =⇒ ǫi = −1. (A.22) 

Il en résulte que dans tout repère orthonormé, le carré de l’intervalle s 2 xy s’écrit sous la forme 

simple 

s 2 xy = ηij(y i − x i )(y j − x j ) 

= (y 1 − x 1 ) 2 + ... + (y p − x p ) 2 − (y p+1 − x p+1 ) 2 − ... − (y n − x n ) 2 

expression qui devient pour des points x = (x i ) et y = (x i + dx i ) infiniment voisins 

ds 2 = ηijdx i dx j = (dx 1 ) 2 + ... + (dx p ) 2 − (dx p+1 ) 2 − ... − (dx n ) 2 

(A.23) 

(A.24) 

L’entier σ = 2p−n s’appelle la signature du produit scalaire g. Désormais, nous appellerons 

aussi σ la signature du carré de l’intervalle s 2 xy défini par (3.13) ou encore la signature de la 

métrique ds 2 définie par (3.41). 

Soulignons que dans tout système de coordonnées affines fixé, les gij sont des quantités 

indépendantes des x i , c’est-à-dire des constantes. 

Deux types d’espace ponctuels euclidiens sont particulièrement importants en physique 

théorique : les espaces proprement euclidiens et les espaces lorentziens ou hyperboliques, qu’on 

appelle le plus souvent espaces-temps de Minkowski (de dimension n) (cf. sect. A.4, infra). 

132

A.3 Espace proprement euclidiens 

Si l’espace vectoriel euclidien (En,g) associé à An est proprement euclidien (i.e. si g(X,X) 

est ¿ 0 pour tout vecteur X de En non nul), l’espace (An,g) est également dit proprement 

euclidien. La quantité s 2 xy définie par (A.16) ou (3.13) est alors strictement positive si les points 

x et y sont distincts. La racine carrée de s 2 xy définit en conséquence une distance au sens usuel 

entre les points x et y. 

Dans n’importe quel repère orthonormé de l’espace (An,g), l’expression (A.23) s’écrit 

s 2 xy = (y 1 − x 1 ) 2 + (y 2 − x 2 ) 2 + ... + (y n − x n ) 2 . (A.25) 

Cette expression est l’extension à n dimensions du théorème de Pythagore qui fonde la 

géométrie métrique ordinaire en coordonnées cartésiennes orthonormées. Le carré de la distance 

entre deux points infiniment voisins est alors donné par 

où les quantités δij sont définies par 

ds 2 = δijdx i dx j = (dx 1 ) 2 + (dx 2 ) 2 + ... + ((dx n ) 2 . (A.26) 

δij = 1 si i = j, δij = 0 si i = j. (A.27) 

A.4 Espace-temps de Minkowski de dimension n 

Définition A.4.1 On appelle espace-temps de Minkowski de dimension n un espace euclidien 

à n dimensions muni d’une métrique η de signature 2 − n. La métrique η est appelée métrique 

de Minkowski. 

Un tel espace peut être noté (Mn,η), ou simplement (IR n ,η), selon le léger abus de langage 

signalé dans la sous-section 1.1. Les points d’un espace-temps de Minkowski de dimension 4 

sont souvent appelés points-événements pour une raison évidente. 

Dans un repère orthonormé arbitraire de (Mn,η), le carré de l’intervalle entre deux points 

arbitraires x et y s’exprime sous la forme 

s 2 xy = (y 0 − x 0 ) 2 − (y 1 − x 1 ) 2 − ... − (y n−1 − x n−1 ) 2 

(A.28) 

en raison de la signature 2 − n. Pour insister sur le fait que la combinaison (A.28) ne contient 

qu’un signe +, on numérote de 0 à n−1 les indices relatifs aux coordonnées et aux composantes 

de vecteurs ou de tenseurs (au lieu de 1 à n, comme on le fait dans les autres espaces). On note 

que le numéro 0 correspond à la coordonnée “temporelle” et que les coordonnées x 1 ,x 2 ,...,x n−1 

sont “spatiales”. La métrique de l’espace-temps de Minkowski (Mn,η) s’écrit alors sous la forme 

ds 2 = (dx 0 ) 2 − (dx 1 ) 2 − ... − (dx n−1 ) 2 . (A.29) 

De plus, nous nous conformerons à l’usage consistant à représenter les indices susceptibles de 

varier de 0 à n −1 par des lettres grecques minuscules telles que α,β,γ,δ,λ,µ,ν,ρ,σ, etc. Ainsi 

133

x α signifie que l’on doit considérer l’ensemble des n coordonnées x 0 ,x 1 ,...,x n−1 . En revanche, 

les indices susceptibles de prendre les valeurs 1, 2,...,n − 1 seront représentés par des lettres 

latines minuscules telles que i,j,k,l,m,n, etc. 

Avec ces conventions, le carré de l’intervalle entre deux points arbitraires x et y s’écrit par 

rapport à un repère orthonormé quelconque sous la forme particulièrement condensée 

où les coefficients ηαβ sont donnés par 

s 2 xy = ηαβ(y α − x α )(y β − x β ), (A.30) 

η00 = 1, η0i = ηi0 = 0, ηij = −δij. (A.31) 

La métrique de Minkowski (A.29) se réduit alors à l’expression 

comme on l’a vu en cours. 

ds 2 = ηαβdx α dx β , (A.32) 

134

Annexe B 

Analyse tensorielle 

B.1 Caractère non intrinsèque de la dérivation partielle 

usuelle 

Donnons-nous un champ de vecteurs contravariants arbitraire V , défini sur une région de la 

variété V4 ou sur V4 toute entière. On vérifie sans peine que les quantités ∂V µ /∂x α ne sont pas 

les composantes d’un tenseur mixte une fois covariant et une fois contravariant. Effectuons en 

effet une transformation de coordonnées arbitraire xα → xβ′ . Du fait que les V µ se transforment 

selon la loi 

les quantités ∂V ν′ /∂xγ′ sont données par 

V ν′ 

∂V ν′ 

∂x γ′ = ∂xα 

∂x γ′ 

= ∂xν′ 

∂x µ V µ , 

∂ 

∂xα 

ν ∂x ′ 

µ 

V . (B.1) 

∂x µ 

D’où la formule de transformation des dérivées partielles des composantes de V 

∂V ν′ 

∂xγ′ = ∂xα 

∂xγ′ ∂xν′ ∂x µ 

∂V µ ∂xα 

+ 

∂xα ∂xγ′ ∂ 2 x ν′ 

∂x α ∂x µ V µ , (B.2) 

Lorsqu’on les compare aux équations (32) du chapitre précédent, les équations (B.2) montrent 

que les quantités ∂V µ /∂xα ne se transforment pas en général comme les composantes d’un ten- 

ν1...νl 

seur mixte de type (1, 1). Plus généralement, si Tµ1...µk 

est un tenseur de type (k,l), les 

ν1...νl 

quantités ∂Tµ1...µk 

/∂xα ne définissent pas un champ de tenseurs de type (k + 1,l). Un 

constat de même nature vaut pour les dérivées partielles ordinaires d’ordre supérieur à un. 

Il résulte de ce qui vient dit qu’on ne peut généralement pas considérer comme exprimant 

une loi physique des équations égalant une dérivée partielle ordinaire d’un tenseur avec un autre 

tenseur. Supposons par exemple qu’on veuille formuler une loi sous la forme 

∂E µν 

∂x µ = Jν , (B.3) 

où E µν est un champ de tenseurs deux fois contravariants représentant un champ physique 

créé par une source décrite par un vecteur contravariant J ν . Il est clair d’après ce qui a été 

135

dit plus haut que si l’équation (B.3) était satisfaite dans un système de coordonnées locales x α 

donné, elle ne pourrait l’être en général dans un autre système de coordonnées puisque le second 

membre se transforme comme les composantes d’un vecteur contravariant alors que le premier 

membre se transforme selon la formule (B.2). C’est pourquoi on ne peut retenir des équations du 

type (B.3). On résout cette difficulté en définissant une nouvelle opération de dérivation partielle 

par rapport à x α qui donne un tenseur p +1 fois covariant et q fois contravariant lorsqu’elle est 

appliquée à un tenseur p fois covariant et q fois contravariant. Une telle opération est appelée 

une dérivation partielle covariante. 

B.2 Dérivation covariante 

Introduisons d’abord une notation très commode. Soit Φ une fonction différentiable des 

coordonnées xα . On posera 

∂µΦ = ∂Φ 

(B.4) 

pour désigner la dérivée partielle usuelle de Φ par rapport à x µ , et plus généralement, si Φ 

admet des derivées partielles d’ordre k : 

∂µ1...∂µkΦ = 

∂x µ 

∂x 

∂ k Φ 

µ1...∂x µk 

. (B.5) 

Définition B.2.1 Une dérivation partielle covariante par rapport à xα est une opération sur 

les champs de tenseurs notée ∇α possédant les propriétés suivantes : 

1) A tout champ de tenseurs k fois covariants et l fois contravariants de composantes 

ν1...νl Tµ1...µk 

, ∇α fait correspondre un champ de tenseurs k + 1 fois covariants et l fois contra- 

ν1...νl 

variants dont les composantes sont notées ∇αTµ1...µk 

. 

2) Si T et U sont tous deux des champs de tenseurs de type (k,l), 

 

 

ν1...νl ν1...νl 

ν1...νl 

ν1...νl 

∇α T + U = ∇αT + ∇αUµ1...µk 

. (B.6) 

µ1...µk 

µ1...µk 

µ1...µk 

3) ∇α obéit à la règle de Leibniz, i.e. si T et U sont des champs de tenseurs de types 

respectifs (k,l) et (r,s), alors 

 

 

ν1...νl σ1...σs 

∇α Tµ1...µk 

.Uρ1...ρr 

 

 

ν1...νl 

σ1...σs 

= T ∇αU + 

 

ν1...νl σ1...σs 

∇αT U . (B.7) 

µ1...µk 

ρ1...ρr 

µ1...µk 

4) Pour toute fonction différentiable f sur Vn, ∇α se réduit à la dérivée partielle ordinaire 

par rapport à x α : 

∇αf = ∂αf. (B.8) 

5) Pour un champ de vecteurs contravariants arbitraire V µ , ∇αV µ est un champ de tenseurs 

mixtes de type (1,1) de la forme 

ρ1...ρr 

∇αV µ = ∂αV µ + Γ µ 

αβ V β , (B.9) 

où les coefficients Γ µ 

αβ constituent un système de n3 quantités dépendant uniquement des coordonnées 

locales. 

136

Notons que les propriétés 3) et 4) entraînent que ∇α est un opérateur linéaire. En effet, si T 

et U sont tous deux des tenseurs de type (k,l) et si λ et µ sont des constantes, on a en raison 

de la règle de Leibniz et de ∇αλ = ∇αµ = 0 : 

 

 

ν1...νl 

ν1...νl 

ν1...νl 

ν1...νl 

∇α λ T + µ U = λ ∇αT + µ ∇αUµ1...µk 

. (B.10) 

µ1...µk 

µ1...µk 

µ1...µk 

B.3 Expression explicite de la dérivée covariante d’un 

champ de tenseurs arbitraire 

Les propriétés ci-dessus suffisent pour donner l’expression explicite de la dérivée covariante 

de n’importe quel champ de tenseurs. 

Dérivée covariante d’un champ de vecteurs covariants.— Soit Wµ un champ de 

vecteurs covariants. Si V µ est un champ de vecteurs contravariants arbitraire, on peut écrire 

en appliquant les règles 3) et 5) : 

∇α(V µ Wµ) = V µ ∇αWµ + (∇αV µ )Wµ = V µ ∇αWµ + Wµ(∂αV µ + Γ µ 

αβ V β ). (B.11) 

Mais l’expression contractée V µ Wµ est une fonction scalaire sur la variété V4. En conséquence, 

on peut écrire d’après la propriété 4) : 

∇α(V µ Wµ) = ∂α(V µ Wµ) = V µ ∂αWµ + Wµ∂αV µ . (B.12) 

En comparant les troisièmes membres de (B.11) et (B.12), on voit qu’on a 

V µ ∇αWµ = V µ (∂αWµ − Γ ρ αµWρ) 

pour tout champ de vecteurs V µ . Il en résulte immédiatement que ∇αWµ est donnée par la 

relation 

∇αWµ = ∂αWµ − Γ ρ αµWρ . (B.13) 

Dérivée covariante d’un champ de tenseurs d’ordre deux.— Soit T µν un champ de 

tenseurs deux fois contravariants. La multiplication contractée de ce champ de tenseurs par un 

champ de vecteurs covariants Wµ arbitraire fournit un champ de vecteurs covariants T µν Wµ 

dont on sait maintenant former la dérivation covariante par rapport à x α . Un raisonnement en 

tout point analogue à celui que nous avons fait ci-dessus nous conduit à l’expression suivante : 

∇αT µν = ∂αT µν + Γ µ 

αβ T βν + Γ ν αβT µβ . (B.14) 

De même, on trouve pour un champ de tenseurs deux fois covariants Tµν : 

Enfin, pour un champ de tenseurs mixtes T ν 

µ : 

∇αTµν = ∂αTµν − Γ ρ αµTρν − Γ ρ ανTµρ. (B.15) 

∇αT ν 

µ = ∂αT ν 

µ + Γ ν αβT β 

µ − Γ ρ αµT ν 

ρ . (B.16) 

Plus généralement, on a le théorème fondamental qui suit. 

137

Théorème B.3.1 La dérivée covariante d’un champ de tenseurs k fois covariants et l fois 

contravariants T ν1ν2...νl arbitraire a pour expression en coordonnées locales : 

∇αT 

µ1µ2...µk 

ν1ν2...νl 

µ1µ2...µk 

+Γ ν1 

= ∂αT 

σν2...νl 

ασTµ1µ2...µk 

ν1ν2...νl 

µ1µ2...µk 

+ Γ ν2 

ν1σ...νl 


+ ... + Γ νl 

ν1ν2...σ 


−Γ ρ αµ1T ν1ν2...νl 

ρµ2...µk − Γ ρ αµ2T ν1ν2...νl 

µ1ρ...µk − ... − Γ ρ αµkT ν1ν2...νl 

µ1µ2...ρ . (B.17) 

On notera le signe + chaque fois que l’indice de contraction dans les composantes de T est 

contravariant et le signe − chaque fois que l’indice de contraction est covariant. 

Remarque.— Il faut impérativement garder l’ordre des indices dans les formules explicitant 

les dérivées covariantes. Ainsi, on n’a pas le droit d’écrire 

∇αV µ = ∂αV µ + Γ µ 

βα V β , 

hormis dans le cas où Γ µ 

αβ = Γµ βα (cas d’une connexion symétrique, voir ci-dessous, sect. 3). 

Corollaire B.3.1 La dérivée covariante du champ de tenseurs de Kronecker δ ν µ est nulle : 

En effet, (B.16) et ∂αδ ν µ = 0 entraînent que 

∇αδ ν µ = 0. (B.18) 

∇αδ ν µ = Γ ν αβδ β 

µ − Γ ρ αµδ ν 

ρ = Γ ν αµ − Γ ν αµ = 0, CQFD. 

Il résulte du corollaire B.3.1 et de la règle de Leibniz que l’opérateur de dérivation covariante 

∇α est “perméable” pour le tenseur de Kronecker. Ainsi, on a par ex. pour tout tenseur 

ν1...νq Tµ1...µp 

: 

 

∇α δ σ 

ν1...νq 

ρ T = δ σ ν1...νq 

ρ ∇αTµ1...µp 

. (B.19) 

µ1...µp 

B.4 Connexion linéaire 

Définition B.4.1 L’ensemble des n3 quantités Γ µ 

αβ entrant dans l’expression d’une dérivation 

covariante définit une connexion linéaire sur la variété différentielle V4. 

Se donner une loi de dérivation covariante sur une variété équivaut donc à se donner une 

connexion linéaire. Pour cette raison, on donne aux fonctions Γ µ 

αβ (xρ ) le nom de coefficients 

de la connexion linéaire dans le système de coordonnées locales xρ . Bien entendu, il ne faut 

jamais perdre de vue que ces coefficients sont liés à la dérivation covariante ∇α utilisée : une 

dérivation covariante ∇α différente de ∇α induit des coefficients de connexion Γ µ 

αβ (xρ ) différents 

des Γ µ 

αβ (xρ ). 

138

par changement de coordonnées locales.— 

Les quantités ∇αV µ doivent se transformer comme les composantes d’un tenseur mixte de type 

(1, 1) lorqu’on effectue la transformation de coordonnées locales xα → xβ′ . Cette condition 

détermine complètement la loi de transformation des coefficients Γ µ 

αβ , qui est donnée par le 

théorème qui suit. 

Transformation des coefficients Γ µ 

αβ 

Théorème B.4.1 Lors d’une transformation de coordonnées xα → xβ′ , les coefficients Γ µ 

αβ se 

transforment selon la loi 

Γ ν′ 

γ ′ ∂xα 

ǫ ′ = 

∂xγ′ qui peut encore s’écrire sous la forme 

Γ ν′ 

γ ′ ∂xα 

ǫ ′ = 

∂xγ′ ∂x β 

∂x ǫ′ 

∂x β 

∂x ǫ′ 

∂xν′ ∂xα 

Γµ 

∂x µ αβ − 

∂xγ′ ∂x β 

∂x ǫ′ 

∂xν′ Γµ 

∂x µ αβ + ∂2xρ ∂xγ′ ∂xǫ′ ∂2xν′ ∂xα , (B.20) 

∂xβ ∂xν′ . (B.21) 

∂xρ En échangeant le rôle joué par les coordonnées locales xα et xγ′ , les formules (B.20) et (B.21) 

donnent évidemment les formules de transformation 

et 

Γ µ ∂xγ′ 

αβ = 

∂xα Γ µ ∂xγ′ 

αβ = 

∂xα ∂x ǫ′ 

∂x β 

∂x ǫ′ 

∂x β 

∂x µ 

∂xν′ Γ ν′ 

γ ′ ∂xγ′ 

ǫ ′ − 

∂xα ∂x ǫ′ 

∂x β 

∂x µ 

∂x ν′ Γ ν′ 

γ ′ ǫ ′ + ∂2 x σ′ 

∂x α ∂x β 

∂ 2 x µ 

∂x γ′ ∂x ǫ′ 

(B.22) 

∂x µ 

∂x σ′ . (B.23) 

Démonstration.– La dérivation partielle covariante d’un vecteur contravariant devant définir 

un tenseur mixte de type (1, 1), les coefficients Γ µ 

αβ doivent se transformer de telle sorte que les 

relations 

ν′ 

∂γ ′V + Γ ν′ 

γ ′ δ′ 

δ ′V = ∂xα 

∂xγ′ ∂xν′ ∂x µ 

 

∂αV µ + Γ µ 

αβV β 

(B.24) 

soint satisfaites pour un vecteur V µ arbitraire. Substituons la loi de transformation (B.2) dans 

l’éq. (B.24). Il vient : 

∂x α 

∂x γ′ 

∂x ν′ 

∂x µ ∂αV µ + ∂xα 

∂x γ′ 

= ∂xα 

∂x γ′ 

∂ 2 x ν′ 

∂xα∂x µ V µ + Γ ν′ 

γ ′ δ′ 

δ ′V 

∂xν′ ∂x µ ∂αV µ + ∂xα 

∂xγ′ ∂xν′ Γµ 

∂x µ αβV β , 

soit après simplification et changement de certains indices muets 

Γ ν′ 

γ ′ δ′ 

δ ′V = ∂xα 

∂xγ′ ∂xν′ Γµ 

∂x µ αβV β − ∂xα 

∂xγ′ Substituons maintenant V δ′ 

tisfaite pour tout vecteur V β , on a nécessairement 

∂ 2 x ν′ 

∂x α ∂x β V β . (B.25) 

= ∂xδ′ /∂xβV β dans (B.25). L’égalité obtenue devant être sa- 

∂xδ′ Γν′ 

∂xβ γ ′ ∂xα 

δ ′ = 

∂xγ′ ∂xν′ ∂xα 

Γµ 

∂x µ αβ − 

∂xγ′ 139 

∂2xν′ ∂xα . (B.26) 

∂xβ

Effectuons la multiplication contractée des deux membres de (B.26) par ∂xβ /∂xǫ′ . Compte 

tenu des formules (19) du chapitre précédent, on obtient la loi de transformation (B.20). 

On peut écrire (B.20) sous une forme légèrement différente. La relation 

donne en effet par différentiation : 

∂ 

∂xα 

β ∂x 

∂xǫ′ ∂x β 

∂x ǫ′ 

∂xν′ ∂xβ 

≡ ∂xβ 

∂xǫ′ ∂xν′ = δν′ 

∂xβ ǫ ′ 

∂ 2 x ν′ 

∂x α ∂x β + ∂2 x β 

∂x α ∂x ǫ′ 

d’où on déduit après multiplication contractée par ∂x α /∂x γ′ 

∂x α 

∂x γ′ 

∂x β 

∂x ǫ′ 

∂2xν′ ∂xα ∂xα 

= − 

∂xβ ∂xγ′ ∂ 2 x β 

∂x α ∂x ǫ′ 

∂xν′ = 0, 

∂xβ ∂x ν′ 

∂x β = − ∂2 x ρ 

∂x γ′ ∂x ǫ′ 

∂xν′ . (B.27) 

∂xρ Compte tenu de (B.27), la formule de transformation (B.20) prend la forme (B.21). C.Q.F.D. 

B.5 Conséquences fondamentales des formules de transformation 

des coefficients de connexion 

1) Les formules de transformation obtenues dans la section précédente montrent qu’il suffit 

de se donner n3 fonctions arbitraires Γ µ 

αβ (x) dans un système de coordonnées locales lui-même 

arbitrairement choisi pour définir une connexion sur V4. En effet, les lois de transformation (B.20 

ou (B.21) permettent le calcul explicite des coefficients de la connexion dans des coordonnées 

locales xβ′ si on connaît explicitement les xβ′ en fonction des xα . De plus, nous n’avons trouvé 

aucune contrainte sur les fonctions Γ µ 

αβ (x) de départ. Il en résulte qu’il existe une infinité de 

connexions distinctes sur une variété donnée. 

2) Les coefficients Γ µ 

αβ ne se transforment pas comme les composantes d’un tenseur une fois 

contravariant et deux fois covariant lors d’une transformation générale de coordonnées locales. 

On notera toutefois que les relations (B.21)-(B.23) se réduisent aux règles de transformation 

tensorielles lorsque les coordonnées xγ′ sont des fonctions affines des xα , i.e. lorsque 

les quantités Aγ′ α et bγ′ équivalentes aux relations 

qui entraînent 

d’après (B.23). 

x γ′ 

= A γ′ 

α x α + b γ′ 

, (B.28) 

étant des constantes arbitraires. Les équations (B.28) sont en effet 

Γ µ ∂xγ′ 

αβ = 

∂xα ∂2xσ′ ∂xα = 0 

∂xβ ∂x ǫ′ 

∂x β 

140 

∂x µ 

∂x ν′ Γ ν′ 

γ ′ ǫ ′

3) La différence des coefficients de deux connexions est toujours un tenseur une fois contravariant 

et deux fois covariant. On formera donc n’importe quelle connexion sur V4 en ajoutant 

un tenseur une fois contravariant et deux fois covariant arbitraire à une connexion elle-même 

arbitrairement choisie. On retrouve ainsi qu’il existe une infinité de connexions linéaires sur une 

variété. 

4) L’égalité Γ µ 

αβ 

= Γµ 

βα 

entraîne Γν′ γ ′ ǫ ′ = Γν′ ǫ ′ γ ′. On dit qu’une connexion linéaire possédant 

cette propriété est symétrique. On dit encore pour des raisons que nous n’expliciterons pas ici 

que cette connexion est sans torsion (ou de torsion nulle). Cette propriété est importante car 

nous verrons que la connexion utilisée dans les théories métriques est un connexion symétrique 

particulière (connexion dite riemannienne, définie dans le chapitre suivant). 

Les connexions symétriques vérifient l’important théorème suivant. 

Théorème B.5.1 Soient Γ µ 

αβ les coefficients d’une connexion symétrique arbitraire et x0 un 

point arbitrairement fixé sur la variété. Il est toujours possible de choisir un système de coordonnées 

locales xβ′ 

au voisinage de x0 tel que tous les coefficients de la connexion 

symétrique considérée soient nuls au point x0. 

 

Γ ν′ 

γ ′ ǫ ′ 

Démonstration.— Soit xα un système de coordonnées locales arbitraire au voisinage du point 

x0. Dans ce système, les coefficients de la connexion symétrique Γ prennent les valeurs 

Γ µ 

 

αβ 

0 

au point x0 = (xα 0). Effectuons la transformation de coordonnées définie par 

En raison de la symétrie de 

Γ µ 

αβ 

d’où on déduit : ∂ 2 x ν ′ 

En outre, on a d’après (B.30) : 

ce qui entraîne 

α ∂x 

 

Γ µ 

 

αβ (x 

x0 

α′ 

− x α )(x β′ 

− x β ). (B.29) 

x µ′ 

= x µ + 1 

2 

 

par rapport à α et β, on a : 

∂x γ′ 

0 

∂xν′ ∂xβ = δν β + 

Γ ν 

 

λβ (x 

x0 

λ − x λ 0), (B.30) 

x0 

∂x α ∂x β 

 

x0 

 

µ ∂x ′ 

∂x ρ 

= δ α γ ′ , 

x0 

= 

Γ ν 

 

αβ 

x0 

x0 

. (B.31) 

= δ µ ρ , (B.32) 

 

β ∂x 

∂x ǫ′ 

x0 

= δ β 

ǫ ′ . (B.33) 

Substituons (B.31) et (B.33) dans la loi de transformation (B.20) écrite en x0 pour la 

connexion Γ. Il vient 

 

Γ ν′ 

γ ′ ǫ ′ 

 

= δ 

x0 

α γ δ β ǫ δ ν µ 

 

Γ µ 

 

αβ − δ 

x0 

α γ δ β ǫ 

141 

 

Γ ν 

 

αβ = 0, (B.34) 

x0

ce qui achève la démonstration. 

On notera que la transformation de coordonnées (B.29) ne change pas la valeur numérique 

des composantes des tenseurs au point x0 puisque les coefficients de transformation en ce point 

sont donnés par les éléments de matrice (B.32) et (B.33). On remarquera également que l’on a 

xα′ 0 = xα 0. 

La dérivée covariante partielle des tenseurs en x0 associée à la connexion Γ possède une 

expression particulièrement simple dans le système de coordonnées locales x µ′ défini par (B.29). 

Compte tenu de (B.34), il vient en effet pour un tenseur deux fois contravariant par exemple 

 

∇α ′T µ′ ν ′ 

x0 

= 

∂α ′T µ′ ν ′ 

x0 

. (B.35) 

L’égalité de la dérivation covariante avec la dérivation partielle usuelle est très utile pour 

démontrer certaines identités tensorielles. Toutefois, on se gardera bien entendu d’écrire que les 

équations (B.35) sont vraies dans un système de coordonnées locales arbitraire ! 

B.6 Dérivée covariante totale le long d’une courbe 

Dans de nombreuses applications physiques (dynamique des particules, mécanique de fluides, 

relativité, ...), on a besoin de la dérivée totale d’un champ de vecteurs ou de tenseurs le long 

d’une courbe paramétrée. L’exemple le plus simple est le vecteur accélération d’une particule 

qu’on définit comme la dérivée covariante totale du vecteur vitesse le long de la ligne d’univers 

de la particule paramétrée par le temps propre. 

La dérivée totale doit être caractérisée d’une manière intrinsèque. C’est pourquoi on adopte 

la définition suivante, qui généralise la dérivée totale usuelle d’une fonction le long d’une courbe. 

Définition B.6.1 Soit C une courbe différentiable λ → C(λ) d’équations paramétriques 

x α = x α (λ). (B.36) 

Soit ˙x α = dxα /dλ le vecteur tangent à la courbe C. On appelle dérivée covariante totale d’un 

champ de tenseurs T de type (k,l) le long de C le tenseur de type (k,l) noté ∇ 

dλ T ν1ν2...νl 

µ1µ2...µk 

et défini en chaque point x(λ) de C par les équations 

∇ 

dλ T 

ν1ν2...νl 

µ1µ2...µk 

= ˙x α ν1ν2...νl 

∇αTµ1µ2...µk 

. (B.37) 

ν1ν2...νl 

Les quantités ∇αTµ1µ2...µk 

sont données par le second membre de la formule (B.17). 

Les composantes du champ de tenseurs T sur la courbe C peuvent être considérées comme 

des fonctions du paramètre λ que l’on supposera toujours différentiables. On peut alors poser 

˙x α ∂αT 

ν1ν2...νl 

µ1µ2...µk 

= d 

dλ T 

ν1ν2...νl 

µ1µ2...µk , (B.38) 

la dérivée totale figurant dans le second membre étant prise le long de la courbe C. Il écoule 

alors de (B.38) et de (B.17) que si deux champs de tenseurs du même type T et U coïncident 

sur la courbe C, alors 

∇ 

dλ T 

ν1ν2...νs 

µ1µ2...µr = ∇ 

dλ U 

ν1ν2...νs 

µ1µ2...µr 

(B.39) 

142

en tout point de C. En d’autres termes, la dérivée covariante totale d’un champ de tenseurs T 

le long d’une courbe C ne dépend que des valeurs de T sur la courbe C. 

Il résulte de (B.38) qu’on peut définir la dérivée covariante totale d’un tenseur qui est 

donné seulement sur une courbe paramétrée. Ainsi, par exemple, S µν étant un tenseur deux fois 

contravariant défini en chaque point de C, on pose 

∇S µν 

dλ 

= dSµν 

dλ 

Pour un champ de vecteurs contravariants, on a simplement : 

relation que l’on peut encore écrire sous la forme : 

+ 

Γ µ 

αβ Sβν + Γ ν αβS µβ 

˙x α . (B.40) 

∇V µ 

dλ ≡ ˙xα ∇αV µ = ˙x α ∂αV µ + Γ µ 

αβ ˙xα V β , (B.41) 

∇V µ 

dλ 

= dV µ 

dλ 

+ Γµ 

αβ ˙xα V β . (B.42) 

La relation (B.42) fournit également la dérivée covariante totale d’un vecteur contravariant 

V que l’on a seulement défini sur C. 

Pour un champ de vecteurs covariants φ : 

∇φµ 

dλ ≡ ˙xα ∇αφµ = ˙x α ∂αφµ − Γ ρ αµ ˙x α φρ, (B.43) 

soit encore 

∇φµ dφµ 

= 

dλ dλ − Γραµ ˙x α φρ. (B.44) 

Cette dernière relation donne aussi la dérivée covariante totale d’un vecteur covariant seulement 

défini sur C. 

B.7 Transport par parallélisme le long d’une courbe 

La notion de dérivée covariante totale d’un tenseur permet de définir le transport par parallélisme 

d’un champ de tenseurs le long d’une courbe. Nous allons nous restreindre au cas des 

champs de vecteurs, le plus souvent rencontré. 

Cas des vecteurs contravariants.— Pour les vecteurs contravariants, la définition du 

transport par parallélisme s’énonce comme suit. 

Définition B.7.1 Un champ de vecteurs contravariants V est dit transporté par parallélisme 

le long de la courbe C si sa dérivée covariante totale le long de C est nulle, i.e. si 

en chaque point de C. 

∇V µ 

dλ ≡ ˙xα ∇αV µ = 0 (B.45) 

143

D’après ce que nous avons vu dans la section 4, la condition de transport par parallélisme 

d’un vecteur contravariant V le long de la courbe C s’exprime par le système d’équations 

différentielles suivant : 

dV µ 

dλ 

+ Γµ 

αβ ˙xα V β = 0. (B.46) 

Cas des vecteurs covariants.– La transposition aux vecteurs covariants est immédiate. 

Définition B.7.2 Un champ de vecteurs covariants φ est dit transporté par parallélisme le long 

de la courbe C si sa dérivée covariante totale le long de C est nulle, i.e. si 

en chaque point de C. 

∇φµ 

dλ ≡ ˙xα ∇αVµ = 0 (B.47) 

La condition de transport par parallélisme d’un vecteur covariant φ le long de C est donc 

donnée par le système d’équations différentielles 

que l’on comparera au système (B.46). 

dφµ 

dλ − Γρ αµ ˙x α φρ = 0, (B.48) 

B.8 Courbes autoparallèles d’une connexion 

La notion de tranport par parallélisme permet d’associer à chaque connexion une famille de 

courbes appelées courbes autoparallèles, qui constituent la généralisation de la ligne droite de la 

géométrie affine usuelle. De ce fait, elles sont les candidates les plus naturelles pour s’identifier 

aux lignes d’univers des particules en chute libre dans un champ de gravitation. 

Définition B.8.1 Une courbe C : λ → C(λ) est dite autoparallèle si son vecteur tangent 

˙x α = dx α /dλ est tranporté par parallélisme le long d’elle-même, i.e. si les fonctions x α (λ) 

sont solution des équations différentielles 

∇ ˙x µ 

dλ ≡ d2x µ dx 

+ Γµ 

dλ2 αβ 

α dx 

dλ 

β 

dλ 

= 0. (B.49) 

On voit immédiatement sur les éqs. (B.49) que les courbes autoparallèles sont déterminées 

uniquement par la partie symétrique de la connexion définie par 

puisqu’on a de manière évidente 

Γ µ 

αβ = 1 

Γ 

2 

µ 

 

αβ + Γµ βα 

Γ µ 

αβ ˙xα ˙x β ≡ Γ µ 

αβ ˙x α ˙x β . 

Il s’ensuit immédiatement le théorème suivant. 

144 

(B.50)

Théorème B.8.1 Deux connexions linéaires ayant la même partie symétrique ont des courbes 

autoparallèles identiques. 

Il est équivalent de dire que les courbes autoparallèles d’une connexion sont déterminées uniquement 

par la partie symétrique de cette connexion (ou encore que la torsion d’une connexion 

n’a aucun influence sur ses courbes autoparallèles). Cette propriété joue un rôle fondamental 

dans le choix de connexion que l’on fait habituellement pour décrire l’influence de la gravitation 

sur une particule en chute libre. 

145

Annexe C 

Connexion et courbure sur une variété 

riemannienne 

Dans le chapitre précédent, nous avons exposé les bases de l’analyse tensorielle sur une 

variété V4 sans faire intervenir la notion de métrique qui avait été introduite dans le premier 

chapitre. Ici au contraire, nous supposons de façon essentielle que V4 est une variété munie 

d’une métrique g. On se souvient que le doublet (V4,g) est appelé une variété riemannienne. 

L’importance de ces espaces est primordiale en physique puisque les espaces-temps utilisés en 

relativité sont des variétés riemanniennes particulières, dites lorentziennes. 

C.1 Connexion riemannienne 

Nous allons tout d’abord énoncer et démontrer le théorème d’existence et d’unicité qui 

“légitime” en quelque sorte les théories métriques de la gravitation. 

Théorème C.1.1 Sur une variété riemannienne (V4,g), il existe une et une seule connexion 

linéaire qui soit symétrique et qui préserve la valeur du produit scalaire de deux vecteurs V et 

W transportés par parallélisme le long d’une courbe différentiable arbitraire. Les coefficients de 

cette connexion s’écrivent en coordonnées locales 

où les quantités { ρ µν} sont définies par : 

Γ ρ µν = { ρ µν}, (C.1) 

{ ρ µν} = 1 

2 gρσ (∂µgνσ + ∂νgσµ − ∂σgµν). (C.2) 

La connexion déterminée par (C.1) et (C.2) s’appelle la connexion riemannienne de l’espacetemps 

(V4,g). 

Démonstration.— Supposons qu’une connexion Γ soit symétrique et vérifie la condition1 ∀V µ ∀W ν 

∇V µ 

ν 

∇W 

= 0 et = 0 =⇒ 

dλ dλ d 

dλ (gµνV µ W ν 

) = 0 (C.3) 

1 Une connexion qui possède la propriété (C.3) est appelée une connexion métrique. La connexion riemannienne 

est donc l’unique connexion qui soit à la fois métrique et symétrique. 

146

le long de n’importe quelle courbe C définie par les équations paramétriques 

x α = x α (λ) (C.4) 

en coordonnées locales xρ . Du fait que gµνV µ W ν est une quantité scalaire, sa dérivée totale 

usuelle peut être remplacée par sa dérivée covariante totale. Il vient donc en tenant compte de 

(C.3) : 

d 

dλ (gµνV µ W ν ) = ∇ 

dλ (gµνV µ W ν ) = ˙x λ ∇λgµνV µ W ν = 0. (C.5) 

L’équation (C.5) devant être valide quels que soient ˙x λ , V µ et W ν , il faut que les équations 

soient satisfaites en tout point. On a donc nécessairement 

∇λgµν = 0 (C.6) 

∇λgµν − ∇µgνλ − ∇νgλµ = 0. (C.7) 

Explicitons les relations (C.7) en utilisant l’équation (15) du chapitre II. Il vient, en tenant 

compte des symétries de gµν et de Γ σ µν par rapport aux indices µ et ν : 

∇λgµν − ∇µgνλ − ∇νgλµ = ∂λgµν − Γ σ λµgσν − Γ σ λνgµσ − ∂µgνλ + Γ σ µνgσλ + Γ σ µλgνσ 

La dernière ligne de (C.8) s’écrit encore 

−∂ν + Γ σ νλgσµ + Γ σ νµgλσ 

= 2Γ σ µνgλσ + ∂λgµν − ∂µgνλ − ∂νgλµ = 0. (C.8) 

Γ σ µνgλσ = 1 

2 (∂µgνλ + ∂νgλµ − ∂λgµν) . (C.9) 

La multiplication contractée des deux membres de (C.9) par g λρ donne finalement, compte 

tenu de g λρ gλσ = δ ρ σ : 

Γ ρ µν = 1 

2 gρσ (∂µgνσ + ∂νgσµ − ∂σgµν) ≡ { ρ µν}. (C.10) 

Nous venons de démontrer l’unicité de la connexion riemannienne. Réciproquement, il est 

aisé de vérifier que la connexion définie par (C.10) vérifie (C.6). En utilisant l’équation (C.10) 

et la formule (15) du chapitre II, on obtient en effet les identités : 

ce qui achève la démonstration. 

∂λgµν − { ρ 

λµ }gρν − { ρ 

λν }gµρ ≡ 0, (C.11) 

Les quantités { ρ µν} sont les symboles de Christoffel de deuxième espèce associés à la métrique 

g. C’est cette connexion qui est utilisée dans les théories métriques. Désormais, nous utiliserons 

seulement la connexion riemannienne et nous la désignerons indistinctement soit par Γ ρ µν soit 

par { ρ µν}. 

147

Théorème C.1.2 La dérivée covariante ∇λ associée à la connexion riemannienne sur (V4,g) 

est telle que 

∇λgµν = 0 (C.12) 

et 

en tout point x ∈ V4. 

∇λg ρσ = 0 (C.13) 

Démonstration.— Nous avons déjà montré l’équation (C.12) en établissant le théorème 1. 

Cette équation est souvent appelé le théorème de Ricci. Pour démontrer l’équation (C.13), 

appliquons la dérivation covariante riemannienne au produit contracté gµνg ρµ . En utilisant 

l’équation (62) du chapitre I et l’équation (18) du chapitre II, on obtient 

∇λ (gµνg ρµ ) = ∇λδ ρ ν = 0. 

D’où en utilisant la règle de Leibniz qui est satisfaite par toute dérivation covariante : 

Or, ∇λgµν = 0. On a donc 

∇λgµνg ρµ + gµν∇λg ρµ = 0. 

Effectuons le produit contracté de (C.14) par g νσ . Il vient : 

C.Q.F.D. 

gµν∇λg ρµ = 0. (C.14) 

g νσ gµν∇λg ρµ = δ σ µ∇λg ρµ = ∇λg ρσ = 0 

Enfin, nous citerons deux autres propriétés importantes que possède la connexion riemannienne 

: 

Propriété 1.— Un vecteur V subissant un transport parallèle défini par la connexion riemannienne 

garde une norme constante. 

Propriété 2.— Le transport parallèle défini par la connexion riemannienne conserve la 

valeur de l’angle formé par deux vecteurs. En particulier, deux vecteurs V et W initialement 

orthogonaux restent orthogonaux lors d’un transport par parallélisme. 

Ces propriétés découlent immédiatement du théorème 1. Elles sont d’un grand intérêt en 

physique théorique. Il résulte en effet de la propriété 1 qu’une connexion métrique permet 

de comparer des étalons de longueur situés en des points voisins. La propriété 2 permet de 

réaliser en chaque point x d’une courbe C un repère orthonormé simplement en transportant 

par parallélisme un repère orthonormé construit en un point fixé de C. 

148

C.2 Géodésiques d’une variété riemannienne 

Définition C.2.1 Soit (V4,g) une variété riemannienne de dimension 4. Étant donnés deux 

points x1 et x2 de V4, on appelle arc géodésique joignant x1 et x2 tout arc de courbe différentiable 

Γ12 d’équations paramétriques xα = xα (λ) satisfaisant aux conditions : 

où ˙x µ est défini par 

λ2 

δ gµν(x 

λ1 

α (λ)) ˙x µ ˙x ν dλ = 0, x α (λ1) = x α 1 , x α (λ2) = x α 2 , (C.15) 

˙x µ = dxµ 

. (C.16) 

dλ 

D’après cette définition, les géodésiques d’une variété riemannienne (V4,g) sont les courbes 

paramétrées xα = xα (λ) solutions des équations d’Euler-Lagrange 

 

associées au lagrangien 

d 

dλ 

∂L 

∂ ˙x µ 

− ∂L 

= 0 (C.17) 

∂x µ 

L(x α , ˙x µ ) = 1 

2 gµν(x α ) ˙x µ ˙x ν . (C.18) 

On en déduit le théorème qui suit. 

Théorème C.2.1 Les géodésiques d’une variété riemannienne (V4,g) sont les courbes d’équations 

paramétriques x α = x α (λ) solutions du système différentiel 

d 

dλ (gµν ˙x ν ) = 1 

2 ∂µgρσ ˙x ρ ˙x σ . (C.19) 

Démonstration.— Pour établir les équations (C.19), calculons d’abord le moment conjugué 

∂L/∂ ˙x µ associé à chaque coordonnée x µ : 

Compte tenu de 

on peut écrire 

∂L 1 

= 

∂ ˙x µ 2 

∂ 

∂ ˙x µ(gρσ ˙x ρ ˙x σ ). (C.20) 

∂ ˙x ρ 

∂ ˙x µ = δρ µ , (C.21) 

∂ 

∂ ˙x µ(gρσ ˙x ρ ˙x σ ) = gρσδ ρ µ ˙x σ + gρσ ˙x ρ δ σ µ = 2gµν ˙x ν . (C.22) 

Substituons (C.22) dans (C.20). Il vient : 

∂L 

∂ ˙x µ = gµν ˙x ν . (C.23) 

Par ailleurs, on peut évidemment écrire : 

∂L 1 

= 

∂x µ 2 ∂µgρσ ˙x ρ ˙x σ . (C.24) 

La substitution de (C.23) et de (C.24) dans (C.17) donne immédiatement les équations 

d’Euler-Lagrange sous la forme (C.19). C.Q.F.D. 

149

Théorème C.2.2 Les équations (C.19) déterminent le paramétrage des courbes géodésiques à 

une transformation affine arbitraire près. 

Démonstration.— Considérons une courbe paramétrée x α = x α (λ) solution des équations 

(C.19) et effectuons un changement de paramétrage en posant 

λ = f(ζ), (C.25) 

f étant par hypothèse une fonction deux fois continûment différentiable dont la dérivée première 

f ′ (ζ) ne s’annule pas sur l’intervalle de variation de λ. Les équations (C.19) s’écrivent alors sous 

la forme 

1 

f ′ d 

(ζ) dζ 

1 

f ′ (ζ) gµν 

dxν 

= 

dζ 

1 

2 

soit après multiplication des deux membres par f ′ (ζ) 

 

d dx 

gµν 

dζ 

ν 

 

− 

dζ 

f ′′ (ζ) 

f ′ (ζ) gµν 

dxν dζ 

1 

f ′2 

dx 

∂µgρσ 

(ζ) ρ dx 

dζ 

σ 

dζ 

1 

= 

2 ∂µgρσ 

dxρ dx 

dζ 

σ 

dζ 

(C.26) 

Les équations (C.26) ont la même forme que les équations (C.19) si et seulement si f ′′ (ζ) = 0, 

i.e. si et seulement si 

λ = aζ + b, (C.27) 

où a et b sont des constantes arbitraires. C.Q.F.D. 

Le théorème 4 explique pourquoi on appelle paramètre affine de la géodésique considérée le 

paramètre λ impliqué dans le principe variationnel (C.15) ou , ce qui est équivalent, dans les 

équations (C.19). 

Étant un sytème d’équations de Lagrange, le système différentiel (C.19) est en pratique celui 

qui est le plus commode pour étudier les géodésiques d’une variété riemannienne. Il existe toutefois 

une autre forme des équations différentielles satisfaites par une géodésique qu’il importe 

de connaître. La dérivée totale par rapport à λ des moments conjugués gµν ˙x ν peut s’écrire 

d 

dλ (gµν ˙x ν ) = gµν ¨x ν + ˙x ρ ∂ρgµν ˙x ν = gµν ¨x ν + 1 

2 (∂ρgσµ + ∂σgµρ) ˙x ρ ˙x σ . (C.28) 

Substituons (C.28) dans les équations des géodésiques (C.19). Il vient : 

gµν ¨x ν + 1 

2 (∂ρgσµ + ∂σgµρ − ∂µgρσ) ˙x ρ ˙x σ = 0. (C.29) 

Effectuons la multiplication contractée des deux membres de (C.29) par g µα . Compte tenu 

de gµνg µα = δ α ν , de la définition (C.2) des symboles de Christoffel de deuxième espèce et de 

(C.16), les équations (C.29) s’écrivent sous la forme 

d2xα dλ2 + {αρσ} dxρ dx 

dλ 

σ 

= 0. 

dλ 

Compte tenu de la formule (71) du chap. I, le système (C.30) s’écrit encore 

(C.30) 

 

α ∇ dx 

= 0. 

dλ dλ 

(C.31) 

Réciproquement, il est aisé de vérifier que les équations (C.31) entraînent les équations de 

Lagrange (C.19). On peut donc formuler le théorème qui suit. 

150

Théorème C.2.3 Une courbe Γ d’équations paramétriques x α = x α (λ) est une géodésique 

de paramètre affine λ si et seulement si le vecteur tangent ˙x α = dx α /dλ est transporté par 

parallélisme le long de Γ. 

Le théorème 5 revient à énoncer que les géodésiques sont les courbes auto-parallèles de la 

connexion riemannienne. 

Nous allons maintenant établir un théorème très utile quand on cherche à intégrer les 

équations différentielles des géodésiques. 

Théorème C.2.4 Toute géodésique paramétrée par un paramètre affine λ arbitraire admet 

l’intégrale première 

2L(x α , ˙x µ ) = K = const (C.32) 

L(x α , ˙x µ ) étant le lagrangien défini par (C.18). 

Démonstration.— L’existence d’une intégrale première telle que (C.32) vient de la propriété 

de la fonction de Lagrange L de ne pas dépendre explicitement du paramètre λ. Pour le voir, 

calculons la dérivée totale de L(x α , ˙x µ ) par rapport à λ le long d’une courbe différentiable 

arbitraire. On obtient l’équation : 

dL 

dλ 

∂L 

= 

∂x µ ˙xµ + ∂L 

∂ ˙x µ ¨xµ = ∂L 

∂x µ ˙xµ + d 

 

∂L 

˙xµ − 

dλ ∂ ˙x µ d 

 

∂L 

dλ ∂ ˙x µ 

 

d’où on déduit immédiatement : 

 

dL d ∂L 

− ˙xµ ≡ 

dλ dλ ∂ ˙x µ d 

 

L − 

dλ 

∂L 

 

˙xµ 

∂ ˙x µ 

Or, d’après (C.23), on peut écrire 

Substituons (C.34) dans (C.33). Il vient 

= 

 

∂L d ∂L 

− 

∂x µ dλ ∂ ˙x µ 

 

˙x µ , 

˙x µ . (C.33) 

L − ∂L 

∂ ˙x µ ˙xµ = L − gµν ˙x ν ˙x µ = L − 2L = −L. (C.34) 

dL 

dλ = 

 

d ∂L 

dλ ∂ ˙x µ 

 

− ∂L 

∂x µ 

 

˙x µ . (C.35) 

Les termes entre crochets sont nuls quand les équations d’Euler-Lagrange (C.19) sont satisfaites. 

On a donc 

dL 

= 0 

dλ 

le long de toute solution des équations (C.17) ou (C.19). La quantité L(x α , ˙x µ ) est donc 

constante le long d’une géodésique. D’où le théorème. 

L’intégrale première (C.32) montre qu’on a 

ds 2 = Kdλ 2 

151 

(C.36)

pour deux points infiniment voisins appartenant à la même géodésique. Il en résulte qu’il existe 

trois types de géodésiques : 

a) Si K > 0, ds 2 > 0 ; 

b) Si K = 0, ds 2 = 0 ; 

c) Si K < 0, ds 2 < 0 . 

Nous retrouverons bien sûr cette classification en relativité. Avec notre convention d’écrire 

les métriques relativistes avec un signe + devant c 2 dt 2 , une géodésique telle que ds 2 > 0 est dite 

du genre temps et une géodésique telle que ds 2 < 0 est dite du genre espace. Une géodésique 

telle que ds 2 = 0 est dite isotrope. 

Pour finir, nous noterons que l’intégrale première (C.32) s’avèrera précieuse quand on cherchera 

à intégrer les équations (C.17) ou (C.19). Voir exemple les chapitres 9 et 10. 

Pour clore cette section sur les géodésiques, nous énoncerons le théorème qui suit. 

Théorème C.2.5 Les géodésiques de genre temps sont les courbes de genre temps qui satisfont 

la condition d’extremum 

 

δ 

où ℓ est un paramètre arbitraire. 

 

ds = δ 

 

gµν(xα (ℓ)) dxµ dx 

dℓ 

ν 

dℓ = 0, (C.37) 

dℓ 

Démonstration.— Partons de la fonction lagrangienne qui figure sous le signe intégral dans 

le second membre de (C.37) : 

où ˙x µ désigne maintenant 

L(x α , ˙x µ ) = 

 

gµν(x α ) ˙x µ ˙x ν , (C.38) 

˙x µ = dxµ 

, (C.39) 

dℓ 

ℓ étant, répétons-le, un paramètre arbitraire. Les équations d’Euler-Lagrange associées sont 

et 

Définissons F en posant 

On a L = √ 2F. En conséquence : 

 

d ∂L dℓ ∂ ˙x µ 

 

= d 

 

1 

√2F 

dℓ 

 

d ∂L dℓ ∂ ˙x µ 

 

− ∂ L 

= 0. (C.40) 

∂x µ 

2F(x α , ˙x µ ) = gµν(x α ) ˙x µ ˙x ν . (C.41) 

∂ L 1 

= √ 

∂x µ 2F 

∂F 

∂ ˙x µ 

 

= 1 

√ 

2F 

152 

∂F 

∂x µ 

 

d ∂F 

dℓ ∂ ˙x µ 

 

− 1 dF 

2F dℓ 

(C.42) 

∂F 

∂ ˙x µ 

 

. (C.43)

Substituons (C.42) et (C.43) dans (C.40) et multiplions les deux membres par √ 2F. Nous 

obtenons les équations : 

d ∂F 

dℓ ∂ ˙x µ 

 

− ∂F 1 dF ∂F 

− = 0. 

∂x µ 2F dℓ ∂ ˙x µ (C.44) 

On voit que les équations (C.44) se réduisent aux équations d’Euler-Lagrange pour la fonction 

de Lagrange L(x α , ˙x µ ) = F(x α , ˙x µ ) à condition de choisir le paramètre ℓ de telle sorte que 

dF/dℓ = 0 le long de chaque courbe solution. Mais d’après (C.41), la condition dF/dℓ = 0 n’est 

autre que l’intégrale première 

2F ≡ gµν(x α ) ˙x µ ˙x ν = K ′ , (C.45) 

où K ′ est une constante arbitraire > 0. L’équation (C.45) montre qu’imposer la relation dF/dℓ = 

0 équivaut à choisir ℓ de telle sorte que dℓ = ±K ′−1/2 ds, ce qui équivaut encore à ds 2 = K ′ dℓ 2 . 

La comparaison de cette condition avec (C.36) montre que ℓ s’identifie avec un paramètre affine 

d’une géodésique du genre temps au sens défini au début de la section 2. Avec le choix de ℓ 

correspondant à K ′ = K, F(x α , ˙x µ ) s’identifie avec le lagrangien (C.18), ce qui démontre le 

théorème. 

On notera que les équations d’Euler-Lagrange correspondant à (C.38) sont définies uniquement 

pour les arcs de géodésiques le long desquels F garde un signe constant et ne peut prendre 

la valeur 0. Ces équations ne peuvent donc pas décrire les géodésiques isotropes, puisqu’on a 

pour ces dernières L = 0. 

C.3 Tenseur de courbure 

En géométrie euclidienne usuelle à deux ou trois dimensions, un vecteur qui est transporté 

par parallélisme le long d’un contour fermé (ou lacet) vient coïncider avec le vecteur initial 

lorsqu’il a effectué un tour complet. Il est cependant facile de voir que cette propriété n’est 

plus vraie sur la sphère S2 munie de la métrique gs induite par son plongement dans l’espace 

proprement euclidien à trois dimension. On dit que le plan euclidien ordinaire est un espace 

plat, tandis que la sphère (S2,gs) est un espace courbe. 

La généralisation aux variétés riemanniennes de dimension 4 est évidemment possible. 

Considérons d’abord le cas simple des espaces plats, dont la définition est la suivante : 

Définition C.3.1 On appelle espace plat de dimension 4 la variété IR 4 munie d’une métrique 

ayant la forme 

ds 2 3 

= ǫα(dx α ) 2 , (C.46) 

α=0 

où ǫ = 1 ou −1 selon les valeurs de l’indice α. 

Les symboles de Christoffel exprimés dans les coordonnées locales x α sont partout nuls 

puisque les gµν sont des constantes. Un vecteur transporté par parallélisme le long d’un contour 

fermé arbitraire viendra donc coïncider avec sa position initiale lorsqu’il aura effectué un tour 

complet. 

Plus généralement, introduisons les espaces localement plats, définis comme suit : 

153

Définition C.3.2 Une variété riemannienne (V4,g) est un espace localement plat si au voisinage 

de chacun de ses points, il existe un système de coordonnées locales xα tel que la métrique 

s’écrive sous la forme 

ds 2 3 

= ǫα(dx α ) 2 . (C.47) 

α=0 

On peut montrer que là encore, un vecteur quelconque transporté par parallélisme le long 

d’un contour fermé arbitraire viendra coïncider avec sa position initiale lorsqu’il aura effectué 

un tour complet. 

La propriété que nous venons d’énoncer admet une réciproque. Nous n’allons pas démontrer 

ici cette réciproque en toute rigueur, mais nous allons indiquer la démarche qui permet de 

l’établir. 

On part du théorème suivant, que nous nous contenterons d’énoncer sans expliciter les 

calculs. 

Théorème C.3.1 Soit C un lacet d’origine x0 défini par les équations paramétriques 

où le paramètre λ est choisi de telle sorte que 

x α = x α 0 + ǫξ α (λ) 0 ≤ λ ≤ 1, (C.48) 

ǫξ α (0) = ǫξ α (1) = 0, (C.49) 

et ǫ est un paramètre sans dimension tel que |ǫ|

D’où : 

∇µ∇νW ρ − ∇ν∇µW ρ 

= ∂µ(∇νW ρ ) − ∂ν(∇µW ρ ) + Γ ρ µσ∇νW σ − Γ ρ νσ∇µW σ . (C.53) 

Le calcul se poursuit en explicitant les dérivées covariantes figurant dans le second membre 

de (C.53). Il vient ainsi 

∇µ∇νW ρ − ∇ν∇µW ρ = 

∂µΓ ρ νσ − ∂νΓ ρ µσ + Γ ρ µτΓ τ νσ − Γ ρ ντΓ τ 

µσ W σ . (C.54) 

D’après le critère de tensorialité énoncé dans le chapitre I, les quantités entre parenthèses 

dans le second membre de (C.54) constituent les composantes d’un champ de tenseurs de type 

(3,1). Nous sommes dès lors conduits au théorème suivant. 

Théorème C.3.2 Sur une variété riemannienne (V4,g), les dérivées covariantes secondes d’un 

champ de vecteurs arbitraire W ρ satisfont l’identité 

∇µ∇νW ρ − ∇ν∇µW ρ = R ρ σµν W σ , (C.55) 

où R ρ σµν est un champ de tenseurs de type (3,1) dont les composantes en coordonnées locales 

sont données par 

R ρ σµν = ∂µΓ ρ νσ − ∂νΓ ρ µσ + Γ ρ µτΓ τ νσ − Γ ρ ντΓ τ µσ. (C.56) 

D’après ce théorème, la formule (C.50) peut s’écrire 

(Wσ) x0 ∆V σ = ǫ2 

4 

 

W σ R ρ 

σµν 

x0 

V (in) 

 

ρ ξ 

C 

µdξν 

dλ 

 

dξµ 

− ξν dλ + O(ǫ 

dλ 

3 ) (C.57) 

En considérant le passage à la limite ǫ → 0, on voit que si l’accroissement ∆V σ d’un vecteur 

arbitraire V ρ transporté par parallélisme le long d’un lacet arbitraire est nul en tout point de 

V4, alors 

R ρ σµν = 0 

partout. 

Le champ de tenseurs défini par les éqs. (C.56) est appelé le tenseur de courbure (ou encore 

tenseur de Riemann-Christoffel) de la variété riemannienne 2 . Cette dénomination est justifiée 

par le théorème fondamental que nous allons énoncer maintenant, sans le démontrer. 

Théorème C.3.3 Une variété riemannienne dont le tenseur de courbure est partout nul est 

un espace localement plat. 

Ce théorème et l’équation (C.57) entraînent immédiatement la proposition qui suit : 

Théorème C.3.4 Une variété riemannienne est localement plate si le transport par parallélisme 

d’un vecteur quelconque le long d’un lacet arbitraire fait revenir ce vecteur dans sa position initiale. 

2 Dans la plupart des traités de géométrie différentielle actuels, on définit le tenseur de courbure d’une 

connexion à partir de la relation (C.55). Pour notre part, nous avons préféré introduire ce tenseur à partir de 

la formule géométrique (C.50), comme on le faisait dans les anciens traités, car cette manière de procéder nous 

paraît beaucoup plus “parlante” 

155

Le théorème C.3.4 est la réciproque dont nous parlions plus haut. 

En général, dans une variété (V4,g) donné, le transport par parallélisme le long d’une courbe 

fermée défini par la connexion riemannienne ne ramènera pas un vecteur dans sa position 

initiale. On dira alors que la variété riemannienne est douée de courbure ou plus simplement 

est courbe. 

C.4 Propriétés du tenseur de courbure 

Selon un formalisme étudié dans la section 10 du premier chapitre, on définit les composantes 

quatre fois covariantes du tenseur de courbure en posant 

Rρσµν = gλρR λ σµν. (C.58) 

Il est bien entendu possible de calculer les composantes mixtes R λ σµν à partir des composantes 

covariantes. En effectuant la multiplication contractée des deux membres de (C.58) par 

g ρτ , il vient en effet : 

g ρτ Rρσµν = g ρτ gλρR λ σµν = δ τ λR λ σµν = R τ σµν. (C.59) 

L’introduction des composantes covariantes du tenseur de courbure est commode pour 

énoncer les propriétés fondamentales qui suivent. 

Propriétés de symétrie et d’antisymétrie du tenseur de courbure.— On vérifie 

aisément à partir de (C.56) et de (C.58) que les quantités Rρσµν possèdent les propriétés de 

symétrie ou d’antisymétrie suivantes : 

et 

Rρσµν = Rµνρσ 

(C.60) 

Rρσµν = −Rσρµν = −Rρσνµ. (C.61) 

Identités satisfaites par le tenseur de courbure.— Le tenseur de courbure de la 

connexion riemannienne Γ ρ µν = { ρ µν} satisfait deux identités, dites identités de Bianchi, que 

nous énonçons sans démonstration : 

R ρ 

λµν + Rρµνλ 

+ Rρνλµ 

= 0, (C.62) 

∇λR ρ σµν + ∇µR ρ 

σνλ 

+ ∇νR ρ 

σλµ 

= 0. (C.63) 

On notera que les indices λ, µ et ν sont permutés circulairement dans les formules (C.62) 

et (C.63). 

156

C.5 Tenseur de Ricci. Scalaire de courbure 

A partir du tenseur de courbure, on peut définir par contraction le tenseur de Ricci 

Rµν = R β 

µβν = gαβ Rαµβν. (C.64) 

L’expression du tenseur de Ricci se déduit immédiatement de (C.56) et de (C.64) : 

Rµν = ∂λΓ λ µν − ∂νΓ λ µλ + Γ ρ µνΓ λ ρλ − Γ ρ 

µλ Γλ ρν. (C.65) 

La multiplication contractée de g µν et de Rµν définit une quantité scalaire : 

appelée l’invariant de courbure scalaire. 

Les identités (C.63) entraînent les identités suivantes : 

∇ν 

R = g µν Rµν, (C.66) 

 

R µν − 1 

2 Rgµν 

 

= 0. (C.67) 

Ces quatre identités, appelées identités de conservation, jouent un rôle fondamental en 

relativité générale et dans les théories métriques de la gravitation. Le tenseur symétrique G µν 

défini par 

s’appelle le tenseur d’Einstein. 

G µν = R µν − 1 

R gµν 

2 

(C.68) 

C.6 Opérateurs différentiels sur une variété riemannienne 

Gradient d’une fonction.— Nous avons déjà vu que le gradient d’une fonction Φ(x) est 

un champ de vecteurs covariants. Sur un espace-temps (V4,g), on peut évidemment définir les 

composantes contravariantes du vecteur gradΦ par les relations 

(gradΦ) α = g αβ ∂βΦ = g αβ ∇βΦ. (C.69) 

La (pseudo)-norme riemannienne du gradient est le paramètre différentiel de Beltrami du 

premier ordre défini par 

∆1Φ = g µν ∂µΦ∂νΦ. (C.70) 

Rotationnel d’un champ de vecteurs.— Étant donné un champ de vecteurs A de 

composantes covariantes Aµ, on appelle tenseur rotationnel du vecteur A le tenseur deux fois 

covariant défini par 

(rot A)µν = ∇νAµ − ∇µAν . (C.71) 

On a 

∇νAµ = ∂νAµ − { ρ νµ}Aρ , ∇µAν = ∂νAµ − { ρ νµ}Aρ . (C.72) 

157

En substituant les relations (C.72) dans (C.71), il vient 

(rotA)µν ≡ ∇νAµ − ∇µAν = ∂νAµ − ∂νAµ . (C.73) 

Les composantes du tenseur rotationnel d’un vecteur A s’expriment donc uniquement avec 

les dérivées partielles usuelles des composantes covariantes de ce vecteur, exactement comme 

en géométrie vectorielle usuelle. Cette propriété permet de simplifier nombre de calculs en 

électromagnétisme, puisque le tenseur champ électromagnétique Fµν est au signe près le tenseur 

rotationnel du potentiel vecteur Aµ. 

Divergence d’un champ de vecteurs.— Donnons-nous un champ de vecteurs V de 

composantes contravariantes V ρ . La divergence du champ V est la fonction divV définie par 

On a donc 

divV = ∇µV µ . (C.74) 

divV = ∂µV µ + { µ µν}V ν . (C.75) 

On peut donner une expression bien plus commode du second membre de (C.75). On déduit 

de (C.10) : 

{ µ µν} = 1 

2 gµσ (∂µgνσ + ∂νgσµ − ∂σgµν). (C.76) 

Mais en vertu de la symétrie des gµν 

En conséquence, (C.76) se réduit à 

1 

2 gµσ (∂µgνσ − ∂σgµν) = 1 

2 gµσ ∂µgνσ − 1 

2 gσµ ∂σgνµ = 0. 

{ µ µν} = 1 

2 gρσ ∂νgρσ . (C.77) 

Lorsqu’on tient compte de la définition des g µν , le second membre de (C.77) est proportionnel 

à la dérivée par rapport à x ν du déterminant g de la matrice (gµν). On a d’après la théorie des 

déterminants : 

gδ ρ ν = gµν∆ µρ , g = dét (gµν), 

où ∆ µρ est le cofacteur de gµρ. Cette relation entraîne 

g = 

3 

gµν∆ µν ∀ν = 0, 1, 2, 3, (C.78) 

µ=0 

où il n’y a pas sommation sur l’indice répété ν. Puisque ∆ µν ne contient pas le terme gµν, on 

déduit de (C.78) que 

∂g 

= ∆ µν . (C.79) 

D’où 

∂ρg ≡ ∂g 

∂gµν 

∂gµν 

∂ρgµν = ∆ µν ∂ρgµν , (C.80) 

158

soit, compte tenu de ∆ µν = gg µν : 

On a donc 

∂ρg = gg µν ∂ρgµν . (C.81) 

{ µ µν} = 1 ∂νg 

2 g 

 

∂ν |g| 

= . (C.82) 

|g| 

Substituons (C.82) dans (C.75). Il vient après un changement d’indice muet : 

divV = 1 

 

|g| ∂µ 

 

|g| V µ 

 

. (C.83) 

Cette formule s’avère très commode dans le calcul des divergences, car elle dispense de 

calculer les symboles de Christoffel. 

On retiendra que (C.81) peut encore s’écrire sous la forme suivante : 

g µν ∂ρgµν = ∂ρg 

g 

d’où on déduit, en tenant compte de g µν gµν = 4 : 

gµν∂ρg µν = − ∂ρg 

g 

Les relations (C.84) et (C.85) sont extrêmement utiles en pratique. 

 

|g| 

= 2∂ρ , (C.84) 

|g| 

 

|g| 

= −2∂ρ . (C.85) 

|g| 

Laplacien d’une fonction.— On appelle laplacien ou encore paramètre différentiel de 

Beltrami du deuxième ordre de Φ la fonction scalaire 

De ce qui précède, on déduit : 

D’où, compte tenu de (C.82) : 

∆2Φ = div ( grad Φ) = g µν ∇µ∇νΦ. (C.86) 

∆2Φ = ∇µ (g µν ∂νΦ) = ∂µ (g µν ∂νΦ) + { µ µρ}g ρν ∂νΦ. 

∆2Φ = 1 

 

|g| ∂µ 

 

|g|g µν 

∂νΦ . (C.87) 

Cette expression du laplacien est très pratique dans bon nombre de calculs, y compris 

ceux qui sont effectués sur l’espace euclidien usuel. Il est par exemple à peu près immédiat 

de déterminer l’opérateur laplacien dans le cas des métriques écrites sous forme diagonale (un 

exemple est donné dans la section 3.8). 

159

C.7 Quelques relations utiles 

Divergence d’un tenseur antisymétrique.— Soit Fµν un tenseur antisymétrique arbitraire. 

Montrer qu’on peut écrire 

∇µF µν = 1 

 

|g| ∂µ 

 

|g| F µν 

 

. (C.88) 

En déduire que tout tenseur Fµν antisymétrique satisfait l’identité 

∇µ∇νF µν = 0. (C.89) 

Solution.— On explicite ∇µF µν grâce à la formule de dérivation covariante (B.14), les 

coefficients de connexion étant donnés par (C.1) et (C.2). La formule (C.88) résulte alors 

immédiatement de l’antisymétrie de Fµν en appliquant (C.82). 

La démonstration de (C.89) est tout aussi aisée. Les quantités ∇νF µν constituent les composantes 

contravariantes d’un vecteur. Il en résulte que ∇µ∇νF µν est la divergence d’un vecteur. 

Nous pouvons donc appliquer la relation (C.83). Compte tenu de (C.88), il vient : 

∇µ∇νF µν = 1 

 

|g| ∂µ 

⎡ 

 

⎣ 

|g| 1 

 

|g| ∂µ 

Or, le caractère antisymétrique de Fµν entraîne l’identité 

1 

 

|g| ∂µ∂ν 

 

|g|F µν 

 

≡ 0. 

 

|g| F µν 

⎤ 

⎦. 

On a donc la relation (C.89). Cette relation est fondamentale en électromagnétisme, puisqu’elle 

assure la conservation de la charge électrique totale comme conséquence des équations 

de Maxwell. 

Divergence d’un tenseur symétrique.— Soit T un tenseur d’ordre 2 symétrique : T µν = 

T νµ . Montrer que ses composantes mixtes satisfont la relation 

 

|g|T µ 

ν − 1 

2 ∂νgρσ T ρσ . (C.90) 

∇µT µ ν = 1 

 

|g| ∂µ 

Solution.— Le calcul est immédiat à partir de la formule (B.16) dans laquelle les Γ ρ µν sont 

remplacés par les expressions (C.2). 

L’expression (C.90) est commode lorsqu’on veut expliciter la relation ∇µT µ ν = 0 exprimant 

le caractère conservatif du tenseur impulsion-énergie symétrique T décrivant la présence de 

matière ou d’énergie (on dit encore que le tenseur impulsion-énergie est de divergence nulle). 

Exercice.— Montrer que 

g µν { ρ µν} = − 1 

 

|g| ∂σ 

 

|g| g ρσ 

 

. (C.91) 

160

Solution.— D’après (C.2), le premier membre de (C.91) s’écrit 

Compte tenu de g µν gνσ = δ µ σ, on a 

g µν { ρ µν} = 1 

2 gµν g ρσ (∂µgνσ + ∂νgσµ − ∂σgµν). (C.92) 

1 

2 gµνg ρσ ∂µgνσ = − 1 

2 gµνgνσ∂µg ρσ = − 1 

2 δµ σ ∂µg ρσ = − 1 

2 

et en échangeant les rôles joués par les indices µ et ν 

En outre, (C.84) donne immédiatement 

∂σg ρσ 

(C.93) 

1 

2 gµνg ρσ ∂νgσµ = − 1 

2 ∂σg ρσ . (C.94) 

1 

2 gµνg ρσ ∂σgµν = g ρσ∂σ 

 

 

|g| 

Substituons (C.93), (C.94) et (C.95) dans (C.92). Il vient 

g µν { ρ µν} = −∂σg ρσ − g ρσ∂σ 

 

 

|g| 

|g| 

|g| 

(C.95) 

1 

≡ − |g| ∂σ 

 

|g| g ρσ 

 

. (C.96) 

Le dernier membre est bien l’expression donnée par (C.91). C.Q.F.D. 

La relation (C.96) est utile lorsqu’on introduit les coordonnées dites harmoniques (ces coordonnées 

permettent d’écrire les équations d’Einstein sous une forme remarquable). 

C.8 Applications à l’espace euclidien à 3 dimensions 

Les formules obtenues pour les opérateurs différentiels sont très utiles aussi en analyse 

vectorielle tridimensionnelle habituelle lorsqu’on veut faire des calculs dans des systèmes de coordonnées 

non cartésiens. Nous allons donner deux exemples en supposant que l’espace est muni 

de la métrique euclidienne standard ds 2 = δijdx i dx j et rapporté à des coordonnées sphériques 

(r,θ,ϕ) définies par 

x 1 = r sin θ cos ϕ, x 1 = r sin θ sin ϕ, x 3 = r cos θ . (C.97) 

Divergence d’un champ de vecteurs.— On se donne un champ de vecteurs V par ses 

composantes contravariantes V r ,V θ ,V ϕ dans le repère naturel associé aux coordonnées (r,θ,ϕ). 

Former l’expression de la divergence du champ V en coordonnées sphériques. 

Solution.— On vérifie facilement que la métrique euclidienne s’écrit sous la forme suivante 

en coordonnées sphériques : 

ds 2 = dr 2 + r 2 dθ 2 + r 2 sin 2 θdϕ 2 . (C.98) 

161

Dans le nouveau système de coordonnées, la métrique a une forme diagonale et les seules 

composantes non nulles du tenseur métrique sont 

On a donc 

grr = 1, gθθ = r 2 , gϕϕ = r 2 sin 2 θ . (C.99) 

et les expressions des g ij non identiquement nuls sont : 

g rr = 1 

grr 

D’après (C.83), on peut écrire 

divV = 

g = dét (1,r 2 ,r 2 sin 2 θ) = r 4 sin 2 θ (C.100) 

= 1, g θθ = 1 

gθθ 

= 1 

r 2 , gϕϕ = 1 

gϕϕ 

= 

1 

r2 sin2 . (C.101) 

θ 

1 

r2 

∂ 

r 

sin θ ∂r 

2 sin θ V r 

+ ∂ 

r 

∂θ 

2 sin θ V θ 

+ ∂ 

r 

∂ϕ 

2 sin θ V ϕ 

. (C.102) 

On déduit immédiatement de (C.102) l’expression cherchée pour divV 

divV = 1 

r 2 

∂ 

r 

∂r 

2 V r 

+ 1 

sin θ 

∂ 

sin θ V 

∂θ 

θ 

+ ∂V ϕ 

. (C.103) 

∂ϕ 

Laplacien d’une fonction.— Former l’expression du laplacien d’une fonction Φ en coordonnées 

(r,θ,ϕ). 

Solution.— Les formules montrées dans l’exercice 1 et l’application de (C.87) conduisent 

immédiatement à l’expression bien connue du laplacien en coordonnées sphériques : 

∆2Φ = 1 

r 2 

 

∂ 

r 

∂r 

2∂Φ 

 

+ 

∂r 

1 

r2 sin θ 

 

∂ 

sin θ 

∂θ 

∂Φ 

 

+ 

∂θ 

1 

r 2 sin 2 θ 

∂2Φ . (C.104) 

∂ϕ2 Vérifier qu’on obtient également cette formule à partir de (C.103) à condition de remplacer 

V r ,V θ ,V ϕ par les composantes contravariantes du gradient de Φ correspondantes. 

L’expression (C.104) est très commode en théorie newtonienne de la gravitation ainsi qu’en 

électromagnétisme et en théorie des milieux continus. 

162

Annexe D 

Quantité de mouvement et énergie 

cinétique d’une particule isolée 

Nous allons montrer que les hypothèses “naturelles” faites dans la section 5.2 du chap. 5 sont 

suffisantes pour déterminer les fonctions universelles M(m,v 2 /c 2 ) et Ec(m,v 2 /c 2 ) simplement 

en considérant des chocs élastiques de particules. 

Donnons-nous un référentiel galiléen S arbitraire et considérons la collision de deux particules 

isolées a et b de masses ma et mb égales se mouvant sur une même droite ∆e avec des 

vitesses va et vb opposées. Nous poserons : 

m = ma = mb, v = va = −vb, v = |va| = |vb|. (D.1) 

On suppose que ni le nombre ni la nature des particules ne sont modifiés par la collision 1 . 

On a donc immédiatement après le choc deux particules sortantes c et d de masses respectives 

mc et md égales à m, soit : 

mc = md = m. (D.2) 

Les vitesses des particules c et d seront respectivement notées vc et vd. Pour alléger l’écriture, 

on posera 

β = |va| |vb| v 

= = 

c c c , βc = |vc| 

c , βd = |vd| 

. (D.3) 

d 

L’hypothèse centrale consiste à poser que la somme vectorielle des quantités de mouvement 

et la somme des énergies totales sont conservées au cours de la collision. Compte tenu des 

relations (D.1) et (D.2), ces deux lois de conservation s’écrivent dans le référentiel S 

et 

M(m,β 2 )va − M(m,β 2 )va = 0 = M(m,β 2 c)vc + M(m,β 2 d)vd 

(D.4) 

Ec(m,β 2 ) + Ec(m,β 2 ) = Ec(m,β 2 c) + Ec(m,β 2 d). (D.5) 

Du fait que la fonction M(m,v 2 /c 2 ) est toujours strictement positive d’après nos hypothèses 

générales, l’équation (D.4) entraîne que les vecteurs vitesses vc et vd sont colinéaires et de sens 

1 Le choc est alors dit parfaitement élastique. 

163

opposés. Les particules sortantes se déplacent donc sur une droite ∆s passant par le point de 

collision O. Si on oriente cette droite, l’équation vectorielle (D.4) se traduit par l’équation 

M(m,β 2 c)¯vc + M(m,β 2 d)¯vd = 0 

où ¯vc et ¯vd sont les valeurs algébriques sur ∆s des vitesses de c et d respectivement. On a donc 

M(m,β 2 c)vc = M(m,β 2 d)vd, (D.6) 

à condition de poser vc = |vc| et vd = |vd|. Or nous avons suppposé que la fonction M(m,v 2 /c 2 )v 

est strictement monotone. L’équation (D.6) entraîne donc 

Il en résulte que (D.5) peut s’écrire 

βc = βd. (D.7) 

2Ec(m,β 2 ) = 2Ec(m,β 2 c). (D.8) 

Mais nous avons supposé que la fonction Ec(m,v 2 /c 2 ) est elle aussi strictement monotone par 

rapport à v. Les relations (D.6) et (D.8) entraînent donc que 

βc = βd = β. (D.9) 

Il résulte de ce qui précède que les particules sortantes se meuvent sur l’axe ∆s avec des 

vecteurs vitesse opposés dont la valeur absolue commune est égale à la valeur absolue v : 

vd = −vc, avec vc = vd = va = v. (D.10) 

Nous allons supposer pour l’instant que l’angle θ entre ∆e et ∆s est tel que 0 < θ < π. Nous 

pouvons dès lors repérer les points de S par rapport à un trièdre orthonormé Ox 1 x 2 x 3 tel que 

l’axe Ox 1 soit porté par la droite ∆e et l’axe Ox 2 soit dans le plan défini par les droites ∆e et 

∆s. Les composantes des vecteurs vitesses va et vb des particules incidentes sont alors 

v 1 a = v, v 2 a = 0, v 3 a = 0, (D.11) 

v 1 b = −v, v 2 b = 0, v 3 b = 0, (D.12) 

tandis que les composantes des vecteurs vitesse des particules sortantes sont 

v 1 c = v cos θ, v 2 c = v sin θ, v 3 c = 0, (D.13) 

v 1 d = −v cos θ, v 2 d = −v sin θ, v 3 d = 0. (D.14) 

Considérons maintenant le référentiel galiléen S ′ comouvant avec la particule incidente a. 

Ce référentiel se déplace avec la vitesse va = v par rapport à S. Nous pouvons toujours choisir 

des axes liés à S ′ de telle sorte que les coordonnées galiléennes dans S ′ s’expriment en fonction 

des coordonnées galiléennes dans S par les transformations de Lorentz (4.22) écrites dans le 

chap. 4 dans lesquelles w est remplacée par la vitesse va. 

D’après la loi de composition des vitesses (4.35), les composantes des différents vecteurs 

vitesse par rapport à S ′ sont 

v 1′ 

a = 0, v 2′ 

a = 0, v 3′ 

a = 0, (D.15) 

v 1′ 

b = − 2cβ 

1 + β 2, v2 b = 0, v 3 b = 0, (D.16) 

164

et 

v 1′ 

c = − 

v 1′ 

d = − 

cβ(1 − cos θ) 

1 − β2 cosθ 

cβ(1 + cosθ) 

1 + β2 , v2′ d = − 

cos θ 

 

, v2′ c = 1 − β2 cβ sin θ 

 

1 − β 2 cos θ 

1 − β 2 cβ sin θ 

1 + β 2 cosθ 

, v3′ 

c = 0, (D.17) 

, v3′ 

d = 0, (D.18) 

On détermine immédiatement le carré des vecteurs vitesses v ′ a, v ′ b, v ′ c et v ′ d à partir des 

expessions (D.15)-(D.18). Il vient après division par c 2 : 

β ′ a 

2 v 

= ′ 2 

a 

c 

2 = 0, 

2 

4β 2 

(1 + β 2 ) 2, 

β ′ 2 v 

b = ′ b 

= 

c2 (D.19) 

β ′ 2 v 

c = ′ 2 

c 

c2 = β22(1 − cos θ) − β2 sin2 θ 

(1 − β2 cos θ) 2 , (D.20) 

β ′ 2 v 

d = ′ 2 

d 

c2 = β22(1 + cosθ) − β2 sin2 θ 

(1 + β2 cos θ) 2 . (D.21) 

D.1 Détermination de la fonction M 

m, v2 

c2 

Ecrivons la conservation de la somme des vecteurs quantités de mouvement dans le référentiel 

S ′ . Il vient 

M 

m,β ′ 2 

b 

2cβ 

1 + β2 = M(m,β′ 2 cβ(1 − cos θ) 

c ) 

1 − β2 cos θ + M(m,β′ 2 cβ(1 + cosθ) 

d ) 

1 + β2 , (D.22) 

cos θ 

en projetant sur l’axe O ′ x 1′ 

et 

M(m,β ′ 

2 

c ) 1 − β2 cβ sin θ 

1 − β2 cos θ − M(m,β′ 

2 

d ) 1 − β2 cβ sin θ 

1 + β2 cos θ 

= 0 (D.23) 

en projetant sur O ′ x2′ . La projection sur l’axe O ′ x3′ se réduit évidemment à l’égalité 0 = 0. 

La division des deux membres de (D.23) par cβ √ 1 − β2 sin θ donne la relation 

M(m,β ′ 2 

c ) 

1 − β2 cos θ = M(m,β′ d 

2 

) 

1 + β2 . (D.24) 

cos θ 

Substituons (D.24) dans (D.22). L’équation obtenue se simplifie et devient après division 

des deux membres par 2cβ : 

1 

M(m,β ′ 2 

b ) 

1 + β2 = M(m,β′ c 

2 

) 

1 − β2 , (D.25) 

cos θ 

où β ′ b et β ′ c sont respectivement donnés par (D.19) et (D.20). Cette équation montre que la 

quantité M(m,β ′ 2 2 ′ 2 

c )/(1 − β cos θ) ne dépend pas de l’angle θ. Lorsque θ → 0, β c → 0. Du 

165

fait que nous avons postulé que M(m,β 2 ) est continue sur l’intervalle 0 ≤ β 2 < 1, on voit que 

(D.25) entraîne 

M(m,β ′ 2 1 + β 

b ) = M(m, 0) 2 

1 − β2. Or, la quantité β ′ 2 

b donnée par (D.19) peut encore s’écrire 

Il en résulte que 

β ′ 2 (1 − β 

b = 1 − 2 ) 2 

(1 + β2 ) 2. 

1 + β2 = 

1 − β2 1 

 

1 − β ′ 2 

b 

Substituons (D.28) dans (D.26). Nous obtenons : 

M(m,β ′ b 

2 ) = M(m, 0) 

(D.26) 

(D.27) 

. (D.28) 

1 

 

1 − β ′ 2 

b 

. (D.29) 

Cette relation est valide pour tout β ′ b dans l’intervalle [0, 1[. Or, nous avons admis que 

M(m, 0) = 0 (voir éq. (5.8)). Il résulte donc de (D.29) que la fonction M(m,v 2 /c 2 ) cherchée 

s’écrit 

M 

 

m, v2 

c 2 

 

= m 

 

1 − v2 

c2 . (D.30) 

Cette relation conduit à l’expression relativiste de p donnée par (5.10). 

D.2 Détermination de la fonction Ec 

 

m, v2 

c 2 

La conservation de l’énergie totale dans le référentiel S ′ s’exprime par l’équation : 

E(m, 0) + E(m,β ′ 2 ′ 2 ′ 2 

b ) = E(m,β c ) + E(m,β d ). (D.31) 

Cette équation montre que la quantité E(m,β ′ 2 ′ 2 

c ) + E(m,β d ) ne dépend pas de l’angle θ. Si 

on pose 

u = cos θ, 

β ′ 2 ′ 2 ′ 2 ′ 2 

c et β d peuvent être considérés comme des fonctions de u. Dès lors, E(m,β c ) + E(m,β d ) 

doit être indépendant de u, ce qui se traduit par la condition 

∂ 

E(m,β 

∂u 

′ 

2 ′ 2 

c ) + E(m,β d ) = 0 (D.32) 

Pour abréger, désignons par E ′ (m,β 2 ) la dérivée partielle de la fonction E(m,β 2 ) : 

E ′ (m,β 2 ) = ∂ 

∂β 2 E(m,β2 ). 

166

Compte tenu des notations que nous venons d’introduire et des relations 

∂β ′ 2 

c 

∂u = −2β2 (1 − β2 ) 

(1 − β2 , 

u) 3 

∂β ′ 2 

d 

∂u = 2β2 (1 − β2 ) 

(1 + β2 , 

u) 3 

l’équation (D.32) s’écrit après division des deux membres par 2β 2 (1 − β 2 ), 

1 

E ′ (m,β ′ 2 

c ) 

(1 − β2u) 3 = E ′ (m,β ′ d 

2 1 

) 

(1 + β2u) 3. 

(D.33) 

Faisons tendre u vers 1, ce qui correspond à θ → 0. Alors β ′ 2 ′ 2 ′ 2 

c → 0 et β d → β b . L’équation 

(D.33) devient après multiplication de ses deux membres par (1 + β2 ) 3 : 

Posons 

On voit facilement que 

E ′ 

 

L’équation (D.34) s’écrit donc 

m, 1 − (1 − β2 ) 2 

(1 + β 2 ) 2 

 

ζ = 1 − (1 − β2 ) 2 

(1 + β 2 ) 2. 

(1 + β2 ) 3 

(1 − β2 = 

) 3 

∂E ′ (m,ζ) 

∂ζ 

= E ′ (m, 0) (1 + β2 ) 3 

(1 − β 2 ) 3. 

1 

(1 − ζ) 3/2. 

= E ′ (m, 0) 

(1 − ζ) 3/2. 

(D.34) 

(D.35) 

(D.36) 

L’intégration de (D.36) est immédiate et donne la relation 

E(m,ζ) = 2E ′ 

1 

(m, 0) √ − 1 + E(m, 0). (D.37) 

1 − ζ 

Il s’ensuit que l’énergie totale d’une particule isolée de vitesse v est donnée par une relation 

de la forme 

E m, v2 

c2 

= 2E ′ 

1 

(m, 0) √ − 1 + E(m, 0). (D.38) 

1 − β2 Il est clair que la partie entre crochets s’annule lorsque v = 0. On peut donc poser que la 

fonction universelle exprimant l’énergie cinétique d’une particule est donnée par 

 

Ec m, v2 

c2 ⎛ 

1 

= CE 

⎝ 

1 − v2 

c2 ⎞ 

− 1⎠ 

, (D.39) 

où CE est la constante 2E ′ (m, 0), tandis que le terme E(m, 0) peut être considéré comme l’énergie 

totale d’une particule de masse m au repos. Nous avons admis que l’énergie cinétique relativiste 

se comportait comme l’énergie cinétique en théorie newtonienne pour les vitesses très petites 

devant c. Or, d’après (D.39), on a 

 

Ec m, v2 

c2 

= 1 

2 CE 

v2 

4 v 

+ O 

c2 c4 

. 

La comparaison avec l’expression newtonienne 1 

2 mv2 de l’énergie cinétique montre qu’il faut 

poser 

CE = mc 2 . 

D’où la formule (5.11). 

167

Mathématiques 

Bibliographie sommaire 

Ouvrages correspondant au niveau de ce cours : 

J. HLADIK, Calcul tensoriel en physique. Masson, 1994. 

A. LICHNEROWICZ, Éléments de calcul tensoriel. Armand Colin. 

Ouvrages de niveau plus élevé : 

Y. CHOQUET-BRUHAT, Géométrie différentielle et systèmes extérieurs. Dunod, 1968. 

L. P. EISENHART, Riemannian Geometry. Princeton Yniversity Press, 1926. Réédité par 

Dover. 

Physique 

Ouvrages correspondant au niveau de ce cours : 

J. HLADIK, Introduction à la relativité restreinte. Dunod, 2001. 

J. HLADIK, Introduction à la relativité générale niveau M 1. Ellipses, 2006. 

R. D’INVERNO, Introducing Einstein’s Relativity. Oxford University Press, 1992. 

B. SCHUTZ, A First Course in General Relativity. Cambridge University Press, 1985. 

I. SIMON, Relativité restreinte : Cours et applications. Vuibert, 2004. 

P. TOURRENC, Gravitation et Relativité. Armand Colin, 1997. (Ouvrage épuisé). 

Quelques ouvrages fondamentaux : 

L. LANDAU & E. LIFCHITZ, Théorie des champs. Ellipses, 1998. 

C. W. MISNER, K. S. THORNE & J. A. WHEELER, Gravitation. Freeman, 1973. 

R. M. WALD, General Relativity. University of Chicago Press, 1984. 

S. WEINBERG, Gravitation and Cosmology : Principles and Applications of the General 

Theory of Relativity. Wiley, 1972. 

C. WILL, Theory and Experiment in Gravitational Physics. 2nd edit., Cambridge University 

Press, 1993. 

Recueil de problèmes : 

A. P. LIGHTMAN, W. H. PRESS, R. H. PRICE & S. A. TEUKOLSKY, Problem Book in 

Relativity and Gravitation. Princeton University Press, 1975. 

168

Polycopié de P. TEYSSANDIER. - Observatoire de Paris

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?