Traitement du signal pour la reconnaissance ... - Université Paris 8

Traitement du signal pour 

la reconnaissance vocale 

Cours 5: Traitement du signal et 

reconnaissance de forme

Chaîne de Reconnaissance vocale 

Acquisition 

microphone 

Numérisation 

du signal 

Pré-traitement 

Tests et 

validation 

Classification 

et décision 

Extraction de 

paramètres 

Dictionnaire

Plan 

Numérisation du signal 

Fourier 

Reconnaissance de la parole 

Conclusion



Fourier 


Conclusion

Signal 

Définition: codage et simplification d’un 

message. un signal 1D est une fonction en 

général du temps s(t) signaux lumineux, 

sonores, etc… ou spatial (2D, 3D images) 

A chaque instant t, on associe une valeur 

(amplitude). 

Le traitement, l’analyse, et l’interprétation des 

signaux sont regroupés dans la discipline 

appelée traitement du signal.

Différents secteurs et différentes 

branches 

Les signaux sont présents dans 

différents secteurs (électronique, 

optique, audiovisuels, informatiques…). 

Quelques branches particulières qui 

nous intéressent . 

- traitement d’image (déjà vu) 

- traitement de la parole

Signaux 

Signaux analogiques: signaux produits de 

manière naturelle, continus (capteurs, 

amplificateurs, CNA) 

traitement réalisé par circuits 

électroniques, (ou manuellement) 

Signaux numériques: signaux utilisés dans le 

traitement informatique, discrets, facilité et 

rapidité de traitement. Ils sont artificiels 

traitement réalisé par micro-ordinateurs, 

DSP (microprocesseurs spécialisés)

Problème en reconnaissance de 

parole 

Acquisition 

microphone 

Signal analogique 

Traitement 

de la parole 

Signal numérique 

Conversion analogique –numérique (CAN)

Exemple 

Signal analogique U(t) 

signal continu 

(représentation par 

une courbe) 

Signal numérique U t 

valeurs non continues 

(représentation par un 

histogramme)

Conversion analogiquenumérique 

(1) 

La conversion analogique- numérique se 

décompose en général en deux actions: 

- l’échantillonnage (on prélève la valeur 

du signal à une fréquence définie) 

- la quantification (on affecte une valeur 

numérique à chaque échantillon prélevé)

Qualité de la CAN 

La qualité du signal numérique dépend 

donc: 

- Taux d’échantillonnage (ou fréquence 

d’échantillonnage) plus la fréquence est 

grande, plus la qualité du signal 

numérique est bonne. 

- le nombre de bits sur lequel on code 

les valeurs (phase de quantification)

Echantillonnage 

Qui dit échantillonnage dit perte d’information. 

Si fréquence très faible espace très grand entre 

deux données grosse perte d’informations 

Si fréquence trop grande information stockée 

inutile gaspillage de l’espace de stockage 

Fréquence d‘échantillonnage: fréquence à laquelle 

les données sont enregistrées ou capturées (Hz 

nombre de valeurs par seconde).

Théorème de Shannon – 

fréquence de Nyquist 

Pour pouvoir échantillonner un signal, il 

faut fixer une fréquence d’échantillonnage 

au moins égal au double de la fréquence 

du signal fréquence limite = fréquence 

de Nyquist (théorème de Shannon) 

Signal sinusoïdal fréquence du signal: 

pas de problème

Exemple: signal sinusoïdal 

T 

Signal analogique (f = 10 Hz) 

échantillonnage à 20Hz (=2f) 

cas parfait si on part du maximum 

Sous échantillonnage à 10Hz

Signal périodique non sinusoïdal 

On applique le théorème de shannon 

mais quelle fréquence choisir 

Signal peut être décomposé en signaux 

sinusoïdaux dont la fréquence est le 

multiple d’une fréquence fondamentale 

(largeur de bande) 

Fréquence de Nyquist = 2*plus haute 

fréquence

Phénomène d’aliasing 

Sous-échantillonnage (restitution d’un 

faux signal) phénomène d’Aliasing 

(ou de repliement)

Quantification (1) 

Chaque valeur est quantifiée sur un 

certain nombre de bits par rapport à la 

valeur réelle du signal analogique. 

Nombre de bits disponibles est 

important pour quantifier la valeur du 

signal à un temps t. Plus le nombre est 

élevé, plus la quantification est de 

qualité

Quantification (2) 

Quantification 

- sur 1 bit (2 valeurs) 

- sur 8 bits = 1 octet (256 valeurs) 

- sur 16 bits = 2 16 valeurs 

les quantifications se font en général 

sur 16 bits



Fourier 


Conclusion

Fourier 

Joseph Fourier (mathématicien du 

XIXème sicèle) 

Séries de Fourier (par extension, 

transformée de Fourier et transformée 

de Fourier discrète) base de toute la 

théorie de traitement du signal

De façon mathématique 

Signal périodique (période T) = somme 

pondérée de signaux sinusoïdaux 

f 

( t) 

= 

∞ 

n= 

0 

[ a 

n 

cos 

2πnt 

T 

+ 

b 

n 

sin 

2πnt 

T 

] 

1/T : fréquence fondamentale (on utilise souvent =2/T) 

n/T: harmonique 

a n et b n coefficients pondérateurs de Fourier

Exemples (1) 

Somme pondérée de deux signaux de 

fréquence f et 3f (H3) signal 

résultant (b): addition point par point 

des deux courbes de (a).

Exemples (2) 

Meilleure approximation 

d’un Signal carré f(t): 

décomposition de la 

façons suivante 

f 

1 

1 

1 

( t) 

= sin( ϖ t) 

+ 0cos(2ϖt 

) + sin(3ϖ 

t) 

+ 0cos(4ϖt 

) + sin(5ϖ 

t) 

+ ... + sin(23ϖ 

t) 

3 

5 

23

Analyse spectrale (1) 

Représentation des amplitudes des 

différentes harmoniques (n=1,3,5,7…23) 

d’un signal analyse spectrale.

Analyse spectrale (2) 

Note de musique: harmoniques différentes pour le son du 

diapason (La pur) , son d’une guitare, son de cymbale.

Remarque (1) 

Etant donné que les séries de Fourier sont 

une décomposition en cosinus et sinus, on 

utilise souvent la notation complexe: 

2π 

int 

f ( t) 

= Fn 

exp( ) 

T 

∞ 

 

n= 

−∞ 

Avec F n =(a n +ib n )/2 et F -n =(a n -ib n )/2

Remarque (2) 

A partir de l’équation précédente, les 

coefficients de Fourier se calculent de la 

façon suivante: 

T 

1 

2π 

int 

Fn = f ( t)exp( 

− ) dt 

T 

T 

−T 

/ 2 

/ 2 

Le nombre de descripteurs de Fourier calculés ainsi est en 

théorie infini

Interprétation 

Plus n est grand, plus les fonctions sinusoïdales 

varient rapidement. 

une fonction lisse (c.a.d qui ne varient pas 

beaucoup) aura des coefficients a n et b n qui 

prendront rapidement (hautes fréquences) des 

valeurs faibles 

une fonction très perturbée et très changeante 

(ou bruitée) auront des composantes importantes 

dans les hautes fréquences.

Transformée de Fourier (1) 

Souvent fonctions non périodiques et non 

bornées , la transformée de Fourier permet de 

généraliser le concept de séries de Fourier à ce 

type de fonction: 

F 

( υ 

π υ 

) = f( 

t)exp( 

−2 

i t) 

dt 

∞ 

−∞ 

On peut noter le changement de variable = n/T, ce qui 

explique la disparition du facteur 1/T avant la somme.

Interprétation 

De façon peu rigoureuse, on pourrait 

considérer un signal analogique non 

périodique comme un signal dont la 

période tendrait vers l’infini, la 

fréquence tendrait alors vers 0 (dν) 

et on obtient un spectre de Fourier 

continu appelé spectre de bande (et 

non un spectre de raies):

Exemple de spectre de bande

Vers la transformée de Fourier 

discrète 

En pratique, signal non borné: très rare ! 

on définit une fenêtre d’application [-T/2,T/2] 

Échantillonnage à une fréquence f telle que T=K/f 

F 

n 

= 

( / 2) − 1 

1 K 

k =−K 

/ 2 

K 

f 

K 

exp( − 

2πink 

K 

)

Remarque 

Le signal numérique est décomposé en K 

segments. Le nombre total de coefficients 

de Fourier sera K. 

En traitement de signal, on utilise la FFT 

(Fast Fourier Transform) qui, sous certaines 

conditions, permet d’accélérer le calcul

Pour en revenir à 

l’échantillonnage 

On fait un échantillonnage à très haute 

fréquence f e 

Toutes les fréquences supérieures à f e /2 

sont éliminées: filtre anti-aliasing 

Exemple: Pour un CD (fréquence 44,1 

kHz), il ne faut pas de sons supérieurs à 

22 kHz (L’oreille humaine capte au 

maximum à 20 kHz) .

Exemple de FFT et théorème de 

Shannon 

Spectre de bande, coupure à f e /2



Fourier 


Conclusion

La reconnaissance vocale 

Applications de la reconnaissance vocale: 

- commande vocale: mots isolés, petit vocabulaire. 

- compréhension: signification d’un petit message 

en parole continue 

- dictée: retranscription du texte sans 

compréhension 

- Identification ou vérification du locuteur

Comment ça marche 

Même méthodologie que reconnaissance 

de forme: 

- Pré-traitement 

- Segmentation 

- Extraction de caractéristiques 

- Classification 

- Décision

Mais…. 

Continuité: difficulté de séparer les mots ou les 

phonèmes dans un signal (les silences ne 

remplacent pas les blancs) 

Variabilité (effets plus importants que sur document 

visuel): 

- plusieurs locuteurs (timbre de voix, âge) 

- pour un même locuteur (émotions, voix enrouée, 

chants..) 

- rythme de la dictée (temps plus ou moins long 

pour dire la même chose) 

- bruit extérieur

Deux approches 

Approche globale: reconnaissance de 

mots. Plus facile mais limité par le 

vocabulaire, la taille mémoire et le 

temps de calcul. 

Approche analytique: reconnaissance 

de phonèmes, de sons, plus difficile à 

mettre en place mais plus puissant

Pré-traitement du signal 

Signal parlé: onde non stationnaire (pas 

les mêmes caractéristiques statistiques 

au cours du temps. 

On découpe le signal en fenêtre 

temporelle (quelques ms) 

On analyse chaque fenêtre temporelle

Exemple

Segmentation (en mots ou 

phonèmes) 

Les mots sont marqués par des silences plus 

ou moins longs 

Reconnaissance de mots isolés: facile 

Reconnaissance de mots dans une parole 

continue: bien articuler et distinguer les mots 

Reconnaissance de phonèmes: très difficile 

(changement de rythmes, rupture en 

fréquence…)

Extraction de l’empreinte du 

signal 

Identifier une empreinte caractéristique 

du son émis 

- analyse spectrale 

- analyse par prédiction linéaire 

- analyse par coefficients cepstraux

Analyse spectrale 

Au cours du temps (par fenêtre temporelle), 

on fait une FFT 

On peut tracer un graphique 

temps/fréquence/ amplitude Sonagramme. 

L’amplitude est donnée par les niveaux de 

gris 

Les coefficients de Fourier par fenêtre 

temporelle sont des caractéristiques du signal

Analyse par prédiction linéaire 

Approximation du signal par un modèle suivant les 

échantillons précédents 

Le signal est alors modélisé par une combinaison 

linéaire pondérée des échantillons précédents. 

s 

n 

= a s 

... 

1 

n− 1 

+ a2sn−2 

+ + 

a 

p 

s 

n− 

p 

Les différents coefficients servent de caractéristiques

Analyse par cepstres 

Cepstre: passage du domaine temporel à 

un autre domaine temporel 

Pour un signal x(t), on obtient les 

coefficients cepstraux exprimés en 

quéfrences par: 

−1 

c( T ) = F (log10 

( F( 

x( 

t))) 

Les coefficients cepstraux sont des caractéristiques du signal.

Mesure de ressemblance 

Calculer la ressemblance entre un mot 

(ou un phonème) et les mots ou les 

phonèmes d’un dictionnaire 

Critères statistiques (ou euclidiens) déjà 

vus en reconnaissance de forme

Mais… 

Si un locuteur prononce deux fois le 

même mot. Il y aura des différences de 

rythme (temps). 

Comparaison dynamique (DTW: 

dynamic Time Warping)

La DTW 

Création d’une fonction qui met en 

correspondance les évolutions 

temporelles. 

Problème, le réajustement est souvent 

long. 

La DTW est très utilisée pour la 

reconnaissance de mots isolés

Modèles statistiques 

Type Bayes: Probabilité d’appartenance 

à un classe. 

Très bien pour les mots isolés ou les 

phrases très simples 

Problème: le modèle statistique 

bayésien n’est pas assez puissant.

Exemple 

Reconnaissance de phonèmes: 

Phonème 

Extraction de 

caractéristiques 

Identification du 

phonème 

(problème de 

coarticulation) 

Identification du phonème à 

l’intérieur d’un mot: comparaison 

avec d’autres mots

HMM et Réseaux de neurones 

Chaines de Markov Cachées (HMM): 

méthode statistique très élaborée 

très utilisées car permet de mettre en 

correspondance le phonème identifié et 

le langage proprement dit. 

Méthodes neuronales: moins utilisées 

en reconnaissance de forme mais petit 

à petit on y vient.

Système mono et multi-locuteurs 

Caractéristiques du signal très liées au locuteur. 

- Développement de systèmes monolocuteur, une 

personne fait un apprentissage et fournit ainsi son 

empreinte vocale fort taux de reconnaissance, 

limité à une personne 

- Développement de systèmes multi-locuteurs, on 

moyenne l’empreinte vocale de tout le monde taux 

de reconnaissance plus faible

Différences globales/analytiques 

Taille du vocabulaire 

(>1000) 

Apprentissage 

cout 

Mutlilocuteur 

Mots isolés 

dictée 

Globale 

- 

+ (qq mots)/ - (grand 

mot) 

++ 

+/- 

+++ 

- 

analytique 

+ 

+ 

- 

+ 

- 

++

Conclusion traitement du signal 

Traitement numérique du signal: 

Analyse de Fourier et notions de filtrage 

sont les bases. 

Murat Kunt « Techniques Modernes de 

Traitement numérique des Signaux », 

Presse Polytechniques et Universitaires 

Romandes, Lausanne, 1991.

Conclusion et Avenir de la 

reconnaissance de parole 

Principe similaire à la reconnaissance 

de forme 

Les méthodes de reconnaissance de 

parole sont encore loin d‘être optimales 

malgré l’apport des HMM 

Problèmes de segmentation, de 

reconnaissance de phonème, de bruit, 

d’usage multi locuteurs

ibliographie 

Traitement de la parole: 

http://r.battault.free.fr/probatoire/probatoire.html 

http://www.vieartificielle.com/index.phpaction=article&id=191 

Mariani J. (: Reconnaissance de la parole : Traitement 

automatique du langage parlé, Lavoisier 

Boîte R., Bourlard H., Dutoit H., Hancq J., Leich H.; Traitement de 

la parole, Presse Polytechnique Universitaires Romandes, 1999. 

Chaines de Markov 

http://r.battault.free.fr/probatoire/probatoire.html 

Frederick Jelinek Statistical Methods for Speech Recognition MIT Press, 

1998.

Bibliographie (2) 

Réseaux de neurones 

Jodouin J.F (1994) les réseaux de neurones: principe et définition. Hermès, 

Paris, France 

Renders J.M. (1995) Algorithmes génétiques et réseaux de neurones. Hermès, 

Paris, France 

http://www.umoncton.ca/sciences/informatique/maia/in4413/projets/landry/histor 

ique.html 

Statistiques 

Dodge Y. (1993) Statistique. Dictionnaire encyclopédique. Dunod, Paris, 

France 

Saporta G. (1990) Probabilités, analyse des données et statistique. 

Editio 

SCHERRER B. (1984) - Biostatistique - Gaëtan Morin (ed.), C.P. 965, 

Chicoutimi, Québec, Canada.

Traitement du signal pour la reconnaissance ... - Université Paris 8

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?