Traitement du signal pour la reconnaissance ... - Université Paris 8
Traitement du signal pour la reconnaissance ... - Université Paris 8
Traitement du signal pour la reconnaissance ... - Université Paris 8
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>Traitement</strong> <strong>du</strong> <strong>signal</strong> <strong>pour</strong><br />
<strong>la</strong> <strong>reconnaissance</strong> vocale<br />
Cours 5: <strong>Traitement</strong> <strong>du</strong> <strong>signal</strong> et<br />
<strong>reconnaissance</strong> de forme
Chaîne de Reconnaissance vocale<br />
Acquisition<br />
microphone<br />
Numérisation<br />
<strong>du</strong> <strong>signal</strong><br />
Pré-traitement<br />
Tests et<br />
validation<br />
C<strong>la</strong>ssification<br />
et décision<br />
Extraction de<br />
paramètres<br />
Dictionnaire
P<strong>la</strong>n<br />
Numérisation <strong>du</strong> <strong>signal</strong><br />
Fourier<br />
Reconnaissance de <strong>la</strong> parole<br />
Conclusion
P<strong>la</strong>n<br />
Numérisation <strong>du</strong> <strong>signal</strong><br />
Fourier<br />
Reconnaissance de <strong>la</strong> parole<br />
Conclusion
Signal <br />
Définition: codage et simplification d’un<br />
message. un <strong>signal</strong> 1D est une fonction en<br />
général <strong>du</strong> temps s(t) signaux lumineux,<br />
sonores, etc… ou spatial (2D, 3D images)<br />
A chaque instant t, on associe une valeur<br />
(amplitude).<br />
Le traitement, l’analyse, et l’interprétation des<br />
signaux sont regroupés dans <strong>la</strong> discipline<br />
appelée traitement <strong>du</strong> <strong>signal</strong>.
Différents secteurs et différentes<br />
branches<br />
Les signaux sont présents dans<br />
différents secteurs (électronique,<br />
optique, audiovisuels, informatiques…).<br />
Quelques branches particulières qui<br />
nous intéressent .<br />
- traitement d’image (déjà vu)<br />
- traitement de <strong>la</strong> parole
Signaux<br />
Signaux analogiques: signaux pro<strong>du</strong>its de<br />
manière naturelle, continus (capteurs,<br />
amplificateurs, CNA)<br />
traitement réalisé par circuits<br />
électroniques, (ou manuellement)<br />
Signaux numériques: signaux utilisés dans le<br />
traitement informatique, discrets, facilité et<br />
rapidité de traitement. Ils sont artificiels<br />
traitement réalisé par micro-ordinateurs,<br />
DSP (microprocesseurs spécialisés)
Problème en <strong>reconnaissance</strong> de<br />
parole<br />
Acquisition<br />
microphone<br />
Signal analogique<br />
<strong>Traitement</strong><br />
de <strong>la</strong> parole<br />
Signal numérique<br />
Conversion analogique –numérique (CAN)
Exemple<br />
Signal analogique U(t)<br />
<strong>signal</strong> continu<br />
(représentation par<br />
une courbe)<br />
Signal numérique U t <br />
valeurs non continues<br />
(représentation par un<br />
histogramme)
Conversion analogiquenumérique<br />
(1)<br />
La conversion analogique- numérique se<br />
décompose en général en deux actions:<br />
- l’échantillonnage (on prélève <strong>la</strong> valeur<br />
<strong>du</strong> <strong>signal</strong> à une fréquence définie)<br />
- <strong>la</strong> quantification (on affecte une valeur<br />
numérique à chaque échantillon prélevé)
Qualité de <strong>la</strong> CAN<br />
La qualité <strong>du</strong> <strong>signal</strong> numérique dépend<br />
donc:<br />
- Taux d’échantillonnage (ou fréquence<br />
d’échantillonnage) plus <strong>la</strong> fréquence est<br />
grande, plus <strong>la</strong> qualité <strong>du</strong> <strong>signal</strong><br />
numérique est bonne.<br />
- le nombre de bits sur lequel on code<br />
les valeurs (phase de quantification)
Echantillonnage<br />
Qui dit échantillonnage dit perte d’information.<br />
Si fréquence très faible espace très grand entre<br />
deux données grosse perte d’informations<br />
Si fréquence trop grande information stockée<br />
inutile gaspil<strong>la</strong>ge de l’espace de stockage<br />
Fréquence d‘échantillonnage: fréquence à <strong>la</strong>quelle<br />
les données sont enregistrées ou capturées (Hz <br />
nombre de valeurs par seconde).
Théorème de Shannon –<br />
fréquence de Nyquist<br />
Pour pouvoir échantillonner un <strong>signal</strong>, il<br />
faut fixer une fréquence d’échantillonnage<br />
au moins égal au double de <strong>la</strong> fréquence<br />
<strong>du</strong> <strong>signal</strong> fréquence limite = fréquence<br />
de Nyquist (théorème de Shannon)<br />
Signal sinusoïdal fréquence <strong>du</strong> <strong>signal</strong>:<br />
pas de problème
Exemple: <strong>signal</strong> sinusoïdal<br />
T<br />
Signal analogique (f = 10 Hz)<br />
échantillonnage à 20Hz (=2f) <br />
cas parfait si on part <strong>du</strong> maximum<br />
Sous échantillonnage à 10Hz
Signal périodique non sinusoïdal<br />
On applique le théorème de shannon<br />
mais quelle fréquence choisir <br />
Signal peut être décomposé en signaux<br />
sinusoïdaux dont <strong>la</strong> fréquence est le<br />
multiple d’une fréquence fondamentale<br />
(<strong>la</strong>rgeur de bande)<br />
Fréquence de Nyquist = 2*plus haute<br />
fréquence
Phénomène d’aliasing<br />
Sous-échantillonnage (restitution d’un<br />
faux <strong>signal</strong>) phénomène d’Aliasing<br />
(ou de repliement)
Quantification (1)<br />
Chaque valeur est quantifiée sur un<br />
certain nombre de bits par rapport à <strong>la</strong><br />
valeur réelle <strong>du</strong> <strong>signal</strong> analogique.<br />
Nombre de bits disponibles est<br />
important <strong>pour</strong> quantifier <strong>la</strong> valeur <strong>du</strong><br />
<strong>signal</strong> à un temps t. Plus le nombre est<br />
élevé, plus <strong>la</strong> quantification est de<br />
qualité
Quantification (2)<br />
Quantification<br />
- sur 1 bit (2 valeurs)<br />
- sur 8 bits = 1 octet (256 valeurs)<br />
- sur 16 bits = 2 16 valeurs<br />
les quantifications se font en général<br />
sur 16 bits
P<strong>la</strong>n<br />
Numérisation <strong>du</strong> <strong>signal</strong><br />
Fourier<br />
Reconnaissance de <strong>la</strong> parole<br />
Conclusion
Fourier <br />
Joseph Fourier (mathématicien <strong>du</strong><br />
XIXème sicèle)<br />
Séries de Fourier (par extension,<br />
transformée de Fourier et transformée<br />
de Fourier discrète) base de toute <strong>la</strong><br />
théorie de traitement <strong>du</strong> <strong>signal</strong>
De façon mathématique<br />
Signal périodique (période T) = somme<br />
pondérée de signaux sinusoïdaux<br />
f<br />
( t)<br />
=<br />
∞ <br />
n=<br />
0<br />
[ a<br />
n<br />
cos<br />
2πnt<br />
T<br />
+<br />
b<br />
n<br />
sin<br />
2πnt<br />
T<br />
]<br />
1/T : fréquence fondamentale (on utilise souvent =2/T)<br />
n/T: harmonique<br />
a n et b n coefficients pondérateurs de Fourier
Exemples (1)<br />
Somme pondérée de deux signaux de<br />
fréquence f et 3f (H3) <strong>signal</strong><br />
résultant (b): addition point par point<br />
des deux courbes de (a).
Exemples (2)<br />
Meilleure approximation<br />
d’un Signal carré f(t):<br />
décomposition de <strong>la</strong><br />
façons suivante<br />
f<br />
1<br />
1<br />
1<br />
( t)<br />
= sin( ϖ t)<br />
+ 0cos(2ϖt<br />
) + sin(3ϖ<br />
t)<br />
+ 0cos(4ϖt<br />
) + sin(5ϖ<br />
t)<br />
+ ... + sin(23ϖ<br />
t)<br />
3<br />
5<br />
23
Analyse spectrale (1)<br />
Représentation des amplitudes des<br />
différentes harmoniques (n=1,3,5,7…23)<br />
d’un <strong>signal</strong> analyse spectrale.
Analyse spectrale (2)<br />
Note de musique: harmoniques différentes <strong>pour</strong> le son <strong>du</strong><br />
diapason (La pur) , son d’une guitare, son de cymbale.
Remarque (1)<br />
Etant donné que les séries de Fourier sont<br />
une décomposition en cosinus et sinus, on<br />
utilise souvent <strong>la</strong> notation complexe:<br />
2π<br />
int<br />
f ( t)<br />
= Fn<br />
exp( )<br />
T<br />
∞<br />
<br />
n=<br />
−∞<br />
Avec F n =(a n +ib n )/2 et F -n =(a n -ib n )/2
Remarque (2)<br />
A partir de l’équation précédente, les<br />
coefficients de Fourier se calculent de <strong>la</strong><br />
façon suivante:<br />
T<br />
1<br />
2π<br />
int<br />
Fn = f ( t)exp(<br />
− ) dt<br />
T<br />
T<br />
−T<br />
/ 2<br />
/ 2<br />
Le nombre de descripteurs de Fourier calculés ainsi est en<br />
théorie infini
Interprétation<br />
Plus n est grand, plus les fonctions sinusoïdales<br />
varient rapidement.<br />
une fonction lisse (c.a.d qui ne varient pas<br />
beaucoup) aura des coefficients a n et b n qui<br />
prendront rapidement (hautes fréquences) des<br />
valeurs faibles<br />
une fonction très perturbée et très changeante<br />
(ou bruitée) auront des composantes importantes<br />
dans les hautes fréquences.
Transformée de Fourier (1)<br />
Souvent fonctions non périodiques et non<br />
bornées , <strong>la</strong> transformée de Fourier permet de<br />
généraliser le concept de séries de Fourier à ce<br />
type de fonction:<br />
F<br />
( υ<br />
π υ<br />
) = f(<br />
t)exp(<br />
−2<br />
i t)<br />
dt<br />
∞<br />
−∞<br />
On peut noter le changement de variable = n/T, ce qui<br />
explique <strong>la</strong> disparition <strong>du</strong> facteur 1/T avant <strong>la</strong> somme.
Interprétation<br />
De façon peu rigoureuse, on <strong>pour</strong>rait<br />
considérer un <strong>signal</strong> analogique non<br />
périodique comme un <strong>signal</strong> dont <strong>la</strong><br />
période tendrait vers l’infini, <strong>la</strong><br />
fréquence tendrait alors vers 0 (dν)<br />
et on obtient un spectre de Fourier<br />
continu appelé spectre de bande (et<br />
non un spectre de raies):
Exemple de spectre de bande
Vers <strong>la</strong> transformée de Fourier<br />
discrète<br />
En pratique, <strong>signal</strong> non borné: très rare !<br />
on définit une fenêtre d’application [-T/2,T/2]<br />
Échantillonnage à une fréquence f telle que T=K/f<br />
F<br />
n<br />
=<br />
( / 2) − 1<br />
1 K <br />
k =−K<br />
/ 2<br />
K<br />
f<br />
K<br />
exp( −<br />
2πink<br />
K<br />
)
Remarque<br />
Le <strong>signal</strong> numérique est décomposé en K<br />
segments. Le nombre total de coefficients<br />
de Fourier sera K.<br />
En traitement de <strong>signal</strong>, on utilise <strong>la</strong> FFT<br />
(Fast Fourier Transform) qui, sous certaines<br />
conditions, permet d’accélérer le calcul
Pour en revenir à<br />
l’échantillonnage<br />
On fait un échantillonnage à très haute<br />
fréquence f e<br />
Toutes les fréquences supérieures à f e /2<br />
sont éliminées: filtre anti-aliasing<br />
Exemple: Pour un CD (fréquence 44,1<br />
kHz), il ne faut pas de sons supérieurs à<br />
22 kHz (L’oreille humaine capte au<br />
maximum à 20 kHz) .
Exemple de FFT et théorème de<br />
Shannon<br />
Spectre de bande, coupure à f e /2
P<strong>la</strong>n<br />
Numérisation <strong>du</strong> <strong>signal</strong><br />
Fourier<br />
Reconnaissance de <strong>la</strong> parole<br />
Conclusion
La <strong>reconnaissance</strong> vocale<br />
Applications de <strong>la</strong> <strong>reconnaissance</strong> vocale:<br />
- commande vocale: mots isolés, petit vocabu<strong>la</strong>ire.<br />
- compréhension: signification d’un petit message<br />
en parole continue<br />
- dictée: retranscription <strong>du</strong> texte sans<br />
compréhension<br />
- Identification ou vérification <strong>du</strong> locuteur
Comment ça marche<br />
Même méthodologie que <strong>reconnaissance</strong><br />
de forme:<br />
- Pré-traitement<br />
- Segmentation<br />
- Extraction de caractéristiques<br />
- C<strong>la</strong>ssification<br />
- Décision
Mais….<br />
Continuité: difficulté de séparer les mots ou les<br />
phonèmes dans un <strong>signal</strong> (les silences ne<br />
remp<strong>la</strong>cent pas les b<strong>la</strong>ncs)<br />
Variabilité (effets plus importants que sur document<br />
visuel):<br />
- plusieurs locuteurs (timbre de voix, âge)<br />
- <strong>pour</strong> un même locuteur (émotions, voix enrouée,<br />
chants..)<br />
- rythme de <strong>la</strong> dictée (temps plus ou moins long<br />
<strong>pour</strong> dire <strong>la</strong> même chose)<br />
- bruit extérieur
Deux approches<br />
Approche globale: <strong>reconnaissance</strong> de<br />
mots. Plus facile mais limité par le<br />
vocabu<strong>la</strong>ire, <strong>la</strong> taille mémoire et le<br />
temps de calcul.<br />
Approche analytique: <strong>reconnaissance</strong><br />
de phonèmes, de sons, plus difficile à<br />
mettre en p<strong>la</strong>ce mais plus puissant
Pré-traitement <strong>du</strong> <strong>signal</strong><br />
Signal parlé: onde non stationnaire (pas<br />
les mêmes caractéristiques statistiques<br />
au cours <strong>du</strong> temps.<br />
On découpe le <strong>signal</strong> en fenêtre<br />
temporelle (quelques ms)<br />
On analyse chaque fenêtre temporelle
Exemple
Segmentation (en mots ou<br />
phonèmes)<br />
Les mots sont marqués par des silences plus<br />
ou moins longs<br />
Reconnaissance de mots isolés: facile<br />
Reconnaissance de mots dans une parole<br />
continue: bien articuler et distinguer les mots<br />
Reconnaissance de phonèmes: très difficile<br />
(changement de rythmes, rupture en<br />
fréquence…)
Extraction de l’empreinte <strong>du</strong><br />
<strong>signal</strong><br />
Identifier une empreinte caractéristique<br />
<strong>du</strong> son émis<br />
- analyse spectrale<br />
- analyse par prédiction linéaire<br />
- analyse par coefficients cepstraux
Analyse spectrale<br />
Au cours <strong>du</strong> temps (par fenêtre temporelle),<br />
on fait une FFT<br />
On peut tracer un graphique<br />
temps/fréquence/ amplitude Sonagramme.<br />
L’amplitude est donnée par les niveaux de<br />
gris<br />
Les coefficients de Fourier par fenêtre<br />
temporelle sont des caractéristiques <strong>du</strong> <strong>signal</strong>
Analyse par prédiction linéaire<br />
Approximation <strong>du</strong> <strong>signal</strong> par un modèle suivant les<br />
échantillons précédents<br />
Le <strong>signal</strong> est alors modélisé par une combinaison<br />
linéaire pondérée des échantillons précédents.<br />
s<br />
n<br />
= a s<br />
...<br />
1<br />
n− 1<br />
+ a2sn−2<br />
+ +<br />
a<br />
p<br />
s<br />
n−<br />
p<br />
Les différents coefficients servent de caractéristiques
Analyse par cepstres<br />
Cepstre: passage <strong>du</strong> domaine temporel à<br />
un autre domaine temporel<br />
Pour un <strong>signal</strong> x(t), on obtient les<br />
coefficients cepstraux exprimés en<br />
quéfrences par:<br />
−1<br />
c( T ) = F (log10<br />
( F(<br />
x(<br />
t)))<br />
Les coefficients cepstraux sont des caractéristiques <strong>du</strong> <strong>signal</strong>.
Mesure de ressemb<strong>la</strong>nce<br />
Calculer <strong>la</strong> ressemb<strong>la</strong>nce entre un mot<br />
(ou un phonème) et les mots ou les<br />
phonèmes d’un dictionnaire<br />
Critères statistiques (ou euclidiens) déjà<br />
vus en <strong>reconnaissance</strong> de forme
Mais…<br />
Si un locuteur prononce deux fois le<br />
même mot. Il y aura des différences de<br />
rythme (temps).<br />
Comparaison dynamique (DTW:<br />
dynamic Time Warping)
La DTW<br />
Création d’une fonction qui met en<br />
correspondance les évolutions<br />
temporelles.<br />
Problème, le réajustement est souvent<br />
long.<br />
La DTW est très utilisée <strong>pour</strong> <strong>la</strong><br />
<strong>reconnaissance</strong> de mots isolés
Modèles statistiques<br />
Type Bayes: Probabilité d’appartenance<br />
à un c<strong>la</strong>sse.<br />
Très bien <strong>pour</strong> les mots isolés ou les<br />
phrases très simples<br />
Problème: le modèle statistique<br />
bayésien n’est pas assez puissant.
Exemple<br />
Reconnaissance de phonèmes:<br />
Phonème<br />
Extraction de<br />
caractéristiques<br />
Identification <strong>du</strong><br />
phonème<br />
(problème de<br />
coarticu<strong>la</strong>tion)<br />
Identification <strong>du</strong> phonème à<br />
l’intérieur d’un mot: comparaison<br />
avec d’autres mots
HMM et Réseaux de neurones<br />
Chaines de Markov Cachées (HMM):<br />
méthode statistique très é<strong>la</strong>borée <br />
très utilisées car permet de mettre en<br />
correspondance le phonème identifié et<br />
le <strong>la</strong>ngage proprement dit.<br />
Méthodes neuronales: moins utilisées<br />
en <strong>reconnaissance</strong> de forme mais petit<br />
à petit on y vient.
Système mono et multi-locuteurs<br />
Caractéristiques <strong>du</strong> <strong>signal</strong> très liées au locuteur.<br />
- Développement de systèmes monolocuteur, une<br />
personne fait un apprentissage et fournit ainsi son<br />
empreinte vocale fort taux de <strong>reconnaissance</strong>,<br />
limité à une personne<br />
- Développement de systèmes multi-locuteurs, on<br />
moyenne l’empreinte vocale de tout le monde taux<br />
de <strong>reconnaissance</strong> plus faible
Différences globales/analytiques<br />
Taille <strong>du</strong> vocabu<strong>la</strong>ire<br />
(>1000)<br />
Apprentissage<br />
cout<br />
Mutlilocuteur<br />
Mots isolés<br />
dictée<br />
Globale<br />
-<br />
+ (qq mots)/ - (grand<br />
mot)<br />
++<br />
+/-<br />
+++<br />
-<br />
analytique<br />
+<br />
+<br />
-<br />
+<br />
-<br />
++
Conclusion traitement <strong>du</strong> <strong>signal</strong><br />
<strong>Traitement</strong> numérique <strong>du</strong> <strong>signal</strong>:<br />
Analyse de Fourier et notions de filtrage<br />
sont les bases.<br />
Murat Kunt « Techniques Modernes de<br />
<strong>Traitement</strong> numérique des Signaux »,<br />
Presse Polytechniques et Universitaires<br />
Romandes, Lausanne, 1991.
Conclusion et Avenir de <strong>la</strong><br />
<strong>reconnaissance</strong> de parole<br />
Principe simi<strong>la</strong>ire à <strong>la</strong> <strong>reconnaissance</strong><br />
de forme<br />
Les méthodes de <strong>reconnaissance</strong> de<br />
parole sont encore loin d‘être optimales<br />
malgré l’apport des HMM<br />
Problèmes de segmentation, de<br />
<strong>reconnaissance</strong> de phonème, de bruit,<br />
d’usage multi locuteurs
ibliographie<br />
<strong>Traitement</strong> de <strong>la</strong> parole:<br />
http://r.battault.free.fr/probatoire/probatoire.html<br />
http://www.vieartificielle.com/index.phpaction=article&id=191<br />
Mariani J. (: Reconnaissance de <strong>la</strong> parole : <strong>Traitement</strong><br />
automatique <strong>du</strong> <strong>la</strong>ngage parlé, Lavoisier<br />
Boîte R., Bour<strong>la</strong>rd H., Dutoit H., Hancq J., Leich H.; <strong>Traitement</strong> de<br />
<strong>la</strong> parole, Presse Polytechnique Universitaires Romandes, 1999.<br />
Chaines de Markov<br />
http://r.battault.free.fr/probatoire/probatoire.html<br />
Frederick Jelinek Statistical Methods for Speech Recognition MIT Press,<br />
1998.
Bibliographie (2)<br />
Réseaux de neurones<br />
Jodouin J.F (1994) les réseaux de neurones: principe et définition. Hermès,<br />
<strong>Paris</strong>, France<br />
Renders J.M. (1995) Algorithmes génétiques et réseaux de neurones. Hermès,<br />
<strong>Paris</strong>, France<br />
http://www.umoncton.ca/sciences/informatique/maia/in4413/projets/<strong>la</strong>ndry/histor<br />
ique.html<br />
Statistiques<br />
Dodge Y. (1993) Statistique. Dictionnaire encyclopédique. Dunod, <strong>Paris</strong>,<br />
France<br />
Saporta G. (1990) Probabilités, analyse des données et statistique.<br />
Editio<br />
SCHERRER B. (1984) - Biostatistique - Gaëtan Morin (ed.), C.P. 965,<br />
Chicoutimi, Québec, Canada.