Tutoriel TRANSCRIBER

Version électronique du tutoriel disponible sur le site officiel du logiciel Transcriber : 

http://trans.sourceforge.net/en/transguidFR.php 

Transcriber 

a tool for segmenting, labeling and transcribing speech 

Manuel du transcripteur 

Conventions de transcription pour 

les enregistrements radio-télédiffusés 

Version 1.22, février 2005 

(valable avec les version 1.4.1 et plus récentes de Transcriber) 

1. Introduction 

1.1 Documents audios concernés 

1.2 Objectifs du manuel 

1.3 Versions 

2. Structuration de la transcription 

2.1. Enregistrement 

2.1.1. Comment transcrire un nouvel enregistrement ? 

2.1.2. Caractéristiques de l'enregistrement 

2.2. Segmentation du signal 

2.2.1. Où segmenter? 

2.2.2. Comment segmenter? 

2.3. Tours et locuteurs 

2.3.1. Comment créer les tours de parole? 

2.3.2. Caractéristiques des tours 

2.3.3. Caractéristiques des locuteurs 

2.3.4. Parole simultanée 

1

2.4. Sections et thèmes 

2.4.1. Que faut-il transcrire? 

2.4.2. Type et thème des sections 

2.4.3. Comment indiquer les sections? 

2.5. Transcription orthographique 

2.5.1. Comment transcrire? 

2.5.2. Conventions de transcription 

2.5.3. Transcription ou prononciation ambiguë 

2.6. Bruits et conditions acoustiques 

2.6.1. Comment noter les bruits ? 

2.6.2. Bruits de l'appareil phonatoire (non-parole) 

• Respiration 

• Autres bruits de bouche et de gorge 

2.6.3. Bruits extérieurs à l'acte de parole 

2.6.4. Changement de conditions acoustiques 

2.7 Commentaires 

3. Conventions de transcription 

3.1. Conventions d'écriture 

3.1.1. Majuscules/minuscules 

3.1.2. Ponctuations 

3.1.3. Apostrophe 

3.1.4. Trait d'union 

3.1.5. Sigles 

3.1.6. Abréviations 

3.1.7. Nombres 

3.1.8. Dates 

3.1.9. Chiffres romains 

3.1.10. Adresses internet 

3.1.11. Préfixes agglutinés ou non-agglutinés 

3.2. Mots hors-lexique 

3.2.1. Mots d'origine étrangère, changement de langue 

3.2.2. Noms propres étrangers 

3.2.3. Mots techniques, nouveaux mots, noms propres inconnus 

2

3.3. Spécificités du langage parlé 

3.3.1. Onomatopées 

3.3.2. Répétitions 

3.3.3. Elisions & formes réduites 

3.3.4. Troncatures 

3.3.5. Lapsus 

3.3.6. Prononciation erronée 

3.3.7. Liaisons 

3.3.8. Épellations 

3.3.9. Ponctuation verbalisée 

4. Vérification 

4.1. Comment vérifier la transcription ? 

1. Introduction 

La création manuelle de transcriptions d'enregistrements de journaux radio- ou télédiffusés, 

permet de faire avancer les recherches en transcription automatique, en indexation et en 

archivage de ce type de documents sonores. 

1.1. Documents audios concernés 

Les enregistrements de journaux radio- ou télédiffusés présentent un contenu varié : le signal 

acoustique peut correspondre à de la parole, de la musique ou du bruit, mais également à des 

mélanges de parole, de musique et de bruit. Ensuite il y a, pour la parole proprement dite, 

une grande diversité de locuteurs et de thèmes abordés. Plusieurs personnes peuvent 

intervenir sur un sujet donné successivement, voire simultanément. La qualité acoustique de 

l'enregistrement (fidélité) peut varier de manière considérable au cours du temps. La durée 

de tels enregistrements peut varier de quelques dizaines de minutes à plusieurs heures. 

Pour l'instant nous nous intéressons plus particulièrement aux nouvelles (journal, flash, 

revue de presse, incluant météo et bourse, économie, faits de société ...) dans le document 

sonore. Toute autre forme d'enregistrement (publicités, jeux, fictions....) ne sera pas 

transcrite. 

1.2. Objectifs du manuel 

Nous décrivons dans ce qui suit un ensemble de conventions pour structurer, annoter et 

transcrire des enregistrements de journaux radio- ou télédiffusés. Ces conventions doivent 

permettre de structurer les enregistrements au niveau du contenu thématique, des locuteurs 

et de la qualité acoustique. Les informations produites à ce sujet sont nommées annotations. 

La parole de chaque locuteur doit aussi être transcrite orthographiquement. C'est la 

transcription proprement dite. La transcription est ici la partie la plus importante et donc 

sur laquelle le maximum d'attention doit être porté. 

Les différentes étapes du travail de transcription sont : la segmentation de la bande son, 

l'identification des tours de paroles et des locuteurs, l'identification des sections thématiques, 

la transcription orthographique, et la vérification. Ces étapes peuvent être menées en 

3

parallèle ou au contraire appliquées séquentiellement sur de longues portion du signal, 

suivant le choix du transcripteur. 

1.3. Versions 

version 1.2.2 (février 2005) : 

• Ajout des conventions de transcriptions pour les préfixes agglutinés ou nonagglutinés 

(cf. §§ 3.1.11)) 

version 1.2.1 (mars 2004) : 

• Mise à jour des conventions d'annotations des mots mals prononcés : ceux-ci doivent 

toujours être précédés d'une étoile même si une balise de prononciation effective "+ 

[pron=...]" est présente (cf. §§ 3.3.6) 

• Ajout de conventions concernant la segmentation des passages sans locuteurs 

(musique, jingle, etc.) par création d'un tour de parole sans locuteur (cf. §§ 2.3.1) 

• Correction de l'orthographe de "pourcent" qui doit s'écrire "pour cent". 

• Diverses modifications mineures : mise en cohérence des présentes conventions avec 

l'interface graphique de Transcriber ([lexical=...] devient [lex=...], [pronounce=...] 

devient [pron=...] ... 

version 1.2 (octobre 2003) : 

• Conventions concernant les tours de parole traduite simultanément explicitées (cf. §§ 

2.3.4) 

• Ajout de conventions concernant les nombres fractionnaires et ordinaux (cf. §§ 3.1.7) 

• Mise à jour des conventions concernant les chiffres romains (cf. §§ 3.1.9) et les 

adresses internet (§§ 3.1.10) 

version 1.1 (juillet 2003) : 

• L'exemple de France-Inter est remplacé par la graphie officielle France 

Inter. 

• Ajout de précisions sur l'utilisation du marqueur d'orthographe incertaine ^^ (cf. §§ 

3.2.3) 

• Explicitation de l'utilisation du raccourci % (cf. fin §§ 3.1.7) 

• Le marquage des entités spécifiques par des guillemets est rendu facultatif dans 

l'attente de conventions plus détaillées (cf. §§ 3.1.1) 

• Abandon de la notation .point ou ,virgule pour la ponctuation épelée. 

version 1.0 (juin 1999) : La première version stable du présent manuel. 

2. Structuration de la transcription 

L'étape d'annotation vise à structurer les enregistrements, c'est-à-dire à segmenter et à 

décrire le signal acoustique à différents niveaux jugés pertinents pour le traitement ultérieur. 

Il s'agit ici principalement de l'identité du locuteur, de l'identification du contenu thématique, 

ou de la qualité du canal de transmission (acoustique). 

Actuellement, un document de transcription est structuré de la manière la suivante : 

• L'enregistrement correspond à la totalité de l'enregistrement à transcrire. 

• L'enregistrement est découpé en sections, délimitant les parties des émissions à 

transcrire, les enchaînements journalistiques, ou les parties non-transcrites. 

4

• À l'intérieur d'une section on va distinguer les tours de parole (turn) qui 

correspondent à des changements de locuteur. 

• Les tours de paroles sont eux-mêmes découpés en segments plus courts au moyen de 

points de synchronisation. La transcription proprement dite n'intervient qu'à ce 

niveau de structuration. 

• A certains points de synchronisation, des changements durables de bruit de fond sont 

indiqués ; cette segmentation en conditions acoustiques est indépendante de la 

structuration en tours et sections. 

2.1. Enregistrement 

2.1.1. Comment transcrire un nouvel enregistrement? 

• Démarrez Transcriber (cf. manuel de référence !) 

• Créez une nouvelle transcription avec le menu [Fichier]/[Nouvelle 

transcription]. Une fenêtre de dialogue propose de choisir le fichier son à 

transcrire. 

• Indiquez les informations générales associées à l'enregistrement dans la fenêtre 

[Fichiers]/[Paramètres de l'épisode]. 

• Si vous voulez réutiliser certains locuteurs ou sujets d'une transcription précédente, 

vous pouvez le faire dès à présent avec [Edition]/[Locuteurs]/[Importer à 

partir du fichier...] et [Edition]/[Sujets]/[Importer à partir 

du fichier...]. 

• Enregistrez la nouvelle transcription vide avec [Fichier]/[Enregistrer]. Un 

nom par défaut dérivé du nom du signal sera proposé. 

• Enregistrez la configuration avec [Options]/[Enregistrer la 

configuration], afin de réouvrir automatiquement ces fichiers au prochain 

démarrage 

Par la suite, pensez à enregistrer fréquemment votre travail avec [Fichier]/ 

[Enregistrer] ou le raccourci Control-s, surtout si vous n'avez pas activé la 

sauvegarde automatique. Par ailleurs, un double affichage du signal (un avec une résolution 

de 10 secondes, l'autre de une minute environ) peut être pratique. 

2.1.2. Caractéristiques de l'enregistrement 

Les informations associées à un enregistrement, éditées avec [Fichiers]/[Paramètres 

de l'épisode], sont les suivantes : 

• l'identité du transcripteur (par exemple Claire Montaigne) est 

automatiquement remplie ; 

• le nom du fichier son à transcrire (par exemple franceinter980428-0700:0820) 

est automatiquement renseigné ; 

• la date et le numéro de version de la transcription sont automatiquement renseignés 

par le logiciel et ne peuvent pas être modifiés ; 

• le programme: la provenance du document sonore (c'est-à-dire qui a enregistré), la 

chaîne qui a diffusé le document (par exemple France Inter) et le nom de 

l'émission (par exemple tranche matinale 7-9) ; 

• la date de diffusion ; 

5

• la langue principale de diffusion. 

Pour des enregistrements de même nature (par exemple sur plusieurs jours) il convient de 

respecter la même nomenclature pour des programmes identiques. 

2.2. Segmentation du signal 

Pour fournir des repères temporels par rapport au signal, et pour faciliter le travail de 

transcription, on segmente le signal en insérant des balises temporelles instantanées de 

synchronisation (ou frontières). 

2.2.1. Où segmenter? 

Nous recommandons de faire correspondre ces balises à des groupes de souffle dans le 

signal ou à des marques de ponctuation dans le langage écrit. Pour des raisons techniques du 

traitement ultérieur il est également souhaitable de fournir une balise de synchronisation 

après différents types de problèmes au niveau acoustique (mots mal prononcés, bruit court 

superposé à un mot...). 

En résumé, l'insertion d'une frontière de synchronisation est recommandé dans les situations 

suivantes : 

• début et fin d'élocution, 

• respiration, 

• ponctuation, 

• mauvaise prononciation, 

• bruit instantané, 

• début et fin de musique... 

2.2.2. Comment segmenter? 

• Choisissez une résolution d'environ 30 secondes pour l'affichage du signal. 

• Lancez la restitution à partir du début du signal ou du début de la section non encore 

transcrite. 

• Pendant la restitution, à chaque instant correspondant à un changement de locuteur 

ou une zone de silence, une pause, une respiration, un changement de conditions 

acoustiques... insérez une frontière en pressant la touche Return. Une nouvelle 

ligne précédée d'un petit cercle apparaît dans la fenêtre de texte, et la segmentation 

sous le signal est scindée au niveau du curseur. 

Vous obtenez une segmentation grossière d'une partie du signal en intervalles de 5 à 20 

secondes en moyenne. Il est possible de positionner les frontières plus précisément par la 

suite. 

2.3. Tours et locuteurs 

À ce niveau on décrit la succession de tours de parole avec les différents locuteurs qui 

interviennent. 

2.3.1. Comment créer les tours de parole? 

• Affichez le signal à une résolution d'environ 30 secondes ou plus et écoutez le signal. 

6

• Si un nouveau locuteur prend la parole au début du segment courant, indiquez le 

début d'un nouveau tour de parole avec [Segmentation]/[Créer un 

tour...] ou le raccourci Control-t. 

• Le locuteur du tour doit être identifié : 

• Si le locuteur est connu et existe déjà dans la liste, il suffit de cliquer sur son 

nom. 

• Pour un nouveau locuteur, le nom peut être tapé directement au clavier. Si 

l'identité est inconnue cliquez simplement sur Créer un locuteur. Les 

caractéristiques du locuteur (l'orthographe précise de son nom, le genre, 

l'accent...) peuvent être modifiées plus tard. 

• S'il s'agit de parole superposée, validez l'option correspondante et identifiez le 

deuxième locuteur de la même façon. 

• D'autres caractéristiques du tour (type de parole, canal, qualité) peuvent 

éventuellement être renseignés. 

• Des tours de parole spécifiques avec l'indication "Pas de locuteur" doivent être 

utilisés pour les passages sans parole (musique, jingle, silence,etc.) d'une durée 

significative ( de l'ordre de 1s ou plus ) : 

NB : Les balises de bruit de fond ne doivent être utilisées que pour annoter un 

phénomène en arrière plan. Ainsi, prenons l'exemple d'un segment ne contenant 

que de la musique, il devra être annoté à l'aide d'une balise [musique] sans 

indication de bruit de fond, qui serait alors une redondance puisque 

l'information temporelle du segment délimite déjà l'évenement dans le temps et 

la balise en donne son type. 

A la création d'un tour, le locuteur proposé par défaut est l'avant-dernier utilisé, ce qui est 

pratique dans le cas d'un dialogue. 

7

2.3.2. Caractéristiques des tours 

Pour chaque tour de parole le transcripteur indique : 

• un identificateur du locuteur, 

et éventuellement si cela est demandé : 

• le type de parole : préparé, spontané 

• la qualité du son : bon, moyen, faible 

• le canal de transmission : intervention téléphonique ou prise en studio 

2.3.3. Caractéristiques des locuteurs 

Pour chaque nouveau locuteur le transcripteur indique : 

• le nom du locuteur s'il est identifié, sinon un numéro de locuteur avec un qualificatif 

(au titre duquel l'inconnu est intervenu dans l'émission). 

• le statut : orthographe connue ou incertaine. 

• le sexe du locuteur : homme, femme, inconnu 

• langue maternelle : oui/non. 

• l'accent : on peut spécifier ici les différents accents : régionaux, francophones, 

étrangers. 

• le statut global/local : un nom est global s'il est identifiable en dehors du contexte de 

la transcription (par exemple, un journaliste, un homme politique connu, etc.) 

Il est important de respecter l'orthographe des noms. On peut trouver les noms des 

journalistes et des différentes émissions radio et télé français dans le guide MédiaSid. 

On considère tout francophone (français, belge, suisse, québécois) de langue maternelle 

française. 

2.3.4. Parole simultanée 

Il faut distinguer différentes situations de parole superposée : 

• Un locuteur parle, et un autre intervient ponctuellement par des interjections (hum 

oui ...) ; il convient de noter ces dernières comme de simples bruits se superposant 

à la parole. 

• Un locuteur parle en premier plan, et une ou plusieurs voix sont audibles à un niveau 

moindre (par exemple la voix d'un traducteur est superposée à la voix d'origine) ; 

seule la voix au premier plan est transcrite et un marqueur de bruit de fond (de type 

parole ou conversation) doit être utilisé. 

• Deux locuteurs dialoguent, se coupent mutuellement la parole et parlent 

simultanément sur plusieurs mots. Le mécanisme de gestion de parole simultanée 

décrit ci-après peut être appliqué. En cas de difficulté, les segments pourront être 

annotés comme parole "non-transcrite" . 

• Si plus de deux locuteurs interviennent à un fort niveau sonore, il faut annoter la 

portion de signal comme "non-transcrite". 

Dans le cas de parole traduite simultanément, les règles précédemment énoncées 

s'appliquent. Ainsi si on entend le locuteur traduit s'exprimer seul pendant plus d'un mot, un 

tour de paroles sera créé. Pour les autres cas (moins d'un mot prononcé seul ou traducteur 

s'exprimant simultanément) on insérera une balise bruit de fond de type parole. L'intégralité 

du passage traduit sera encadré par deux balises de type commentaire: {traduction-}....{- 

8

traduction} : 

Dans le cas de parole simultanée avec deux locuteurs (cas numéro 3), le deuxième locuteur 

est identifié dans la fenêtre des paramètres du tour après avoir validé Parole 

superposée. L'affichage dans le logiciel est par exemple : 

Patricia Martin + Invite1 

1: évidemment découvert que 

2: enfin n'oubliez pas 

Dans la transcription, 1: va identifier les paroles (évidemment découvert que) du premier 

locuteur (Patricia Martin) et 2: les paroles (enfin n'oubliez pas) du deuxième locuteur 

Invite1. Les frontières au niveau du signal seront posées au niveau des frontières de mot, 

de sorte à inclure dans le segment ainsi découpé, toute la parole superposée (par exemple si 

le mot enfin du locuteur 2 ne démarre qu'à la fin du mot évidemment du locuteur 1, ce 

dernier est quand même inclus dans le segment). 

Cependant la transcription de ce type de signal est très coûteuse. À l'heure actuelle on ne sait 

pas traiter de manière satisfaisante la parole superposée et les transcriptions, mêmes si elles 

9

sont produites, ne sont pas encore exploitées. Le transcripteur peut donc choisir de marquer 

simplement le signal comme parole superposée sans transcription, avec éventuellement un 

commentaire décrivant la situation ou le contenu du dialogue. 

2.4. Sections et thèmes 

La structuration complète d'un enregistrement peut être complexe : une succession 

d'émissions, composées de sections journalistiques, subdivisées elles-mêmes en rubriques 

thématiques... En l'état actuel du logiciel, il faut choisir un seul niveau de découpage (en 

sections journalistiques ou en rubriques thématiques) et les frontières des segments ne sont 

pas toujours évidentes ; une structuration plus fine est envisagée pour l'avenir. 

2.4.1. Que faut-il transcrire? 

Un enregistrement peut contenir des segments sans intérêt pour le traitement automatique 

ultérieur. Les transcriptions sont limitées aux émissions d'information avec les messages 

d'introduction et de conclusion. Le reste sera annoté non-transcribed, c'est-à-dire 

inexploitable et ne sera pas transcrit. 

2.4.2. Type et thème des sections 

Un enregistrement est découpé en sections de 3 types : 

• Les segments de type report réfèrent à des parties d'émission à transcrire (journal, 

chronique...). Pour chaque section journalistique, le transcripteur peut indiquer un 

thème général (journal, revue de presse, chronique, 

politique, faits de société, économie, bourse, culture, 

sports, météo) choisi dans une liste prédéfinie, suivi éventuellement d'un titre 

résumé. 

• Les segments de type filler ne concernent pas directement le thème journalistique 

abordé, mais réfèrent plutôt à l'organisation rédactionnelle, à l'enchaînement des 

journalistes ou des invités etc. 

• Les segments de type non-trans sont les parties de l'enregistrement dont la 

transcription n'est pas souhaitée ; il convient d'indiquer au moins la nature de ces 

segments suivi éventuellement d'un titre résumé (par exemple : publicité - 

les prêts malins du CA). 

2.4.3. Comment indiquer les sections? 

• Affichez le signal à une résolution d'environ 30 secondes ou plus et écoutez le signal. 

• A chaque changement d'émission ou de sujet (et en fonction des consignes données), 

indiquez le début d'une nouvelle section avec [Segmentation]/[Créer une 

section...] ou le raccourci Control-e. 

• Indiquez pour chaque section : 

• le type de la section : report, filler, non-transcribed 

• un thème général (journal, politique intérieure, 

international, 

bourse, économie, culture, sports, météo, faits de 

société, revue, chronique, ...) suivi éventuellement d'une 

courte description du sujet. 

10

2.5. Transcription orthographique 

Nous abordons ici les problèmes de transcriptions des segments de parole. Ces conventions 

concernent d'abord la parole pour laquelle la transcription graphémique peut être ambiguë. 

Elles sont nécessaires ensuite pour coder les bruits, catégorie dans laquelle on regroupe tous 

les événements acoustiques non assimilables à des mots (ou entrées lexicales) de la langue. 

2.5.1. Comment transcrire? 

• Choisissez une résolution d'environ 10 secondes ou moins pour l'affichage du signal. 

• Allez au premier segment non transcrit en cliquant sur la ligne correspondante dans 

le texte ou à la position dans le signal. 

• Ecoutez ce segment avec [Signal]/[Joue le segment] ou un des raccourcis 

Shift-Tab ou Alt-Tab; vous pouvez faire une pause ou redémarrer à tout 

moment avec [Signal]/[Joue/Pause] ou le raccourci Tab. 

• Si nécessaire, ajustez la frontière entre le segment et son voisin en cliquant sur cette 

frontière avec la touche Control enfoncée (ou avec le bouton du milieu) puis en 

déplaçant la souris. 

• Tapez la transcription au clavier ; elle apparaît simultanément dans l'éditeur de texte 

et dans la segmentation sous le signal. 

• Certains événements (bruits divers, respirations...) peuvent être indiqués avec des 

balises spéciales par [Edition]/[Insérer une balise]/[...] ou Control-d. 

• Les changements durables de condition acoustique (bruits de fond persistants) sont à 

indiquer avec [Segmentation]/[Insérer un bruit de fond]. 

2.5.2. Conventions de transcription 

La transcription graphémique doit permettre de prédire au mieux la prononciation du 

locuteur. Si une même séquence graphémique permet de générer différentes prononciations 

(typiquement les dates qu'on peut énoncer en utilisant mille et cent), on adoptera des 

conventions capables de lever l'ambiguïté. Les conventions concernent aussi les éléments de 

la langue pour lesquels la transcription n'est pas unique (typiquement les sigles et les 

épellations, ou encore les nombres qu'on peut écrire sous forme de séquence de chiffres ou 

comme séquence de mots). Dans tous les cas, les conventions adoptées visent à standardiser 

la forme graphémique attendue pour minimiser l'ambiguïté, éventuellement en utilisant des 

balises de prononciation. Les conventions n'étant pas exhaustives le transcripteur peut 

adopter par défaut une écriture telle qu'on peut la trouver dans des textes de journaux. 

Les conventions de transcription sont détaillées dans la 3ème partie. 

2.5.3. Transcription ou prononciation ambiguë 

La balise de prononciation permet de rajouter par dessus une graphie à prononciation 

multiple (typiquement les nombres, les sigles/acronymes, noms propres) une description 

levant l'ambiguïté de la prononciation. 

Il est difficile d'énoncer une règle stricte ici. La balise de prononciation permet de 

spécifier si un mot a été prononcé de manière peu standard, l'interprétation du standard 

dépendant évidemment du transcripteur. On peut utiliser la balise de prononciation aussi 

pour n'importe quel autre commentaire relatif à la prononciation d'un mot (par exemple le 

marquage du -euh typique en fin de mot de l'accent parisien). 

11

2.6. Bruits et conditions acoustiques 

Parmi les bruits on peut trouver de la parole ne correspondant pas à des mots proprement 

dits de la langue (mots tronqués, erronés, ... dont le cas est traité dans les conventions de 

transcription), des bruits émis par le locuteur (par son appareil phonatoire, mais qui ne sont 

pas de la parole, et donc dans la plupart des cas non-superposés à la parole : bruits de 

bouche, de gorge, toux, respirations) ou bien des bruits produits par des sources différentes 

de l'appareil phonatoire du locuteur. Ces derniers bruits sont plus gênants parce qu'ils se 

superposent en général à la parole, dégradant ainsi la qualité du signal enregistré. Les 

sources de bruit peuvent être, sur le lieu d'enregistrement, le locuteur lui-même ou son 

environnement : bruits d'écouteur ou froissements de papiers en général produits par le 

locuteur pendant qu'il parle, conversations annexes, radio, télé, claquements de porte, 

horloge, bruits de voiture, ... Le système d'enregistrement radio-télédiffusé peut également 

générer des bruits : bruits de micro, craquements de ligne téléphonique, bips, effet Larsen, 

raccrochement téléphone, ... Enfin certains bruits peuvent provenir du système de diffusion 

(parasites) ou d'enregistrement (souffle électrique). 

2.6.1. Comment noter les bruits ? 

Pour les bruits instantanés ou de courte durée, le transcripteur crée une balise de bruit par 

[Edition]/[Insérer une balise]/[Bruit instantané] ou Control-d, et 

indique : 

• la catégorie de la balise - un bruit, une balise de prononciation, d'annotation lexicale, 

de changement de langue, ou un commentaire. 

• la description du bruit ou de l'événement par une chaîne de caractères ; des valeurs 

prédéfinies sont proposées dans un menu. 

• l'étendue de la balise - balise instantanée, de début ou de fin, ou encore appliquée au 

mot précédent ou suivant. 

Par défaut, les balises de bruit sont affichées entre crochets. Si le bruit s'étend sur 

plusieurs mots on peut sélectionner les mots et insérer une balise ; les marqueurs de début 

et de fin seront automatiquement insérés autour. 

• Si le bruit advient entre deux mots le code est affiché comme un mot, c'est-à-dire 

séparé des mots voisins par des blancs : parole1 [b] parole2 

• Si le bruit se superpose au mot précédent ou suivant, à l'affichage le code 

correspondant est accolé au mot avec le caractère + (mais le transcripteur n'a pas à 

taper ce caractère) 

Affichage : parole+[b] 

• Si le bruit se superpose à plusieurs mots, des marqueurs de début et de fin seront 

utilisés. 

Affichage : parole1 [b-] parole2 [-b] parole3 

le bruit de type [b] commence avant parole2 et se termine avant parole3. 

Pour les bruits de longue durée, une autre procédure est détaillée plus loin (paragraphe 

2.6.4). 

2.6.2. Bruits de l'appareil phonatoire (non-parole) 

Ici nous considérons des bruits produits par l'appareil phonatoire du locuteur enregistré : en 

général ces bruits ne se superposent pas à la parole, sauf quand la personne parle en 

chuchotant ou en rigolant : je+[rire] voudrais+[rire] (on peut utiliser aussi des marqueurs de 

12

début et de fin : [rire-] je voudrais [-rire]). 

Pour ne pas trop compliquer la tâche du transcripteur (à identifier la nature exacte du bruit) 

les codes de bruit marqués en gras sont à utiliser par défaut pour un type de bruit donné. 

Si le transcripteur a envie de marquer plus particulièrement un bruit donné, il peut choisir un 

des codes proposés en retrait de la marge ; cependant, ces différences ne sont actuellement 

pas exploitées. 

Suggestion : le transcripteur peut accompagner les codes de bruit de balises temporelles de 

synchronisation (afin de poser un repère pour la segmentation automatique). 

Respiration 

• [r] : respiration 

• acte physiologique : 

• [i] : inspiration 

• [e] : expiration 

• [n] : reniflement 

• acte volontaire : 

• [pf] : souffle (on entend par souffle un acte de respiration volontairement 

bruyant pour marquer son désaccord ou sa mauvaise humeur, pour retenir un 

rire, ...) 

Autres bruits de bouche et de gorge 

• [bb] : bruit de bouche (ce code regroupe les bruits de lèvres, de langue ou autre 

combinaison, ...) 

• [tx] : toux, râclement de gorge, éternuement 

• [bg] : bruit de gorge (par exemple coup de glotte, bruit de larynx ) 

• [rire] : rires du locuteur 

• [sif] : sifflement du locuteur 

• [ch] : le locuteur se parle en voix chuchotée pour faire un commentaire 

[ch-] voix chuchotée [-ch] 

2.6.3. Bruits extérieurs à l'acte de parole 

Nous regroupons dans cette section tous les bruits produits en dehors de l'appareil 

phonatoire du locuteur. La plupart de ces bruits peuvent se produire à n'importe quel instant 

de l'enregistrement, et peuvent donc se superposer au signal de parole, dégradant ainsi sa 

qualité. 

Tout bruit de nature indéterminée ou non-répertorié dans ce document peut être noté 

comme suit : 

• [b] : bruit indéterminé 

Bruits dus à l'environnement et au matériel d'enregistrement 

• [conv] : conversations dans le fond : il peut s'agir de personnes présentes, de public, 

de voitures, ... 

• [pap] : froissement de papiers. 

• [mic] : bruits micros. 

13

2.6.4. Changement de conditions acoustiques 

Lorsqu'un bruit s'étend sur une longue durée (bruit de fond persistant), un système de 

marquage spécifique doit être utilisé. La balise de bruit de fond est une balise instantanée 

décrivant un changement durable ans les conditions acoustiques. L'information apportée par 

cette balise reste valable à l'intérieur d'un même enregistrement jusqu'à l'apparition d'une 

nouvelle balise de bruit de fond, ou bien jusqu'à la fin de l'enregistrement. 

Le transcripteur positionne le curseur temporel à l'instant du changement de conditions 

acoustiques, choisit [Segmentation]/[Insérer un bruit de fond] et indique : 

• la nature : musique, parole ou conversations, bruit électrique, autre... 

Une icône de note de musique apparaît dans le texte à la position courante. 

Si le changement de conditions acoustiques est associé aux conditions d'enregistrement et lié 

au tour de parole (par exemple, une intervention téléphonique de très mauvaise qualité), il 

sera plus pratique d'utiliser le champ Fidelité=low dans les paramètres du tour de 

parole [Segmentation]/[Paramètres du tour...] , plutôt que la balise de bruit de 

fond. 

2.7. Commentaires 

Cette balise permet au transcripteur de commenter l'enregistrement (la parole ou les 

conditions acoustiques ) à transcrire. Le transcripteur peut également faire ici des remarques 

sur ce qui lui paraît utile pour faciliter la transcription. 

3. Conventions de transcription 

Concernant la transcription l'idée de base consiste à focaliser l'attention sur ce qui apparaît 

en premier plan. Si de multiples sources sonores sont présentes il convient de focaliser la 

transcription sur la source la plus émergente. Par exemple on entend en arrière-plan une 

personnalité parler une langue étrangère, un traducteur donnant la version française en 

premier plan. Il suffit de transcrire le traducteur en signalant de la parole en bruit de fond. 

On entend de la musique en premier plan avec des commentaires en arrière-plan. On peut 

annoter un tel segment comme musique avec comme bruit de fond de la parole (non 

transcrite). Si deux locuteurs se 'disputent' le premier plan, on transcrit les deux grâce au 

mécanisme de parole superposée. Cependant de manière générale on fait l'hypothèse qu'il 

n'y a qu'une source sonore unique au premier plan. 

De manière générale, dans tous les segments de parole qui ont été annotés transcribed 

(sections report ou filler), tout ce qui est entendu doit être transcrit : la transcription doit 

fournir la séquence orthographique exacte correspondant à ce que le locuteur a prononcé, à 

laquelle il faut rajouter dans la mesure du possible tous les événements extra-lexicaux 

présents dans le signal acoustique (les répétitions, hésitations, troncatures, bruits). 

3.1. Conventions d'écriture 

Le produit de la transcription est essentiellement une séquence de mots séparés par des 

espaces, entre lesquels s'intercalent des balises identifiant les bruits, les conditions 

acoustiques et diverses informations permettant de lever l'ambiguïté de prononciation. 

Autant que possible, il convient de respecter l'orthographe standard des mots. La 

14

ponctuation sert à marquer les frontières syntaxiques et prosodiques claires. 

Dans la suite les icônes représentent : 

= le locuteur dit 

= le transcripteur écrit 

3.1.1. Majuscules/minuscules 

Tout est transcrit en minuscules (pas de majuscule systématique en début de phrase). 

L'emploi des majuscules est réservé à la transcription des épellations et des sigles, au début 

des noms propres et dans des formules de politesse. 

Pour les noms propres d'organisation assimilables à des marques (tels que les journaux, les 

banques...) et utilisant des noms communs, les noms communs en question sont écrits avec 

des initiales majuscules. 

as-tu lu Le Monde, L'Humanité et Le Dimanche ... 

les journalistes du Monde, de L'Humanité et du Dimanche ... 

au Crédit Lyonnais 

Dans le doute, on peut suivre la pratique des journeaux qui peuvent ne mettre en majuscules 

que le premier mot d'un sigle : 

le Front national est au bord de l'implosion 

Pour les noms de lieux on adopte la convention d'écrire en minuscule le nom commun. S'il 

est suivi d'un nom propre, celui-ci a évidemment son initiale en majuscule. 

le lycée Anatole France 

l'opéra Garnier 

Des mots communs ayant fonction de nom propre (par exemple : titres d'émissions, de 

films, de livre, d'institutions ) s'écrivent entre guillemets. À l'intérieur des guillemets les 

noms communs sont écrits en minuscules. 

Par exemple : 

"le téléphone sonne" de ce soir sera consacré à "la chaîne de 

l'espoir" 

"le monde d'est en ouest et du nord au sud" sur France Inter 

"regards sur le monde" , Dominique Bromberger bonjour ! 

bienvenue à "radio com , c'est vous" 

aux Etats-Unis , le "Monica gate" continue 

euh , je préfère "Tomb raider" 

le chanteur de "divine comédie" 

des associations comme "médecins du monde" 

le prix Louis-Delluc pour Cédric Kahn et son film "l'ennui" 

sortie aujourd'hui de "à la place du coeur" de Robert Guédiguian 

un bel exemple de Le Clézio dans "la fièvre" 

"neuf mois marathon" , Marie-Cécile Picquet , aux éditions "hors 

commerce" 

une grande opération "mains propres" a été lancée 

le "conseil économique et social" 

ils ont gagné la "terre promise" 

Pour les sigles étendus (c'est-à-dire prononcés en toutes lettres) la suite de mots composant 

15

le sigle est entourée de guillemets. Les noms communs y sont écrits en minuscules. 

le "fond monétaire international" a fonctionné 

le "commissariat à l'énergie atomique" 

l'"agence France presse" 

Notes : cette utilisation des guillemets demande à être précisée. Dans l'attente d'un véritable 

guide d'annotation des entités spécifiques, elle est facultative. 

Enfin, on met une majuscule à monsieur (ainsi qu'à madame, mademoiselle ...) dans les 

formules de politesse comme indiqué dans l'exemple : 

mais 

est-il vrai Monsieur le préfet que, ... 

le monsieur qui ... 

3.1.2. Ponctuations 

Il est recommandé de mettre des marques de ponctuation là où il y a des pauses dans le 

signal qui correspondent à des frontières syntaxiques, ou bien dans le cas où l'absence de 

ponctuation engendre une ambiguïté dans le texte. 

Attention : il faut précéder les signes de ponctuations d'un blanc. 

les fleurs sont fanées , le pain est devenu sec . 

Les marqueurs de ponctuations sont indicateurs du mode de l'énoncé : 

conclusif ''.'', interrogatif ``?'', exclamatif ``!'', hésitation ``...'', etc. 

Ces informations sont fortement liées à la prosodie et à la compréhension. Il est 

recommandé d'accompagner les marques de ponctuation forte (. ? !) d'une marque 

temporelle dans le signal (balise de synchronisation , permettant de segmenter). 

3.1.3. Apostrophe 

Il n'y a pas de séparateur entre l'apostrophe et le mot suivant. 

l'horaire 

l'arrivée 

jusqu'à 

3.1.4. Trait d'union 

Les mots liés par un trait d'union sont écrits normalement sans séparation par un blanc. 

après-midi 

voulez-vous 

anglo-saxons 

Attention : on ne relie pas par trait d'union les suites de noms propres. On peut marquer 

graphiquement le lien par un slash entouré de blancs. 

dans le Nord / Pas-de-Calais 

le trajet Paris / Toulouse 

16

3.1.5. Sigles 

Par défaut : les sigles sont notés par des majuscules non séparés par des blancs. 

s n c f 

SNCF 

otan 

OTAN 

c d rom, ina p g 

CDROM, INA PG 

Uniquement dans les cas d'ambiguïté, la distinction entre un sigle prononcé comme un 

mot et un sigle prononcé comme une suite de lettres se fera par l'ajout devant le sigle d'un 

underscore "_" s'il est lu ou d'un point d'exclamation "!" s'il est épelé, par exemple: 

l' onu ou l'o n u, c'est selon 

l'_ONU ou l'!ONU , c'est selon 

On peut observer des expressions complexes composées de sigles et de mots ou de 

fragments de mots (acronymes,...), de chiffres voire de ponctuation, par exemple : 

JCSat+[pron=J C sat] , RMIste , Smicard , Pacser , 

l'autoroute A10 , l'association AC! 

La distinction entre sigle et lexie standard est parfois floue (ainsi, LASER qui était à 

l'origine un acronyme est devenu Laser puis laser). Pour l'utilisation des majuscules, on 

considèrera qu'à partir de 5 lettres un acronyme lu est lexicalisé et donc écrit en minuscules 

sauf la première lettre : 

Medef , Insee , Staps , Pacsé , Assedic (sigle lu, 5 

lettres ou plus) 

IFOP , SMIG , SFOR , PACS , ENA (sigle lu, 4 lettres ou moins) 

FM , ETA , CFDT , EHESS , FNSEA , DGCCRF (sigle épelé) 

Dans les cas mixtes comme RMiste, CDROM..., on prendra la graphie majoritaire des 

journaux: RMiste, CDROM.... 

3.1.6. Abréviations 

Il existe dans la langue des abréviations standards comme etc pour et caetera. Les 

transcripteurs utilisent etc sans point accolé. 

et caetera 

etc 

17

okay 

OK 

3.1.7. Nombres 

Les nombres sont transcrits sous forme de suite de chiffres si la prononciation correspond à 

la syntaxe standard de prononciation des nombres (écrire la suite de mots est toujours 

autorisé, mais cela demande plus de travail et peut générer plus d'erreur de la part du 

transcripteur). 

soixante mille 

60000 ou bien 60 mille 

soixante millions 

60000000 ou bien 60 millions 

Attention: il ne faut pas introduire d'espace entre les chiffres! 

vingt virgule cinquante-sept 

20,57 ou bien 20 virgule 57 

un franc cinquante 

1 franc 50 

Attention: il ne faut pas écrire: 1,50 francs ! 

cent cinquante-huit litres virgule neuf 

158 litres virgule 9 

Les fractions de l'unité (demi, tiers...) seront écrits en toutes lettres: 

deux tiers 

deux tiers ou 2 tiers 

Attention: il ne faut pas écrire: 2/3 ! 

Les nombres ordinaux seront écrits en toutes lettres: 

le troisième 

le troisième 

Attention: il ne faut pas écrire: le 3ème ! 

Le signe moins pouvant être confondu avec le tiret, il sera écrit en toutes lettres, ainsi que 

plus, fois, égale, etc. La seule exception est "pour cent", qui sera écrit % : 

18

moins dix degrés 

moins 10 degrés 

trois pour cent 

3 % 

3.1.8. Dates 

Pour les dates dont la prononciation peut être ambiguë (dix-neuf cent ou mille neuf cent), on 

utilisera une balise de prononciation dans le cas non-standard, s'appliquant au mot précédent 

(ou suivant). Le choix proposé par défaut est "19 cent...", il faudra veiller à le modifier 

manuellement en fonction du siècle en question, exemple pour 1660 on utilisera "16 cent..." 

mille neuf cent quatre-vingts 

1980 

dix-neuf cent quatre-vingts 

1980+[pron=19 cent...] 

3.1.9. Chiffres romains 

Ils peuvent être utilisés dans les noms de roi ou de pape (qui servent souvent à désigner des 

lieux publics ). La transcription se fait avec les chiffres romains, en ajoutant une balise de 

prononciation s'appliquant au mot précédent (ou suivant). 

l'hôtel Charles cinq 

l'hôtel Charles V+[pron=(chiffres romains:) 5] 

le stade Louis deux 

le stade Louis II+[pron=(chiffres romains:) 2] 

3.1.10. Adresses internet 

Pour les adresses internet (URL ou e-mail), la transcription se fait en notant l'adresse telle 

qu'elle s'écrit (habituellement tout en minuscules), et en ajoutant une balise de prononciation 

s'appliquant au mot précédent (ou suivant). 

telsonne at radio tiret france point f r 

telsonne@radio-france.fr+[pron=(URL:) telsonne at radio tiret France 

point FR] 

w w w point radio tiret france point f r 

www.radio-france.fr+[pron=(URL:) WWW point radio tiret France point FR] 

19

Dans le cas de présence d'inspirations, d'hésitations... au milieu de l'URL, celles-ci seront 

annotées dans la balise prononciation, par exemple il faut écrire : 

www.tf1.fr+[pron=(URL:) WWW [i] point TF() 1 point 

FR] 

Attention: il ne faut pas écrire: 

www [i].tf() 1.fr+[pron=(URL:) WWW point TF1 point FR] 

Dans le cas cas particulier d'une URL scindée, par exemple prononcée par plusieurs 

locuteurs, transcrire comme dans cet exemple : 

3.1.11. Préfixes agglutinés ou non-agglutinés 

anti ; archi ; auto ; bi ; co ; extra ; giga ; hyper ; hypo ; 

inter ; intra ; macro ; micro ; para ; poly ; super ; sur ; 

télé ; contre ; entre ; néo ; outre ; quasi ; mini ; ultra ; 

post ; pseudo ; pré ; ... 

On peut trouver sur Internet, dans les dictionnaires ou dans les livres de grammaire 

différentes règles orthographiques concernant les préfixes. 

Dans le cadre de nos transcriptions, afin de respecter notre souci de normalisation de corpus, 

nous devons mettre à plat des règles que nous suivrons systématiquement lors des 

transcriptions. 

Ci-dessous sont présentées les règles à appliquer : 

ANTI : 

--> toujours collé (antiaméricain) sauf : 

- avant un i (anti-infectieux, anti-israélien), 

- un mot lui-même composé (anti-sous-marin) 

- dans les mots forgés pour la circonstance (anti-Bush) 

exemples : 

20

antiallemand 

antiaméricains 

antiaméricanisme 

antiarabe 

anticastriste 

antichars 

antichimique 

antisectes 

antisémites 

antitabac 

anti-destin 

anti-incendie 

anti-israélien 

anti-israélienne 

anti-israéliennes 

ARCHI : 

--> toujours collé (archicomble) sauf avant un i 

AUTO : 

--> toujours collé (autoallumage) sauf : 

- avant un i (auto-immune), 

- avant un verbe, 

- si auto = voiture et non soi-même (auto-école). 

exemples : 

autoévaluation 

auto-détruire 

auto-proclamé 

auto-répliqué 

auto-école 

BI : 

--> toujours collé 

bicylindre 

bimoteur 

CO : 

--> toujours collé (coauteur) sauf : 

- devant un i, le i devient ï (coïnculpé) 

coprésidé 

colocataire 

EXTRA : 

--> toujours collé (extraconjugal, extraterrestre) sauf : 

- devant i, a, u (extra-atmosphérique) 

extraconjugales 

extraterrestre 

21

extra-atmosphérique 

GIGA : 


HYPER : 


hypersport 

HYPO : 


INTER : 


interauriculaire 

intergouvernementale 

interprofessionnelles 

interreligieux 

INTRA : 

--> toujours collé sauf : 

- devant i, a , u (intra-atomique, intra-utérin), et dans intra-muros 

MACRO : 


macroéconomie 

MICRO : 

--> toujours collé (microentreprenariat) sauf : 

- devant i, o (micro-informatique, micro-onde) 

microétats 

micro-ordinateur 

micro-onde 

PARA : 

--> toujours collé (paramilitaire) sauf : 

- devant i, a , u 

POLY : 


SUPER : 


SUR : 

22


surachalandé 

TÉLÉ : 


CONTRE : 

--> aucune règle spécifique (voir dans le dictionnaire au cas par cas) 

contretemps (dans le dictionnaire) 

contre-allée 

contre-attaque 

contre-attaques 

contrebande 

contre-emploi 

contre-espionnage 

contre-expertise 

contre-feu 

contre-feux 

contre-manifestations 

contre-menaces 

contre-offensive 

contre-performances 

contre-pied 

contre-pouvoir 

ENTRE : 


entrechocs 

entre-temps 

entre-deux 

entre-déchirent 

NÉO : 


néo-frontiste 

néo-nazis 

néo-zélandais 

OUTRE : 

--> généralement avec tiret (outre-mer, outre-tombe, outre-atlantique), sauf pour le terme 

"outremer" lorsqu'il désigne une couleur, une nuance de bleu. 

Dans une expression adverbiale "outre" signifie "au delà de" 

outre-Manche 

outre-Rhin 

outre-mer 

23

QUASI : 

--> avec un tiret avant un nom (quasi-totalité) et un espace avant un adjectif (quasi estivale) 

devant un adjectif : 

quasi estivales 

quasi militaires (les commandes quasi militaires du...) 

devant un nom : 

quasi-fin 

quasi-homme 

devant un nom/adjectif, cela dépend du contexte: 

quasi-inconnu ou quasi inconnu 

une chose quasi inconnue… 

un quasi-inconnu… (très rare) 

CRYPTO : 


MINI : 


minijupe 

minibus 

minicassette 

minichaîne 

minisérie 

minisommet 

ULTRA : 

--> la tendance est à l'agglutination 

ultraguerrières 

ultraprudente 

ultrarépressive 

ultrasimple 

ultrason 

ultraroyaliste 

ainsi que pour : 

POST, PSEUDO, PRÉ, SIMILI, SUB : 

--> pas de règle précise, très souvent écrit avec un tiret 

Autres préfixes souvent écrits avec un tiret, et en tout cas 

normalement pas agglutinés : 

arrièreavantdemideux- 

24

doubleexfauxnonsanssemisousvice- 

Quelques autres mots souvent inclus dans des mots composés à tirets : 

court(s)date(s)grand(s)- 

-clé(s) 

-culte(s) 

-fleuve(s) 

-record(s) 

-type(s) 

3.2. Mots hors-lexique 

3.2.1. Mots d'origine étrangère, changement de langue 

Une balise de changement de langue permet d'identifier un mot ou une suite de mots qui ne 

font pas partie du parler français. 

Les mots d'origine étrangère (et absorbés dans la langue avec une prononciation donnée) ne 

sont pas marqués (par exemple week-end, playstation, business prononcés à 

l'anglaise). On considère ces prononciations comme ``standard''. 

En revanche des prononciations peu communes devront être signalées (par exemple les 

correspondants à l'étranger démarrant leur intervention par buon giorno di Roma, 

good morning from London... ). 

échangeant des potins [lang=anglais-] cashing up with gossip [lang=anglais] 

ça s'appelle l'[lang=anglais-] easy listening [-lang=anglais] 

cela reviendra à légaliser le sabouba+[lang=arabe] 

Il est inutile d'ajouter un marqueur d'orthographe incertaine aux mots étrangers, même si la 

transcription est simplement acoustique. Un segment de longue durée en langue étrangère 

doit être annoté non-trans. 

3.2.2. Noms propres étrangers 

Les noms propres Beatles, Clinton, les sigles CNN, CBS prononcés à l'anglaise 

correspondent au standard ; à l'inverse une prononciation à la française inhabituelle doit être 

spécifiée par une balise de prononciation : 

Bill Clinton , en français Guillaume Clinton+[pron=français] 

25

Pour des noms propres comme Morgan le standard dépend évidemment du contexte 

(Michèle Morgan ou Nelson Morgan par exemple). Mais pour des noms propres 

comme Benjamin, le contexte peut ne pas être suffisant : Benjamin Netanyahou peut 

admettre différentes prononciations. 

3.2.3. Mots techniques, nouveaux mots, noms propres inconnus 

Cette section concerne les problèmes d'écriture qui se posent pour des néologismes, entités 

idiosyncrasiques, des mots techniques . 

Dans un contexte particulier des mots nouveaux peuvent apparaître. Ces mots ne font pas 

partie du vocabulaire de la langue courante, et sont souvent ignorés des gens extérieurs à ce 

domaine particulier. Ceci est vrai pour des domaines techniques spécialisés, mais se 

rencontrent fréquemment aussi dans le milieu journalistique (par exemple le terme de puputch 

a été employé plusieurs fois début décembre 98). Ces mots sont à considérer comme 

des entités lexicales à part entière. 

Lorsque l'orthographe se déduit sans ambiguïté, il suffit de l'écrire sans balise 

supplémentaire : 

un télévirenquethon ? ça ne sonne pas très bien 

le greige , quelque part entre gris et beige 

la primature du chef est publiquement mise en cause 

Des noms propres inconnus (souvent d'origine étrangère) peuvent admettre plusieurs 

graphies en français. Afin de pouvoir normaliser ces graphies lors d'un traitement ultérieur, il 

est important de marquer les mots qui posent problèmes. 

Règle : tous mots techniques, idiosyncrasiques, noms propres, etc, dont la graphie est 

incertaine (non figée, et qu'un complément d'information permettrait de corriger ou 

confirmer), seront précédés par deux accents circonflexes : 

Exemples : 

^^mot_inconnu 

^Ânnam ^^Lefebvre ^^Baranov ^^Tourner ^^Réresse 

^^Micoine ^Îtaï ^Ârad ^^Mougins ^^Mossey ^Klipffel 

^^Jaillard ^Êlina ^^Castella ^^Zwetaïeva ... 

De manière équivalente, une balise de commentaire lexical peut être utilisée : 

^^Guédet ou Guédet+[lex=orthographe incertaine] 

Remarque: Ceci ne s'applique pas aux mots qui ont deux orthographes possibles (on choisira 

la première venant à l'esprit) : 

clé ou clef , cuillère ou cuiller , aéroclub ou aéro-club , CDROM 

ou cédérom , etc 

En revanche, cela s'applique aux prénoms ambigus : 

^^Michèle ou ^^Michelle Martin ; ^^Danièle ou ^^Danielle 

Durand ; mais 

Michèle Morgan ; Danielle , avec 2 L , 

26

3.3. Spécificités du langage parlé 

Lorsqu'on écoute attentivement le signal, on se rend compte que des parties de mots, voire 

des mots entiers peuvent avoir disparus. 

On peut être tenté de marquer graphémiquement les réductions produites par le locuteur. La 

consigne à suivre ici est de respecter l'orthographe standard: ne pas marquer, dans 

l'écriture, l'élision ou la réduction présente dans la parole. On peut utiliser la balise de 

prononciation ou la balise de commentaire, si on veut décrire les phénomènes observés. 

3.3.1. Onomatopées 

Les onomatopées font partie de la langue et sont à transcrire au même titre que les autres 

mots. Les plus fréquentes existent en général en tant que mots graphémiques, pour toutes les 

autres on devra créer des mots correspondants et maintenir cette liste à jour. 

Exemples : 

euh , ben, eh, hein, ah, hum, oh, hé, 

ouahou, huhum, hou, hop, aïe ... 

euh on voit que les ... , ah , comment dire 

et en fait euh bon ben 

l'indice Nikkei et non pas Mickey hein ! 

eh bien , 

hé oh comme vous dites ! 

hou là là 

une étude sur le le hum () 

ouahou , chic alors ! 

on en parle plus , hop . 

3.3.2. Répétitions 

Les répétitions ne portent pas d'information et on tenterait naturellement de les éliminer dans 

un processus de transcription d'une dictée. Elles doivent être transcrites comme tout autre 

mot. 

le le le député ... 

3.3.3. Elisions & formes réduites 

La réduction peut porter sur un seul mot ou une suite de mots, par exemple: 

orches' de chambre | s'i 'ous plaît | qu'i soit | dans c' domaine 

orchestre de chambre | s'il vous plaît | qu'il soit | dans 

ce domaine 

Remarque: La réduction de qu'il en qu'i' est transcrite qu'il et non pas qui. 

Autres exemples: 

i' y a ou bien y a 

il y a ou bien (il) y a 

27

On peut écrire (il) y a si le il est absent de manière évidente. Mais nous tenons à 

souligner qu'il est inutile de faire des écoutes répétées pour décider si le il est présent ou 

non. 

Dans le langage parlé le ne de la négation est très souvent omis. Dans ce cas on ne l'écrit 

pas. 

j'en sais rien 

j'en sais rien 

chais pas ou bien chsais pas ou bien ... 

je sais pas ou bien je (ne) sais pas 

mais y a pas d' raison qu'i' soit pas là 

mais il y a pas de raison qu'il soit pas là 

ou bien mais (il n') y a pas de raison qu'il (ne) soit pas 

là 

3.3.4. Troncatures 

Les mots tronqués peuvent provenir de deux origines différentes : soit le locuteur s'arrête 

avant la fin du mot, soit le locuteur est coupé par le système d'enregistrement. Dans ce 

dernier cas le mot peut être tronqué au début : le locuteur a commencé à parler avant le 

début de l'enregistrement. La troncature est marquée par des parenthèses. Si le mot tronqué 

est connu (grâce au contexte) on note la partie manquante du mot entre parenthèses. 

notation : () 

vou() : troncature finale de voudrais, voulais,... 

()embre : troncature initiale de septembre, novembre, décembre,... 

après-de(main) : le mot complet peut être déduit du contexte 

3.3.5. Lapsus 

Il arrive que la prononciation erronée soit un mot correct de la langue. Dans ce cas, on 

transcrit les mots tel qu'ils ont été prononcés. 

une augmentation conséquence euh conséquente 

une augmentation conséquence euh conséquente 

3.3.6. Prononciation erronée 

Si on arrive à identifier le mot mal prononcé, on écrit le mot correct précédé d'une étoile. 

notation : *mot-correct 

pestacle 

28

*spectacle 

La prononciation effective peut être, en plus, signalée par une balise : 

rénumération 

*rémunération+[pron=rénumération] 

S'il s'agit de parole inintelligible, on utilise la notation suivante : 

notation : [pi] 

Si la parole est inintelligible parce qu'il s'agit de parole inaudible et faible, on peut noter ce 

type d'événement, si on veut la différencier du cas ci-dessus, par : 

notation : [pif] 

Le transcripteur est invité à insérer une balise de synchronisation près du mot (juste après le 

mot) mal prononcé (afin de poser un repère pour la segmentation automatique dans cette 

zone erronée). 

3.3.7. Liaisons 

On ne marque pas les liaisons dans la transcription orthographique. Les liaisons erronées 

sont relevées par la balise de prononciation. 

vingt-z-animaux 

vingt+[pron=vingt-z] animaux 

trop-z ennuyeux il voudrait-z y aller 

trop+[pron=trop-z] ennuyeux il voudrait y aller 

3.3.8. Épellations 

Toutes les lettres sont notées en majuscules séparées par des blancs, p. ex : 

P A R I S 

L'épellation des lettres accentuées peut conduire à différentes transcriptions, suivant l'énoncé 

du locuteur, par exemple : 

é accent aigu 

É accent aigu 

e accent aigu 

E accent aigu 

Remarque : l'épellation des lettres redoublées peut donner lieu à différentes transcriptions. 

Par exemple le locuteur doit épeler Vannes : 

v a n n e s 

V A N N E S 

29

v a deux n e s 

V A 2 N E S 

3.3.9. Ponctuation verbalisée 

Si un locuteur énonce la ponctuation (comme s'il faisait une dictée, verbalized punctuation) 

on écrit le mot correspondant en toutes lettres : 

cent-cinq point cinq 

105 point 5 

4. Vérification 

4.1. Comment vérifier la transcription ? 

• Ecoutez le signal tout en lisant la transcription. Stoppez et redémarrez aussi souvent 

que nécessaire. Utilisez de préférence la commande [Signal]/[Joue le 

segment] ou Shift-Tab. 

• La transcription est à modifier dans l'éditeur de texte. Dans une future version du 

logiciel, un correcteur orthographique devrait être disponible pour la correction des 

fautes d'orthographe (et plus généralement des fautes de frappe). 

• Les frontières des segments peuvent être déplacées ou supprimées 

• Les tours de paroles et les sections sont éditables en cliquant sur le bouton 

correspondant. 

• La correction orthographique est disponible par [Edition]/[Correction 

orthographique] 

30

Tutoriel TRANSCRIBER

Create successful ePaper yourself

Delete template?

Save as template?