14.07.2013 Views

Tutoriel TRANSCRIBER

Tutoriel TRANSCRIBER

Tutoriel TRANSCRIBER

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Version électronique du tutoriel disponible sur le site officiel du logiciel Transcriber :<br />

http://trans.sourceforge.net/en/transguidFR.php<br />

Transcriber<br />

a tool for segmenting, labeling and transcribing speech<br />

Manuel du transcripteur<br />

Conventions de transcription pour<br />

les enregistrements radio-télédiffusés<br />

Version 1.22, février 2005<br />

(valable avec les version 1.4.1 et plus récentes de Transcriber)<br />

1. Introduction<br />

1.1 Documents audios concernés<br />

1.2 Objectifs du manuel<br />

1.3 Versions<br />

2. Structuration de la transcription<br />

2.1. Enregistrement<br />

2.1.1. Comment transcrire un nouvel enregistrement ?<br />

2.1.2. Caractéristiques de l'enregistrement<br />

2.2. Segmentation du signal<br />

2.2.1. Où segmenter?<br />

2.2.2. Comment segmenter?<br />

2.3. Tours et locuteurs<br />

2.3.1. Comment créer les tours de parole?<br />

2.3.2. Caractéristiques des tours<br />

2.3.3. Caractéristiques des locuteurs<br />

2.3.4. Parole simultanée<br />

1


2.4. Sections et thèmes<br />

2.4.1. Que faut-il transcrire?<br />

2.4.2. Type et thème des sections<br />

2.4.3. Comment indiquer les sections?<br />

2.5. Transcription orthographique<br />

2.5.1. Comment transcrire?<br />

2.5.2. Conventions de transcription<br />

2.5.3. Transcription ou prononciation ambiguë<br />

2.6. Bruits et conditions acoustiques<br />

2.6.1. Comment noter les bruits ?<br />

2.6.2. Bruits de l'appareil phonatoire (non-parole)<br />

• Respiration<br />

• Autres bruits de bouche et de gorge<br />

2.6.3. Bruits extérieurs à l'acte de parole<br />

2.6.4. Changement de conditions acoustiques<br />

2.7 Commentaires<br />

3. Conventions de transcription<br />

3.1. Conventions d'écriture<br />

3.1.1. Majuscules/minuscules<br />

3.1.2. Ponctuations<br />

3.1.3. Apostrophe<br />

3.1.4. Trait d'union<br />

3.1.5. Sigles<br />

3.1.6. Abréviations<br />

3.1.7. Nombres<br />

3.1.8. Dates<br />

3.1.9. Chiffres romains<br />

3.1.10. Adresses internet<br />

3.1.11. Préfixes agglutinés ou non-agglutinés<br />

3.2. Mots hors-lexique<br />

3.2.1. Mots d'origine étrangère, changement de langue<br />

3.2.2. Noms propres étrangers<br />

3.2.3. Mots techniques, nouveaux mots, noms propres inconnus<br />

2


3.3. Spécificités du langage parlé<br />

3.3.1. Onomatopées<br />

3.3.2. Répétitions<br />

3.3.3. Elisions & formes réduites<br />

3.3.4. Troncatures<br />

3.3.5. Lapsus<br />

3.3.6. Prononciation erronée<br />

3.3.7. Liaisons<br />

3.3.8. Épellations<br />

3.3.9. Ponctuation verbalisée<br />

4. Vérification<br />

4.1. Comment vérifier la transcription ?<br />

1. Introduction<br />

La création manuelle de transcriptions d'enregistrements de journaux radio- ou télédiffusés,<br />

permet de faire avancer les recherches en transcription automatique, en indexation et en<br />

archivage de ce type de documents sonores.<br />

1.1. Documents audios concernés<br />

Les enregistrements de journaux radio- ou télédiffusés présentent un contenu varié : le signal<br />

acoustique peut correspondre à de la parole, de la musique ou du bruit, mais également à des<br />

mélanges de parole, de musique et de bruit. Ensuite il y a, pour la parole proprement dite,<br />

une grande diversité de locuteurs et de thèmes abordés. Plusieurs personnes peuvent<br />

intervenir sur un sujet donné successivement, voire simultanément. La qualité acoustique de<br />

l'enregistrement (fidélité) peut varier de manière considérable au cours du temps. La durée<br />

de tels enregistrements peut varier de quelques dizaines de minutes à plusieurs heures.<br />

Pour l'instant nous nous intéressons plus particulièrement aux nouvelles (journal, flash,<br />

revue de presse, incluant météo et bourse, économie, faits de société ...) dans le document<br />

sonore. Toute autre forme d'enregistrement (publicités, jeux, fictions....) ne sera pas<br />

transcrite.<br />

1.2. Objectifs du manuel<br />

Nous décrivons dans ce qui suit un ensemble de conventions pour structurer, annoter et<br />

transcrire des enregistrements de journaux radio- ou télédiffusés. Ces conventions doivent<br />

permettre de structurer les enregistrements au niveau du contenu thématique, des locuteurs<br />

et de la qualité acoustique. Les informations produites à ce sujet sont nommées annotations.<br />

La parole de chaque locuteur doit aussi être transcrite orthographiquement. C'est la<br />

transcription proprement dite. La transcription est ici la partie la plus importante et donc<br />

sur laquelle le maximum d'attention doit être porté.<br />

Les différentes étapes du travail de transcription sont : la segmentation de la bande son,<br />

l'identification des tours de paroles et des locuteurs, l'identification des sections thématiques,<br />

la transcription orthographique, et la vérification. Ces étapes peuvent être menées en<br />

3


parallèle ou au contraire appliquées séquentiellement sur de longues portion du signal,<br />

suivant le choix du transcripteur.<br />

1.3. Versions<br />

version 1.2.2 (février 2005) :<br />

• Ajout des conventions de transcriptions pour les préfixes agglutinés ou nonagglutinés<br />

(cf. §§ 3.1.11))<br />

version 1.2.1 (mars 2004) :<br />

• Mise à jour des conventions d'annotations des mots mals prononcés : ceux-ci doivent<br />

toujours être précédés d'une étoile même si une balise de prononciation effective "+<br />

[pron=...]" est présente (cf. §§ 3.3.6)<br />

• Ajout de conventions concernant la segmentation des passages sans locuteurs<br />

(musique, jingle, etc.) par création d'un tour de parole sans locuteur (cf. §§ 2.3.1)<br />

• Correction de l'orthographe de "pourcent" qui doit s'écrire "pour cent".<br />

• Diverses modifications mineures : mise en cohérence des présentes conventions avec<br />

l'interface graphique de Transcriber ([lexical=...] devient [lex=...], [pronounce=...]<br />

devient [pron=...] ...<br />

version 1.2 (octobre 2003) :<br />

• Conventions concernant les tours de parole traduite simultanément explicitées (cf. §§<br />

2.3.4)<br />

• Ajout de conventions concernant les nombres fractionnaires et ordinaux (cf. §§ 3.1.7)<br />

• Mise à jour des conventions concernant les chiffres romains (cf. §§ 3.1.9) et les<br />

adresses internet (§§ 3.1.10)<br />

version 1.1 (juillet 2003) :<br />

• L'exemple de France-Inter est remplacé par la graphie officielle France<br />

Inter.<br />

• Ajout de précisions sur l'utilisation du marqueur d'orthographe incertaine ^^ (cf. §§<br />

3.2.3)<br />

• Explicitation de l'utilisation du raccourci % (cf. fin §§ 3.1.7)<br />

• Le marquage des entités spécifiques par des guillemets est rendu facultatif dans<br />

l'attente de conventions plus détaillées (cf. §§ 3.1.1)<br />

• Abandon de la notation .point ou ,virgule pour la ponctuation épelée.<br />

version 1.0 (juin 1999) : La première version stable du présent manuel.<br />

2. Structuration de la transcription<br />

L'étape d'annotation vise à structurer les enregistrements, c'est-à-dire à segmenter et à<br />

décrire le signal acoustique à différents niveaux jugés pertinents pour le traitement ultérieur.<br />

Il s'agit ici principalement de l'identité du locuteur, de l'identification du contenu thématique,<br />

ou de la qualité du canal de transmission (acoustique).<br />

Actuellement, un document de transcription est structuré de la manière la suivante :<br />

• L'enregistrement correspond à la totalité de l'enregistrement à transcrire.<br />

• L'enregistrement est découpé en sections, délimitant les parties des émissions à<br />

transcrire, les enchaînements journalistiques, ou les parties non-transcrites.<br />

4


• À l'intérieur d'une section on va distinguer les tours de parole (turn) qui<br />

correspondent à des changements de locuteur.<br />

• Les tours de paroles sont eux-mêmes découpés en segments plus courts au moyen de<br />

points de synchronisation. La transcription proprement dite n'intervient qu'à ce<br />

niveau de structuration.<br />

• A certains points de synchronisation, des changements durables de bruit de fond sont<br />

indiqués ; cette segmentation en conditions acoustiques est indépendante de la<br />

structuration en tours et sections.<br />

2.1. Enregistrement<br />

2.1.1. Comment transcrire un nouvel enregistrement?<br />

• Démarrez Transcriber (cf. manuel de référence !)<br />

• Créez une nouvelle transcription avec le menu [Fichier]/[Nouvelle<br />

transcription]. Une fenêtre de dialogue propose de choisir le fichier son à<br />

transcrire.<br />

• Indiquez les informations générales associées à l'enregistrement dans la fenêtre<br />

[Fichiers]/[Paramètres de l'épisode].<br />

• Si vous voulez réutiliser certains locuteurs ou sujets d'une transcription précédente,<br />

vous pouvez le faire dès à présent avec [Edition]/[Locuteurs]/[Importer à<br />

partir du fichier...] et [Edition]/[Sujets]/[Importer à partir<br />

du fichier...].<br />

• Enregistrez la nouvelle transcription vide avec [Fichier]/[Enregistrer]. Un<br />

nom par défaut dérivé du nom du signal sera proposé.<br />

• Enregistrez la configuration avec [Options]/[Enregistrer la<br />

configuration], afin de réouvrir automatiquement ces fichiers au prochain<br />

démarrage<br />

Par la suite, pensez à enregistrer fréquemment votre travail avec [Fichier]/<br />

[Enregistrer] ou le raccourci Control-s, surtout si vous n'avez pas activé la<br />

sauvegarde automatique. Par ailleurs, un double affichage du signal (un avec une résolution<br />

de 10 secondes, l'autre de une minute environ) peut être pratique.<br />

2.1.2. Caractéristiques de l'enregistrement<br />

Les informations associées à un enregistrement, éditées avec [Fichiers]/[Paramètres<br />

de l'épisode], sont les suivantes :<br />

• l'identité du transcripteur (par exemple Claire Montaigne) est<br />

automatiquement remplie ;<br />

• le nom du fichier son à transcrire (par exemple franceinter980428-0700:0820)<br />

est automatiquement renseigné ;<br />

• la date et le numéro de version de la transcription sont automatiquement renseignés<br />

par le logiciel et ne peuvent pas être modifiés ;<br />

• le programme: la provenance du document sonore (c'est-à-dire qui a enregistré), la<br />

chaîne qui a diffusé le document (par exemple France Inter) et le nom de<br />

l'émission (par exemple tranche matinale 7-9) ;<br />

• la date de diffusion ;<br />

5


• la langue principale de diffusion.<br />

Pour des enregistrements de même nature (par exemple sur plusieurs jours) il convient de<br />

respecter la même nomenclature pour des programmes identiques.<br />

2.2. Segmentation du signal<br />

Pour fournir des repères temporels par rapport au signal, et pour faciliter le travail de<br />

transcription, on segmente le signal en insérant des balises temporelles instantanées de<br />

synchronisation (ou frontières).<br />

2.2.1. Où segmenter?<br />

Nous recommandons de faire correspondre ces balises à des groupes de souffle dans le<br />

signal ou à des marques de ponctuation dans le langage écrit. Pour des raisons techniques du<br />

traitement ultérieur il est également souhaitable de fournir une balise de synchronisation<br />

après différents types de problèmes au niveau acoustique (mots mal prononcés, bruit court<br />

superposé à un mot...).<br />

En résumé, l'insertion d'une frontière de synchronisation est recommandé dans les situations<br />

suivantes :<br />

• début et fin d'élocution,<br />

• respiration,<br />

• ponctuation,<br />

• mauvaise prononciation,<br />

• bruit instantané,<br />

• début et fin de musique...<br />

2.2.2. Comment segmenter?<br />

• Choisissez une résolution d'environ 30 secondes pour l'affichage du signal.<br />

• Lancez la restitution à partir du début du signal ou du début de la section non encore<br />

transcrite.<br />

• Pendant la restitution, à chaque instant correspondant à un changement de locuteur<br />

ou une zone de silence, une pause, une respiration, un changement de conditions<br />

acoustiques... insérez une frontière en pressant la touche Return. Une nouvelle<br />

ligne précédée d'un petit cercle apparaît dans la fenêtre de texte, et la segmentation<br />

sous le signal est scindée au niveau du curseur.<br />

Vous obtenez une segmentation grossière d'une partie du signal en intervalles de 5 à 20<br />

secondes en moyenne. Il est possible de positionner les frontières plus précisément par la<br />

suite.<br />

2.3. Tours et locuteurs<br />

À ce niveau on décrit la succession de tours de parole avec les différents locuteurs qui<br />

interviennent.<br />

2.3.1. Comment créer les tours de parole?<br />

• Affichez le signal à une résolution d'environ 30 secondes ou plus et écoutez le signal.<br />

6


• Si un nouveau locuteur prend la parole au début du segment courant, indiquez le<br />

début d'un nouveau tour de parole avec [Segmentation]/[Créer un<br />

tour...] ou le raccourci Control-t.<br />

• Le locuteur du tour doit être identifié :<br />

• Si le locuteur est connu et existe déjà dans la liste, il suffit de cliquer sur son<br />

nom.<br />

• Pour un nouveau locuteur, le nom peut être tapé directement au clavier. Si<br />

l'identité est inconnue cliquez simplement sur Créer un locuteur. Les<br />

caractéristiques du locuteur (l'orthographe précise de son nom, le genre,<br />

l'accent...) peuvent être modifiées plus tard.<br />

• S'il s'agit de parole superposée, validez l'option correspondante et identifiez le<br />

deuxième locuteur de la même façon.<br />

• D'autres caractéristiques du tour (type de parole, canal, qualité) peuvent<br />

éventuellement être renseignés.<br />

• Des tours de parole spécifiques avec l'indication "Pas de locuteur" doivent être<br />

utilisés pour les passages sans parole (musique, jingle, silence,etc.) d'une durée<br />

significative ( de l'ordre de 1s ou plus ) :<br />

NB : Les balises de bruit de fond ne doivent être utilisées que pour annoter un<br />

phénomène en arrière plan. Ainsi, prenons l'exemple d'un segment ne contenant<br />

que de la musique, il devra être annoté à l'aide d'une balise [musique] sans<br />

indication de bruit de fond, qui serait alors une redondance puisque<br />

l'information temporelle du segment délimite déjà l'évenement dans le temps et<br />

la balise en donne son type.<br />

A la création d'un tour, le locuteur proposé par défaut est l'avant-dernier utilisé, ce qui est<br />

pratique dans le cas d'un dialogue.<br />

7


2.3.2. Caractéristiques des tours<br />

Pour chaque tour de parole le transcripteur indique :<br />

• un identificateur du locuteur,<br />

et éventuellement si cela est demandé :<br />

• le type de parole : préparé, spontané<br />

• la qualité du son : bon, moyen, faible<br />

• le canal de transmission : intervention téléphonique ou prise en studio<br />

2.3.3. Caractéristiques des locuteurs<br />

Pour chaque nouveau locuteur le transcripteur indique :<br />

• le nom du locuteur s'il est identifié, sinon un numéro de locuteur avec un qualificatif<br />

(au titre duquel l'inconnu est intervenu dans l'émission).<br />

• le statut : orthographe connue ou incertaine.<br />

• le sexe du locuteur : homme, femme, inconnu<br />

• langue maternelle : oui/non.<br />

• l'accent : on peut spécifier ici les différents accents : régionaux, francophones,<br />

étrangers.<br />

• le statut global/local : un nom est global s'il est identifiable en dehors du contexte de<br />

la transcription (par exemple, un journaliste, un homme politique connu, etc.)<br />

Il est important de respecter l'orthographe des noms. On peut trouver les noms des<br />

journalistes et des différentes émissions radio et télé français dans le guide MédiaSid.<br />

On considère tout francophone (français, belge, suisse, québécois) de langue maternelle<br />

française.<br />

2.3.4. Parole simultanée<br />

Il faut distinguer différentes situations de parole superposée :<br />

• Un locuteur parle, et un autre intervient ponctuellement par des interjections (hum<br />

oui ...) ; il convient de noter ces dernières comme de simples bruits se superposant<br />

à la parole.<br />

• Un locuteur parle en premier plan, et une ou plusieurs voix sont audibles à un niveau<br />

moindre (par exemple la voix d'un traducteur est superposée à la voix d'origine) ;<br />

seule la voix au premier plan est transcrite et un marqueur de bruit de fond (de type<br />

parole ou conversation) doit être utilisé.<br />

• Deux locuteurs dialoguent, se coupent mutuellement la parole et parlent<br />

simultanément sur plusieurs mots. Le mécanisme de gestion de parole simultanée<br />

décrit ci-après peut être appliqué. En cas de difficulté, les segments pourront être<br />

annotés comme parole "non-transcrite" .<br />

• Si plus de deux locuteurs interviennent à un fort niveau sonore, il faut annoter la<br />

portion de signal comme "non-transcrite".<br />

Dans le cas de parole traduite simultanément, les règles précédemment énoncées<br />

s'appliquent. Ainsi si on entend le locuteur traduit s'exprimer seul pendant plus d'un mot, un<br />

tour de paroles sera créé. Pour les autres cas (moins d'un mot prononcé seul ou traducteur<br />

s'exprimant simultanément) on insérera une balise bruit de fond de type parole. L'intégralité<br />

du passage traduit sera encadré par deux balises de type commentaire: {traduction-}....{-<br />

8


traduction} :<br />

Dans le cas de parole simultanée avec deux locuteurs (cas numéro 3), le deuxième locuteur<br />

est identifié dans la fenêtre des paramètres du tour après avoir validé Parole<br />

superposée. L'affichage dans le logiciel est par exemple :<br />

Patricia Martin + Invite1<br />

1: évidemment découvert que<br />

2: enfin n'oubliez pas<br />

Dans la transcription, 1: va identifier les paroles (évidemment découvert que) du premier<br />

locuteur (Patricia Martin) et 2: les paroles (enfin n'oubliez pas) du deuxième locuteur<br />

Invite1. Les frontières au niveau du signal seront posées au niveau des frontières de mot,<br />

de sorte à inclure dans le segment ainsi découpé, toute la parole superposée (par exemple si<br />

le mot enfin du locuteur 2 ne démarre qu'à la fin du mot évidemment du locuteur 1, ce<br />

dernier est quand même inclus dans le segment).<br />

Cependant la transcription de ce type de signal est très coûteuse. À l'heure actuelle on ne sait<br />

pas traiter de manière satisfaisante la parole superposée et les transcriptions, mêmes si elles<br />

9


sont produites, ne sont pas encore exploitées. Le transcripteur peut donc choisir de marquer<br />

simplement le signal comme parole superposée sans transcription, avec éventuellement un<br />

commentaire décrivant la situation ou le contenu du dialogue.<br />

2.4. Sections et thèmes<br />

La structuration complète d'un enregistrement peut être complexe : une succession<br />

d'émissions, composées de sections journalistiques, subdivisées elles-mêmes en rubriques<br />

thématiques... En l'état actuel du logiciel, il faut choisir un seul niveau de découpage (en<br />

sections journalistiques ou en rubriques thématiques) et les frontières des segments ne sont<br />

pas toujours évidentes ; une structuration plus fine est envisagée pour l'avenir.<br />

2.4.1. Que faut-il transcrire?<br />

Un enregistrement peut contenir des segments sans intérêt pour le traitement automatique<br />

ultérieur. Les transcriptions sont limitées aux émissions d'information avec les messages<br />

d'introduction et de conclusion. Le reste sera annoté non-transcribed, c'est-à-dire<br />

inexploitable et ne sera pas transcrit.<br />

2.4.2. Type et thème des sections<br />

Un enregistrement est découpé en sections de 3 types :<br />

• Les segments de type report réfèrent à des parties d'émission à transcrire (journal,<br />

chronique...). Pour chaque section journalistique, le transcripteur peut indiquer un<br />

thème général (journal, revue de presse, chronique,<br />

politique, faits de société, économie, bourse, culture,<br />

sports, météo) choisi dans une liste prédéfinie, suivi éventuellement d'un titre<br />

résumé.<br />

• Les segments de type filler ne concernent pas directement le thème journalistique<br />

abordé, mais réfèrent plutôt à l'organisation rédactionnelle, à l'enchaînement des<br />

journalistes ou des invités etc.<br />

• Les segments de type non-trans sont les parties de l'enregistrement dont la<br />

transcription n'est pas souhaitée ; il convient d'indiquer au moins la nature de ces<br />

segments suivi éventuellement d'un titre résumé (par exemple : publicité -<br />

les prêts malins du CA).<br />

2.4.3. Comment indiquer les sections?<br />

• Affichez le signal à une résolution d'environ 30 secondes ou plus et écoutez le signal.<br />

• A chaque changement d'émission ou de sujet (et en fonction des consignes données),<br />

indiquez le début d'une nouvelle section avec [Segmentation]/[Créer une<br />

section...] ou le raccourci Control-e.<br />

• Indiquez pour chaque section :<br />

• le type de la section : report, filler, non-transcribed<br />

• un thème général (journal, politique intérieure,<br />

international,<br />

bourse, économie, culture, sports, météo, faits de<br />

société, revue, chronique, ...) suivi éventuellement d'une<br />

courte description du sujet.<br />

10


2.5. Transcription orthographique<br />

Nous abordons ici les problèmes de transcriptions des segments de parole. Ces conventions<br />

concernent d'abord la parole pour laquelle la transcription graphémique peut être ambiguë.<br />

Elles sont nécessaires ensuite pour coder les bruits, catégorie dans laquelle on regroupe tous<br />

les événements acoustiques non assimilables à des mots (ou entrées lexicales) de la langue.<br />

2.5.1. Comment transcrire?<br />

• Choisissez une résolution d'environ 10 secondes ou moins pour l'affichage du signal.<br />

• Allez au premier segment non transcrit en cliquant sur la ligne correspondante dans<br />

le texte ou à la position dans le signal.<br />

• Ecoutez ce segment avec [Signal]/[Joue le segment] ou un des raccourcis<br />

Shift-Tab ou Alt-Tab; vous pouvez faire une pause ou redémarrer à tout<br />

moment avec [Signal]/[Joue/Pause] ou le raccourci Tab.<br />

• Si nécessaire, ajustez la frontière entre le segment et son voisin en cliquant sur cette<br />

frontière avec la touche Control enfoncée (ou avec le bouton du milieu) puis en<br />

déplaçant la souris.<br />

• Tapez la transcription au clavier ; elle apparaît simultanément dans l'éditeur de texte<br />

et dans la segmentation sous le signal.<br />

• Certains événements (bruits divers, respirations...) peuvent être indiqués avec des<br />

balises spéciales par [Edition]/[Insérer une balise]/[...] ou Control-d.<br />

• Les changements durables de condition acoustique (bruits de fond persistants) sont à<br />

indiquer avec [Segmentation]/[Insérer un bruit de fond].<br />

2.5.2. Conventions de transcription<br />

La transcription graphémique doit permettre de prédire au mieux la prononciation du<br />

locuteur. Si une même séquence graphémique permet de générer différentes prononciations<br />

(typiquement les dates qu'on peut énoncer en utilisant mille et cent), on adoptera des<br />

conventions capables de lever l'ambiguïté. Les conventions concernent aussi les éléments de<br />

la langue pour lesquels la transcription n'est pas unique (typiquement les sigles et les<br />

épellations, ou encore les nombres qu'on peut écrire sous forme de séquence de chiffres ou<br />

comme séquence de mots). Dans tous les cas, les conventions adoptées visent à standardiser<br />

la forme graphémique attendue pour minimiser l'ambiguïté, éventuellement en utilisant des<br />

balises de prononciation. Les conventions n'étant pas exhaustives le transcripteur peut<br />

adopter par défaut une écriture telle qu'on peut la trouver dans des textes de journaux.<br />

Les conventions de transcription sont détaillées dans la 3ème partie.<br />

2.5.3. Transcription ou prononciation ambiguë<br />

La balise de prononciation permet de rajouter par dessus une graphie à prononciation<br />

multiple (typiquement les nombres, les sigles/acronymes, noms propres) une description<br />

levant l'ambiguïté de la prononciation.<br />

Il est difficile d'énoncer une règle stricte ici. La balise de prononciation permet de<br />

spécifier si un mot a été prononcé de manière peu standard, l'interprétation du standard<br />

dépendant évidemment du transcripteur. On peut utiliser la balise de prononciation aussi<br />

pour n'importe quel autre commentaire relatif à la prononciation d'un mot (par exemple le<br />

marquage du -euh typique en fin de mot de l'accent parisien).<br />

11


2.6. Bruits et conditions acoustiques<br />

Parmi les bruits on peut trouver de la parole ne correspondant pas à des mots proprement<br />

dits de la langue (mots tronqués, erronés, ... dont le cas est traité dans les conventions de<br />

transcription), des bruits émis par le locuteur (par son appareil phonatoire, mais qui ne sont<br />

pas de la parole, et donc dans la plupart des cas non-superposés à la parole : bruits de<br />

bouche, de gorge, toux, respirations) ou bien des bruits produits par des sources différentes<br />

de l'appareil phonatoire du locuteur. Ces derniers bruits sont plus gênants parce qu'ils se<br />

superposent en général à la parole, dégradant ainsi la qualité du signal enregistré. Les<br />

sources de bruit peuvent être, sur le lieu d'enregistrement, le locuteur lui-même ou son<br />

environnement : bruits d'écouteur ou froissements de papiers en général produits par le<br />

locuteur pendant qu'il parle, conversations annexes, radio, télé, claquements de porte,<br />

horloge, bruits de voiture, ... Le système d'enregistrement radio-télédiffusé peut également<br />

générer des bruits : bruits de micro, craquements de ligne téléphonique, bips, effet Larsen,<br />

raccrochement téléphone, ... Enfin certains bruits peuvent provenir du système de diffusion<br />

(parasites) ou d'enregistrement (souffle électrique).<br />

2.6.1. Comment noter les bruits ?<br />

Pour les bruits instantanés ou de courte durée, le transcripteur crée une balise de bruit par<br />

[Edition]/[Insérer une balise]/[Bruit instantané] ou Control-d, et<br />

indique :<br />

• la catégorie de la balise - un bruit, une balise de prononciation, d'annotation lexicale,<br />

de changement de langue, ou un commentaire.<br />

• la description du bruit ou de l'événement par une chaîne de caractères ; des valeurs<br />

prédéfinies sont proposées dans un menu.<br />

• l'étendue de la balise - balise instantanée, de début ou de fin, ou encore appliquée au<br />

mot précédent ou suivant.<br />

Par défaut, les balises de bruit sont affichées entre crochets. Si le bruit s'étend sur<br />

plusieurs mots on peut sélectionner les mots et insérer une balise ; les marqueurs de début<br />

et de fin seront automatiquement insérés autour.<br />

• Si le bruit advient entre deux mots le code est affiché comme un mot, c'est-à-dire<br />

séparé des mots voisins par des blancs : parole1 [b] parole2<br />

• Si le bruit se superpose au mot précédent ou suivant, à l'affichage le code<br />

correspondant est accolé au mot avec le caractère + (mais le transcripteur n'a pas à<br />

taper ce caractère)<br />

Affichage : parole+[b]<br />

• Si le bruit se superpose à plusieurs mots, des marqueurs de début et de fin seront<br />

utilisés.<br />

Affichage : parole1 [b-] parole2 [-b] parole3<br />

le bruit de type [b] commence avant parole2 et se termine avant parole3.<br />

Pour les bruits de longue durée, une autre procédure est détaillée plus loin (paragraphe<br />

2.6.4).<br />

2.6.2. Bruits de l'appareil phonatoire (non-parole)<br />

Ici nous considérons des bruits produits par l'appareil phonatoire du locuteur enregistré : en<br />

général ces bruits ne se superposent pas à la parole, sauf quand la personne parle en<br />

chuchotant ou en rigolant : je+[rire] voudrais+[rire] (on peut utiliser aussi des marqueurs de<br />

12


début et de fin : [rire-] je voudrais [-rire]).<br />

Pour ne pas trop compliquer la tâche du transcripteur (à identifier la nature exacte du bruit)<br />

les codes de bruit marqués en gras sont à utiliser par défaut pour un type de bruit donné.<br />

Si le transcripteur a envie de marquer plus particulièrement un bruit donné, il peut choisir un<br />

des codes proposés en retrait de la marge ; cependant, ces différences ne sont actuellement<br />

pas exploitées.<br />

Suggestion : le transcripteur peut accompagner les codes de bruit de balises temporelles de<br />

synchronisation (afin de poser un repère pour la segmentation automatique).<br />

Respiration<br />

• [r] : respiration<br />

• acte physiologique :<br />

• [i] : inspiration<br />

• [e] : expiration<br />

• [n] : reniflement<br />

• acte volontaire :<br />

• [pf] : souffle (on entend par souffle un acte de respiration volontairement<br />

bruyant pour marquer son désaccord ou sa mauvaise humeur, pour retenir un<br />

rire, ...)<br />

Autres bruits de bouche et de gorge<br />

• [bb] : bruit de bouche (ce code regroupe les bruits de lèvres, de langue ou autre<br />

combinaison, ...)<br />

• [tx] : toux, râclement de gorge, éternuement<br />

• [bg] : bruit de gorge (par exemple coup de glotte, bruit de larynx )<br />

• [rire] : rires du locuteur<br />

• [sif] : sifflement du locuteur<br />

• [ch] : le locuteur se parle en voix chuchotée pour faire un commentaire<br />

[ch-] voix chuchotée [-ch]<br />

2.6.3. Bruits extérieurs à l'acte de parole<br />

Nous regroupons dans cette section tous les bruits produits en dehors de l'appareil<br />

phonatoire du locuteur. La plupart de ces bruits peuvent se produire à n'importe quel instant<br />

de l'enregistrement, et peuvent donc se superposer au signal de parole, dégradant ainsi sa<br />

qualité.<br />

Tout bruit de nature indéterminée ou non-répertorié dans ce document peut être noté<br />

comme suit :<br />

• [b] : bruit indéterminé<br />

Bruits dus à l'environnement et au matériel d'enregistrement<br />

• [conv] : conversations dans le fond : il peut s'agir de personnes présentes, de public,<br />

de voitures, ...<br />

• [pap] : froissement de papiers.<br />

• [mic] : bruits micros.<br />

13


2.6.4. Changement de conditions acoustiques<br />

Lorsqu'un bruit s'étend sur une longue durée (bruit de fond persistant), un système de<br />

marquage spécifique doit être utilisé. La balise de bruit de fond est une balise instantanée<br />

décrivant un changement durable ans les conditions acoustiques. L'information apportée par<br />

cette balise reste valable à l'intérieur d'un même enregistrement jusqu'à l'apparition d'une<br />

nouvelle balise de bruit de fond, ou bien jusqu'à la fin de l'enregistrement.<br />

Le transcripteur positionne le curseur temporel à l'instant du changement de conditions<br />

acoustiques, choisit [Segmentation]/[Insérer un bruit de fond] et indique :<br />

• la nature : musique, parole ou conversations, bruit électrique, autre...<br />

Une icône de note de musique apparaît dans le texte à la position courante.<br />

Si le changement de conditions acoustiques est associé aux conditions d'enregistrement et lié<br />

au tour de parole (par exemple, une intervention téléphonique de très mauvaise qualité), il<br />

sera plus pratique d'utiliser le champ Fidelité=low dans les paramètres du tour de<br />

parole [Segmentation]/[Paramètres du tour...] , plutôt que la balise de bruit de<br />

fond.<br />

2.7. Commentaires<br />

Cette balise permet au transcripteur de commenter l'enregistrement (la parole ou les<br />

conditions acoustiques ) à transcrire. Le transcripteur peut également faire ici des remarques<br />

sur ce qui lui paraît utile pour faciliter la transcription.<br />

3. Conventions de transcription<br />

Concernant la transcription l'idée de base consiste à focaliser l'attention sur ce qui apparaît<br />

en premier plan. Si de multiples sources sonores sont présentes il convient de focaliser la<br />

transcription sur la source la plus émergente. Par exemple on entend en arrière-plan une<br />

personnalité parler une langue étrangère, un traducteur donnant la version française en<br />

premier plan. Il suffit de transcrire le traducteur en signalant de la parole en bruit de fond.<br />

On entend de la musique en premier plan avec des commentaires en arrière-plan. On peut<br />

annoter un tel segment comme musique avec comme bruit de fond de la parole (non<br />

transcrite). Si deux locuteurs se 'disputent' le premier plan, on transcrit les deux grâce au<br />

mécanisme de parole superposée. Cependant de manière générale on fait l'hypothèse qu'il<br />

n'y a qu'une source sonore unique au premier plan.<br />

De manière générale, dans tous les segments de parole qui ont été annotés transcribed<br />

(sections report ou filler), tout ce qui est entendu doit être transcrit : la transcription doit<br />

fournir la séquence orthographique exacte correspondant à ce que le locuteur a prononcé, à<br />

laquelle il faut rajouter dans la mesure du possible tous les événements extra-lexicaux<br />

présents dans le signal acoustique (les répétitions, hésitations, troncatures, bruits).<br />

3.1. Conventions d'écriture<br />

Le produit de la transcription est essentiellement une séquence de mots séparés par des<br />

espaces, entre lesquels s'intercalent des balises identifiant les bruits, les conditions<br />

acoustiques et diverses informations permettant de lever l'ambiguïté de prononciation.<br />

Autant que possible, il convient de respecter l'orthographe standard des mots. La<br />

14


ponctuation sert à marquer les frontières syntaxiques et prosodiques claires.<br />

Dans la suite les icônes représentent :<br />

= le locuteur dit<br />

= le transcripteur écrit<br />

3.1.1. Majuscules/minuscules<br />

Tout est transcrit en minuscules (pas de majuscule systématique en début de phrase).<br />

L'emploi des majuscules est réservé à la transcription des épellations et des sigles, au début<br />

des noms propres et dans des formules de politesse.<br />

Pour les noms propres d'organisation assimilables à des marques (tels que les journaux, les<br />

banques...) et utilisant des noms communs, les noms communs en question sont écrits avec<br />

des initiales majuscules.<br />

as-tu lu Le Monde, L'Humanité et Le Dimanche ...<br />

les journalistes du Monde, de L'Humanité et du Dimanche ...<br />

au Crédit Lyonnais<br />

Dans le doute, on peut suivre la pratique des journeaux qui peuvent ne mettre en majuscules<br />

que le premier mot d'un sigle :<br />

le Front national est au bord de l'implosion<br />

Pour les noms de lieux on adopte la convention d'écrire en minuscule le nom commun. S'il<br />

est suivi d'un nom propre, celui-ci a évidemment son initiale en majuscule.<br />

le lycée Anatole France<br />

l'opéra Garnier<br />

Des mots communs ayant fonction de nom propre (par exemple : titres d'émissions, de<br />

films, de livre, d'institutions ) s'écrivent entre guillemets. À l'intérieur des guillemets les<br />

noms communs sont écrits en minuscules.<br />

Par exemple :<br />

"le téléphone sonne" de ce soir sera consacré à "la chaîne de<br />

l'espoir"<br />

"le monde d'est en ouest et du nord au sud" sur France Inter<br />

"regards sur le monde" , Dominique Bromberger bonjour !<br />

bienvenue à "radio com , c'est vous"<br />

aux Etats-Unis , le "Monica gate" continue<br />

euh , je préfère "Tomb raider"<br />

le chanteur de "divine comédie"<br />

des associations comme "médecins du monde"<br />

le prix Louis-Delluc pour Cédric Kahn et son film "l'ennui"<br />

sortie aujourd'hui de "à la place du coeur" de Robert Guédiguian<br />

un bel exemple de Le Clézio dans "la fièvre"<br />

"neuf mois marathon" , Marie-Cécile Picquet , aux éditions "hors<br />

commerce"<br />

une grande opération "mains propres" a été lancée<br />

le "conseil économique et social"<br />

ils ont gagné la "terre promise"<br />

Pour les sigles étendus (c'est-à-dire prononcés en toutes lettres) la suite de mots composant<br />

15


le sigle est entourée de guillemets. Les noms communs y sont écrits en minuscules.<br />

le "fond monétaire international" a fonctionné<br />

le "commissariat à l'énergie atomique"<br />

l'"agence France presse"<br />

Notes : cette utilisation des guillemets demande à être précisée. Dans l'attente d'un véritable<br />

guide d'annotation des entités spécifiques, elle est facultative.<br />

Enfin, on met une majuscule à monsieur (ainsi qu'à madame, mademoiselle ...) dans les<br />

formules de politesse comme indiqué dans l'exemple :<br />

mais<br />

est-il vrai Monsieur le préfet que, ...<br />

le monsieur qui ...<br />

3.1.2. Ponctuations<br />

Il est recommandé de mettre des marques de ponctuation là où il y a des pauses dans le<br />

signal qui correspondent à des frontières syntaxiques, ou bien dans le cas où l'absence de<br />

ponctuation engendre une ambiguïté dans le texte.<br />

Attention : il faut précéder les signes de ponctuations d'un blanc.<br />

les fleurs sont fanées , le pain est devenu sec .<br />

Les marqueurs de ponctuations sont indicateurs du mode de l'énoncé :<br />

conclusif ''.'', interrogatif ``?'', exclamatif ``!'', hésitation ``...'', etc.<br />

Ces informations sont fortement liées à la prosodie et à la compréhension. Il est<br />

recommandé d'accompagner les marques de ponctuation forte (. ? !) d'une marque<br />

temporelle dans le signal (balise de synchronisation , permettant de segmenter).<br />

3.1.3. Apostrophe<br />

Il n'y a pas de séparateur entre l'apostrophe et le mot suivant.<br />

l'horaire<br />

l'arrivée<br />

jusqu'à<br />

3.1.4. Trait d'union<br />

Les mots liés par un trait d'union sont écrits normalement sans séparation par un blanc.<br />

après-midi<br />

voulez-vous<br />

anglo-saxons<br />

Attention : on ne relie pas par trait d'union les suites de noms propres. On peut marquer<br />

graphiquement le lien par un slash entouré de blancs.<br />

dans le Nord / Pas-de-Calais<br />

le trajet Paris / Toulouse<br />

16


3.1.5. Sigles<br />

Par défaut : les sigles sont notés par des majuscules non séparés par des blancs.<br />

s n c f<br />

SNCF<br />

otan<br />

OTAN<br />

c d rom, ina p g<br />

CDROM, INA PG<br />

Uniquement dans les cas d'ambiguïté, la distinction entre un sigle prononcé comme un<br />

mot et un sigle prononcé comme une suite de lettres se fera par l'ajout devant le sigle d'un<br />

underscore "_" s'il est lu ou d'un point d'exclamation "!" s'il est épelé, par exemple:<br />

l' onu ou l'o n u, c'est selon<br />

l'_ONU ou l'!ONU , c'est selon<br />

On peut observer des expressions complexes composées de sigles et de mots ou de<br />

fragments de mots (acronymes,...), de chiffres voire de ponctuation, par exemple :<br />

JCSat+[pron=J C sat] , RMIste , Smicard , Pacser ,<br />

l'autoroute A10 , l'association AC!<br />

La distinction entre sigle et lexie standard est parfois floue (ainsi, LASER qui était à<br />

l'origine un acronyme est devenu Laser puis laser). Pour l'utilisation des majuscules, on<br />

considèrera qu'à partir de 5 lettres un acronyme lu est lexicalisé et donc écrit en minuscules<br />

sauf la première lettre :<br />

Medef , Insee , Staps , Pacsé , Assedic (sigle lu, 5<br />

lettres ou plus)<br />

IFOP , SMIG , SFOR , PACS , ENA (sigle lu, 4 lettres ou moins)<br />

FM , ETA , CFDT , EHESS , FNSEA , DGCCRF (sigle épelé)<br />

Dans les cas mixtes comme RMiste, CDROM..., on prendra la graphie majoritaire des<br />

journaux: RMiste, CDROM....<br />

3.1.6. Abréviations<br />

Il existe dans la langue des abréviations standards comme etc pour et caetera. Les<br />

transcripteurs utilisent etc sans point accolé.<br />

et caetera<br />

etc<br />

17


okay<br />

OK<br />

3.1.7. Nombres<br />

Les nombres sont transcrits sous forme de suite de chiffres si la prononciation correspond à<br />

la syntaxe standard de prononciation des nombres (écrire la suite de mots est toujours<br />

autorisé, mais cela demande plus de travail et peut générer plus d'erreur de la part du<br />

transcripteur).<br />

soixante mille<br />

60000 ou bien 60 mille<br />

soixante millions<br />

60000000 ou bien 60 millions<br />

Attention: il ne faut pas introduire d'espace entre les chiffres!<br />

vingt virgule cinquante-sept<br />

20,57 ou bien 20 virgule 57<br />

un franc cinquante<br />

1 franc 50<br />

Attention: il ne faut pas écrire: 1,50 francs !<br />

cent cinquante-huit litres virgule neuf<br />

158 litres virgule 9<br />

Les fractions de l'unité (demi, tiers...) seront écrits en toutes lettres:<br />

deux tiers<br />

deux tiers ou 2 tiers<br />

Attention: il ne faut pas écrire: 2/3 !<br />

Les nombres ordinaux seront écrits en toutes lettres:<br />

le troisième<br />

le troisième<br />

Attention: il ne faut pas écrire: le 3ème !<br />

Le signe moins pouvant être confondu avec le tiret, il sera écrit en toutes lettres, ainsi que<br />

plus, fois, égale, etc. La seule exception est "pour cent", qui sera écrit % :<br />

18


moins dix degrés<br />

moins 10 degrés<br />

trois pour cent<br />

3 %<br />

3.1.8. Dates<br />

Pour les dates dont la prononciation peut être ambiguë (dix-neuf cent ou mille neuf cent), on<br />

utilisera une balise de prononciation dans le cas non-standard, s'appliquant au mot précédent<br />

(ou suivant). Le choix proposé par défaut est "19 cent...", il faudra veiller à le modifier<br />

manuellement en fonction du siècle en question, exemple pour 1660 on utilisera "16 cent..."<br />

mille neuf cent quatre-vingts<br />

1980<br />

dix-neuf cent quatre-vingts<br />

1980+[pron=19 cent...]<br />

3.1.9. Chiffres romains<br />

Ils peuvent être utilisés dans les noms de roi ou de pape (qui servent souvent à désigner des<br />

lieux publics ). La transcription se fait avec les chiffres romains, en ajoutant une balise de<br />

prononciation s'appliquant au mot précédent (ou suivant).<br />

l'hôtel Charles cinq<br />

l'hôtel Charles V+[pron=(chiffres romains:) 5]<br />

le stade Louis deux<br />

le stade Louis II+[pron=(chiffres romains:) 2]<br />

3.1.10. Adresses internet<br />

Pour les adresses internet (URL ou e-mail), la transcription se fait en notant l'adresse telle<br />

qu'elle s'écrit (habituellement tout en minuscules), et en ajoutant une balise de prononciation<br />

s'appliquant au mot précédent (ou suivant).<br />

telsonne at radio tiret france point f r<br />

telsonne@radio-france.fr+[pron=(URL:) telsonne at radio tiret France<br />

point FR]<br />

w w w point radio tiret france point f r<br />

www.radio-france.fr+[pron=(URL:) WWW point radio tiret France point FR]<br />

19


Dans le cas de présence d'inspirations, d'hésitations... au milieu de l'URL, celles-ci seront<br />

annotées dans la balise prononciation, par exemple il faut écrire :<br />

www.tf1.fr+[pron=(URL:) WWW [i] point TF() 1 point<br />

FR]<br />

Attention: il ne faut pas écrire:<br />

www [i].tf() 1.fr+[pron=(URL:) WWW point TF1 point FR]<br />

Dans le cas cas particulier d'une URL scindée, par exemple prononcée par plusieurs<br />

locuteurs, transcrire comme dans cet exemple :<br />

3.1.11. Préfixes agglutinés ou non-agglutinés<br />

anti ; archi ; auto ; bi ; co ; extra ; giga ; hyper ; hypo ;<br />

inter ; intra ; macro ; micro ; para ; poly ; super ; sur ;<br />

télé ; contre ; entre ; néo ; outre ; quasi ; mini ; ultra ;<br />

post ; pseudo ; pré ; ...<br />

On peut trouver sur Internet, dans les dictionnaires ou dans les livres de grammaire<br />

différentes règles orthographiques concernant les préfixes.<br />

Dans le cadre de nos transcriptions, afin de respecter notre souci de normalisation de corpus,<br />

nous devons mettre à plat des règles que nous suivrons systématiquement lors des<br />

transcriptions.<br />

Ci-dessous sont présentées les règles à appliquer :<br />

ANTI :<br />

--> toujours collé (antiaméricain) sauf :<br />

- avant un i (anti-infectieux, anti-israélien),<br />

- un mot lui-même composé (anti-sous-marin)<br />

- dans les mots forgés pour la circonstance (anti-Bush)<br />

exemples :<br />

20


antiallemand<br />

antiaméricains<br />

antiaméricanisme<br />

antiarabe<br />

anticastriste<br />

antichars<br />

antichimique<br />

antisectes<br />

antisémites<br />

antitabac<br />

anti-destin<br />

anti-incendie<br />

anti-israélien<br />

anti-israélienne<br />

anti-israéliennes<br />

ARCHI :<br />

--> toujours collé (archicomble) sauf avant un i<br />

AUTO :<br />

--> toujours collé (autoallumage) sauf :<br />

- avant un i (auto-immune),<br />

- avant un verbe,<br />

- si auto = voiture et non soi-même (auto-école).<br />

exemples :<br />

autoévaluation<br />

auto-détruire<br />

auto-proclamé<br />

auto-répliqué<br />

auto-école<br />

BI :<br />

--> toujours collé<br />

bicylindre<br />

bimoteur<br />

CO :<br />

--> toujours collé (coauteur) sauf :<br />

- devant un i, le i devient ï (coïnculpé)<br />

coprésidé<br />

colocataire<br />

EXTRA :<br />

--> toujours collé (extraconjugal, extraterrestre) sauf :<br />

- devant i, a, u (extra-atmosphérique)<br />

extraconjugales<br />

extraterrestre<br />

21


extra-atmosphérique<br />

GIGA :<br />

--> toujours collé<br />

HYPER :<br />

--> toujours collé<br />

hypersport<br />

HYPO :<br />

--> toujours collé<br />

INTER :<br />

--> toujours collé<br />

interauriculaire<br />

intergouvernementale<br />

interprofessionnelles<br />

interreligieux<br />

INTRA :<br />

--> toujours collé sauf :<br />

- devant i, a , u (intra-atomique, intra-utérin), et dans intra-muros<br />

MACRO :<br />

--> toujours collé<br />

macroéconomie<br />

MICRO :<br />

--> toujours collé (microentreprenariat) sauf :<br />

- devant i, o (micro-informatique, micro-onde)<br />

microétats<br />

micro-ordinateur<br />

micro-onde<br />

PARA :<br />

--> toujours collé (paramilitaire) sauf :<br />

- devant i, a , u<br />

POLY :<br />

--> toujours collé<br />

SUPER :<br />

--> toujours collé<br />

SUR :<br />

22


--> toujours collé<br />

surachalandé<br />

TÉLÉ :<br />

--> toujours collé<br />

CONTRE :<br />

--> aucune règle spécifique (voir dans le dictionnaire au cas par cas)<br />

contretemps (dans le dictionnaire)<br />

contre-allée<br />

contre-attaque<br />

contre-attaques<br />

contrebande<br />

contre-emploi<br />

contre-espionnage<br />

contre-expertise<br />

contre-feu<br />

contre-feux<br />

contre-manifestations<br />

contre-menaces<br />

contre-offensive<br />

contre-performances<br />

contre-pied<br />

contre-pouvoir<br />

ENTRE :<br />

--> aucune règle spécifique (voir dans le dictionnaire au cas par cas)<br />

entrechocs<br />

entre-temps<br />

entre-deux<br />

entre-déchirent<br />

NÉO :<br />

--> aucune règle spécifique (voir dans le dictionnaire au cas par cas)<br />

néo-frontiste<br />

néo-nazis<br />

néo-zélandais<br />

OUTRE :<br />

--> généralement avec tiret (outre-mer, outre-tombe, outre-atlantique), sauf pour le terme<br />

"outremer" lorsqu'il désigne une couleur, une nuance de bleu.<br />

Dans une expression adverbiale "outre" signifie "au delà de"<br />

outre-Manche<br />

outre-Rhin<br />

outre-mer<br />

23


QUASI :<br />

--> avec un tiret avant un nom (quasi-totalité) et un espace avant un adjectif (quasi estivale)<br />

devant un adjectif :<br />

quasi estivales<br />

quasi militaires (les commandes quasi militaires du...)<br />

devant un nom :<br />

quasi-fin<br />

quasi-homme<br />

devant un nom/adjectif, cela dépend du contexte:<br />

quasi-inconnu ou quasi inconnu<br />

une chose quasi inconnue…<br />

un quasi-inconnu… (très rare)<br />

CRYPTO :<br />

--> toujours collé<br />

MINI :<br />

--> toujours collé<br />

minijupe<br />

minibus<br />

minicassette<br />

minichaîne<br />

minisérie<br />

minisommet<br />

ULTRA :<br />

--> la tendance est à l'agglutination<br />

ultraguerrières<br />

ultraprudente<br />

ultrarépressive<br />

ultrasimple<br />

ultrason<br />

ultraroyaliste<br />

ainsi que pour :<br />

POST, PSEUDO, PRÉ, SIMILI, SUB :<br />

--> pas de règle précise, très souvent écrit avec un tiret<br />

Autres préfixes souvent écrits avec un tiret, et en tout cas<br />

normalement pas agglutinés :<br />

arrièreavantdemideux-<br />

24


doubleexfauxnonsanssemisousvice-<br />

Quelques autres mots souvent inclus dans des mots composés à tirets :<br />

court(s)date(s)grand(s)-<br />

-clé(s)<br />

-culte(s)<br />

-fleuve(s)<br />

-record(s)<br />

-type(s)<br />

3.2. Mots hors-lexique<br />

3.2.1. Mots d'origine étrangère, changement de langue<br />

Une balise de changement de langue permet d'identifier un mot ou une suite de mots qui ne<br />

font pas partie du parler français.<br />

Les mots d'origine étrangère (et absorbés dans la langue avec une prononciation donnée) ne<br />

sont pas marqués (par exemple week-end, playstation, business prononcés à<br />

l'anglaise). On considère ces prononciations comme ``standard''.<br />

En revanche des prononciations peu communes devront être signalées (par exemple les<br />

correspondants à l'étranger démarrant leur intervention par buon giorno di Roma,<br />

good morning from London... ).<br />

échangeant des potins [lang=anglais-] cashing up with gossip [lang=anglais]<br />

ça s'appelle l'[lang=anglais-] easy listening [-lang=anglais]<br />

cela reviendra à légaliser le sabouba+[lang=arabe]<br />

Il est inutile d'ajouter un marqueur d'orthographe incertaine aux mots étrangers, même si la<br />

transcription est simplement acoustique. Un segment de longue durée en langue étrangère<br />

doit être annoté non-trans.<br />

3.2.2. Noms propres étrangers<br />

Les noms propres Beatles, Clinton, les sigles CNN, CBS prononcés à l'anglaise<br />

correspondent au standard ; à l'inverse une prononciation à la française inhabituelle doit être<br />

spécifiée par une balise de prononciation :<br />

Bill Clinton , en français Guillaume Clinton+[pron=français]<br />

25


Pour des noms propres comme Morgan le standard dépend évidemment du contexte<br />

(Michèle Morgan ou Nelson Morgan par exemple). Mais pour des noms propres<br />

comme Benjamin, le contexte peut ne pas être suffisant : Benjamin Netanyahou peut<br />

admettre différentes prononciations.<br />

3.2.3. Mots techniques, nouveaux mots, noms propres inconnus<br />

Cette section concerne les problèmes d'écriture qui se posent pour des néologismes, entités<br />

idiosyncrasiques, des mots techniques .<br />

Dans un contexte particulier des mots nouveaux peuvent apparaître. Ces mots ne font pas<br />

partie du vocabulaire de la langue courante, et sont souvent ignorés des gens extérieurs à ce<br />

domaine particulier. Ceci est vrai pour des domaines techniques spécialisés, mais se<br />

rencontrent fréquemment aussi dans le milieu journalistique (par exemple le terme de puputch<br />

a été employé plusieurs fois début décembre 98). Ces mots sont à considérer comme<br />

des entités lexicales à part entière.<br />

Lorsque l'orthographe se déduit sans ambiguïté, il suffit de l'écrire sans balise<br />

supplémentaire :<br />

un télévirenquethon ? ça ne sonne pas très bien<br />

le greige , quelque part entre gris et beige<br />

la primature du chef est publiquement mise en cause<br />

Des noms propres inconnus (souvent d'origine étrangère) peuvent admettre plusieurs<br />

graphies en français. Afin de pouvoir normaliser ces graphies lors d'un traitement ultérieur, il<br />

est important de marquer les mots qui posent problèmes.<br />

Règle : tous mots techniques, idiosyncrasiques, noms propres, etc, dont la graphie est<br />

incertaine (non figée, et qu'un complément d'information permettrait de corriger ou<br />

confirmer), seront précédés par deux accents circonflexes :<br />

Exemples :<br />

^^mot_inconnu<br />

^^Annam ^^Lefebvre ^^Baranov ^^Tourner ^^Réresse<br />

^^Micoine ^^Itaï ^^Arad ^^Mougins ^^Mossey ^Klipffel<br />

^^Jaillard ^^Elina ^^Castella ^^Zwetaïeva ...<br />

De manière équivalente, une balise de commentaire lexical peut être utilisée :<br />

^^Guédet ou Guédet+[lex=orthographe incertaine]<br />

Remarque: Ceci ne s'applique pas aux mots qui ont deux orthographes possibles (on choisira<br />

la première venant à l'esprit) :<br />

clé ou clef , cuillère ou cuiller , aéroclub ou aéro-club , CDROM<br />

ou cédérom , etc<br />

En revanche, cela s'applique aux prénoms ambigus :<br />

^^Michèle ou ^^Michelle Martin ; ^^Danièle ou ^^Danielle<br />

Durand ; mais<br />

Michèle Morgan ; Danielle , avec 2 L ,<br />

26


3.3. Spécificités du langage parlé<br />

Lorsqu'on écoute attentivement le signal, on se rend compte que des parties de mots, voire<br />

des mots entiers peuvent avoir disparus.<br />

On peut être tenté de marquer graphémiquement les réductions produites par le locuteur. La<br />

consigne à suivre ici est de respecter l'orthographe standard: ne pas marquer, dans<br />

l'écriture, l'élision ou la réduction présente dans la parole. On peut utiliser la balise de<br />

prononciation ou la balise de commentaire, si on veut décrire les phénomènes observés.<br />

3.3.1. Onomatopées<br />

Les onomatopées font partie de la langue et sont à transcrire au même titre que les autres<br />

mots. Les plus fréquentes existent en général en tant que mots graphémiques, pour toutes les<br />

autres on devra créer des mots correspondants et maintenir cette liste à jour.<br />

Exemples :<br />

euh , ben, eh, hein, ah, hum, oh, hé,<br />

ouahou, huhum, hou, hop, aïe ...<br />

euh on voit que les ... , ah , comment dire<br />

et en fait euh bon ben<br />

l'indice Nikkei et non pas Mickey hein !<br />

eh bien ,<br />

hé oh comme vous dites !<br />

hou là là<br />

une étude sur le le hum ()<br />

ouahou , chic alors !<br />

on en parle plus , hop .<br />

3.3.2. Répétitions<br />

Les répétitions ne portent pas d'information et on tenterait naturellement de les éliminer dans<br />

un processus de transcription d'une dictée. Elles doivent être transcrites comme tout autre<br />

mot.<br />

le le le député ...<br />

3.3.3. Elisions & formes réduites<br />

La réduction peut porter sur un seul mot ou une suite de mots, par exemple:<br />

orches' de chambre | s'i 'ous plaît | qu'i soit | dans c' domaine<br />

orchestre de chambre | s'il vous plaît | qu'il soit | dans<br />

ce domaine<br />

Remarque: La réduction de qu'il en qu'i' est transcrite qu'il et non pas qui.<br />

Autres exemples:<br />

i' y a ou bien y a<br />

il y a ou bien (il) y a<br />

27


On peut écrire (il) y a si le il est absent de manière évidente. Mais nous tenons à<br />

souligner qu'il est inutile de faire des écoutes répétées pour décider si le il est présent ou<br />

non.<br />

Dans le langage parlé le ne de la négation est très souvent omis. Dans ce cas on ne l'écrit<br />

pas.<br />

j'en sais rien<br />

j'en sais rien<br />

chais pas ou bien chsais pas ou bien ...<br />

je sais pas ou bien je (ne) sais pas<br />

mais y a pas d' raison qu'i' soit pas là<br />

mais il y a pas de raison qu'il soit pas là<br />

ou bien mais (il n') y a pas de raison qu'il (ne) soit pas<br />

là<br />

3.3.4. Troncatures<br />

Les mots tronqués peuvent provenir de deux origines différentes : soit le locuteur s'arrête<br />

avant la fin du mot, soit le locuteur est coupé par le système d'enregistrement. Dans ce<br />

dernier cas le mot peut être tronqué au début : le locuteur a commencé à parler avant le<br />

début de l'enregistrement. La troncature est marquée par des parenthèses. Si le mot tronqué<br />

est connu (grâce au contexte) on note la partie manquante du mot entre parenthèses.<br />

notation : ()<br />

vou() : troncature finale de voudrais, voulais,...<br />

()embre : troncature initiale de septembre, novembre, décembre,...<br />

après-de(main) : le mot complet peut être déduit du contexte<br />

3.3.5. Lapsus<br />

Il arrive que la prononciation erronée soit un mot correct de la langue. Dans ce cas, on<br />

transcrit les mots tel qu'ils ont été prononcés.<br />

une augmentation conséquence euh conséquente<br />

une augmentation conséquence euh conséquente<br />

3.3.6. Prononciation erronée<br />

Si on arrive à identifier le mot mal prononcé, on écrit le mot correct précédé d'une étoile.<br />

notation : *mot-correct<br />

pestacle<br />

28


*spectacle<br />

La prononciation effective peut être, en plus, signalée par une balise :<br />

rénumération<br />

*rémunération+[pron=rénumération]<br />

S'il s'agit de parole inintelligible, on utilise la notation suivante :<br />

notation : [pi]<br />

Si la parole est inintelligible parce qu'il s'agit de parole inaudible et faible, on peut noter ce<br />

type d'événement, si on veut la différencier du cas ci-dessus, par :<br />

notation : [pif]<br />

Le transcripteur est invité à insérer une balise de synchronisation près du mot (juste après le<br />

mot) mal prononcé (afin de poser un repère pour la segmentation automatique dans cette<br />

zone erronée).<br />

3.3.7. Liaisons<br />

On ne marque pas les liaisons dans la transcription orthographique. Les liaisons erronées<br />

sont relevées par la balise de prononciation.<br />

vingt-z-animaux<br />

vingt+[pron=vingt-z] animaux<br />

trop-z ennuyeux il voudrait-z y aller<br />

trop+[pron=trop-z] ennuyeux il voudrait y aller<br />

3.3.8. Épellations<br />

Toutes les lettres sont notées en majuscules séparées par des blancs, p. ex :<br />

P A R I S<br />

L'épellation des lettres accentuées peut conduire à différentes transcriptions, suivant l'énoncé<br />

du locuteur, par exemple :<br />

é accent aigu<br />

É accent aigu<br />

e accent aigu<br />

E accent aigu<br />

Remarque : l'épellation des lettres redoublées peut donner lieu à différentes transcriptions.<br />

Par exemple le locuteur doit épeler Vannes :<br />

v a n n e s<br />

V A N N E S<br />

29


v a deux n e s<br />

V A 2 N E S<br />

3.3.9. Ponctuation verbalisée<br />

Si un locuteur énonce la ponctuation (comme s'il faisait une dictée, verbalized punctuation)<br />

on écrit le mot correspondant en toutes lettres :<br />

cent-cinq point cinq<br />

105 point 5<br />

4. Vérification<br />

4.1. Comment vérifier la transcription ?<br />

• Ecoutez le signal tout en lisant la transcription. Stoppez et redémarrez aussi souvent<br />

que nécessaire. Utilisez de préférence la commande [Signal]/[Joue le<br />

segment] ou Shift-Tab.<br />

• La transcription est à modifier dans l'éditeur de texte. Dans une future version du<br />

logiciel, un correcteur orthographique devrait être disponible pour la correction des<br />

fautes d'orthographe (et plus généralement des fautes de frappe).<br />

• Les frontières des segments peuvent être déplacées ou supprimées<br />

• Les tours de paroles et les sections sont éditables en cliquant sur le bouton<br />

correspondant.<br />

• La correction orthographique est disponible par [Edition]/[Correction<br />

orthographique]<br />

30

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!