Tutoriel TRANSCRIBER
Tutoriel TRANSCRIBER
Tutoriel TRANSCRIBER
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Version électronique du tutoriel disponible sur le site officiel du logiciel Transcriber :<br />
http://trans.sourceforge.net/en/transguidFR.php<br />
Transcriber<br />
a tool for segmenting, labeling and transcribing speech<br />
Manuel du transcripteur<br />
Conventions de transcription pour<br />
les enregistrements radio-télédiffusés<br />
Version 1.22, février 2005<br />
(valable avec les version 1.4.1 et plus récentes de Transcriber)<br />
1. Introduction<br />
1.1 Documents audios concernés<br />
1.2 Objectifs du manuel<br />
1.3 Versions<br />
2. Structuration de la transcription<br />
2.1. Enregistrement<br />
2.1.1. Comment transcrire un nouvel enregistrement ?<br />
2.1.2. Caractéristiques de l'enregistrement<br />
2.2. Segmentation du signal<br />
2.2.1. Où segmenter?<br />
2.2.2. Comment segmenter?<br />
2.3. Tours et locuteurs<br />
2.3.1. Comment créer les tours de parole?<br />
2.3.2. Caractéristiques des tours<br />
2.3.3. Caractéristiques des locuteurs<br />
2.3.4. Parole simultanée<br />
1
2.4. Sections et thèmes<br />
2.4.1. Que faut-il transcrire?<br />
2.4.2. Type et thème des sections<br />
2.4.3. Comment indiquer les sections?<br />
2.5. Transcription orthographique<br />
2.5.1. Comment transcrire?<br />
2.5.2. Conventions de transcription<br />
2.5.3. Transcription ou prononciation ambiguë<br />
2.6. Bruits et conditions acoustiques<br />
2.6.1. Comment noter les bruits ?<br />
2.6.2. Bruits de l'appareil phonatoire (non-parole)<br />
• Respiration<br />
• Autres bruits de bouche et de gorge<br />
2.6.3. Bruits extérieurs à l'acte de parole<br />
2.6.4. Changement de conditions acoustiques<br />
2.7 Commentaires<br />
3. Conventions de transcription<br />
3.1. Conventions d'écriture<br />
3.1.1. Majuscules/minuscules<br />
3.1.2. Ponctuations<br />
3.1.3. Apostrophe<br />
3.1.4. Trait d'union<br />
3.1.5. Sigles<br />
3.1.6. Abréviations<br />
3.1.7. Nombres<br />
3.1.8. Dates<br />
3.1.9. Chiffres romains<br />
3.1.10. Adresses internet<br />
3.1.11. Préfixes agglutinés ou non-agglutinés<br />
3.2. Mots hors-lexique<br />
3.2.1. Mots d'origine étrangère, changement de langue<br />
3.2.2. Noms propres étrangers<br />
3.2.3. Mots techniques, nouveaux mots, noms propres inconnus<br />
2
3.3. Spécificités du langage parlé<br />
3.3.1. Onomatopées<br />
3.3.2. Répétitions<br />
3.3.3. Elisions & formes réduites<br />
3.3.4. Troncatures<br />
3.3.5. Lapsus<br />
3.3.6. Prononciation erronée<br />
3.3.7. Liaisons<br />
3.3.8. Épellations<br />
3.3.9. Ponctuation verbalisée<br />
4. Vérification<br />
4.1. Comment vérifier la transcription ?<br />
1. Introduction<br />
La création manuelle de transcriptions d'enregistrements de journaux radio- ou télédiffusés,<br />
permet de faire avancer les recherches en transcription automatique, en indexation et en<br />
archivage de ce type de documents sonores.<br />
1.1. Documents audios concernés<br />
Les enregistrements de journaux radio- ou télédiffusés présentent un contenu varié : le signal<br />
acoustique peut correspondre à de la parole, de la musique ou du bruit, mais également à des<br />
mélanges de parole, de musique et de bruit. Ensuite il y a, pour la parole proprement dite,<br />
une grande diversité de locuteurs et de thèmes abordés. Plusieurs personnes peuvent<br />
intervenir sur un sujet donné successivement, voire simultanément. La qualité acoustique de<br />
l'enregistrement (fidélité) peut varier de manière considérable au cours du temps. La durée<br />
de tels enregistrements peut varier de quelques dizaines de minutes à plusieurs heures.<br />
Pour l'instant nous nous intéressons plus particulièrement aux nouvelles (journal, flash,<br />
revue de presse, incluant météo et bourse, économie, faits de société ...) dans le document<br />
sonore. Toute autre forme d'enregistrement (publicités, jeux, fictions....) ne sera pas<br />
transcrite.<br />
1.2. Objectifs du manuel<br />
Nous décrivons dans ce qui suit un ensemble de conventions pour structurer, annoter et<br />
transcrire des enregistrements de journaux radio- ou télédiffusés. Ces conventions doivent<br />
permettre de structurer les enregistrements au niveau du contenu thématique, des locuteurs<br />
et de la qualité acoustique. Les informations produites à ce sujet sont nommées annotations.<br />
La parole de chaque locuteur doit aussi être transcrite orthographiquement. C'est la<br />
transcription proprement dite. La transcription est ici la partie la plus importante et donc<br />
sur laquelle le maximum d'attention doit être porté.<br />
Les différentes étapes du travail de transcription sont : la segmentation de la bande son,<br />
l'identification des tours de paroles et des locuteurs, l'identification des sections thématiques,<br />
la transcription orthographique, et la vérification. Ces étapes peuvent être menées en<br />
3
parallèle ou au contraire appliquées séquentiellement sur de longues portion du signal,<br />
suivant le choix du transcripteur.<br />
1.3. Versions<br />
version 1.2.2 (février 2005) :<br />
• Ajout des conventions de transcriptions pour les préfixes agglutinés ou nonagglutinés<br />
(cf. §§ 3.1.11))<br />
version 1.2.1 (mars 2004) :<br />
• Mise à jour des conventions d'annotations des mots mals prononcés : ceux-ci doivent<br />
toujours être précédés d'une étoile même si une balise de prononciation effective "+<br />
[pron=...]" est présente (cf. §§ 3.3.6)<br />
• Ajout de conventions concernant la segmentation des passages sans locuteurs<br />
(musique, jingle, etc.) par création d'un tour de parole sans locuteur (cf. §§ 2.3.1)<br />
• Correction de l'orthographe de "pourcent" qui doit s'écrire "pour cent".<br />
• Diverses modifications mineures : mise en cohérence des présentes conventions avec<br />
l'interface graphique de Transcriber ([lexical=...] devient [lex=...], [pronounce=...]<br />
devient [pron=...] ...<br />
version 1.2 (octobre 2003) :<br />
• Conventions concernant les tours de parole traduite simultanément explicitées (cf. §§<br />
2.3.4)<br />
• Ajout de conventions concernant les nombres fractionnaires et ordinaux (cf. §§ 3.1.7)<br />
• Mise à jour des conventions concernant les chiffres romains (cf. §§ 3.1.9) et les<br />
adresses internet (§§ 3.1.10)<br />
version 1.1 (juillet 2003) :<br />
• L'exemple de France-Inter est remplacé par la graphie officielle France<br />
Inter.<br />
• Ajout de précisions sur l'utilisation du marqueur d'orthographe incertaine ^^ (cf. §§<br />
3.2.3)<br />
• Explicitation de l'utilisation du raccourci % (cf. fin §§ 3.1.7)<br />
• Le marquage des entités spécifiques par des guillemets est rendu facultatif dans<br />
l'attente de conventions plus détaillées (cf. §§ 3.1.1)<br />
• Abandon de la notation .point ou ,virgule pour la ponctuation épelée.<br />
version 1.0 (juin 1999) : La première version stable du présent manuel.<br />
2. Structuration de la transcription<br />
L'étape d'annotation vise à structurer les enregistrements, c'est-à-dire à segmenter et à<br />
décrire le signal acoustique à différents niveaux jugés pertinents pour le traitement ultérieur.<br />
Il s'agit ici principalement de l'identité du locuteur, de l'identification du contenu thématique,<br />
ou de la qualité du canal de transmission (acoustique).<br />
Actuellement, un document de transcription est structuré de la manière la suivante :<br />
• L'enregistrement correspond à la totalité de l'enregistrement à transcrire.<br />
• L'enregistrement est découpé en sections, délimitant les parties des émissions à<br />
transcrire, les enchaînements journalistiques, ou les parties non-transcrites.<br />
4
• À l'intérieur d'une section on va distinguer les tours de parole (turn) qui<br />
correspondent à des changements de locuteur.<br />
• Les tours de paroles sont eux-mêmes découpés en segments plus courts au moyen de<br />
points de synchronisation. La transcription proprement dite n'intervient qu'à ce<br />
niveau de structuration.<br />
• A certains points de synchronisation, des changements durables de bruit de fond sont<br />
indiqués ; cette segmentation en conditions acoustiques est indépendante de la<br />
structuration en tours et sections.<br />
2.1. Enregistrement<br />
2.1.1. Comment transcrire un nouvel enregistrement?<br />
• Démarrez Transcriber (cf. manuel de référence !)<br />
• Créez une nouvelle transcription avec le menu [Fichier]/[Nouvelle<br />
transcription]. Une fenêtre de dialogue propose de choisir le fichier son à<br />
transcrire.<br />
• Indiquez les informations générales associées à l'enregistrement dans la fenêtre<br />
[Fichiers]/[Paramètres de l'épisode].<br />
• Si vous voulez réutiliser certains locuteurs ou sujets d'une transcription précédente,<br />
vous pouvez le faire dès à présent avec [Edition]/[Locuteurs]/[Importer à<br />
partir du fichier...] et [Edition]/[Sujets]/[Importer à partir<br />
du fichier...].<br />
• Enregistrez la nouvelle transcription vide avec [Fichier]/[Enregistrer]. Un<br />
nom par défaut dérivé du nom du signal sera proposé.<br />
• Enregistrez la configuration avec [Options]/[Enregistrer la<br />
configuration], afin de réouvrir automatiquement ces fichiers au prochain<br />
démarrage<br />
Par la suite, pensez à enregistrer fréquemment votre travail avec [Fichier]/<br />
[Enregistrer] ou le raccourci Control-s, surtout si vous n'avez pas activé la<br />
sauvegarde automatique. Par ailleurs, un double affichage du signal (un avec une résolution<br />
de 10 secondes, l'autre de une minute environ) peut être pratique.<br />
2.1.2. Caractéristiques de l'enregistrement<br />
Les informations associées à un enregistrement, éditées avec [Fichiers]/[Paramètres<br />
de l'épisode], sont les suivantes :<br />
• l'identité du transcripteur (par exemple Claire Montaigne) est<br />
automatiquement remplie ;<br />
• le nom du fichier son à transcrire (par exemple franceinter980428-0700:0820)<br />
est automatiquement renseigné ;<br />
• la date et le numéro de version de la transcription sont automatiquement renseignés<br />
par le logiciel et ne peuvent pas être modifiés ;<br />
• le programme: la provenance du document sonore (c'est-à-dire qui a enregistré), la<br />
chaîne qui a diffusé le document (par exemple France Inter) et le nom de<br />
l'émission (par exemple tranche matinale 7-9) ;<br />
• la date de diffusion ;<br />
5
• la langue principale de diffusion.<br />
Pour des enregistrements de même nature (par exemple sur plusieurs jours) il convient de<br />
respecter la même nomenclature pour des programmes identiques.<br />
2.2. Segmentation du signal<br />
Pour fournir des repères temporels par rapport au signal, et pour faciliter le travail de<br />
transcription, on segmente le signal en insérant des balises temporelles instantanées de<br />
synchronisation (ou frontières).<br />
2.2.1. Où segmenter?<br />
Nous recommandons de faire correspondre ces balises à des groupes de souffle dans le<br />
signal ou à des marques de ponctuation dans le langage écrit. Pour des raisons techniques du<br />
traitement ultérieur il est également souhaitable de fournir une balise de synchronisation<br />
après différents types de problèmes au niveau acoustique (mots mal prononcés, bruit court<br />
superposé à un mot...).<br />
En résumé, l'insertion d'une frontière de synchronisation est recommandé dans les situations<br />
suivantes :<br />
• début et fin d'élocution,<br />
• respiration,<br />
• ponctuation,<br />
• mauvaise prononciation,<br />
• bruit instantané,<br />
• début et fin de musique...<br />
2.2.2. Comment segmenter?<br />
• Choisissez une résolution d'environ 30 secondes pour l'affichage du signal.<br />
• Lancez la restitution à partir du début du signal ou du début de la section non encore<br />
transcrite.<br />
• Pendant la restitution, à chaque instant correspondant à un changement de locuteur<br />
ou une zone de silence, une pause, une respiration, un changement de conditions<br />
acoustiques... insérez une frontière en pressant la touche Return. Une nouvelle<br />
ligne précédée d'un petit cercle apparaît dans la fenêtre de texte, et la segmentation<br />
sous le signal est scindée au niveau du curseur.<br />
Vous obtenez une segmentation grossière d'une partie du signal en intervalles de 5 à 20<br />
secondes en moyenne. Il est possible de positionner les frontières plus précisément par la<br />
suite.<br />
2.3. Tours et locuteurs<br />
À ce niveau on décrit la succession de tours de parole avec les différents locuteurs qui<br />
interviennent.<br />
2.3.1. Comment créer les tours de parole?<br />
• Affichez le signal à une résolution d'environ 30 secondes ou plus et écoutez le signal.<br />
6
• Si un nouveau locuteur prend la parole au début du segment courant, indiquez le<br />
début d'un nouveau tour de parole avec [Segmentation]/[Créer un<br />
tour...] ou le raccourci Control-t.<br />
• Le locuteur du tour doit être identifié :<br />
• Si le locuteur est connu et existe déjà dans la liste, il suffit de cliquer sur son<br />
nom.<br />
• Pour un nouveau locuteur, le nom peut être tapé directement au clavier. Si<br />
l'identité est inconnue cliquez simplement sur Créer un locuteur. Les<br />
caractéristiques du locuteur (l'orthographe précise de son nom, le genre,<br />
l'accent...) peuvent être modifiées plus tard.<br />
• S'il s'agit de parole superposée, validez l'option correspondante et identifiez le<br />
deuxième locuteur de la même façon.<br />
• D'autres caractéristiques du tour (type de parole, canal, qualité) peuvent<br />
éventuellement être renseignés.<br />
• Des tours de parole spécifiques avec l'indication "Pas de locuteur" doivent être<br />
utilisés pour les passages sans parole (musique, jingle, silence,etc.) d'une durée<br />
significative ( de l'ordre de 1s ou plus ) :<br />
NB : Les balises de bruit de fond ne doivent être utilisées que pour annoter un<br />
phénomène en arrière plan. Ainsi, prenons l'exemple d'un segment ne contenant<br />
que de la musique, il devra être annoté à l'aide d'une balise [musique] sans<br />
indication de bruit de fond, qui serait alors une redondance puisque<br />
l'information temporelle du segment délimite déjà l'évenement dans le temps et<br />
la balise en donne son type.<br />
A la création d'un tour, le locuteur proposé par défaut est l'avant-dernier utilisé, ce qui est<br />
pratique dans le cas d'un dialogue.<br />
7
2.3.2. Caractéristiques des tours<br />
Pour chaque tour de parole le transcripteur indique :<br />
• un identificateur du locuteur,<br />
et éventuellement si cela est demandé :<br />
• le type de parole : préparé, spontané<br />
• la qualité du son : bon, moyen, faible<br />
• le canal de transmission : intervention téléphonique ou prise en studio<br />
2.3.3. Caractéristiques des locuteurs<br />
Pour chaque nouveau locuteur le transcripteur indique :<br />
• le nom du locuteur s'il est identifié, sinon un numéro de locuteur avec un qualificatif<br />
(au titre duquel l'inconnu est intervenu dans l'émission).<br />
• le statut : orthographe connue ou incertaine.<br />
• le sexe du locuteur : homme, femme, inconnu<br />
• langue maternelle : oui/non.<br />
• l'accent : on peut spécifier ici les différents accents : régionaux, francophones,<br />
étrangers.<br />
• le statut global/local : un nom est global s'il est identifiable en dehors du contexte de<br />
la transcription (par exemple, un journaliste, un homme politique connu, etc.)<br />
Il est important de respecter l'orthographe des noms. On peut trouver les noms des<br />
journalistes et des différentes émissions radio et télé français dans le guide MédiaSid.<br />
On considère tout francophone (français, belge, suisse, québécois) de langue maternelle<br />
française.<br />
2.3.4. Parole simultanée<br />
Il faut distinguer différentes situations de parole superposée :<br />
• Un locuteur parle, et un autre intervient ponctuellement par des interjections (hum<br />
oui ...) ; il convient de noter ces dernières comme de simples bruits se superposant<br />
à la parole.<br />
• Un locuteur parle en premier plan, et une ou plusieurs voix sont audibles à un niveau<br />
moindre (par exemple la voix d'un traducteur est superposée à la voix d'origine) ;<br />
seule la voix au premier plan est transcrite et un marqueur de bruit de fond (de type<br />
parole ou conversation) doit être utilisé.<br />
• Deux locuteurs dialoguent, se coupent mutuellement la parole et parlent<br />
simultanément sur plusieurs mots. Le mécanisme de gestion de parole simultanée<br />
décrit ci-après peut être appliqué. En cas de difficulté, les segments pourront être<br />
annotés comme parole "non-transcrite" .<br />
• Si plus de deux locuteurs interviennent à un fort niveau sonore, il faut annoter la<br />
portion de signal comme "non-transcrite".<br />
Dans le cas de parole traduite simultanément, les règles précédemment énoncées<br />
s'appliquent. Ainsi si on entend le locuteur traduit s'exprimer seul pendant plus d'un mot, un<br />
tour de paroles sera créé. Pour les autres cas (moins d'un mot prononcé seul ou traducteur<br />
s'exprimant simultanément) on insérera une balise bruit de fond de type parole. L'intégralité<br />
du passage traduit sera encadré par deux balises de type commentaire: {traduction-}....{-<br />
8
traduction} :<br />
Dans le cas de parole simultanée avec deux locuteurs (cas numéro 3), le deuxième locuteur<br />
est identifié dans la fenêtre des paramètres du tour après avoir validé Parole<br />
superposée. L'affichage dans le logiciel est par exemple :<br />
Patricia Martin + Invite1<br />
1: évidemment découvert que<br />
2: enfin n'oubliez pas<br />
Dans la transcription, 1: va identifier les paroles (évidemment découvert que) du premier<br />
locuteur (Patricia Martin) et 2: les paroles (enfin n'oubliez pas) du deuxième locuteur<br />
Invite1. Les frontières au niveau du signal seront posées au niveau des frontières de mot,<br />
de sorte à inclure dans le segment ainsi découpé, toute la parole superposée (par exemple si<br />
le mot enfin du locuteur 2 ne démarre qu'à la fin du mot évidemment du locuteur 1, ce<br />
dernier est quand même inclus dans le segment).<br />
Cependant la transcription de ce type de signal est très coûteuse. À l'heure actuelle on ne sait<br />
pas traiter de manière satisfaisante la parole superposée et les transcriptions, mêmes si elles<br />
9
sont produites, ne sont pas encore exploitées. Le transcripteur peut donc choisir de marquer<br />
simplement le signal comme parole superposée sans transcription, avec éventuellement un<br />
commentaire décrivant la situation ou le contenu du dialogue.<br />
2.4. Sections et thèmes<br />
La structuration complète d'un enregistrement peut être complexe : une succession<br />
d'émissions, composées de sections journalistiques, subdivisées elles-mêmes en rubriques<br />
thématiques... En l'état actuel du logiciel, il faut choisir un seul niveau de découpage (en<br />
sections journalistiques ou en rubriques thématiques) et les frontières des segments ne sont<br />
pas toujours évidentes ; une structuration plus fine est envisagée pour l'avenir.<br />
2.4.1. Que faut-il transcrire?<br />
Un enregistrement peut contenir des segments sans intérêt pour le traitement automatique<br />
ultérieur. Les transcriptions sont limitées aux émissions d'information avec les messages<br />
d'introduction et de conclusion. Le reste sera annoté non-transcribed, c'est-à-dire<br />
inexploitable et ne sera pas transcrit.<br />
2.4.2. Type et thème des sections<br />
Un enregistrement est découpé en sections de 3 types :<br />
• Les segments de type report réfèrent à des parties d'émission à transcrire (journal,<br />
chronique...). Pour chaque section journalistique, le transcripteur peut indiquer un<br />
thème général (journal, revue de presse, chronique,<br />
politique, faits de société, économie, bourse, culture,<br />
sports, météo) choisi dans une liste prédéfinie, suivi éventuellement d'un titre<br />
résumé.<br />
• Les segments de type filler ne concernent pas directement le thème journalistique<br />
abordé, mais réfèrent plutôt à l'organisation rédactionnelle, à l'enchaînement des<br />
journalistes ou des invités etc.<br />
• Les segments de type non-trans sont les parties de l'enregistrement dont la<br />
transcription n'est pas souhaitée ; il convient d'indiquer au moins la nature de ces<br />
segments suivi éventuellement d'un titre résumé (par exemple : publicité -<br />
les prêts malins du CA).<br />
2.4.3. Comment indiquer les sections?<br />
• Affichez le signal à une résolution d'environ 30 secondes ou plus et écoutez le signal.<br />
• A chaque changement d'émission ou de sujet (et en fonction des consignes données),<br />
indiquez le début d'une nouvelle section avec [Segmentation]/[Créer une<br />
section...] ou le raccourci Control-e.<br />
• Indiquez pour chaque section :<br />
• le type de la section : report, filler, non-transcribed<br />
• un thème général (journal, politique intérieure,<br />
international,<br />
bourse, économie, culture, sports, météo, faits de<br />
société, revue, chronique, ...) suivi éventuellement d'une<br />
courte description du sujet.<br />
10
2.5. Transcription orthographique<br />
Nous abordons ici les problèmes de transcriptions des segments de parole. Ces conventions<br />
concernent d'abord la parole pour laquelle la transcription graphémique peut être ambiguë.<br />
Elles sont nécessaires ensuite pour coder les bruits, catégorie dans laquelle on regroupe tous<br />
les événements acoustiques non assimilables à des mots (ou entrées lexicales) de la langue.<br />
2.5.1. Comment transcrire?<br />
• Choisissez une résolution d'environ 10 secondes ou moins pour l'affichage du signal.<br />
• Allez au premier segment non transcrit en cliquant sur la ligne correspondante dans<br />
le texte ou à la position dans le signal.<br />
• Ecoutez ce segment avec [Signal]/[Joue le segment] ou un des raccourcis<br />
Shift-Tab ou Alt-Tab; vous pouvez faire une pause ou redémarrer à tout<br />
moment avec [Signal]/[Joue/Pause] ou le raccourci Tab.<br />
• Si nécessaire, ajustez la frontière entre le segment et son voisin en cliquant sur cette<br />
frontière avec la touche Control enfoncée (ou avec le bouton du milieu) puis en<br />
déplaçant la souris.<br />
• Tapez la transcription au clavier ; elle apparaît simultanément dans l'éditeur de texte<br />
et dans la segmentation sous le signal.<br />
• Certains événements (bruits divers, respirations...) peuvent être indiqués avec des<br />
balises spéciales par [Edition]/[Insérer une balise]/[...] ou Control-d.<br />
• Les changements durables de condition acoustique (bruits de fond persistants) sont à<br />
indiquer avec [Segmentation]/[Insérer un bruit de fond].<br />
2.5.2. Conventions de transcription<br />
La transcription graphémique doit permettre de prédire au mieux la prononciation du<br />
locuteur. Si une même séquence graphémique permet de générer différentes prononciations<br />
(typiquement les dates qu'on peut énoncer en utilisant mille et cent), on adoptera des<br />
conventions capables de lever l'ambiguïté. Les conventions concernent aussi les éléments de<br />
la langue pour lesquels la transcription n'est pas unique (typiquement les sigles et les<br />
épellations, ou encore les nombres qu'on peut écrire sous forme de séquence de chiffres ou<br />
comme séquence de mots). Dans tous les cas, les conventions adoptées visent à standardiser<br />
la forme graphémique attendue pour minimiser l'ambiguïté, éventuellement en utilisant des<br />
balises de prononciation. Les conventions n'étant pas exhaustives le transcripteur peut<br />
adopter par défaut une écriture telle qu'on peut la trouver dans des textes de journaux.<br />
Les conventions de transcription sont détaillées dans la 3ème partie.<br />
2.5.3. Transcription ou prononciation ambiguë<br />
La balise de prononciation permet de rajouter par dessus une graphie à prononciation<br />
multiple (typiquement les nombres, les sigles/acronymes, noms propres) une description<br />
levant l'ambiguïté de la prononciation.<br />
Il est difficile d'énoncer une règle stricte ici. La balise de prononciation permet de<br />
spécifier si un mot a été prononcé de manière peu standard, l'interprétation du standard<br />
dépendant évidemment du transcripteur. On peut utiliser la balise de prononciation aussi<br />
pour n'importe quel autre commentaire relatif à la prononciation d'un mot (par exemple le<br />
marquage du -euh typique en fin de mot de l'accent parisien).<br />
11
2.6. Bruits et conditions acoustiques<br />
Parmi les bruits on peut trouver de la parole ne correspondant pas à des mots proprement<br />
dits de la langue (mots tronqués, erronés, ... dont le cas est traité dans les conventions de<br />
transcription), des bruits émis par le locuteur (par son appareil phonatoire, mais qui ne sont<br />
pas de la parole, et donc dans la plupart des cas non-superposés à la parole : bruits de<br />
bouche, de gorge, toux, respirations) ou bien des bruits produits par des sources différentes<br />
de l'appareil phonatoire du locuteur. Ces derniers bruits sont plus gênants parce qu'ils se<br />
superposent en général à la parole, dégradant ainsi la qualité du signal enregistré. Les<br />
sources de bruit peuvent être, sur le lieu d'enregistrement, le locuteur lui-même ou son<br />
environnement : bruits d'écouteur ou froissements de papiers en général produits par le<br />
locuteur pendant qu'il parle, conversations annexes, radio, télé, claquements de porte,<br />
horloge, bruits de voiture, ... Le système d'enregistrement radio-télédiffusé peut également<br />
générer des bruits : bruits de micro, craquements de ligne téléphonique, bips, effet Larsen,<br />
raccrochement téléphone, ... Enfin certains bruits peuvent provenir du système de diffusion<br />
(parasites) ou d'enregistrement (souffle électrique).<br />
2.6.1. Comment noter les bruits ?<br />
Pour les bruits instantanés ou de courte durée, le transcripteur crée une balise de bruit par<br />
[Edition]/[Insérer une balise]/[Bruit instantané] ou Control-d, et<br />
indique :<br />
• la catégorie de la balise - un bruit, une balise de prononciation, d'annotation lexicale,<br />
de changement de langue, ou un commentaire.<br />
• la description du bruit ou de l'événement par une chaîne de caractères ; des valeurs<br />
prédéfinies sont proposées dans un menu.<br />
• l'étendue de la balise - balise instantanée, de début ou de fin, ou encore appliquée au<br />
mot précédent ou suivant.<br />
Par défaut, les balises de bruit sont affichées entre crochets. Si le bruit s'étend sur<br />
plusieurs mots on peut sélectionner les mots et insérer une balise ; les marqueurs de début<br />
et de fin seront automatiquement insérés autour.<br />
• Si le bruit advient entre deux mots le code est affiché comme un mot, c'est-à-dire<br />
séparé des mots voisins par des blancs : parole1 [b] parole2<br />
• Si le bruit se superpose au mot précédent ou suivant, à l'affichage le code<br />
correspondant est accolé au mot avec le caractère + (mais le transcripteur n'a pas à<br />
taper ce caractère)<br />
Affichage : parole+[b]<br />
• Si le bruit se superpose à plusieurs mots, des marqueurs de début et de fin seront<br />
utilisés.<br />
Affichage : parole1 [b-] parole2 [-b] parole3<br />
le bruit de type [b] commence avant parole2 et se termine avant parole3.<br />
Pour les bruits de longue durée, une autre procédure est détaillée plus loin (paragraphe<br />
2.6.4).<br />
2.6.2. Bruits de l'appareil phonatoire (non-parole)<br />
Ici nous considérons des bruits produits par l'appareil phonatoire du locuteur enregistré : en<br />
général ces bruits ne se superposent pas à la parole, sauf quand la personne parle en<br />
chuchotant ou en rigolant : je+[rire] voudrais+[rire] (on peut utiliser aussi des marqueurs de<br />
12
début et de fin : [rire-] je voudrais [-rire]).<br />
Pour ne pas trop compliquer la tâche du transcripteur (à identifier la nature exacte du bruit)<br />
les codes de bruit marqués en gras sont à utiliser par défaut pour un type de bruit donné.<br />
Si le transcripteur a envie de marquer plus particulièrement un bruit donné, il peut choisir un<br />
des codes proposés en retrait de la marge ; cependant, ces différences ne sont actuellement<br />
pas exploitées.<br />
Suggestion : le transcripteur peut accompagner les codes de bruit de balises temporelles de<br />
synchronisation (afin de poser un repère pour la segmentation automatique).<br />
Respiration<br />
• [r] : respiration<br />
• acte physiologique :<br />
• [i] : inspiration<br />
• [e] : expiration<br />
• [n] : reniflement<br />
• acte volontaire :<br />
• [pf] : souffle (on entend par souffle un acte de respiration volontairement<br />
bruyant pour marquer son désaccord ou sa mauvaise humeur, pour retenir un<br />
rire, ...)<br />
Autres bruits de bouche et de gorge<br />
• [bb] : bruit de bouche (ce code regroupe les bruits de lèvres, de langue ou autre<br />
combinaison, ...)<br />
• [tx] : toux, râclement de gorge, éternuement<br />
• [bg] : bruit de gorge (par exemple coup de glotte, bruit de larynx )<br />
• [rire] : rires du locuteur<br />
• [sif] : sifflement du locuteur<br />
• [ch] : le locuteur se parle en voix chuchotée pour faire un commentaire<br />
[ch-] voix chuchotée [-ch]<br />
2.6.3. Bruits extérieurs à l'acte de parole<br />
Nous regroupons dans cette section tous les bruits produits en dehors de l'appareil<br />
phonatoire du locuteur. La plupart de ces bruits peuvent se produire à n'importe quel instant<br />
de l'enregistrement, et peuvent donc se superposer au signal de parole, dégradant ainsi sa<br />
qualité.<br />
Tout bruit de nature indéterminée ou non-répertorié dans ce document peut être noté<br />
comme suit :<br />
• [b] : bruit indéterminé<br />
Bruits dus à l'environnement et au matériel d'enregistrement<br />
• [conv] : conversations dans le fond : il peut s'agir de personnes présentes, de public,<br />
de voitures, ...<br />
• [pap] : froissement de papiers.<br />
• [mic] : bruits micros.<br />
13
2.6.4. Changement de conditions acoustiques<br />
Lorsqu'un bruit s'étend sur une longue durée (bruit de fond persistant), un système de<br />
marquage spécifique doit être utilisé. La balise de bruit de fond est une balise instantanée<br />
décrivant un changement durable ans les conditions acoustiques. L'information apportée par<br />
cette balise reste valable à l'intérieur d'un même enregistrement jusqu'à l'apparition d'une<br />
nouvelle balise de bruit de fond, ou bien jusqu'à la fin de l'enregistrement.<br />
Le transcripteur positionne le curseur temporel à l'instant du changement de conditions<br />
acoustiques, choisit [Segmentation]/[Insérer un bruit de fond] et indique :<br />
• la nature : musique, parole ou conversations, bruit électrique, autre...<br />
Une icône de note de musique apparaît dans le texte à la position courante.<br />
Si le changement de conditions acoustiques est associé aux conditions d'enregistrement et lié<br />
au tour de parole (par exemple, une intervention téléphonique de très mauvaise qualité), il<br />
sera plus pratique d'utiliser le champ Fidelité=low dans les paramètres du tour de<br />
parole [Segmentation]/[Paramètres du tour...] , plutôt que la balise de bruit de<br />
fond.<br />
2.7. Commentaires<br />
Cette balise permet au transcripteur de commenter l'enregistrement (la parole ou les<br />
conditions acoustiques ) à transcrire. Le transcripteur peut également faire ici des remarques<br />
sur ce qui lui paraît utile pour faciliter la transcription.<br />
3. Conventions de transcription<br />
Concernant la transcription l'idée de base consiste à focaliser l'attention sur ce qui apparaît<br />
en premier plan. Si de multiples sources sonores sont présentes il convient de focaliser la<br />
transcription sur la source la plus émergente. Par exemple on entend en arrière-plan une<br />
personnalité parler une langue étrangère, un traducteur donnant la version française en<br />
premier plan. Il suffit de transcrire le traducteur en signalant de la parole en bruit de fond.<br />
On entend de la musique en premier plan avec des commentaires en arrière-plan. On peut<br />
annoter un tel segment comme musique avec comme bruit de fond de la parole (non<br />
transcrite). Si deux locuteurs se 'disputent' le premier plan, on transcrit les deux grâce au<br />
mécanisme de parole superposée. Cependant de manière générale on fait l'hypothèse qu'il<br />
n'y a qu'une source sonore unique au premier plan.<br />
De manière générale, dans tous les segments de parole qui ont été annotés transcribed<br />
(sections report ou filler), tout ce qui est entendu doit être transcrit : la transcription doit<br />
fournir la séquence orthographique exacte correspondant à ce que le locuteur a prononcé, à<br />
laquelle il faut rajouter dans la mesure du possible tous les événements extra-lexicaux<br />
présents dans le signal acoustique (les répétitions, hésitations, troncatures, bruits).<br />
3.1. Conventions d'écriture<br />
Le produit de la transcription est essentiellement une séquence de mots séparés par des<br />
espaces, entre lesquels s'intercalent des balises identifiant les bruits, les conditions<br />
acoustiques et diverses informations permettant de lever l'ambiguïté de prononciation.<br />
Autant que possible, il convient de respecter l'orthographe standard des mots. La<br />
14
ponctuation sert à marquer les frontières syntaxiques et prosodiques claires.<br />
Dans la suite les icônes représentent :<br />
= le locuteur dit<br />
= le transcripteur écrit<br />
3.1.1. Majuscules/minuscules<br />
Tout est transcrit en minuscules (pas de majuscule systématique en début de phrase).<br />
L'emploi des majuscules est réservé à la transcription des épellations et des sigles, au début<br />
des noms propres et dans des formules de politesse.<br />
Pour les noms propres d'organisation assimilables à des marques (tels que les journaux, les<br />
banques...) et utilisant des noms communs, les noms communs en question sont écrits avec<br />
des initiales majuscules.<br />
as-tu lu Le Monde, L'Humanité et Le Dimanche ...<br />
les journalistes du Monde, de L'Humanité et du Dimanche ...<br />
au Crédit Lyonnais<br />
Dans le doute, on peut suivre la pratique des journeaux qui peuvent ne mettre en majuscules<br />
que le premier mot d'un sigle :<br />
le Front national est au bord de l'implosion<br />
Pour les noms de lieux on adopte la convention d'écrire en minuscule le nom commun. S'il<br />
est suivi d'un nom propre, celui-ci a évidemment son initiale en majuscule.<br />
le lycée Anatole France<br />
l'opéra Garnier<br />
Des mots communs ayant fonction de nom propre (par exemple : titres d'émissions, de<br />
films, de livre, d'institutions ) s'écrivent entre guillemets. À l'intérieur des guillemets les<br />
noms communs sont écrits en minuscules.<br />
Par exemple :<br />
"le téléphone sonne" de ce soir sera consacré à "la chaîne de<br />
l'espoir"<br />
"le monde d'est en ouest et du nord au sud" sur France Inter<br />
"regards sur le monde" , Dominique Bromberger bonjour !<br />
bienvenue à "radio com , c'est vous"<br />
aux Etats-Unis , le "Monica gate" continue<br />
euh , je préfère "Tomb raider"<br />
le chanteur de "divine comédie"<br />
des associations comme "médecins du monde"<br />
le prix Louis-Delluc pour Cédric Kahn et son film "l'ennui"<br />
sortie aujourd'hui de "à la place du coeur" de Robert Guédiguian<br />
un bel exemple de Le Clézio dans "la fièvre"<br />
"neuf mois marathon" , Marie-Cécile Picquet , aux éditions "hors<br />
commerce"<br />
une grande opération "mains propres" a été lancée<br />
le "conseil économique et social"<br />
ils ont gagné la "terre promise"<br />
Pour les sigles étendus (c'est-à-dire prononcés en toutes lettres) la suite de mots composant<br />
15
le sigle est entourée de guillemets. Les noms communs y sont écrits en minuscules.<br />
le "fond monétaire international" a fonctionné<br />
le "commissariat à l'énergie atomique"<br />
l'"agence France presse"<br />
Notes : cette utilisation des guillemets demande à être précisée. Dans l'attente d'un véritable<br />
guide d'annotation des entités spécifiques, elle est facultative.<br />
Enfin, on met une majuscule à monsieur (ainsi qu'à madame, mademoiselle ...) dans les<br />
formules de politesse comme indiqué dans l'exemple :<br />
mais<br />
est-il vrai Monsieur le préfet que, ...<br />
le monsieur qui ...<br />
3.1.2. Ponctuations<br />
Il est recommandé de mettre des marques de ponctuation là où il y a des pauses dans le<br />
signal qui correspondent à des frontières syntaxiques, ou bien dans le cas où l'absence de<br />
ponctuation engendre une ambiguïté dans le texte.<br />
Attention : il faut précéder les signes de ponctuations d'un blanc.<br />
les fleurs sont fanées , le pain est devenu sec .<br />
Les marqueurs de ponctuations sont indicateurs du mode de l'énoncé :<br />
conclusif ''.'', interrogatif ``?'', exclamatif ``!'', hésitation ``...'', etc.<br />
Ces informations sont fortement liées à la prosodie et à la compréhension. Il est<br />
recommandé d'accompagner les marques de ponctuation forte (. ? !) d'une marque<br />
temporelle dans le signal (balise de synchronisation , permettant de segmenter).<br />
3.1.3. Apostrophe<br />
Il n'y a pas de séparateur entre l'apostrophe et le mot suivant.<br />
l'horaire<br />
l'arrivée<br />
jusqu'à<br />
3.1.4. Trait d'union<br />
Les mots liés par un trait d'union sont écrits normalement sans séparation par un blanc.<br />
après-midi<br />
voulez-vous<br />
anglo-saxons<br />
Attention : on ne relie pas par trait d'union les suites de noms propres. On peut marquer<br />
graphiquement le lien par un slash entouré de blancs.<br />
dans le Nord / Pas-de-Calais<br />
le trajet Paris / Toulouse<br />
16
3.1.5. Sigles<br />
Par défaut : les sigles sont notés par des majuscules non séparés par des blancs.<br />
s n c f<br />
SNCF<br />
otan<br />
OTAN<br />
c d rom, ina p g<br />
CDROM, INA PG<br />
Uniquement dans les cas d'ambiguïté, la distinction entre un sigle prononcé comme un<br />
mot et un sigle prononcé comme une suite de lettres se fera par l'ajout devant le sigle d'un<br />
underscore "_" s'il est lu ou d'un point d'exclamation "!" s'il est épelé, par exemple:<br />
l' onu ou l'o n u, c'est selon<br />
l'_ONU ou l'!ONU , c'est selon<br />
On peut observer des expressions complexes composées de sigles et de mots ou de<br />
fragments de mots (acronymes,...), de chiffres voire de ponctuation, par exemple :<br />
JCSat+[pron=J C sat] , RMIste , Smicard , Pacser ,<br />
l'autoroute A10 , l'association AC!<br />
La distinction entre sigle et lexie standard est parfois floue (ainsi, LASER qui était à<br />
l'origine un acronyme est devenu Laser puis laser). Pour l'utilisation des majuscules, on<br />
considèrera qu'à partir de 5 lettres un acronyme lu est lexicalisé et donc écrit en minuscules<br />
sauf la première lettre :<br />
Medef , Insee , Staps , Pacsé , Assedic (sigle lu, 5<br />
lettres ou plus)<br />
IFOP , SMIG , SFOR , PACS , ENA (sigle lu, 4 lettres ou moins)<br />
FM , ETA , CFDT , EHESS , FNSEA , DGCCRF (sigle épelé)<br />
Dans les cas mixtes comme RMiste, CDROM..., on prendra la graphie majoritaire des<br />
journaux: RMiste, CDROM....<br />
3.1.6. Abréviations<br />
Il existe dans la langue des abréviations standards comme etc pour et caetera. Les<br />
transcripteurs utilisent etc sans point accolé.<br />
et caetera<br />
etc<br />
17
okay<br />
OK<br />
3.1.7. Nombres<br />
Les nombres sont transcrits sous forme de suite de chiffres si la prononciation correspond à<br />
la syntaxe standard de prononciation des nombres (écrire la suite de mots est toujours<br />
autorisé, mais cela demande plus de travail et peut générer plus d'erreur de la part du<br />
transcripteur).<br />
soixante mille<br />
60000 ou bien 60 mille<br />
soixante millions<br />
60000000 ou bien 60 millions<br />
Attention: il ne faut pas introduire d'espace entre les chiffres!<br />
vingt virgule cinquante-sept<br />
20,57 ou bien 20 virgule 57<br />
un franc cinquante<br />
1 franc 50<br />
Attention: il ne faut pas écrire: 1,50 francs !<br />
cent cinquante-huit litres virgule neuf<br />
158 litres virgule 9<br />
Les fractions de l'unité (demi, tiers...) seront écrits en toutes lettres:<br />
deux tiers<br />
deux tiers ou 2 tiers<br />
Attention: il ne faut pas écrire: 2/3 !<br />
Les nombres ordinaux seront écrits en toutes lettres:<br />
le troisième<br />
le troisième<br />
Attention: il ne faut pas écrire: le 3ème !<br />
Le signe moins pouvant être confondu avec le tiret, il sera écrit en toutes lettres, ainsi que<br />
plus, fois, égale, etc. La seule exception est "pour cent", qui sera écrit % :<br />
18
moins dix degrés<br />
moins 10 degrés<br />
trois pour cent<br />
3 %<br />
3.1.8. Dates<br />
Pour les dates dont la prononciation peut être ambiguë (dix-neuf cent ou mille neuf cent), on<br />
utilisera une balise de prononciation dans le cas non-standard, s'appliquant au mot précédent<br />
(ou suivant). Le choix proposé par défaut est "19 cent...", il faudra veiller à le modifier<br />
manuellement en fonction du siècle en question, exemple pour 1660 on utilisera "16 cent..."<br />
mille neuf cent quatre-vingts<br />
1980<br />
dix-neuf cent quatre-vingts<br />
1980+[pron=19 cent...]<br />
3.1.9. Chiffres romains<br />
Ils peuvent être utilisés dans les noms de roi ou de pape (qui servent souvent à désigner des<br />
lieux publics ). La transcription se fait avec les chiffres romains, en ajoutant une balise de<br />
prononciation s'appliquant au mot précédent (ou suivant).<br />
l'hôtel Charles cinq<br />
l'hôtel Charles V+[pron=(chiffres romains:) 5]<br />
le stade Louis deux<br />
le stade Louis II+[pron=(chiffres romains:) 2]<br />
3.1.10. Adresses internet<br />
Pour les adresses internet (URL ou e-mail), la transcription se fait en notant l'adresse telle<br />
qu'elle s'écrit (habituellement tout en minuscules), et en ajoutant une balise de prononciation<br />
s'appliquant au mot précédent (ou suivant).<br />
telsonne at radio tiret france point f r<br />
telsonne@radio-france.fr+[pron=(URL:) telsonne at radio tiret France<br />
point FR]<br />
w w w point radio tiret france point f r<br />
www.radio-france.fr+[pron=(URL:) WWW point radio tiret France point FR]<br />
19
Dans le cas de présence d'inspirations, d'hésitations... au milieu de l'URL, celles-ci seront<br />
annotées dans la balise prononciation, par exemple il faut écrire :<br />
www.tf1.fr+[pron=(URL:) WWW [i] point TF() 1 point<br />
FR]<br />
Attention: il ne faut pas écrire:<br />
www [i].tf() 1.fr+[pron=(URL:) WWW point TF1 point FR]<br />
Dans le cas cas particulier d'une URL scindée, par exemple prononcée par plusieurs<br />
locuteurs, transcrire comme dans cet exemple :<br />
3.1.11. Préfixes agglutinés ou non-agglutinés<br />
anti ; archi ; auto ; bi ; co ; extra ; giga ; hyper ; hypo ;<br />
inter ; intra ; macro ; micro ; para ; poly ; super ; sur ;<br />
télé ; contre ; entre ; néo ; outre ; quasi ; mini ; ultra ;<br />
post ; pseudo ; pré ; ...<br />
On peut trouver sur Internet, dans les dictionnaires ou dans les livres de grammaire<br />
différentes règles orthographiques concernant les préfixes.<br />
Dans le cadre de nos transcriptions, afin de respecter notre souci de normalisation de corpus,<br />
nous devons mettre à plat des règles que nous suivrons systématiquement lors des<br />
transcriptions.<br />
Ci-dessous sont présentées les règles à appliquer :<br />
ANTI :<br />
--> toujours collé (antiaméricain) sauf :<br />
- avant un i (anti-infectieux, anti-israélien),<br />
- un mot lui-même composé (anti-sous-marin)<br />
- dans les mots forgés pour la circonstance (anti-Bush)<br />
exemples :<br />
20
antiallemand<br />
antiaméricains<br />
antiaméricanisme<br />
antiarabe<br />
anticastriste<br />
antichars<br />
antichimique<br />
antisectes<br />
antisémites<br />
antitabac<br />
anti-destin<br />
anti-incendie<br />
anti-israélien<br />
anti-israélienne<br />
anti-israéliennes<br />
ARCHI :<br />
--> toujours collé (archicomble) sauf avant un i<br />
AUTO :<br />
--> toujours collé (autoallumage) sauf :<br />
- avant un i (auto-immune),<br />
- avant un verbe,<br />
- si auto = voiture et non soi-même (auto-école).<br />
exemples :<br />
autoévaluation<br />
auto-détruire<br />
auto-proclamé<br />
auto-répliqué<br />
auto-école<br />
BI :<br />
--> toujours collé<br />
bicylindre<br />
bimoteur<br />
CO :<br />
--> toujours collé (coauteur) sauf :<br />
- devant un i, le i devient ï (coïnculpé)<br />
coprésidé<br />
colocataire<br />
EXTRA :<br />
--> toujours collé (extraconjugal, extraterrestre) sauf :<br />
- devant i, a, u (extra-atmosphérique)<br />
extraconjugales<br />
extraterrestre<br />
21
extra-atmosphérique<br />
GIGA :<br />
--> toujours collé<br />
HYPER :<br />
--> toujours collé<br />
hypersport<br />
HYPO :<br />
--> toujours collé<br />
INTER :<br />
--> toujours collé<br />
interauriculaire<br />
intergouvernementale<br />
interprofessionnelles<br />
interreligieux<br />
INTRA :<br />
--> toujours collé sauf :<br />
- devant i, a , u (intra-atomique, intra-utérin), et dans intra-muros<br />
MACRO :<br />
--> toujours collé<br />
macroéconomie<br />
MICRO :<br />
--> toujours collé (microentreprenariat) sauf :<br />
- devant i, o (micro-informatique, micro-onde)<br />
microétats<br />
micro-ordinateur<br />
micro-onde<br />
PARA :<br />
--> toujours collé (paramilitaire) sauf :<br />
- devant i, a , u<br />
POLY :<br />
--> toujours collé<br />
SUPER :<br />
--> toujours collé<br />
SUR :<br />
22
--> toujours collé<br />
surachalandé<br />
TÉLÉ :<br />
--> toujours collé<br />
CONTRE :<br />
--> aucune règle spécifique (voir dans le dictionnaire au cas par cas)<br />
contretemps (dans le dictionnaire)<br />
contre-allée<br />
contre-attaque<br />
contre-attaques<br />
contrebande<br />
contre-emploi<br />
contre-espionnage<br />
contre-expertise<br />
contre-feu<br />
contre-feux<br />
contre-manifestations<br />
contre-menaces<br />
contre-offensive<br />
contre-performances<br />
contre-pied<br />
contre-pouvoir<br />
ENTRE :<br />
--> aucune règle spécifique (voir dans le dictionnaire au cas par cas)<br />
entrechocs<br />
entre-temps<br />
entre-deux<br />
entre-déchirent<br />
NÉO :<br />
--> aucune règle spécifique (voir dans le dictionnaire au cas par cas)<br />
néo-frontiste<br />
néo-nazis<br />
néo-zélandais<br />
OUTRE :<br />
--> généralement avec tiret (outre-mer, outre-tombe, outre-atlantique), sauf pour le terme<br />
"outremer" lorsqu'il désigne une couleur, une nuance de bleu.<br />
Dans une expression adverbiale "outre" signifie "au delà de"<br />
outre-Manche<br />
outre-Rhin<br />
outre-mer<br />
23
QUASI :<br />
--> avec un tiret avant un nom (quasi-totalité) et un espace avant un adjectif (quasi estivale)<br />
devant un adjectif :<br />
quasi estivales<br />
quasi militaires (les commandes quasi militaires du...)<br />
devant un nom :<br />
quasi-fin<br />
quasi-homme<br />
devant un nom/adjectif, cela dépend du contexte:<br />
quasi-inconnu ou quasi inconnu<br />
une chose quasi inconnue…<br />
un quasi-inconnu… (très rare)<br />
CRYPTO :<br />
--> toujours collé<br />
MINI :<br />
--> toujours collé<br />
minijupe<br />
minibus<br />
minicassette<br />
minichaîne<br />
minisérie<br />
minisommet<br />
ULTRA :<br />
--> la tendance est à l'agglutination<br />
ultraguerrières<br />
ultraprudente<br />
ultrarépressive<br />
ultrasimple<br />
ultrason<br />
ultraroyaliste<br />
ainsi que pour :<br />
POST, PSEUDO, PRÉ, SIMILI, SUB :<br />
--> pas de règle précise, très souvent écrit avec un tiret<br />
Autres préfixes souvent écrits avec un tiret, et en tout cas<br />
normalement pas agglutinés :<br />
arrièreavantdemideux-<br />
24
doubleexfauxnonsanssemisousvice-<br />
Quelques autres mots souvent inclus dans des mots composés à tirets :<br />
court(s)date(s)grand(s)-<br />
-clé(s)<br />
-culte(s)<br />
-fleuve(s)<br />
-record(s)<br />
-type(s)<br />
3.2. Mots hors-lexique<br />
3.2.1. Mots d'origine étrangère, changement de langue<br />
Une balise de changement de langue permet d'identifier un mot ou une suite de mots qui ne<br />
font pas partie du parler français.<br />
Les mots d'origine étrangère (et absorbés dans la langue avec une prononciation donnée) ne<br />
sont pas marqués (par exemple week-end, playstation, business prononcés à<br />
l'anglaise). On considère ces prononciations comme ``standard''.<br />
En revanche des prononciations peu communes devront être signalées (par exemple les<br />
correspondants à l'étranger démarrant leur intervention par buon giorno di Roma,<br />
good morning from London... ).<br />
échangeant des potins [lang=anglais-] cashing up with gossip [lang=anglais]<br />
ça s'appelle l'[lang=anglais-] easy listening [-lang=anglais]<br />
cela reviendra à légaliser le sabouba+[lang=arabe]<br />
Il est inutile d'ajouter un marqueur d'orthographe incertaine aux mots étrangers, même si la<br />
transcription est simplement acoustique. Un segment de longue durée en langue étrangère<br />
doit être annoté non-trans.<br />
3.2.2. Noms propres étrangers<br />
Les noms propres Beatles, Clinton, les sigles CNN, CBS prononcés à l'anglaise<br />
correspondent au standard ; à l'inverse une prononciation à la française inhabituelle doit être<br />
spécifiée par une balise de prononciation :<br />
Bill Clinton , en français Guillaume Clinton+[pron=français]<br />
25
Pour des noms propres comme Morgan le standard dépend évidemment du contexte<br />
(Michèle Morgan ou Nelson Morgan par exemple). Mais pour des noms propres<br />
comme Benjamin, le contexte peut ne pas être suffisant : Benjamin Netanyahou peut<br />
admettre différentes prononciations.<br />
3.2.3. Mots techniques, nouveaux mots, noms propres inconnus<br />
Cette section concerne les problèmes d'écriture qui se posent pour des néologismes, entités<br />
idiosyncrasiques, des mots techniques .<br />
Dans un contexte particulier des mots nouveaux peuvent apparaître. Ces mots ne font pas<br />
partie du vocabulaire de la langue courante, et sont souvent ignorés des gens extérieurs à ce<br />
domaine particulier. Ceci est vrai pour des domaines techniques spécialisés, mais se<br />
rencontrent fréquemment aussi dans le milieu journalistique (par exemple le terme de puputch<br />
a été employé plusieurs fois début décembre 98). Ces mots sont à considérer comme<br />
des entités lexicales à part entière.<br />
Lorsque l'orthographe se déduit sans ambiguïté, il suffit de l'écrire sans balise<br />
supplémentaire :<br />
un télévirenquethon ? ça ne sonne pas très bien<br />
le greige , quelque part entre gris et beige<br />
la primature du chef est publiquement mise en cause<br />
Des noms propres inconnus (souvent d'origine étrangère) peuvent admettre plusieurs<br />
graphies en français. Afin de pouvoir normaliser ces graphies lors d'un traitement ultérieur, il<br />
est important de marquer les mots qui posent problèmes.<br />
Règle : tous mots techniques, idiosyncrasiques, noms propres, etc, dont la graphie est<br />
incertaine (non figée, et qu'un complément d'information permettrait de corriger ou<br />
confirmer), seront précédés par deux accents circonflexes :<br />
Exemples :<br />
^^mot_inconnu<br />
^^Annam ^^Lefebvre ^^Baranov ^^Tourner ^^Réresse<br />
^^Micoine ^^Itaï ^^Arad ^^Mougins ^^Mossey ^Klipffel<br />
^^Jaillard ^^Elina ^^Castella ^^Zwetaïeva ...<br />
De manière équivalente, une balise de commentaire lexical peut être utilisée :<br />
^^Guédet ou Guédet+[lex=orthographe incertaine]<br />
Remarque: Ceci ne s'applique pas aux mots qui ont deux orthographes possibles (on choisira<br />
la première venant à l'esprit) :<br />
clé ou clef , cuillère ou cuiller , aéroclub ou aéro-club , CDROM<br />
ou cédérom , etc<br />
En revanche, cela s'applique aux prénoms ambigus :<br />
^^Michèle ou ^^Michelle Martin ; ^^Danièle ou ^^Danielle<br />
Durand ; mais<br />
Michèle Morgan ; Danielle , avec 2 L ,<br />
26
3.3. Spécificités du langage parlé<br />
Lorsqu'on écoute attentivement le signal, on se rend compte que des parties de mots, voire<br />
des mots entiers peuvent avoir disparus.<br />
On peut être tenté de marquer graphémiquement les réductions produites par le locuteur. La<br />
consigne à suivre ici est de respecter l'orthographe standard: ne pas marquer, dans<br />
l'écriture, l'élision ou la réduction présente dans la parole. On peut utiliser la balise de<br />
prononciation ou la balise de commentaire, si on veut décrire les phénomènes observés.<br />
3.3.1. Onomatopées<br />
Les onomatopées font partie de la langue et sont à transcrire au même titre que les autres<br />
mots. Les plus fréquentes existent en général en tant que mots graphémiques, pour toutes les<br />
autres on devra créer des mots correspondants et maintenir cette liste à jour.<br />
Exemples :<br />
euh , ben, eh, hein, ah, hum, oh, hé,<br />
ouahou, huhum, hou, hop, aïe ...<br />
euh on voit que les ... , ah , comment dire<br />
et en fait euh bon ben<br />
l'indice Nikkei et non pas Mickey hein !<br />
eh bien ,<br />
hé oh comme vous dites !<br />
hou là là<br />
une étude sur le le hum ()<br />
ouahou , chic alors !<br />
on en parle plus , hop .<br />
3.3.2. Répétitions<br />
Les répétitions ne portent pas d'information et on tenterait naturellement de les éliminer dans<br />
un processus de transcription d'une dictée. Elles doivent être transcrites comme tout autre<br />
mot.<br />
le le le député ...<br />
3.3.3. Elisions & formes réduites<br />
La réduction peut porter sur un seul mot ou une suite de mots, par exemple:<br />
orches' de chambre | s'i 'ous plaît | qu'i soit | dans c' domaine<br />
orchestre de chambre | s'il vous plaît | qu'il soit | dans<br />
ce domaine<br />
Remarque: La réduction de qu'il en qu'i' est transcrite qu'il et non pas qui.<br />
Autres exemples:<br />
i' y a ou bien y a<br />
il y a ou bien (il) y a<br />
27
On peut écrire (il) y a si le il est absent de manière évidente. Mais nous tenons à<br />
souligner qu'il est inutile de faire des écoutes répétées pour décider si le il est présent ou<br />
non.<br />
Dans le langage parlé le ne de la négation est très souvent omis. Dans ce cas on ne l'écrit<br />
pas.<br />
j'en sais rien<br />
j'en sais rien<br />
chais pas ou bien chsais pas ou bien ...<br />
je sais pas ou bien je (ne) sais pas<br />
mais y a pas d' raison qu'i' soit pas là<br />
mais il y a pas de raison qu'il soit pas là<br />
ou bien mais (il n') y a pas de raison qu'il (ne) soit pas<br />
là<br />
3.3.4. Troncatures<br />
Les mots tronqués peuvent provenir de deux origines différentes : soit le locuteur s'arrête<br />
avant la fin du mot, soit le locuteur est coupé par le système d'enregistrement. Dans ce<br />
dernier cas le mot peut être tronqué au début : le locuteur a commencé à parler avant le<br />
début de l'enregistrement. La troncature est marquée par des parenthèses. Si le mot tronqué<br />
est connu (grâce au contexte) on note la partie manquante du mot entre parenthèses.<br />
notation : ()<br />
vou() : troncature finale de voudrais, voulais,...<br />
()embre : troncature initiale de septembre, novembre, décembre,...<br />
après-de(main) : le mot complet peut être déduit du contexte<br />
3.3.5. Lapsus<br />
Il arrive que la prononciation erronée soit un mot correct de la langue. Dans ce cas, on<br />
transcrit les mots tel qu'ils ont été prononcés.<br />
une augmentation conséquence euh conséquente<br />
une augmentation conséquence euh conséquente<br />
3.3.6. Prononciation erronée<br />
Si on arrive à identifier le mot mal prononcé, on écrit le mot correct précédé d'une étoile.<br />
notation : *mot-correct<br />
pestacle<br />
28
*spectacle<br />
La prononciation effective peut être, en plus, signalée par une balise :<br />
rénumération<br />
*rémunération+[pron=rénumération]<br />
S'il s'agit de parole inintelligible, on utilise la notation suivante :<br />
notation : [pi]<br />
Si la parole est inintelligible parce qu'il s'agit de parole inaudible et faible, on peut noter ce<br />
type d'événement, si on veut la différencier du cas ci-dessus, par :<br />
notation : [pif]<br />
Le transcripteur est invité à insérer une balise de synchronisation près du mot (juste après le<br />
mot) mal prononcé (afin de poser un repère pour la segmentation automatique dans cette<br />
zone erronée).<br />
3.3.7. Liaisons<br />
On ne marque pas les liaisons dans la transcription orthographique. Les liaisons erronées<br />
sont relevées par la balise de prononciation.<br />
vingt-z-animaux<br />
vingt+[pron=vingt-z] animaux<br />
trop-z ennuyeux il voudrait-z y aller<br />
trop+[pron=trop-z] ennuyeux il voudrait y aller<br />
3.3.8. Épellations<br />
Toutes les lettres sont notées en majuscules séparées par des blancs, p. ex :<br />
P A R I S<br />
L'épellation des lettres accentuées peut conduire à différentes transcriptions, suivant l'énoncé<br />
du locuteur, par exemple :<br />
é accent aigu<br />
É accent aigu<br />
e accent aigu<br />
E accent aigu<br />
Remarque : l'épellation des lettres redoublées peut donner lieu à différentes transcriptions.<br />
Par exemple le locuteur doit épeler Vannes :<br />
v a n n e s<br />
V A N N E S<br />
29
v a deux n e s<br />
V A 2 N E S<br />
3.3.9. Ponctuation verbalisée<br />
Si un locuteur énonce la ponctuation (comme s'il faisait une dictée, verbalized punctuation)<br />
on écrit le mot correspondant en toutes lettres :<br />
cent-cinq point cinq<br />
105 point 5<br />
4. Vérification<br />
4.1. Comment vérifier la transcription ?<br />
• Ecoutez le signal tout en lisant la transcription. Stoppez et redémarrez aussi souvent<br />
que nécessaire. Utilisez de préférence la commande [Signal]/[Joue le<br />
segment] ou Shift-Tab.<br />
• La transcription est à modifier dans l'éditeur de texte. Dans une future version du<br />
logiciel, un correcteur orthographique devrait être disponible pour la correction des<br />
fautes d'orthographe (et plus généralement des fautes de frappe).<br />
• Les frontières des segments peuvent être déplacées ou supprimées<br />
• Les tours de paroles et les sections sont éditables en cliquant sur le bouton<br />
correspondant.<br />
• La correction orthographique est disponible par [Edition]/[Correction<br />
orthographique]<br />
30