19.08.2015 Views

Actes / proceedings

Actes / Proceedings - Université Pierre et Marie CURIE

Actes / Proceedings - Université Pierre et Marie CURIE

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Actes</strong> d’IDP 09Avant – Propos / ForewordLes articles regroupés dans ce volume ont tous été présentés au cours de la troisième éditionde IDP, Interfaces Discours & Prosodie. Cette conférence s’est tenue à Paris en septembre2009. Elle a regroupé des chercheurs travaillant en prosodie, en phonologie, en phonétique, enpragmatique, en analyse du discours et en psycholinguistique, et qui sont particulièrementintéressés par les relations entre la prosodie et le discours. Les participants ont pu développerleurs travaux dans des paradigmes variés (approches formelles en phonologie, en sémantiqueet en pragmatique, analyse de conversation, linguistique descriptive, etc.). Pour cettetroisième édition, une attention particulière a été accordée aux travaux visant à proposer desanalyses formelles de l’interface entre prosodie et discours. Ce volume essaie de rendrecompte de ce pluralisme.!!!!The articles collected in this volume have all been presented at the third round of IDP,Interfaces Discourse & Prosody. The conference is addressed to researchers in prosody,phonology, phonetics, pragmatics, discourse analysis and also psycholinguistics, who areparticularly interested in the relations between prosody and discourse. The participants mayhave developed their research programmes within different theoretical paradigms (formalapproaches to phonology and semantics/ pragmatics, conversation analysis, descriptivelinguistics, etc.). For this third edition, special attention has been given to research work thatpropose a formal analysis of the Discourse - Prosody Interface. This volume tries to accountfor this pluralism.5


<strong>Actes</strong> d’IDP 09Table des matières / Table of contentAvant – Propos / Foreword ........................................................................................................ 5!Table des matières / Table of content......................................................................................... 7!Diane BLAKEMOREOn the relevance of parentheticals ............................................................................................. 9!Piet MERTENSProsodie, syntaxe et discours : autour d’une approche prédictive ........................................... 19!Hubert TRUCKENBRODTOn rises and falls in interrogatives........................................................................................... 33!Charlotte ALAZARD, Corine ASTESANO, Michel BILLIERES & Robert ESPESSERRôle de la prosodie dans la structuration du discours :............................................................ 49!Yuki ANZAIDeux fonctionnements du marqueur français « tu vois » dans les dialogues spontanés :relation entre les faits intonatifs et la structure morphosyntaxique.......................................... 63!Mathieu AVANZILa dislocation à gauche avec reprise anaphorique en français parlé........................................ 77!Léna BAUNAZ & Cédric PATINProsody refers to semantic factors: evidence from French wh-words ..................................... 93!Claire BEYSSADE, Barbara HEMFORTH, Jean-Marie MARANDIN & Cristel PORTESProsodic Markings of Information Focus in French .............................................................. 109!Georges BOULAKIA, In-Young KIM, Catherine MATHON« Un plaisir coupable... mais un plaisir »............................................................................... 123!Chu-ting CHEN & Ho-Hsien PANThe Acoustical Realization of Narrow Focus and Second Occurrence Focus in TaiwanMandarin ................................................................................................................................ 137!Mariapaola D'IMPERIO & Amandine MICHELASInterface entre structure syntaxique et structure prosodique: le syntagme intermédiaire enfrançais ................................................................................................................................... 145!Gaëlle FERREAnalyse multimodale des particules d’extension « et tout ça, etc. » en français .................. 157!Frédéric GACHET & Mathieu AVANZIDescription prosodique des "recteurs faibles en incise" ........................................................ 173!Cédric GENDROT & Kim GERDESProsodic hierarchy and spectral realization of vowels in French........................................... 191!Jean-Philippe GOLDMAN, Antoine AUCHLIN & Anne-Catherine SIMONDiscrimination de styles de parole par analyse prosodique semi-automatique...................... 207!Jacques JAYEZ & Mathilde DARGNATDiscourse ‘Major Continuatives’ in a Non-Monotonic Framework ...................................... 223!Frédéric LAURENS, Jean-Marie MARANDIN, Cédric PATIN & Hi-Yon YOOThe used and the possible: the use of elicited conversations in the study of Prosody........... 239!David LE GAC & Hi-Yon YOOLes primitives intonatives du français: une proposition......................................................... 259!7


Proceedings of IDP 09Philippe MARTINTraits nécessaires et suffisant pour l’indication de la structure prosodique........................... 275!Catherine MATHON & Georges BOULAKIALe commentaire sportif en direct : une combinatoire de différentes fonctions de laprosodie .................................................................................................................................. 287!François NEMO & Mélanie PETITDe la prosodie en discours à la prosodie en langue : lexicalisation de la forme prosodique desemplois-types ......................................................................................................................... 303!Ho-Hsien PAN & Yi-Chu KEDiscourse Context, Semantic Markers, and Prosodic Cues of Taiwan Min Narrow Focus andSecond Occurrence Focus ...................................................................................................... 313!Karine RIGALDIE, Jean-Luc NESPOULOUS & Nadine VIGOUROUXProsodie et dysarthrie parkinsonienne : l'intérêt d'INTSINT pour l'annotation de la parolepathologique........................................................................................................................... 323!Caroline L. SMITHNaïve listeners’ perceptions of French prosody compared to the predictions of theoreticalmodels .................................................................................................................................... 335!Beatrice SZCZEPEK REEDUnits of interaction: ‘Intonation phrases’ or ‘turn constructional phrases’ ?......................... 351!Hisao TOKIZAKI & Yasutomo KUWANAProsody of Positive and Negative Conjunctions.................................................................... 365!Margaret ZELLERS & Brechtje POSTFundamental Frequency and Other Prosodic Cues to Topic Structure .................................. 377!8


<strong>Actes</strong> d’IDP 09On the relevance of parentheticals 1Diane Blakemored.blakemore@salford.ac.ukUniversity of SalfordAbstractPotts (2008) has argued that apppositions are amongst a range of phenomena which do not contribute to thetruth conditional content of the utterances that contain them but which ‘contextualize the main clause’scontribution to the discourse’. In this paper, I argue that the idea that utterances may include constituents whichcontribute to their interpretation by altering the context for their interpretation applies to a range of parentheticalphenomena. Using my work on and-parentheticals and that-is parentheticals, I argue that there are different waysin which parentheticals may play a role in the pragmatic interpretation of their hosts. While some parentheticalsaffect the interpretation of their hosts at the level of implicit content, others may affect the interpretation of theirexplicit content. In particular, there are some parentheticals – e.g. that is-parentheticals and some andparentheticalswhich play a role in the identification of the truth conditional content of their hosts. While thissuggests that not all parentheticals are completely sealed off from the truth conditional content of their hosts atthe level of pragmatic interpretation, it does not mean that the content of a that is or and-parenthetical is part ofthe content of the host. In this sense, it is compositionally independent, as Potts’ (2005) analysis would predict.The point is that the relevance of these parentheticals lies in the information they communicate about the truthconditional content of its host, or, in other words, in what I have called their ‘meta-conceptual’ role.1. Introduction: divisions of labourParentheticals have been analyzed from a variety of perspectives, and not all of these focus onthe same set of phenomena. Thus those linguists who study language as a form of socialinteraction have tended to treat parentheticals as examples of the sort of disfluency whichcharacterizes unplanned discourse. Their examples include hesitations, revisions and selfcorrections, incidental comments about what is being said in the host utterance, self-addressedquestions and reminders, responses to something external to the conversation, and questionsdesigned to elicit feedback or to check attention. Such disfluencies, claims Wichmann(2001:189) are ‘evidence that speakers have trouble planning their utterances, but areconstrained by interactional principles to keep talking’.However, not all structures which have been described as parenthetical are part ofunplanned discourse. The following example (from Blakemore 2005) is from a planned,written source, and it is difficult to see how it could be justified by an interactional principlewhich requires the communicator to keep talking:1 I am very grateful to the organizers of IDP 2009 for giving me the opportunity to present this paper and to themembers of the audience who made a number of useful comments some of which I have attempted toincorporate in the written version of the paper. However, I remain responsible for all omissions and errors.9


Proceedings of IDP 09(1) The driver of Al-Kindi’s only remaining ambulance – the other three had been stolenor looted – had disappeared. So the dangerously ill Mr Khassem was bundled into aclapped-out rust-bitten Moskavich 408. (The Independent 16/5/03).At the same time, this sort of example is excluded from the range of examples which haveinterested syntacticians. Thus Taglicht (1998) argues that parentheticals must be distinguishedfrom the sort of diversions and intrusions which characterize spontaneous discourse, and thatthere must be something that justifies the utterance of a parenthetical but not, for example, theutterance of ‘Come in’ mid-sentence on hearing a knock on the door. Taglicht’s concern iswith the sort of parenthetical intrusion which can, or at least, which he thinks should be,accommodated in the grammar – for example, appositive relative clauses, adverbials, nominalappositions. For him, then, the question must be how such structures can be accommodatedwithin a grammar in which notions of immediate dominance and linear precedence play acentral role. However, this leaves us with the question of how we accommodate the intrusionin (1). It is not like the utterance of ‘Come in’ mid sentence. But it is not like the sort ofparenthetical phenomena discussed by syntacticians either, and I have yet to meet asyntactician who would want to accommodate it in the grammar.In fact, it seems that even the parenthetical structures which have been treated in thegrammar are regarded as ‘other’ in some sense. For syntacticians such as Emonds (1979),Safir (1986) and Espinal (1991), this otherness is reflected in the syntax itself. Thus all theirattempts to accommodate parentheticals have involved extending the grammar in some sense.However, Potts (2002, 2005) has argued that the otherness of adverbial parentheticals such asthe as-parenthetical in (2) derives not from the syntax which is, as he says, requires nothingnon-standard in the way of clause design, but from the semantics:(2) It is, as you know, a very long book.In particular, the proposition expressed by a parenthetical is a ‘non-at-issue’ entailment (orconventional implicature) which does not interact semantically with the clause in which it isthey are embedded. That is, according to Potts (2005), the truth conditional content of aparenthetical is sealed off from that of the host so that while it may have its own truthconditions, these truth conditions are independent of the truth conditional content of the host.According to this view, the speaker of (2) is committed to the ‘at-issue’ proposition that it is avery long book and the ‘non-at-issue’ proposition that you know that it is a very long book.As I have said elsewhere (Blakemore 2006), the claim that a parenthetical is not ‘at issue’raises the question of how it does contribute to the interpretation of the utterance whichcontains it. More recently Potts (2008) has argued that appositions are amongst a range ofphenomena which do not contribute to the truth conditional content of the utterances thatcontain them but which alter the context for their interpretation, or ‘contextualize’ the mainclause’s contribution to the discourse. It seems to me that the idea that utterances may includeconstituents which contribute to their interpretation by altering the context for theirinterpretation applies not only to the appositional phenomena discussed by Potts, but also tothe sort of phenomenon illustrated in (1) (that is, the sort of parenthetical which no-one wouldwant to include in the grammar). In fact, it seems that it is the fact that the interpretation ofthe parenthetical in (1) is related to the pragmatic interpretation of its host which distinguishesthis sort of intrusion from from Taglicht’s example of ‘Come in’ uttered mid-sentence. Theparenthetical in (1) is pragmatically integrated, even though it is not syntactically integrated.Taglicht’s ‘Come in’ example is not. Putting this in the relevance theoretic terms of this10


<strong>Actes</strong> d’IDP 09paper, the relevance of the parenthetical in (1) lies in the way that it is related to the relevanceof its host. The relevance of an interruption like ‘Come in’ is not.At the same time, however, I am going to argue that there are different ways in whichparentheticals may achieve pragmatic integration: there is more than one way of being ‘nonat-issue’.More particularly, I am going to argue that there are some parentheticals - forexample, and-parentheticals such as (3) and that is-parentheticals such as (4) and (5) - whoserelevance lies in the role that they plays in the identification of the truth conditional content oftheir hosts. In other words, it is not the case that all parentheticals are completely sealed offfrom the truth conditional content of their hosts at the level of pragmatic interpretation. As wewill see, this does not mean that the content of the parenthetical is part of the content of thehost. In this sense, it is compositionally independent, as Potts’ analysis would predict. Thepoint is that the relevance of these parentheticals lies in the information they communicateabout the truth conditional content of its host, or, in other words, in the role that it plays inidentifying the conceptual content of the host.(3) What is obvious – and we have eye-witness reports – is that they were killed. (from adiscussion of the causes of the extinction of the population of Easter Island, BBC,Radio 4, 26 August 2005).(4) What I think we need, you see, is a room with a table, that is, a table which studentscould sit around. (adapted from LLC s.3.4 47-57)(5) I would like everybody – that is, everybody who is taking this course for credit – tohand their essay plans in by next Friday. (Salford University lecturer 2009)The rest of the paper is structured as follows: In Section 2, I will use my work on andparentheticalsto illustrate the different ways in which parentheticals may achieve pragmaticintegration focussing on the distinction between parentheticals which are pragmaticallyintegrated in the sense that they are interpreted in a context of assumptions made accessibleby their hosts, on the one hand, and parentheticals which are pragmatically integrated in thesense that they actually affect the interpretation of their hosts at the level of implicit content,on the one hand, and at the level of explicit content, on the other. In Section 3, I turn to orparentheticals,and show that while some or-parentheticals may affect the interpretation of theexplicit content of their hosts, others perform a meta-linguistic function in the sense that theycommunicate information about the linguistic properties of their hosts. In Section 4, I contrastthe meta-linguistic function of these or-parentheticals with what I shall call the ‘metaconceptual’role played by that is-parentheticals. In the concluding section I return to thequestion of whether and in what sense parentheticals can contribute to the truth conditionalcontent of their hosts.2. And-parentheticalsLet us start by comparing the parenthetical in (1) with the one in (6) (from Blakemore 2005):(1) The driver of Al-Kindi’s only remaining ambulance – the other three had been stolenor looted – had disappeared. So the dangerously ill Mr Khassem was bundled into aclapped-out rust-bitten Moskavich 408. (The Independent 16/5/03).(6) A helicopter, a helicopter – and here was me who’d never even flown in an ordinaryplane – would come and pick me up at …. (from reading of Stargazing: memoirs of ayoung lighthouse keeper, by Peter Hill, abridged by Laurence Waring, read for Radio4 by David Tenant)11


Proceedings of IDP 09The parenthetical in (1) is pragmatically integrated with the host in the sense that it providesan answer to a question raised by the host (‘Why was there only one ambulance?). That is, itis interpreted in a context which is made accessible by the host, but it does not affect either itsexplicit or implicit content. This means that although the host and parenthetical are related inthis way, each will be interpreted as having its own relevance, and there is no sense in whichthey can be taken to contribute towards a single proposition whose relevance is greater thanthat of the parenthetical and host taken individually.If this is right, then the host and parenthetical in (1) are related in much the same way asthe segments of a discourse sequence such as (7):(7) He’s definitely been in here. Those are his spectacles.As Blakemore & Carston (2005) have argued, an and-conjunction is acceptable only if it canbe interpreted as communicating a co-ordinated proposition which is more relevant than eachconjunct taken individually. Hence the unacceptability of (8):(8) ?? He’s definitely been in here and those are his spectacles.Similarly, because the parenthetical and host in (1) cannot be interpreted as contributing to asingle proposition whose relevance is greater than either one taken individually, and cannotbe used as a means of communicating pragmatic integration:(9) ?? The driver of Al-Kindi’s only remaining ambulance – and the other three hadbeen stolen or looted – had disappearedNow clearly, one would not want to say that and forms a co-ordinated proposition in (6).Nevertheless in contrast with (1), the parenthetical has no relevance beyond its effect on theinterpretation of its host, and thus it seems that there is a sense in which parenthetical plushost contribute to the recovery of a single proposition whose relevance is greater than eitherparenthetical and host taken individually. In particular, the and-parenthetical in (6) refines theaudience’s search for the contextual assumptions which enable him to interpret the repetitionin the host. While the repetition (which was given emphatic stress in this reading) encouragesthe audience to re-visit the contextual assumptions made accessible by his concept of ahelicopter for the derivation of implicatures which capture the excitement of traveling in ahelicopter, the parenthetical ensures that he will imagine the prospect of traveling in ahelicopter for someone who has never flown in any kind of plane at all. In other words, theparenthetical alters the context for the recovery of the implicit content of the host. It affectsthe interpretation of the host at the level of implicit communication.The and-parenthetical in (3) also affects the interpretation of the host; however, this time,it is at the level of explicit content. According, to Sperber & Wilson (1995), the explicaturesof an utterance are constructed by enriching a linguistically encoded logical form to a pointwhere it expresses a determinate proposition such as (10a), and then optionally embedding itunder a higher-level description: for example, a speech-act description such as (10b), or apropositional attitude description such as (10c) or (10d):(10) (a) They were killed.(b) Some researchers claim they were killed.12


<strong>Actes</strong> d’IDP 09(c) Some researchers believe that they were killed.(d) The speaker thinks it is obvious that they were killed.Wilson & Sperber (1993) call (10a) the proposition expressed by the utterance, and (10b – d)its higher-level explicatures. An explicature – including a higher-level explicature – has itsown truth conditions, and is capable of being true or false in its own right. However, only theproposition expressed is normally seen as contributing to the truth conditions of the associatedutterance. Thus the higher-level explicature in (10d) will not be part of the truth conditionalcontent of the host utterance in (3).Now let us consider the role played by the and-parenthetical in (3). On the assumption thateye-witness reports constitute the best evidence that a historian might provide, we could saythat its relevance lies in the effect that it has on the hearer's understanding of the degree ofcommitment that is being communicated by the host, or in other words, in its contribution tothe hearer’s understanding of the sense in which the proposition expressed can be said to beobvious. In this sense then, it affects the interpretation of the higher level explicit content ofthe host, but not the interpretation of its truth conditional content.As I have shown in an earlier publication, an and-parenthetical may also affect theinterpretation of the truth conditional content of its host at the level of pragmaticinterpretation. The example in (11) is taken from Blakemore (2005):(11) You wouldn’t believe what happened when Kevin and I were at the Kro Bar tonight.We were out in the garden and a big rat – and I mean BIG rat – ran out from underour table (from Blakemore 2005)The way in which the parenthetical achieves this effect can be explained in terms of RobynCarston’s (2002) account of the pragmatics of on-line concept construction. The idea is thatwe use our contextual assumptions about rats and the encoded meaning of big to recover apragmatically derived concept BIG FOR A RAT*. However, the parenthetical will encourage usto search our contextual assumptions further to derive a different concept BIG FOR A RAT** -and we will assume that this is a more faithful representation of the sort of rat the speaker isrecalling (a rat which is much bigger than any normal big rat).3. Or-parentheticalsIt seems that certain or-parentheticals may also play a role in the identification of the explicitcontent of their hosts. 2 Consider (12):(12) Jackie’s husband – or at least I’m assuming he’s her husband – has offered to driveus to the airport.The role played by the or-parenthetical in this example is similar to that of the andparentheticalin (3). It contributes to the recovery of a higher-level explicature. However,whereas in (3) the hearer is intended to recover a higher-level explicature which conveys agreater degree of commitment to the proposition expressed than any higher-level explicature2 I am grateful to Anne Abeillé for bringing this sort of example to my attention.13


Proceedings of IDP 09he would have recovered otherwise, in (12) the hearer is intended to recover a higher-levelexplicature which conveys less certainty towards the truth of the proposition expressed. 3However, not all or-parentheticals play this sort of role. As Burton-Roberts (1999)suggests, parentheticals such as the ones in (13) and (14) are meta-linguistic in the sense thatthey communicate information about the linguistic properties of their hosts:(13) The Victorians were very fond of /m!!v/, or /m":v/, as they used to say (fromBlakemore 2007)(14) In the end, Harold, or Hayley, as he became known, ended up living with Roy abovehis greasy spoon café (from Blakemore 2007)The parenthetical in (13) communicates the information that a word in the host has analternative pronunciation, while the one in (14) introduces an alternative linguistic route to thereferent which the hearer is assumed to have already identified. This means that name Hayleyin (10) is not being used to refer, or being used to help the hearer identify the referent ofHarold. It also means that the relevance of the parenthetical will depend on contextualassumptions about the names ‘Hayley’ and ‘Harold’ rather than the assumptions about thereferent itself. For example, from the information that Hayley is a woman’s name and Haroldis a man’s name, a hearer might derive the information that Roy lived with a transsexual.4. That is-parentheticalsAn or-parenthetical such as (14) might be described as a reformulation. But so, it wouldseem, might the that is-parenthetical in (4):(4) What I think we need, you see, is a room with a table, that is, a table which studentscould sit around. (adapted from LLC s.3.4 47-57)The question is whether these parentheticals all reformulate their hosts in the same way. Infact, it seems that while both types of parenthetical can be described as meta-representational,only the or-reformulations in (13) and (14) are meta-linguistic. That is-reformulations aremeta-conceptual in the sense that they communication information about the conceptualcontent of their hosts.The parenthetical in (4) communicates information about the concept the speaker intendsto communicate by uttering table. Specifically, it communicates the information that thehearer should use the encoded meaning of table to recover a concept of a table which is largeand high enough for people to sit around rather than a concept of, say, a low, small coffeetable. However, although the hearer’s recovery of this proposition depends on theparenthetical in this way, it cannot be said that the content of the parenthetical is itself part ofthe truth conditional content of the host: it is simply about that content. Not surprisingly,when a that is-parenthetical is embedded in a belief report, for example (15), the hearer willnot understand its explicit content to be part of the belief which is being reported:3 It seems that this might be the key to the explanation for the use of or in these examples rather than and. And isinformationally stronger than or in the sense that a sentence of the form P and Q entails a sentence of the form Por Q but not vice versa. This suggests we might expect and in cases such as the ones discussed in Section 2, butor in an example such as (12). The level of commitment communicated by parenthetical plus host is more thanthe level of commitment communicated by the host on its own in (3), but less than the level of commitmentcommunicated by the host in (12).14


<strong>Actes</strong> d’IDP 09(15) The lecturers believe that the department needs more tables, that is to say, tables thatstudents can sit around.The parenthetical is, as Potts would say, speaker-oriented in the sense it must be attributed tothe speaker reporting the lecturers’ belief rather than to the lecturers themselves. But the pointis that the speaker is communicating his commitment to the propositional content of theparenthetical only as a means of communicating his commitment to the content of the host,which is, in this case, the proposition that the lecturers believe that the department needs moretables.Similarly, in (5), the parenthetical communicates a proposition about the interpretation ofthe quantifier everybody. It specifies how its domain should be interpreted and in this wayallows the hearer to make hypotheses about the relevance of the information communicatedby the host.Examples such as (4) and (5) might appear to illustrate the sort of disfluency whichcharacterizes unplanned discourse. As we have seen, it has been argued that such disfluenciesshould be explained in terms of interactional principles which require speakers to keep talking(cf Wichmann (2001:189). However, I have argued that within a relevance theoreticframework, they can be explained in terms of the pursuit of relevance (cf Blakemore 2007).As Sperber & Wilson (1995:204) point out, the fact that an utterance is produced andprocessed over time means that a hearer will be able to access some of its constituentconcepts, with their associated logical and encyclopedic entries, before others. This meansthat certain contextual assumptions will be triggered before others, and that a hearer who isassuming optimal relevance will use these to construct hypotheses about the speaker’sinformative intention. This suggests that the point of producing the parenthetical in, say, (4) isto ensure that the hearer will direct his efforts to the recovery of those effects from anexplicature which includes the intended concept communicated by table rather than wasteprocessing effort in the construction of an explicature that doesn’t yield a faithfulinterpretation of the speaker’s thoughts. A similar explanation can be given for (5). In otherwords, in both cases the use of the disrupted structure is consistent with the speaker’s aim ofachieving relevance for a minimum cost in processing effort.5. Conclusion: on the non-truth-conditionality of parentheticalsIf the relevance of the parenthetical in (4) or (5) is tied to the role it plays in identifying theexplicit content of the host, then it seems that we have to say that it plays a role in theidentification of the truth conditional content of the utterance that contains it, and that it is notafter all sealed off from the truth conditions of its host in the way that Potts has claimed. Asimilar point can be made about the and-parenthetical in (11). Does this mean that theseparentheticals are in fact truth conditional?There are many semanticists (for example, Recanati (2004), Stanley & Szabo (2000) whoassume that we can make intuitive judgements about what counts as the truth conditionalcontent of utterances, and there are some (e.g. Stanley 2000) who would argue that thesejudgements are the central empirical data for a semantic theory. However, there are manycases in which intuitions diverge, and where it is not clear what these intuitions are reallyintuitions about: are they about encoded word meaning, literal truth, or what the speakermeant (in some more general sense).Now, if by ‘truth conditions’ you mean the truth conditions which are determined by theencoded meanings of the words in the host, or by literal meanings then, you would have tosay that there is no sense in which these parentheticals affect the truth conditions of their15


<strong>Actes</strong> d’IDP 09Stanley, J. (2000) Context and Logical Form. Linguistics and Philosophy 23, 391-434Stanley, J. & Szabo, Z. (2000) On Quantifier Domain Restriction. Mind and Language 15, 219-261.Taglicht, J. (1998). Constraints on intonational phrasing in English. Journal of Linguistics. 34:1, 181-211.Wichmann, A. (2001). Spoken parentheticals. In Aijmer, K. (ed.), A Wealth of English: studies in honour ofGoran Kjellmer. Gothenburg: Gothenburg University Press. 177-193.Wilson, D. & Sperber, D., (1993). Linguistic form and relevance. Lingua 90, 1-25.17


<strong>Actes</strong> d’IDP 09Prosodie, syntaxe et discours : autour d’une approche prédictivePiet MertensPiet.Mertens@arts.kuleuven.beUniversité de Leuven, BelgiqueAbstract :This paper summarizes a predictive approach to the analysis of prosody in spoken discourse. The actualintonation used by the speaker is compared to the default intonation of these utterances, which is obtained byapplying known constraints on prosody. These constraints may be of a lexical (word stress), segmental (syllablecontiguity), or syntactic nature. The prosody-syntax interface covers both general dependency relations andspecific syntactic constructions. All differences between the default intonation and the actual one constitutemarked prosodic forms, which can not be predicted from other information. As a result such forms constituteprosodic contributions to the meaning of the utterances.1. IntroductionComment rendre compte du rôle de la prosodie dans le discours ?Les travaux sur la prosodie lui attribuent des fonctions nombreuses et diverses (cf. Lacheret &Beaugendre 1999). Pour bon nombre d’auteurs la prosodie découpe la chaîne parlée entronçons, dotés de frontières d’une certaine force, mettant ainsi en place une organisationhiérarchique. En même temps elle contribue à marquer des signifiés de nature énonciative,comme la fin du tour de parole, l’investissement du locuteur dans ce qu’il dit, la réactionattendue de la part de l’interlocuteur, etc. Certaines constructions syntaxiques s’accompagnentde formes prosodiques précises et on peut donc affirmer que la prosodie indique des aspectsde l’organisation syntaxique (cf. Rossi 1999). Au niveau de la structure informationnelleaussi, on observe l’association de formes prosodiques précises aux entités jouant le rôle detopique, de focus ou d’arrière-plan (cf. Beyssade et al. 2004). On ajoutera encore l’expressionde l’état émotif du locuteur ou de son attitude, et ainsi de suite.Cette multitude de fonctions, comment les intégrer dans un même modèle descriptif dufonctionnement de la prosodie dans le discours ? La tâche est encore compliquée par le faitque certains des signifiés exprimés par la prosodie s’expriment également par d’autresmoyens, et parfois même par plusieurs moyens à la fois : par le lexique, par la morphosyntaxeou par les constructions. Pensons au focus informationnel, qui peut être exprimé par lecontour mélodique HB (chute majeure sur la syllabe accentuée, partant d’un niveau haut), parla clivée, ou par la combinaison des deux. Dans ce cas, qu’est-ce qui revient aux élémentslexicaux, qu’est-ce qui doit être attribué à la structure syntaxique ou à l’ordre des mots, etqu’est-ce qui peut être imputé à la prosodie ?Une approche prédictiveDans un article récent (Mertens 2008) nous avons proposé une approche qui vise à expliciterle rôle de la prosodie dans la chaîne parlée. Cette approche repose sur une procédurereproductible et contrôlable, explicitant toutes les contraintes prévisibles portant surl’intonation d’un énoncé. Il s’agit des contraintes liées à l’accentuabilité des élémentslexicaux, aux aspects phonétiques et métriques (le nombre de syllabes, leur caractère contigu),19


Proceedings of IDP 09à la structure syntaxique, et aux constructions syntaxiques. Pour la séquence de mots àanalyser on obtient ainsi une spécification de l’intonation par défaut ou non marquée.Précisons tout de suite qu’elle ne sera pas envisagée comme une forme neutre parmi d’autresintonations que le locuteur pourrait utiliser. (D’ailleurs, comment définir l’intonation neutre ?Si la présence de formes marquées est significative, leur absence l’est également.) Il s’agit aucontraire de la spécification de la forme prosodique obtenue après l’application descontraintes lexicales, syntaxiques et métriques. Dans l’analyse du discours, cette intonationpar défaut est mise en regard avec l’intonation utilisée par le locuteur. Tout écart entre cesdeux réalisations constitue une forme marquée non prévisible et dès lors significative. Commetoutes les contraintes sont explicitées, la démarche permet de réduire le risque de subjectivité,lié à l’interprétation de la prosodie observée.Cette stratégie suppose évidemment qu’on explicite l’ensemble des contraintes portant surl’intonation. Elle s’inspire de l’application informatique de la synthèse de la parole à partir dutexte, où les informations disponibles pour générer l’intonation d’un énoncé se limitent auxéléments lexicaux et à la structure syntaxique (Mertens et al. 2001). Mais contrairement à lasynthèse à partir du texte, ici on ne s’intéresse à l’intonation non marquée que dans la mesureoù elle permet de révéler les aspects non prévisibles de la prosodie.Spécificités de l’approche prédictiveSi l’idée générale rappelle les modèles sur l’interface entre la syntaxe et la prosodie, notreapproche présente cependant plusieurs spécificités. D’abord, elle s’appuie sur une descriptiondétaillée des formes intonatives du français, qui à son tour repose sur l’analyse de corpusoraux 1 . Ce modèle intonatif ne se limite pas aux variations mélodiques sur la dernière syllabepleine du groupe intonatif, mais explicite aussi l’accent initial, la hauteur de la syllabepénultième, la taille des intervalles mélodiques (majeurs et mineurs), le phénomène duchangement de registre, et la tessiture du locuteur (dans la mesure où celle-ci permetd’identifier le niveau de hauteur infra-bas et le contour d’appendice bas). Pour tout signifiantprosodique, soit toute forme mélodique identifiée aux différentes positions (accent final,accent initial, pénultième, appendice...), on étudie ses emplois dans plusieurs corpus afin desaisir le signifié associé au signifiant.En deuxième lieu, l’approche a été élaborée à partir de l’analyse de la parole authentique(conversations, interviews), où le choix des formes prosodiques est motivé par le message àtransmettre et où se manifeste la diversité des structures syntaxiques. On a évité les phrasesforgées isolées, qui présentent des caractéristiques prosodiques propres, liées à leur longueuret aux propriétés rythmiques.La troisième particularité concerne la caractérisation de la structure syntaxique, qui reposesur les notions de dépendance, de construction et de macro-syntaxe (au sens de Blanche-Benveniste et al. 1990).2. Prosodie2.1. Contours et unités prosodiquesLes deux unités prosodiques indispensables sont la syllabe et le groupe intonatif. Chaquesyllabe présente des propriétés prosodiques, liées à la hauteur, la durée (allongement relatif) etl’accentuation.1 Les exemples de cet article sont tirés des corpus suivants : le corpus Roland Barthes (RB), émission Radioscopiedu 17-02-1975 ; le corpus Françoise Giroud (FG), Radioscopie du 15-09-1977 ; le corpus Simone Veil (SV),Radioscopie ; le corpus Benoîte Groult (BG), émission de la radio Suisse-Romande.20


<strong>Actes</strong> d’IDP 09Les variations de hauteur sont représentées à l’aide de niveaux de hauteur relatifs (Dooren& Eynde 1982). Ceux-ci sont identifiés à partir des intervalles mélodiques majeurs et à partirde la tessiture du locuteur. Après un grand intervalle montant (environ 4 demi-tons), on passedu niveau bas (noté B) au niveau haut (H). Le plancher de la tessiture correspond au niveauinfra-bas (noté B-) et le plafond au suraigu (noté H+). Les intervalles mineurs donnent lieu aurehaussement (noté /) ou à l’abaissement (noté \) des niveaux bas et haut.On distingue deux types d’accent. L’accent final peut se manifester de plusieurs façons :par l’allongement de la syllabe, par un pic de hauteur, par la présence d’une variation dehauteur majeure intra-syllabique, par une chute au niveau infra-bas. L’accent initial, ensuite,est caractérisé par sa force phonatoire, qui entraîne souvent l’allongement de l’attaquesyllabique ou l’apparition d’un coup de glotte pour la syllabe à initiale vocalique. Les deuxtypes d’accent diffèrent aussi quant à leur alignement avec les éléments lexicaux. Alors quel’accent final frappe la dernière syllabe pleine d’un élément lexical (ou plus précisément, dugroupe accentuel formé autour de cet élément lexical), l’accent initial frappe la syllabe initialede l’élément lexical ou la deuxième, quand cette syllabe commence par une voyelle.L’accent final constitue le critère pour le découpage de la suite de syllabes en groupesintonatifs. Chaque groupe se termine par un accent final, qui peut être précédé d’une ouplusieurs syllabes atones et éventuellement d’une syllabe à accent initial.Le contour désigne le mouvement mélodique du groupe intonatif et se définit en fonctiondu niveau de hauteur aux points de localisation que sont l’accent final, les syllabes initiale etpénultième du groupe et l’accent initial.La figure 1 montre la forme schématique de plusieurs contours du français, différenciés parla variation de la syllabe finale. Ceux de la première rangée sont classés selon le niveau dehauteur atteint à la fin, qui détermine le degré de frontière résultant. Dans la terminologie deDelattre (1966) on retrouve successivement les continuations mineures descendante etmontante, et la continuation majeure, la continuation majeure forte et la finalité. Les contoursd’implication de la deuxième rangée présentent une chute à intervalle majeur, partant duniveau haut ; leur degré de frontière correspond à celui du contour au-dessus. Les contours dela troisième rangée, moins courants, n’avaient pas été identifiés par Delattre. Enfin, lescontours d’appendice de la quatrième rangée, que Delattre appelle parenthèses haute et basse,sont caractérisés par l’absence de syllabe accentuée et par leur contour plat, propriétés quileur confèrent un statut particulier.Figure 1. Quelques contours intonatifs du français, classés selon la variation mélodiquede la syllabe accentuée finale.21


Proceedings of IDP 09Dans la figure 2, la combinaison des contours de la première rangée avec l’accent initialdonne les contours de la deuxième rangée ; celle avec la pénultième haute donne ceux de latroisième rangée.Figure 2. Quelques contours intonatifs du français, classés selon la variation mélodiquefinale, la présence de l’accent initial (deuxième rangée) et la hauteur à la pénultième(troisième rangée).Cette multitude apparente de contours résulte de la simple combinaison de marquesprosodiques appartenant aux paradigmes de l’accent final, de l’accent initial et des positionsatones. La combinatoire se résume dans un seul tableau qui énumère les formes possiblespour chacune des positions. Cette présentation des données mène directement à uneperspective compositionnelle de la signification prosodique.NA AI NA AFb b H b b B-Bhh B h h H+H+HB-H/H/HH\HHHBBHHH/BBBB\BBTableau 1. Distribution des tons dans le groupe intonatif maximal (i.e. comportant lenombre maximal de positions).Dans l’extrait ci-dessous, la suite « qui pourraient vous répondre » illustre le contourd’appendice, caractérisé par le contour plat, par le manque d’accentuation et par unediminution du niveau sonore. Cette dernière propriété le différencie des autres contours degroupe intonatif, unité qui était justement définie à partir de l’accent final. Par conséquentl’appendice sera considéré comme un type particulier de groupe intonatif.22


<strong>Actes</strong> d’IDP 09Figure 3. Prosogramme de l’énoncé « il n’y a que les hommes qui travaillent avec moi, ouqui ont travaillé avec moi, qui pourraient vous répondre » (corpus FG).Pour des informations plus détaillées, voir Mertens (1987) et Mertens et al. (2001: §3).2.2. La signification des contoursLe tableau ci-dessous, repris à Mertens (2008), énumère les marques prosodiques avec unecaractérisation générale de leur signification, ainsi que certains effets de sens éventuels encontexte. Pour plus de détails, voir l’article mentionné.forme sémantique générale effets de sens en contexteB-B- finalité assertif, péremptoireH/HHHcontinuation majeurefortecontinuation majeure/BB,\BBHB,HB-BB,continuation mineurecentre d’attention,focus informationnelinformation importante ounouvelle, implication dulocuteurBH continuation majeure invitation à l’interlocuteur àréagirH+H+ implication dulocuteurAIdébut d’une entitéinformationnelle...h B-B- évidence pour lelocuteur...h \HH évidence pour lesinterlocuteursappendicearrière-planinformationnelTableau 2. Signification des formes intonativesconviction,importantemise en valeur de l’entitépéremptoireévocation d’un conceptinformation accessoireinformation23


Proceedings of IDP 092.3. Unités prosodiques plus larges et le regroupement intonatifLa plupart des modèles prosodiques postulent également des unités prosodiques plus largesque le groupe intonatif. À notre avis, ces unités résultent toutes d’un mécanisme général, quidonne d’abord des paquets prosodiques, constitués d’un ou de plusieurs groupes intonatifs,éventuellement des paquets récursifs et finalement l’unité prosodique maximale, soit le paquetdoté de la frontière maximale.Le regroupement intonatif désigne le phénomène par lequel la succession de groupesintonatifs dotés de contours mélodiques peut donner lieu à la formation d’ensembles pluslongs, perçus comme des entités, tout en préservant la structure interne des groupesconstitutifs. Ce mécanisme repose sur le degré de frontière associé au contour de la syllabeaccentuée finale des groupes intonatifs successifs. Lorsqu’une frontière est suivie d’unefrontière plus forte, il en résulte le regroupement des deux unités correspondantes ; dans le cascontraire, il y a simple juxtaposition des parties. La frontière de degré maximal a un effetparticulier : non seulement elle entraîne le regroupement avec les unités précédenteséventuelles de degré inférieur, mais en même temps elle résulte en une unité prosodiquemaximale, qui semble jouer un rôle au niveau du discours. (Ce mécanisme peut être envisagécomme une reformulation de celui décrit par Ph. Martin depuis 1975, cf. par exemple Martin1978. Il s’en différencie par une application de gauche à droite, par le rejet de l’inversion depente et par sa compatibilité avec l’ensemble des contours.)Par exemple, la séquence « une succession HH de vagues /BB successives HH de langages/BB différents B-B- » donne les paquets « (une succession) ((de vagues) successives) ((delangages) différents) », avec une frontière terminale à la fin.Figure 4. Prosogramme de l’énoncé « une succession de vagues successives de langagesdifférents » (corpus RB)Les contours de syllabe accentuée finale qui descendent jusqu’à l’infra-bas (B-B-, HB-)introduisent une frontière maximale et donc terminale. Pour les autres contours, le degré defrontière correspond au sommet de hauteur atteint au cours la syllabe. On obtient une frontièremajeure quand la hauteur atteint le niveau H ou /H (par exemple HH, H/H, BH, BH).3. Représentation syntaxique utilisée pour la prédiction de la prosodie par défautNous détaillerons brièvement la représentation syntaxique utilisée, qui est celle de l’approchepronominale (Blanche-Benveniste et al. 1990 ; Eynde & Mertens 2003).L’analyse syntaxique s’effectue en plusieurs temps, en fonction des critères utilisés. Dansun premier temps on examine les relations de dépendance entre les éléments de la chaîne. Lenœud (structural) correspond à l’ensemble constitué par un élément et tous ceux qui,directement ou indirectement, à un degré quelconque, en dépendent (Tesnière 1958). Lacombinaison de ces relations résulte en un ou plusieurs nœuds successifs. On parle souvent24


<strong>Actes</strong> d’IDP 09d’îlots rectionnels. En effet, chaque élément d’un îlot dépend d’un autre élément du mêmeréseau, sauf l’élément racine (élément central du réseau de dépendance), qui n’a pas derégissant. Il s’ensuit qu’entre les îlots successifs il n’y a pas de lien de dépendance. À ceniveau on identifie certaines constructions syntaxiques, qui font intervenir des élémentslexicaux précis ou un arrangement particulier des éléments, comme la clivée (qui suppose lepronom « ce », le verbe « être » et le pronom relatif), la construction présentative (« il y a Xqui… ») ou le dispositif binarisant (« du gâteau on a mangé », avec antéposition ducomplément et contour d’appendice sur la suite), cf. Blanche-Benveniste et al. (1990: 57). Lanature des liens de dépendance permet également de repérer les éléments associés(« finalement, évidemment, manifestement, au fond, en fait, au fait, sans doute, ceci dit, endéfinitive, par conséquent, à mon sens, avec ça, tant qu’on y est… »), cf. Blanche-Benvenisteet al. (1990: 77, 82-88).Dans un deuxième temps on examine les relations éventuelles entre les îlots successifsdans la chaîne. Étant donné que les relations syntaxiques ont déjà été repérées, il s’agira cettefois-ci de relations de nature différente : coréférences, relations logiques, relations discursives...Ces relations seront éventuellement marquées par l’intonation, plus particulièrementpar le regroupement intonatif. Les dislocations (avec reprise), les appositions et les incisessont identifiées ici, parce qu’elles font intervenir plusieurs îlots. Les constructionsélémentaires mentionnées plus haut se combinent également entre elles pour former desstructures complexes, dont les parties constitutives présentent des propriétés prosodiquesanalogues à celles des constructions simples. Par exemple, l’énoncé « ces particules, c’estdans ce laboratoire qu’on les a découvertes » résulte de la combinaison de la clivée et de ladislocation ; la séquence « ces particules » présente les traits prosodiques d’un élémentdisloqué, la séquence « c’est dans ce laboratoire » celles du foyer de la clivée, et ainsi desuite.En troisième lieu, on ajoute le niveau de la macro-syntaxe qui étudie l’organisation dudiscours au-delà des îlots rectionnels. Ainsi le noyau indique un îlot qui peut fonctionnercomme un énoncé autonome sur le plan syntaxique. Au noyau peuvent s’ajouter d’autresunités qui fonctionnent comme préfixe (pré-noyau) ou suffixe (post-noyau), cf. Blanche-Benveniste et al. (1990: 114).Nous disposons donc d’une représentation des relations syntaxiques, à la fois au sein del’îlot rectionnel et entre îlots successifs. Ensuite, il s’agit d’étudier le rôle de la prosodie dansl’indication des liens, et là, le mécanisme du regroupement intonatif occupe une placecentrale.4. Interface syntaxe – prosodieCette section décrit plusieurs contraintes portant sur l’intonation d’un énoncé : 1. la « congruence» entre prosodie et syntaxe au sein de l’îlot rectionnel (§4.1), 2. l’accentuabilité deséléments lexicaux (§4.2), 3. les aspects phonétiques et métriques (le nombre de syllabes, leurcaractère contigu) (§4.2), 4. les propriétés prosodiques des constructions syntaxiques (§4.3),la macro-syntaxe (§4.4).4.1. Prosodie au sein de l’îlot rectionnel :la « congruence » entre prosodie et syntaxeQuand on examine les regroupements intonatifs possibles en relation avec la structuresyntaxique, on observe plusieurs regroupements alternatifs. Par exemple, l’énoncé « nouscherchons la personne responsable pour les livres » admet des intonations variées, donnanttantôt les paquets « nous cherchons + la personne responsable + pour les livres », tantôt« nous cherchons la personne + responsable pour les livres ». L’existence de ces25


Proceedings of IDP 09structurations prosodiques alternatives semble à première vue incompatible avec la structuresyntaxique, qui présente une organisation en constituants unique. Cependant, lorsqu’onenvisage les relations de dépendance à l’intérieur des paquets, les intonations bien forméesrespectent toutes la contrainte qui exige que les parties regroupées soient connexes (autrementdit qu’il y ait un lien de dépendance entre elles) ; en effet, « nous cherchons » régit « lapersonne », qui régit à son tour « responsable ». Pour désigner cette contrainte sur laconnexité des éléments regroupés, nous parlerons de la congruence entre syntaxe et prosodie.Alors qu’avec l’analyse en constituants (sous toutes ses variantes) on est parfois confrontéà des cas de désaccord entre syntaxe et prosodie difficiles à expliquer, la perspective desrelations de dépendance permet de rapprocher des phénomènes apparemment hétérogènes etde formuler une explication générale et concise.Le fait de concevoir la structure syntaxique comme un réseau de dépendance permetégalement d’éviter le piège d’associer à un type de constituant syntaxique des contoursintonatifs précis. Prenons l’exemple de la relative. Les énoncés « un enfant qui joue, oublie lemonde extérieur » et « un petit enfant qui joue avec ses jouets, oublie le monde extérieur »présentent évidemment la même structure syntaxique, comportant un groupe nominal suivid’une relative. Cependant l’accentuation de « enfant » est moins probable dans le premier casque dans le deuxième. Pourquoi la relative et son antécédent forment-ils tantôt un seul groupeintonatif, tantôt deux ? Ceci résulte de l’interaction de deux contraintes : l’une liée à lacongruence, l’autre à la longueur du groupe intonatif (le nombre de syllabes). La contraintesur la congruence autorise les deux réalisations alternatives. En effet, comme la relative estrégie par son antécédent, ils peuvent former ensemble un seul groupe intonatif ou êtreprononcés en deux groupes intonatifs successifs, participant au même paquet. Cependant,étant donné la longueur de la séquence « un petit enfant qui joue avec ses jouets », undeuxième accent apparaît facilement à la frontière syntaxique la plus importante au sein de laséquence. La fin de l’antécédent ne s’accompagne donc pas nécessairement d’une frontièreprosodique, et certainement pas d’une frontière prosodique majeure. Il suffit que cettefrontière soit inférieure ou égale à celle après la relative. L’effet de ces contraintes n’est biensûr pas limité aux relatives, mais joue pour tout réseau de dépendance et on préférera donc laformulation la plus générale en termes de dépendance, qui est en même temps la plus concise.4.2. L’intonation par défaut de l’îlot rectionnelLe calcul de l’intonation par défaut d’un îlot rectionnel commence par la formation desgroupes accentuels. Chaque groupe accentuel est constitué d’un élément non clitique (à accentlexical : nom, verbe, adjectif, adverbe, certains pronoms, certaines prépositions etconjonctions) et de ses dépendants clitiques adjacents. Lorsqu’un élément clitique est séparéde sa tête par un autre élément non clitique, il s’ajoute au groupe qui le suit. La dernièresyllabe pleine du groupe accentuel est accentuable, pourvu que les autres contraintes soientrespectées.Lorsqu’un nœud est accentué, cet accent sera placé à sa frontière droite, soit sur la dernièresyllabe accentuable. L’îlot rectionnel, qui coïncide avec le nœud majeur, reçoit au moins unaccent. Lorsque ce nœud comporte des nœuds emboîtés, les groupes accentuelscorrespondants peuvent être accentués s’il y a suffisamment de syllabes pour éviter lesaccents contigus. Ensuite, l’accentuation du nœud emboîté suppose en même temps celle dunœud plus large. Enfin, les degrés de frontière doivent respecter la contrainte mentionnée plushaut sur la connexité des éléments regroupés.Ainsi l’îlot « une succession de vagues successives de langages différents » reçoit aumoins un accent sur « -rents ». Vu le nombre de syllabes, on s’attend à l’accentuation desnœuds emboîtés. On peut accentuer les groupes accentuels des nœuds emboîtés : « une26


<strong>Actes</strong> d’IDP 09succession », « de vagues », « successives », « de langages ». L’accentuation de « vagues »suppose celle des mots « succession » et « successives » ; de même, l’accentuation de« langages » suppose celle de « successives » et de « différents ». Afin de respecter laconnexité des éléments regroupés, la frontière sur « vagues » doit être inférieure à celle sur« successives » et celle sur « langages » moins forte que celle sur « différents ».une succession de vagues successives de langages différents( ) ( ) ( ) ( ) ( )( ) ( ) ( )+ > ± < + > ± < +HH /BB HH /BB B-B-Figure 5. Groupes accentuels, syllabes accentuées et hiérarchie des frontièresprosodiques.Si la dépendance syntaxique constitue ainsi un critère utile et indispensable dans l’interfaceprosodie-syntaxe, elle ne fournit pas pour autant un critère suffisant, qui explique tous lesphénomènes. Il est nécessaire de tenir compte de la nature des constructions, afin de rendrecompte des contours intonatifs associés aux parties constitutives de telle ou telle construction.Enfin, la macro-syntaxe fournit un cadre pour caractériser les relations entre structuressuccessives et pour situer le rôle des marques prosodiques dans l’explicitation de cesrelations.4.3. Prosodie et construction syntaxiqueQuand on examine les propriétés prosodiques des constructions syntaxiques (dispositif direct,clivée, dislocation à gauche, dislocation à droite, pseudo-clivée, dispositif binarisant,construction présentative, restrictive, incise...), on observe plusieurs contraintes. La premièreconcerne l’accentuation obligatoire de telle ou telle partie de la construction et doncl’introduction d’une frontière majeure à cet endroit : on parlera d’une frontière prosodiqueobligatoire (FPO). La deuxième concerne le choix des contours (et le regroupement résultant).Pour l’illustrer, prenons l’exemple des clivées. (Pour une analyse syntaxique de la clivée,appelé aussi dispositif d’extraction (cf. Blanche-Benveniste et al. 1990:59-62). À propos de laprosodie des clivées, voir également Lambrecht (2001). Sur le plan prosodique, la clivéeprésente deux cas de figure. Le premier est celui où l’élément extrait est nécessairementaccentué (FPO) et s’accompagne d’un contour terminal, alors que la suite prend le contourd’appendice.(1) (a) c’est les livres HB- \\ qu’il jette b-b-(b) c’est lui B-B- \\ qui jette les livres b-b-La construction syntaxique de la clivée confère à l’élément clivé le statut informationnel defocus. Si le contour HB est utilisé pour l’élément clivé, il renforce ce rôle de focus par unemarque prosodique explicite. De son côté, le contour d’appendice fonctionne comme lamarque prosodique de l’arrière-plan informationnel, qui explicite le rôle joué par l’élémentclivé dans la proposition de la partie droite de la construction clivée.Dans « c’est Christophe HH qui jette les livres hh ? », l’élément clivé porte un contour decontinuation majeure et est suivi d’un appendice haut. On obtient la même répartition des27


Proceedings of IDP 09rôles informationnels : focus pour l’élément clivé, arrière-plan pour la suite. La différence parrapport au cas précédent avec l’appendice bas, c’est qu’il n’y a pas de frontière terminale ici.Le deuxième cas de figure est illustré par l’exemple « c’est au contraire d’eux HH qu’oncontinue à apprendre HB- », avec le contour HB- sur « apprendre ».Figure 6. Prosogramme de l’énoncé « c’est au contraire d’eux qu’on continue àapprendre » (corpus RB)Dans ce cas, on ne voit plus apparaître le contour d’appendice sur l’ensemble de la partiedroite de la construction clivée, mais cette partie accepte des contours variés, parmi lesquels ily aura un contour à frontière majeure (comme la continuation majeure) et éventuellementterminale (comme la finalité). La partie gauche de la clivée constitue le focus syntaxique de laconstruction et la partie droite peut comporter un deuxième focus (ou plusieurs) si le contourHB y apparaît, comme c’est le cas de « à apprendre » dans l’exemple.Contrairement à ce qu’on pourrait croire, dans les corpus oraux les emplois du deuxièmetype sont nettement plus fréquents que ceux du premier, comme le montrent les exemplessuivants :(2) c’est donc finalement pour un motif de jouissance qu’on écrit H/H (corpus RB)(3) enfin c’est comme ça HH que j’ai commencé à gagner ma vie H/H (corpus FG)(4) est-ce un petit peu ça HH qui ressort de votre étude BH (corpus BG)(5) et c’est à cela que je me rends compte d’une certaine connaissance d’une certainepopularité (corpus SV)(6) à mon sens HH c’est ça HH qui est important H/H (corpus SV)Pour d’autres constructions syntaxiques, on peut faire des observations analogues. Ellessont explicitées dans Mertens (2008).28


<strong>Actes</strong> d’IDP 09La construction de dislocation comporte un noyau (un îlot rectionnel) verbal saturé(accompagné de ses dépendants valenciels obligatoires), précédé ou suivi d’un nœudcoréférent à un argument pronominal clitique du noyau verbal : « ces livres, il y tient », « il ytient, à ces livres ». Blanche-Benveniste et al. (1990: 80) emploient le terme « doublemarquage » pour indiquer le fait qu’un référent est réalisé deux fois, d’abord par le pronomclitique et ensuite par l’élément disloqué à tête lexicale non clitique.Dans la dislocation à gauche, l’élément disloqué antéposé est le plus souvent séparé dunoyau central par une FPO, prend un contour à frontière majeure et fonctionne comme letopique du noyau. (cf. aussi Delais et al. 2004: 511 ; Grobet & Simon 2009 ; Avanzi, àparaître).Dans la dislocation à droite, l’élément disloqué postposé est séparé du noyau central parune FPO et s’accompagne du contour d’appendice bas ou haut, selon le contour qui précède(cf. aussi Delais et al. 2004: 522).Le dispositif restrictif, illustré par « il n’y a que lui qui jette les livres », présente lespropriétés syntaxiques, prosodiques et informationnelles de la clivée.Dans les constructions complexes, formées par la combinaison de constructionsélémentaires, les parties constitutives présentent des propriétés prosodiques analogues auxparties correspondantes des constructions simples. Dans l’exemple « c’est comme ça HH quel’histoire marche HB- en quelque sorte b-b- » on combine les propriétés prosodiques de la clivée(le cas à plusieurs focus) avec celles d’un élément associé postposé.Les contraintes sur les contours des constructions reflètent l’articulation de la constructionet explicitent le statut informationnel des parties constitutives. Ainsi, les contours HB et HBconstituentles marques prosodiques spécialisées du focus, alors que le contour d’appendices’utilise pour l’arrière-plan postposé. Quant au topique antéposé, il ne semble pas avoir demarque prosodique propre, mais il s’accompagne d’un contour progrédient (à frontièreprosodique mineure ou majeure), ce qui par le biais du regroupement intonatif le relie aunoyau rhème.4.4. Regroupement intonatif et macro-syntaxeLe regroupement intonatif s’observe tant pour des suites de groupes sans lien syntaxique(« d’abord l’aspect social ensuite la dimension économique »), qu’à l’intérieur de l’îlotrectionnel, et aussi pour des îlots successifs. Si le regroupement intonatif fonctionne ainsicomme la marque prosodique d’un lien, d’une relation entre plusieurs parties, ce lien peut êtrede nature très variée : il peut s’agir du lien entre le verbe régissant et son dépendant (sujet,objet, autre complément, circonstant), entre l’élément associé et le noyau verbal régissant,entre l’élément disloqué et le noyau auquel il s’adjoint, entre le topique et le reste de laproposition, et ainsi de suite.Le regroupement intonatif est donc un mécanisme très général qui indique la présence d’unlien entre deux éléments, mais de façon indirecte, par leur regroupement dans l’unitéenglobante, en sans différencier la nature de ce lien.5. Déphasages entre syntaxe et prosodieLors de la validation du modèle sur des corpus oraux, on s’intéresse particulièrement aux casoù les contours utilisés et la structuration prosodique résultante ne respectent pas celle del’intonation par défaut, non seulement pour étudier les effets discursifs ou informationnels quien résultent, mais aussi pour voir comment on peut en rendre compte. Le dépouillement descorpus permet d’observer plusieurs types de désaccord entre les structurations syntaxique et29


Proceedings of IDP 09prosodique. Ci-dessous nous examinons les cas où une frontière terminale apparaît àl’intérieur d’un îlot rectionnel plutôt qu’à sa fin.1. Dans le premier type de désaccord, une seule unité syntaxique maximale (un seul îlotrectionnel) est réalisée sous la forme de plusieurs unités prosodiques maximales. L’exemplesuivant comporte deux contours de finalité (B-B-), l’un sur « phrases », l’autre sur« pensées ». Le premier est suivi de l’appendice infra-bas sur l’élément incident « disons »,qui prolonge ainsi la frontière terminale après « phrases ». Cependant, sur le plan syntaxiquel’exemple dans son ensemble forme un seul îlot, puisque « et non pas à penser par pensées »est régi par « j’ai tendance ».(7) j’ai tendance à penser par phrases B-B- disons b-b- et non pas à penser par pensées B-B-(corpus RB 141)De la même façon, l’exemple suivant forme un seul îlot rectionnel, malgré la frontièreprosodique terminale après « évidentes ». La suite s’achève sur un contour « h\HH », dont onsait qu’il peut fonctionner comme contour terminal et qui est d’ailleurs suivi d’un appendiceinfra-bas sur « je veux dire ».(8) j’ai toujours été étonnée de voir /BB que les gens HH ne voyaient pas des choses quime paraissaient évidentes B-B- dans le comportement des autres \HH b- je veux direb- (corpus FG 162)La frontière terminale à l’intérieur de la structure syntaxique produit un effet sémantiqueprécis. La partie après la frontière terminale est perçue comme un ajout après-coup qui vientpréciser, corriger ou compléter ce qui précède.2. Le deuxième type de déphasage peut être illustré par les exemples suivants.(9) c’est dans cette librairie HH que je crois HH que Allégret HB- b- vous a trouvée b-(corpus FG 358)(10) c’est-à dire HH que je connaissais HB- b- Allégret très bien b- (corpus FG 361)(11) entre les deux guerres, moi quand j’étais adolescent, il y avait des grands leadersHB- b- de la littérature b- (corpus RB 279)(12) tout le monde sait HB- b- que la culture est misogyne b- (corpus BG 108)(13) il a contribué puissamment à la destruction du mythe HB- b- littéraire b- (corpusRB)Ces exemples comportent tous le contour HB-, qui entraîne une frontière prosodiqueterminale. Celle-ci apparaît non pas à la fin de l’îlot rectionnel, mais à l’intérieur de celui-ci etla suite de l’îlot est prononcée avec le contour d’appendice. La frontière terminale apparaît àdes endroits très hétérogènes du point de vue syntaxique : après le sujet dans « Allégret vous atrouvée », après le verbe dans « je connaissais Allégret très bien » et dans « tout le monde saitque la culture est misogyne », à l’intérieur du syntagme nominal dans « des grands leaders dela littérature ». Ce qui relie ces exemples, c’est la présence des contours HB- et del’appendice, marques prosodiques du focus et de l’arrière-plan informationnel, respectivement.Alors que l’intonation par défaut demanderait que le contour terminal soit placé à la finde l’îlot, et dès lors à la fin d’un nœud, dans ces exemples, l’intonation entraîne la divisiond’un nœud en deux parties, où la première partie est marquée comme le focus et la deuxièmecomme l’arrière-plan. Pour cette raison, on parlera de la rupture du nœud syntaxique parl’emploi de marques intonatives.Si le locuteur mettait le contour de focus à la fin du nœud entier, il en résulterait un effet desens différent : selon que l’îlot « je connaissais Allégret très bien » est prononcé avec lecontour HB- sur « bien », sur « Allégret » ou sur « connaissais », on obtient des effetscontrastifs qui mettent en valeur l’adverbe, l’objet ou l’assertion portée par le prédicat verbal.30


<strong>Actes</strong> d’IDP 09Supposons que le locuteur veuille focaliser un dépendant du verbe (le sujet, uncomplément ou un circonstant). Il peut alors recourir à la clivée et associer à l’élément clivé lecontour de focus. Mais le procédé de la clivée ne s’applique pas au verbe fléchi, ni à unepartie de constituant. Dans ces cas-là, la focalisation peut se faire à l’aide du contour HBsuivide l’appendice.Le procédé de rupture de nœud n’est pas réservé au contour HB- ; les exemples suivantsmontrent des cas analogues avec le contour B-B-.(14) je ne m’en méfie pas quand on attaque B-B- b- les intellectuels b- (corpus RB 647)(15) en contact avec ce milieu de cinéma euh très très exhibitionniste hB-B- b- en matièred’argent b- (corpus FG 521)3. Dans le troisième type de déphasage, une frontière terminale interne à l’îlot rectionnelest suivie d’une frontière majeure non terminale. Après « extraordinairement pauvres »l’auditeur a l’impression que l’énoncé est achevé, mais la locutrice enchaîne tout de suite avec« à ce moment-là » doté du contour BH, avec l’effet d’annulation de la frontière terminale.(16) nous avions donc ça en commun HH et nous étions tous les deux HHH_extraordinairement pauvres B-B- b- à ce moment-là BH euh en contact HH avecce milieu de cinéma /BB très exhibitionniste hB-B- b- en matière d’argent b- (corpusFG 515)6. DiscussionPlus haut, il a été question de l’association de formes mélodiques à des unités syntaxiques deniveau relativement élevé (comme le nœud, l’îlot rectionnel ou les parties constitutives d’uneconstruction). Afin de prendre en compte des aspects métriques et rythmiques, il seranécessaire de prendre en considération également des niveaux plus proches du niveausegmental, comme l’accentuabilité (accent lexical, groupe accentuel) et le niveau syllabique(nombre de syllabes et contigüité).La question des unités ou domaines prosodiques occupe une place importante dans lesmodèles autosegmentaux de la prosodie. Syllabe, pied, mot phonique, intonational phrase,intermediate phrase… Combien de domaines faut-il pour rendre compte de la prosodie d’unelangue ?Delais-Roussarie & Post (2008) définissent l’IP (Intonational Phrase) comme un domaineprosodique dont l’extension correspond à la « phrase racine » et dont la frontière droite estmarquée par une pause ou un allongement très important et par un contour mélodique majeur.Cependant, elles notent aussitôt que parfois le SN sujet est traité comme un IP indépendant,même si ce constituant ne correspond pas à une phrase racine. Afin de traiter ces cas, lesauteurs distinguent deux types d’unités IP : l’IP syntaxique, qui se définit sur des basessyntaxiques, et l’IP informationnel, qui se définit relativement au focus informationnel. L’IPsyntaxique apparaît à la frontière droite de la phrase racine, ou à celle de certains constituantsde constructions (dislocation gauche, incidente, subordonnée antéposée, « ajout » antéposé,« topicalisation » ...). La frontière droite d’un IP syntaxique n’est pas systématiquementréalisée par une frontière d’IP (pause, allongement, contour mélodique majeur), mais parfoispar un contour mélodique mineur. On constate donc que les deux critères utilisés pour définirl’IP (le critère syntaxique et le critère formel des propriétés prosodiques) ne sont passystématiquement présents : en effet, l’IP ne correspond pas toujours à une phrase racine et ilne se réalise pas toujours par un contour à frontière majeure.Dans notre approche, on se passe du domaine IP et des différents types d’IP ; on retientseulement deux domaines élémentaires : la syllabe et le groupe intonatif. En effet, les unités31


Proceedings of IDP 09prosodiques plus larges (le paquet intonatif, le paquet maximal) résultent du mécanisme deregroupement intonatif, basé sur les frontières relatives associées aux contours. Pour retrouverles entités il suffit donc de repérer les contours de groupe et d’appliquer la règle sur leregroupement intonatif.7. ConclusionL’approche esquissée ci-dessus est une tentative de saisir le fonctionnement de la prosodiedans toute sa complexité, par l’explicitation de l’ensemble des facteurs ayant un impact sur laprosodie. L’analyse des données de corpus oraux constitue le moyen par excellence de validerces hypothèses et d’identifier les aspects qui méritent des recherches supplémentaires.RéférencesAvanzi, Mathieu (à paraître). La dislocation à gauche en français parlé. Etude instrumentale. Le françaismoderne 2011: 2.Beyssade, Claire ; Delais-Roussarie, Elisabeth ; Doetjes, Jenny S. ; Marandin, J.-M. & Rialland, A. (2004).Prosody and information in French. Corblin, F. & Swart, H. de (eds.). Handbook of French Semantics. pp.477-500. CSLI, Stanford.Blanche-Benveniste, Claire ; Bilger, Mireille ; Rouget, Christine & Eynde, Karel van den (1990). Le françaisparlé. Etudes grammaticales. Coll. Sciences du langage. Editions du CNRS, Paris.Delais-Roussarie, Elisabeth ; Doetjes, Jenny ; Sleeman, Petra (2004). Dislocation. Corblin, F. & Swart, H. de(eds.). Handbook of French Semantics. pp. 501-528. CSLI, Stanford.Delais-Roussarie, Elisabeth & Post, Brechtje (2008). Unités prosodiques et grammaire de l'intonation : vers unenouvelle approche. <strong>Actes</strong> 27èmes Journées d’Etude sur la Parole. Avignon, 8-13 juin 2008.Delattre, Pierre (1966). Les dix intonations de base du français. French Review 40:1, 1-14.Dooren, Karin van & Eynde, Karel van den (1982). A structure for the intonation of Dutch. Linguistics 20, 203-235.Eynde, Karel van den; Mertens, Piet & Swiggers, Pierre (1998). Structuration segmentale et suprasegmentale ensyntaxe: Vers un modèle intégrationniste de l’écrit et de l’oral. Bilger, Mireille ; van den Eynde, Karel &Gadet, Françoise (eds.), Analyse linguistique et approches de l’oral. Recueil d’études offert en hommage àClaire Blanche-Benveniste. Collection « Orbis/Supplementa 10 », Peeters, Leuven-Paris. pp. 33-57.Eynde, Karel van den & Mertens, Piet (2003). La valence: l’approche pronominale et son application au lexiqueverbal. Journal of French Language Studies 13, 63-104.Grobet, Anne & Simon, Anne Catherine (2009). Constructions à détachement à gauche : les fonctions de laprosodie. Apothéloz, D. ; Combettes, B. ; Neveu, F. (eds.), Les linguistiques du détachement. Peter Lang,Bern. pp. 289-303.Lacheret-Dujour, Anne & Beaugendre, Frédéric (1999). La prosodie du français. Paris: Editions CNRS.Lambrecht, Knud (2001). A framework for the analysis of cleft constructions. Linguistics 39:3. pp. 463-516.Martin, Philippe (1978). Questions de phonosyntaxe et de phonosémantique en français. LingvisticaeInvestigationes 2, pp. 93-126.Mertens, Piet (1987). L’intonation du français. De la description linguistique à la reconnaissance automatique.Thèse de doctorat. Université de Leuven.Mertens, Piet (2004). Un outil pour la transcription de la prosodie dans les corpus oraux. TraitementAutomatique des Langues 45:2, pp. 109-130.Mertens, Piet (2008). Syntaxe, prosodie et structure informationnelle : une approche prédictive pour l’analyse del’intonation dans le discours. Travaux de Linguistique 56:1, pp. 87-124.Mertens, Piet ; Goldman, Jean-Philippe ; Wehrli, Éric & Gaudinat, Arnaud (2001). La synthèse de l’intonation àpartir de structures syntaxiques riches. Traitement Automatique des Langues 42:1, pp. 145-192.Rossi, Mario (1999). L’intonation, le système du français : description et modélisation. Ophrys, Gap - Paris.Collection « L’essentiel français ».Tesnière, Lucien (1958). Éléments de syntaxe structurale. Klinksieck, Paris.32


<strong>Actes</strong> d’IDP 09On rises and falls in interrogativesHubert Truckenbrodttruckenbrodt@zas.gwz-berlin.deCentre of General Linguistics (ZAS) BerlinAbstract :This paper first reviews a little-known but, I argue, important assumption made by Bartels 1997: Intonationalmeanings (here assertive [\] vs. non-assertive [/]) do not operate on the literal meaning of a sentence. Instead,they operate on salient propositions. The paper separates this claim from the details of English intonation andshows its success for a range of sentence types in German: statements, yes/no questions, wh-questions,alternative questions and declarative questions.This paper then reviews results concerning Brazilian Portuguese nuclear contours in statements, yes/noquestions and so-called surprise questions. Surprise questions are argued to be functionally comparable toEnglish declarative questions. It is argued that Brazilian Portuguese pitch accents simultaneously encode twodimensions: on the one hand declarative vs. interrogative (encoded in the syntax in English and German); on theother hand, assertive [\] vs. non-assertive [/] (also encoded in the intonation in English and German).1. Intonation as assertive/non-assertive, operating on salient propositionThis section 1 seeks to develop an understanding of core elements of intonational marking ofinterrogatives. A centerpiece is a suggestion of Bartels (1997) that is rarely cited andsomewhat hidden in her 500+-page thesis. It seems to me to move our understanding of howintonational meanings operate in the right direction. Section 2 extends the analysis todeclarative questions. Section 3 provides independent support for Bartels' suggestion. Section4 shows an extension of the components introduced in the first sections to the intonationsystem of Brazilian Portuguese.1.1. The issueI concentrate on the broader notion of what is sometimes called yes/no question intonation,across languages. I illustrate with German examples.The issue is what yes/no question intonation means, and how this meaning is contributed ingrammatical terms. To begin with, consider the declarative sentence (1a). It is turned into adeclarative question (1b) when yes/no question intonation is employed with it. I mark yes/noquestion intonation in German as the rise [/] and its counterpart as the fall [\].(1) Syntactic declaratives: intonation makes a difference to the interpretationa. Peter hat eine Katze [\] (statement)b. Peter hat eine Katze [/] (declarative question)'Peter has a cat.'Does yes/no question intonation then mark the speech act question? This hypothesis is easilyfalsified because other question speech acts do not require this intonational pattern, and somein fact reject it. The well-known core cases are shown for German in (2). Though yes/no33


Proceedings of IDP 09questions as in (2a) typically do show yes/no question intonation (the name is no accident),wh-questions as in (2b) more typically show the absence of it, and alternative questions as in(2c) require the absence of yes/no question intonation in final position. All these are questionspeech acts that seek an answer from the addressee.(2) Syntactic interrogatives: speech act question throughout but different intonationa. Hat Peter eine Katze [/] (yes/no question typically rising)'Does Peter have a cat?'b. Was für eine Katze hat Peter [\] (wh-question often falling)'What kind of cat does Peter have'c. Hat Peter einen Hund oder eine Katze [\] (alternative question always falling)'Does Peter have a dog or a cat?From the perspective of German, an improved hypothesis that goes a step further wassuggested by Kretschmer (1938). 1 Kretschmer suggested that rising intonation markscontinuation in all cases, and that (German rising) yes/no question intonation simply markscontinuation before an elided part of the question. (3a) shows a standard case of [/] asmarking continuation at the end of a clause continued by a second clausal conjunct. At theend of the utterance, we find the final fall [\]. An alternative question, as in (3b), shows thesame distribution of [/] and [\], the medial [/] marking continuation within the utterance, andthe final [\] the absence of this. Thus, the intonation pattern of alternative questions is asexpected. The crucial case of yes/no question intonation is derived as shown in (3c): Here,too, a second conjunct is assumed, the negation of the first conjunct. This is quite coherentfrom the perspective of recent interrogative semantics: A standard semantic analysis of yes/noquestions is that they are hidden alternative questions; see e.g. Karttunen (1977). 2Kretschmer's suggestion is then that the second conjunct is elided in yes/no question, but thatthe rising continuation at the end of the first conjunct, which originally announced thecontinuation in the second conjunct, is retained. Yes/no question intonation here markscontinuation, as in other cases, in Kretschmer's suggestion. Finally, wh-questions as in (3d) donot have such a hidden continuation, and therefore no final rise is expected.(3) a. Maria hat einen Hund [/] und Peter hat eine Katze [\].'Mary has a dog and Peter has a cat.'b. Hat Peter einen Hund [/] oder hat er eine Katze [\]. (alternative question ")'Does Peter have a dog or does he have a cat?'c. Hat Peter eine Katze [/] oder hat er keine Katze [\]. (yes/no question as elliptical;'Does Peter have a cat or doesn't he have a cat?' [/] marks silent continuation. ")d. Was für eine Katze hat Peter [\]. (wh-question: no silent continuation ")'What kind of cat does Peter have?'1Kretschmer, originally from Berlin, was a professor in Vienna, and retired around the time his articleappeared. 1938 was also the year of the 'Anschluss' of Austria to Nazi Germany. I could not find informationabout involvement of him with the Nazis before or after that. There are also no political asides in this linguisticarticle. Kretschmer is the only one I am aware of to have articulated this proposal. H.T.2The perspective is not uncontroversial, see Bolinger (1978), Bartels (1997), Romero & Han (2004).34


<strong>Actes</strong> d’IDP 09However, Kretschmer's hypothesis does not work across languages. There are many ways ofmarking yes/no questions across languages, which are not also used for continuation (seeHaan 2001 and references there). In English, for example, the yes/no question contour is L*H- H% while continuation in assertions is marked with H* L- H% (see Pierrehumbert &Hirschberg 1990 and Bartels 1997).Bolinger (1957), (1989), Gussenhoven (1984):Ch.6, Pierrehumbert & Hirschberg (1990),and Bartels (1997) see parts of tunes of the English intonation system as abstract morphemeswith pragmatic meaning.Bolinger distinguishes three core accents, of which the A accent is assertive. Bolinger callsthe C accent anti-assertive. What I here refer to as yes/no question intonation belongs to thiscategory C. The perspective that yes/no question intonation is the absence or negation of anassertive meaning of some sort is also taken in the other works cited in the precedingparagraph. This perspective is also pursued by Bartels and in this paper. On its own, however,it does not solve our simple puzzle: All three examples in (2) are interrogatives. If (2a) ismarked as non-asserted, why are (2b) and (2c) not similarly marked as non-asserted? What isit that is asserted in (2b) and in (2c)?1.2. Intonational meanings operate on salient propositionsIn this section, the relevant suggestion of Bartels (1997) is introduced and illustrated withcore cases.While Bartels develops her suggestions with regard to the elements of English intonation, Ikeep employing the broader notions [/] and [\]. For German, I identify [\] with an L%boundary tone and [/] with an H% boundary tone (see Féry 1993, Grice, Baumann, &Benzmuller 2005, Uhmann 1991). I take [\] to be assertive and [/] to be non-assertive. Iassume for concreteness that the non-assertive meaning of [/] is inherent to [/], though it isalso conceivable that [/] is instead meaningless and its non-assertive interpretation triggeredby an implicature due to the non-employment of the assertive [\].(4) a. [\]p: speaker asserts pb. [/]p: speaker does not assert pIn the contrast between (1a) and (1b), the speaker S thus marks S's asserting intent in (1a) bythe use of [\]. In (1b), S marks that S does not assert p. This alone does not suffice to explainthe questioning impact of (1b), to which I return. It suffices to mark the speech-act assomething other than an assertion of the content.Bartels' important suggestion concerns the nature of p, the proposition modified by theintonational meanings [\] and [/] in (4). Bartel's suggestion is that this p is crucially not theliteral (compositional) meaning of the clause modified (or a part of this literal meaning), butinstead a salient proposition. Salient, we may say in a good first approximation, in connectionwith the wording and literal (compositional) meaning of the original utterance.(5) Suggestion of Bartels (1997): Intonational meaning operates on salient propositions.In the case of (1), the declarative sentence has a proposition as its meaning (i.e. Peter has acat), and the most salient proposition in connection with this literal meaning is that sameproposition, Peter has a cat. This particularly salient proposition is also the propositionmodified by the intonational meanings [\] in (1a) and [/] in (1b).The fruitfulness of Bartel's suggestions in terms of salient proposition emerges ininterrogative clauses. Here the literal meaning of the interrogative clause is not a proposition,35


Proceedings of IDP 09but a more complex semantic object. 3 Different salient propositions then come into view withdifferent kinds of interrogatives. In the alternative question Does Peter have a dog or a cat?in (6) a particularly salient proposition is Peter has a dog or a cat. This proposition isparticularly close to the original wording, undoing only the syntactic inversion (or,semantically, removing the effect of the interrogative Q-marker and its association with thedisjunction). It makes sense in alternative questions that this proposition is endorsed, orasserted, by the speaker, for this is independently an aspect of the interpretation of alternativequestions. The final fall in alternative questions thus has a sensible interpretation: The speakerasserts with [\] that one of the alternatives is true.(6) Alternative questionHat Peter einen Hund [/] oder eine Katze [\]L%'Does Peter have a dog or a cat?'Most salient proposition: Peter has a dog or a cat.! [\]L% marks: speaker asserts that Peter has a dog or a cat.Consider then yes/no questions as in (7). For the yes/no question Does Peter have a dog? aparticularly salient proposition is Peter has a dog. This is similarly close to the originalwording, undoing only syntactic inversion (or semantically, removing the interpretative effectof the Q-marker). In this case, however, this salient proposition ought not to be endorsed bythe speaker, for otherwise the questioning intent would be undermined: The question hereseeks to learn from the addressee whether this proposition is true or false. This propositionought therefore to be marked as non-asserted, i.e. marked with [/].(7) Yes/no questionHat Peter einen Hund? [/]H%'Does Peter have a dog?'Most salient proposition: Peter has a dog.! [\]H% marks: speaker does not assert that Peter has a dog.This explains the typical use of yes/no question intonation in yes/no questions: It is thepresence of this (uninverted) particularly salient proposition that typically prevents the use ofasserting [\] intonation.In wh-questions, as in (8), no salient proposition can be gotten by simply undoing thesyntactic inversion (and perhaps wh-movement), since the wh-word would still mark asemantic 'gap' in the result, i.e. Peter has what kind of cat does not have a propositionalmeaning. Here a further source of salient propositions in interrogatives comes into play. Idiscuss this source for wh-questions first, and afterwards for alternative questions and yes/noquestions. This source is the assumption (often analyzed as a presupposition), ininterrogatives, that there is a true answer to the question. For a wh-question like (8), this isobtained by not only undoing inversion and wh-movement, but also replacing the wh-word3Depending on the theory, this is the set of possible answers (Hamblin 1973), or the set of true answers(Karttunen 1977) which is normally not known to the speaker, or the maximal true answer (Groenendijk &Stokhof 1982), which is likewise normally not known to the speaker.36


<strong>Actes</strong> d’IDP 09with an indefinite expression: Peter has some kind of cat. 4 Since this salient proposition is aspeaker assumption, or presupposition, independently conveyed by the wh-question, thespeaker will normally endorse it by [\] intonation (rather than marking the absence of itsendorsement by [/]).(8) Wh-questionWas für eine Katze hat Peter? [\]L%'What kind of cat does Peter have?'Salient proposition: Peter has some kind of cat.! [\]L% marks: speaker asserts that Peter has some kind of cat.Returning then to alternative questions and yes/no questions, what about the salientproposition that there is a true answer with those question types? With alternative questionssuch as Does Peter have a dog or a cat?, the assumption of a true answer is in fact identical tothe salient proposition already postulated above, e.g. Peter has a dog or a cat. Here, then, noadditional intonational possibilities are predicted. This is a desirable result, since the final fallin alternative questions is close to obligatory.Matters are different with yes/no questions. The existence of an answer (yes or no) to DoesPeter have a dog? is this: Peter has a dog or he doesn't. Bartels argues that we indeed findspeaker-assertion of such a salient proposition (with [\], in my terms). Where this occurs, apragmatic effect is observed that is expected on the analysis laid out here: By asserting that ananswer exists one way or the other, the speaker tries to keep the addressee to the point. 5(9) Yes/no question with a fallHat Peter einen Hund? [\]L%'Does Peter have a dog?'Salient proposition: Peter has a dog or he doesn't.! [\]L% marks: speaker asserts that Peter has a dog or he doesn't.(pragmatic impact: which is it, this or that?)2. Declarative questionsIn this section I extend the analysis to declarative questions like (1b). The extension also leadsto assumptions about a speech-act contribution of the declarative sentence form, which willagain be relevant in the analysis of Brazilian Portuguese in section 4.Declarative questions are syntactically declarative sentences (without inversion or whword)that are employed as questions. The questioning intent is typically recognized by risingintonation [/]. Gunlogson 2001 shows that a declarative question [p?] (or, here: p[/]) requires4Semantically (depending on the details of the semantic account of interrogatives), this may still be seen as theremoval of the effect of the Q-marker and its associated interrogative effects, if the difference between a whwordand an indefinite is the association with the Q-marker of the former.5Bartels' account is actually more complex. She partly adopts a suggestion of Bolinger (1978) that yes/noquestions are not hidden alternative questions but semantically singeletons, interested only in the truth of theunderlying proposition, such as {Peter has a dog} in (9). Bartels modifies this and allows both singleton andhidden alternative question readings of yes/no questions. The latter would be {John has a dog, John doesn't havea dog} for (9). The salient proposition of a singleton reading, the single proposition, is marked by the rise in agenuine yes/no question. The salient proposition of a hidden alternative question is the disjunction of thealternatives, and is marked by a fall.37


Proceedings of IDP 09that the addressee can be assumed to believe p, i.e. it requires that it can be assumed that theanswer is 'yes'. (10) reviews that yes/no questions can be used to ask genuinely openquestions, where the answer may be 'yes' or 'no'. (11) shows that declarative questions cannotbe used for asking about such genuinely open issues. (12) shows examples of felicitousdeclarative questions with their contexts. In these cases, it can be assumed that the addresseeA of the declarative question by B believes p, the proposition of the declarative question. Inthe echoing context (12a), the proposition of the declarative question by B is that there is aleopard in the living room. The addressee A of the declarative question can be assumed tobelieve this proposition, since A has just asserted this. In (12b), addressee A of the declarativequestion can be assumed to believe p, that France is a monarchy, since A has presupposed asmuch by the use of the king of France. The discourse in (12c) is felicitous on the assumptionthat A's having talked to Helena can be inferred from A's knowing that Mark and Helena areleaving for Japan in the current week. Here, too, the condition is satisfied. It can be assumed,from what A said, that A believes that A talked to Helena.(10) Open issues: Yes/no question OKa. It's an open question: Did she lie to the grand jury?b. I can't decide: Should I wash my hair tonight?c. [guessing game] Is it bigger than a bread-box?(11) Open issues: Declarative question not OKa. # It's an open question: She lied to the grand jury?b. # I can't decide: I should wash my hair tonight?c. # [guessing game] It is bigger than a bread-box?(12) Addressee can be assumed to believe p: Declarative questions OKa. A: There is a leopard in the living-room.B: There is a leopard in the living-room?b. A: The king of France is bald.B: France is a monarchy?c. A: Mark and Helena are leaving for Japan this week.B: Oh ... you talked to Helena?Gunlogson develops an interesting, though formally somewhat complex, account, of which Ihere adopt elements of the architecture and one core ingredient, to tentatively assemble arevised more informal account. The architecture of Gunlogson's account is that the declarativesyntax restricts the speech act interpretations of the declarative sentence, and the intonationalso restricts the speech act interpretation, and that the restrictions on the use of declarativequestions follow from the interaction of these two factors. Her suggestion is furthermore thatthe declarative syntax requires that either speaker S or addressee A believe the declarativeproposition p. I adopt this here with a change from believing to saying. I further postulate thata semantic (not syntactically represented) interrogative Q component can be optionally added,with scope over the speech act component of the declarative. Thus, the declarative question in(13a) has the interpretation sketched in (13b). The interpretation is paraphrased in (13c). Forcomparison, (14b) shows the interpretation of a standard declarative in (14a), with the speechact component 'S says'. In both cases, the component S/A says is taken to be triggered by the38


<strong>Actes</strong> d’IDP 09declarative sentence form. It is crucial that, as in Gunlogson's suggestion, the person doing thebelieving (or, here, saying) is flexible between S and A.(13) a. France is a monarchy?b. Q [ A says [that France is a monarchy]]c. Are you saying that France is a monarchy?(14) a. France is a monarchy.b. S says [that France is a monarchy]In this suggestion, a declarative question [p?] is more generally interpreted along the lines ofAre you saying that p? This accounts for their non-occurrence in the open contexts in (11),and for their occurrence in the contexts in (12) where A has asserted, presupposed, or licensedan inference that p.In this account, the role of the intonation in the relevant core cases is then as follows: [\]disambiguates in favor of (14b), and [/] disambiguates in favor of (13b). This is shown in (15)and (16) with similar German examples. First, the example in (15) shows that the declarativeinterpretation in (14) is compatible with [\]. On the most plausible interpretation of the fall in(15c), the declarative interpretation (15c) is in fact doubled by the intonational interpretationin (15c). (15d) is added for completeness, and (15e) shows that a rising interpretation is notsemantically compatible with the statement interpretation at hand.(15) a. Frankreich ist eine Monarchie. [\]L%'France is a monarchy.'b. S says [that France is a monarchy]c. Salient proposition 1: [that France is a monarchy]]! [\]L% marks: S asserts that France is a monarchyd. Salient proposition 2: S says [that France is a monarchy]! [\]L% mark: S does not assert that France is a monarchye. Incompatible marking with [/]H%:# S does not assert that France is a monarchy# S does not assert that S says that France is a monarchyTherefore, the deployment of [/]H% blocks the statement interpretation. (16) shows that[/]H% is compatible with the declarative question interpretation of (13). The two relevantsalient propositions in (16c) and (16d) may reasonably be marked by rising intonation: Thespeaker does not (perhaps not yet) endorse A's having just said that France is a monarchy, andthe speaker does not (perhaps not yet) endorse that France is a monarchy.(16) a. Frankreich ist eine Monarchie? [/]H%'France is a monarchy?'b. Q [ A says [that France is a monarchy]]c. Salient proposition 1: [A says [that France is a monarchy]]! [/]H% mark: S does not assert that A says that France is a monarchyd. Salient proposition 2: [France is a monarchy]! [/]H% mark: S does not assert that France is a monarchy39


Proceedings of IDP 09The particulars of the account are in part motivated by an extension to echo questions which Idefend in more detail in other ongoing work. For the purpose of this paper, the accountcaptures Gunlogson's observation in connection with (11) and (12). Further, it provides anindependent question interpretation for declarative questions, in favor of which intonationalmarking can disambiguate. Finally, the account allows me to spell out how the intonation candisambiguate between a statement and a declarative question interpretation.3. Further evidence that intonational meanings operate on salient propositionsIn this section, two cases from Pierrehumbert & Hirschberg (1990) are reviewed that may beseen as support for the suggestion that intonational marking can operate on salientpropositions, rather than being confined to operating on literal meaning.First, in the example in (17), from Pierrehumbert & Hirschberg (1990):290, MarkLiberman approaches a receptionist to find out whether he is in the right place for hisappointment. The high-rise intonation contour here allows for a combination of assertive andnon-assertive meaning. First, the H*, part of the standard English assertive contour H* L-,seems to contribute assertion in the sense that the speaker asserts that his name is MarkLiberman. If H* were here changed to non-assertive L*, the sentence would convey that thespeaker has forgotten his name, which is not what (17) conveys. At the same time, the finalH-/H% edge tones convey something questioning, along the lines of 'Am I in the right placefor my appointment?'. This latter aspect, it seems to me, cannot be captured if intonationalmeaning would operate on literal sentence meaning, i.e. it could not be captured by thespeaker denying that his name is Mark Liberman, or denying that he is saying that his name isMark Liberman. Rather, it would seem to be the marking of a salient proposition, along thelines of: 'The speaker is not asserting that he is in the right place for his appointment.'(17) H* H* H- H%My name is Mark LibermanSecond, Pierrehumbert & Hirschberg (1990):293f observe that marking of vocatives with H*vs. L* correlates with whether the speaker has the attention of the addressee or not.(18) H* if S does not have the attention of AnnaL* if S already has the attention of AnnaAnna, your lunch is ready.This fits into their account where H* marks new and asserted information while L* marksgiven or non-asserted information, so long as these tones mark the proposition 'I am talking toyou'. This proposition would be marked as asserted and new by H* and as given by L*. Thisproposition is of course part of the way the vocative is understood. However, it is at least notclear that it is part of a compositional process of interpretation of the vocatives. If it is not,then it is another salient proposition outside of the compositional interpretation, which may bemarked by intonational meaning.40


<strong>Actes</strong> d’IDP 094. Intonation in Brazilian PortugueseIn this section, I review core results on the intonation of Brazilian Portuguese fromTruckenbrodt, Sandalo, & Abaurre (2009). They are interesting for the current paper, sincethere is no syntactic inversion to distinguish a yes/no question from a declarative in BrazilianPortuguese. Instead, this distinction is carried by the intonation as well. There is, in addition,a question type comparable to declarative questions. It is argued that two dimensions ofintonational marking can be isolated: On the one hand, the distinction between declarativesand interrogatives (what is marked by inversion in English); on the other hand, the distinctionmarked by [\] vs. [/] in the discussion above, i.e. assertive vs. non-assertive intonation.4.1. Literature on Brazilian Portuguese nuclear contoursPerception experiments of de Moraes (1984), (1998) show that a relatively low stressedsyllable is perceived as declarative and a relatively high stressed syllable as interrogative. Itseems to be the tonal height, rather than the tonal movement (falling vs. rising) that are crucialfor this.The starting point of the investigation was a classification of main intonational contours ofBrazilian Portuguese by Cagliari (1982). It is drawn and reproduced in (19), with translationsadded on the right.(19) Classification of main intonation contours by Cagliari 1982:statement:'Yesterday it rained a lot.'question:'Is it raining?'incomplete expression:'She said:' ('be quiet')surprise question:'I don't know?!'emphatic assertion:'But I handed over the paper!?'cleft sentence:'It was her who told me.'The statement category 1 is described in de Moraes 1998:183 as follows: "the neutraldeclarative pattern in BP is characterized by a drop in fundamental frequency (F0) at the endof the utterance (more precisely, on the final tonic) (...)." This is further compatible with thetranscription H L* L i of Tenani 2002.41


Proceedings of IDP 09The yes/no question category 2 is also described in Gebara (1976) as having a final rise; deMoraes 1998 writes that given penultimate stress, the yes/no question rises to a peak on thestressed syllable but falls again on the final syllable.Category 3 is marking of continuation.Category 4 is the surprise question, a category from the Brazilian Portuguese literature,which is argued below to be functionally similar to the declarative question of English. Itsintonation is drawn by a different contour from that of yes/no questions by Cagliari. Gebara1976, on the other hand, sees the difference in a higher pitch range for surprise questions.Category 5 is that of emphatic assertions. Category 6, focus intonation in a cleft sentence,is not relevant here. Further details about the previous literature can be found inTruckenbrodt, Sandalo, & Abaurre (2009).4.2. Surprise questions and declarative questionsBrazilian Portuguese surprise questions seem to be similarly restricted in use to English (andGerman) declarative questions. Brazilian Portuguese equivalents of (10) - (12) are shown in(20) and (21). The open questions in (20) are possible with yes/no question intonation, but notwith surprise question intonation, just as their English equivalents are possible as yes/noquestions in (10) but not as declarative questions in (11). Surprise questions are possible in(21), the contexts that also license declarative questions in English in (12).(20) Yes/no questions but not surprise questionsa. É uma questão aberta: Ela mentiu ao júri?'It's an open question: Did she lie to the jury?'b. Não consigo decidir: Lavo o cabelo esta noite?'I can't decide: Should I wash my hair tonight?'c. [guessing game]É maior que um laptop?'Is it bigger than a laptop?'(21) Surprise-questions possiblea. A: Tem um leopardo na sala de estar.'There is a leopard in the living-room.'B: Tem um leopardo na sala de estar?'There is a leopard in the living-room?'b. A: O rei da França é careca.'The king of France is bald.'B: A França é uma monarquia?'France is a monarchy?'c. A: Marcos e Helena estão indo ao Japão nesta semana.'Mark and Helena are leaving for Japan this week.'B: Ah, então você falou com Helena?!'Oh, so you talked to Helena?'Thus, surprise questions in Brazilian Portuguese are functionally similar (perhaps equivalent)to declarative questions in English (and German).42


<strong>Actes</strong> d’IDP 094.3. Experimental resultsFive intonational categories from Cagliari 1982 were investigated: statements, emphaticstatements, yes/no questions, surprise questions, continuation. Three sentences withantepenultimate stress in the final word were employed. This final word is taken to carry thenuclear stress of the sentence. For each of these sentences, five contexts according to the fivecategories were constructed. (22) - (26) shows the English translations of these contexts forone of the three sentences.(22) Statement'What would happen if Chomsky wrote another book?'Nós alunos leríamos.'We students would read it.'[experimenter][subject](23) Statement with continuation'What do you think would happen if Chomsky wrote another book?' [e.]Nós alunos leríamos, mas talvez tivéssemos muita dificuldade. [s.]'We students would read it, but maybe we would have much difficulty.'(24) Emphatic statement'I don't think you would read it if Chomsky wrote another book.'Mas nós alunos leríamos!'But we students would read it!'(25) Yes/no question'What do you think would happen if Chomsky wrote another book?Nós alunos leríamos?Would we students read it?'(26) Surprise question'I think you students would read it if Chomsky wrote another book.'Nós alunos leríamos!? De jeito nenhum.'We students would read it!? No way.'[e.][s.][s.][s.][e.][s.]The study focused on speakers from the Campinas area in Brazil. Six speakers read each ofthe three sentences in each of the five contexts. There were no repetitions. 90 tokens werethus recorded in the production part.In a subsequent perception task, 24 listeners judged for each token, which of the fivecontexts it fits best. This led to 24 times 90 = 2160 judgments. The statistical evaluation of thejudgments showed that all five categories were perceptually distinguished significantly well.The statistical evaluations of individual productions further led to an identification of thoseproductions that were recognized as members of their category particularly well. Theseproductions (ignoring here the category of continuation) are plotted in Figure 1.The first two plots show that normal statements and emphatic statements primarily differ intonal height, with emphatic statements showing greater height. This conforms to a suggestionof Bolinger (1986) that tonal height can increase with the degree of speaker involvement. Thetwo statement contours show similar temporal alignment (leaving aside an optional dippreceding the peak in emphatic statements). Both contours are analyzed as H+L* L%.43


Proceedings of IDP 091,20,90,60,30-0,3Normalstatements0 200 400 600 800Analysis:H+L* L%with sometimesincomplete or lateexecution of L*1,20,90,60,30-0,3Emphaticstatements0 200 400 600 800Same analysis:H+L* L%with incompleteor late executionof L*; difference:greater phoneticheight of H.1,20,90,60,30-0,3Yes/noquestions0 200 400 600 800Analysis:L+H* L%(peak is instressedsyllable)1,20,90,60,30SurprisequestionsAnalysis:L*+H L%(peakfollowsstressedsyllable)-0,30 200 400 600 800Figure 1. Plots of the tokens that were recognized particularly well in the perceptionexperiment for normal and emphatic statements, yes/no and surprise questions. The verticalblack bars represent the extent of the final verb. The vertical grey bars delimit the stressedsyllable in the verb. The plots are normalized across speakers for F0, and for time (preservingrelative position within the three temporal segments of the plots) and pool the particularlywell recognized productions of all six speakers.44


<strong>Actes</strong> d’IDP 09Yes/no questions and surprise questions, in the third and fourth plot of Figure 1, alsoexhibit a difference in height. The greater height in surprise questions can similarly be relatedto greater speaker involvement there. Importantly, these two question types also show aconsistent difference in temporal alignment, which cannot be analyzed as a secondary effectof the difference in height. Both show a fall-rise. The rise of the yes/no question beginsaround the beginning of the stressed syllable and the peak falls in or around the second half ofthe stressed syllable. By contrast, the rise in surprise questions begins later, around the middleof the stressed syllable, and ends later, after the stressed syllable. Accordingly, the contour ofyes/no questions are analyzed as L+H* and the contour of surprise questions as L*+H. Theyare both followed by a L% boundary tone in the tonal analysis.The tonal contours can be decomposed into the components declarative/interrogative andassertive/non-assertive, the latter equivalent to what is discussed as [\] and [/] above. All thesedistinctions reside in the nuclear pitch accents in Brazilian Portuguese (where they arefollowed by an L% boundary tone in the patterns of Figure 1). The analysis is formallysimilar to the decomposition of English bitonal pitch accents in Pierrehumbert & Hirschberg(1990) (though the meanings differ). As shown in (27), declarative pitch accents contain L*,interrogative ones contain H*, in accord with de Moraes' perceptual results. Further, a fallingH+L pitch accent is interpreted as assertive, a rising L+H pitch accent as non-assertive. Fromthis, one obtain the combinations in (28), in accord with the experimental results.(27) a. declarative: L*; interrogative: H*b. assertive "[\]": H+L; non-assertive "[/]": L+H(28) statement = declarative (L*) with assertion (H+L) = H+L* L%yes/no question = interrogative (H*) with non-assertion (L+H) = L+H* L%surprise question = declarative (L*) with non-assertion (L+H) = L*+H L%5. SummaryYes/no question intonation ([/]) can be analyzed as non-assertive intonation in contrast toassertive statement intonation ([\]). Its distribution in interrogatives is plausibly captured,following Bartels (1997), in an analysis in which these intonational morphemes do not markpart of the literal, compositional, meaning, but modify instead salient propositions. Yes/noquestions are special insofar they have a salient proposition that must not be marked asasserted by the intonation (for Is it raining? , this proposition is It is raining.).Declarative questions, following Gunlogson (2001), involve a speech-act componentbrought about by the declarative sentence form, by which speaker or addressee believe/say theproposition of the declarative. I suggest that they independently invoke a (grammaticallyoptional) semantic (though not syntactic) interrogative component.In the intonation of Brazilian Portuguese, all these dimensions are encoded in the nuclearpitch accents. The analysis reviewed assigns declaratives to L*, interrogatives to H*, assertiveintonation to H+L, and non-assertive intonation to L+H.ReferencesBartels, C. (1997). Towards a compositional interpretation of English statement and question intonation.Doctoral dissertation, University of Massachusetts.Bolinger, D. (1978). Yes-No Questions are not Alternative Questions. In Questions, Hiz, H. (ed.). D. ReidelPublishing Company, Dordrecht, pp. 87-105.Bolinger, D. (1986). Intonation and its pars: melody in spoken English. Stanford University Press, Palo Alto.45


Proceedings of IDP 09Bolinger, D. L. (1957). Interrogative structures of American English. University of Alabama Press.Bolinger, D. L. (1989). Intonation and its uses. Stanford University Press, Standford.Cagliari, L. C. (1982). Aspector acústicos da entoaçao do portugues brasileiro. Linguagem oral, linguagemescrita. Série Estudos 8. Faculdades Integradas de Uberaba, pp. 45-59.de Moraes, J. A. (1984). Recherches sur l'Intonation modale du Portugais Brésilien Parlé à Rio de Janeiro.Doctoral dissertation, University of Paris III.de Moraes, J. A. (1998). Intonation in Brasilian Portuguese. In Intonation systems. A survey of twenty languages,Hirst, D. and A. Di Cristo (eds.). Cambridge University Press, Cambridge, pp. 179-194.Féry, C. (1993). German intonational patterns. Niemeyer, Tübingen.Gebara, E. S. (1976). Alguns aspectos da intonação no Portuges. Master dissertation, Universidade Estadual deCampinas.Grice, M., S. Baumann, & R. Benzmuller (2005). German intonation in autosegmental-metrical phonology. InProsodic typology: the phonology of intonation and phrasing, Jun, S.-A. (ed.). Oxford University Press,Oxford, pp. 55-83.Groenendijk, J. & M. Stokhof (1982). Semantic analysis of WH-complements. Linguistics and Philosophy 5, pp.175-233.Gunlogson, C. (2001). True to form: rising and falling declaratives as questions in English. Doctoral dissertation,University of California.Gussenhoven, C. (1984). On the grammar and semantics of sentence accents. Foris, Dordrecht.Haan, J. (2001). Speaking of questions. LOT, Utrecht.Hamblin, C. L. (1973). Questions in Montague English. Foundations of Language 10, pp. 41-53.Karttunen, L. (1977). Syntax and semantics of questions. In Questions, Hiz, H. (ed.). Reidel, Dordrecht, pp. 156-210.Kretschmer, P. (1938). Der Ursprung des Fragetons & Fragesatzes. In Scritti in onore di Alfredo Trombetti et al.(eds.). Ulrico Hoepli, Milano, pp. 27-50.Pierrehumbert, J. & J. Hirschberg (1990). The meaning of intonational contours in the interpretation ofdiscourse. In Intentions in communication, Cohen, P. R., J. Morgan, and M. E. Pollack (eds.). MIT Press,Cambridge, Mass., pp. 271-311.Romero, M. & C.-h. Han (2004). On negative yes/no questions. Linguistics and Philosophy 27, pp. 609-658.Truckenbrodt, H., F. Sandalo, & B. Abaurre (2009). Elements of Brazilian Portuguese intonation. Journal ofPortuguese Linguistics 8, pp. 75-114.Uhmann, S. (1991). Fokusphonologie. Eine Analyse deutscher Intonationskonturen im Rahmen der nichtlinearenPhonologie. Niemeyer, Tübingen.46


<strong>Actes</strong> d’IDP 09Autres contributionsOther papers47


<strong>Actes</strong> d’IDP 09Rôle de la prosodie dans la structuration du discours :Proposition d'une méthodologie d'enseignement de l'oral vers l'écriten Français Langue Etrangère-Charlotte Alazard 1 , Corine Astésano 1 , Michel Billières 1 & Robert Espesser 2alazard@univ-tlse2.fr; astesano@univ-tlse2.fr; billieres@univ-tlse2.fr; espesser@lpl-aix.fr1 Université de Toulouse - Octogone-Lordat, EA 41562Aix-Marseille Université - Laboratoire Parole et Langage, UMR 6057AbstractThis preliminary study investigates the positive influence of oral skills’ training on reading abilities for learnersof French as a second language. Our hypothesis, based on the implicit prosody hypothesis by Fodor (2002),poses that developing prosodic abilities and focusing at an early stage in the learning process on oral abilitieswill not only improve speech fluency and pronunciation skills, but also dramatically improve the decoding ofwritten speech.To test this hypothesis, we conducted a longitudinal study over eight weeks. Four English students of French(two beginners and two advanced) were equally distributed into two classes (groups): in the control group, theteacher focused on reading comprehension, whereas she emphasized phonetic correction and prosodic abilitieswith the test group.Two identical tests were conducted before and after the courses. Acoustic and perception data both indicate animprovement in the reading fluency within the test group only, more specifically for the beginner student.Key words: Prosody, Didactic of French as a Second Language, transfer of abilities from speaking to reading,“Verbo-Tonale” Method.1. IntroductionDu babillage à l’apparition de phrases simples, l’acquisition du langage obéit à unechronologie étonnamment uniforme à travers les langues, révélatrice de l’architecturefonctionnelle et structurale du cerveau. Apprendre à parler, c’est d’abord maitriserl’enveloppe prosodique de sa langue maternelle : les bébés perçoivent en effet la prosodie deleur langue maternelle dès la vie intra-utérine. Lors de ses premiers mois, le nourrissoncommence par installer la structuration rythmique de sa langue maternelle à travers lebabillage. Ce n’est que plus tard qu’interviennent l’acquisition des traits phonémiques, dulexique, de la syntaxe etc… (Konopczynski, 1986 ; de Boisson-Bardies, 1996 ; Molino,2000 ; Billières, 2002 ; Karmiloff-Smith, 2003). Ainsi, la prosodie de la langue maternelle estl’élément linguistique le plus ancré dans le comportement vocal et verbal de l’homme. Parconséquent, il est très difficile de s’en ‘libérer’ lors de l’apprentissage d’une langue étrangère,d’où la persistance de l’accent étranger (Renard, 1979).La prosodie constitue donc un paramètre fondamental dans le système linguistique,qu’il convient de prendre en considération dans les processus d’acquisition et d’apprentissagede l’oral en langue maternelle et en langue étrangère (ci-après LM et L2 respectivement).1.1 Prosodie et didactique du Français Langue Etrangère : des rendez-vous manquésPourtant, la prosodie reste encore et toujours le parent pauvre de l’enseignement des languesétrangères (L2), aussi bien dans la théorie didactique que dans les pratiques de classe. Malgré49


Proceedings of IDP 09les avancées considérables de la connaissance de la nature et des fonctions de l’infra-structurerythmique et de l’intonation depuis # siècle, il est encore très délicat de relier des donnéesissues de modèles théoriques divers - œuvrant à des niveaux parfois différents de l’analyseprosodique - à des activités pédagogiques effectives. D’autant que la formation en phonétiquede professeurs de langues vivantes reste souvent superficielle et que, si la prosodie estabordée durant leur cursus, elle est traitée de façon marginale. De fait, les enseignants serisquent rarement à corriger la prononciation de leurs étudiants. De façon plus générale, l’oralconstitue pour beaucoup d’entre eux une source de problèmes car très délicat à évaluerobjectivement, difficilement saisissable de par son hétérogénéité et difficilement scolarisablede par sa matérialité, d’où des pratiques hésitantes et tâtonnantes. C’est ainsi que les méthodesactuelles de français langue étrangère (FLE) introduisent simultanément l’oral et l’écrit maisnégligent parallélement l’enseignement de la prosodie, qui constitue pourtant la pierreangulaire de l’expression orale. En outre, si le Cadre Européen Commun de Références pourles Langues (CECRL) prévoit qu’un apprenant de niveau B2 (Avancé) aura acquis « uneprononciation et une intonation claires et naturelles », la question de la prononciation n’estpas abordée aux niveaux inférieurs. Tout se passe comme si la maitrise de la prosodiedépendait seulement d’un contact répété avec la langue cible, point de vue soutenu parcertains phonéticiens didacticiens dans les années 80.Or, l’apprenant de langue étrangère est en situation de « surdité phonologique » : ilperçoit les sonorités de la L2 – rythme, intonation, phonèmes – sur la base du systèmephonique de sa langue maternelle (cf. la métaphore du crible phonologique : Troutbetzkoy,1938 ; Renard, 1979). Ainsi, faute d’un enseignement spécifique portant sur la prosodie de lalangue cible, l’apprenant (débutant comme avancé) segmente le flux verbal en fonction desstratégies prosodiques développées lors de l’acquisition de sa langue maternelle (L1). Iltransfère les contours prosodiques de la L1 sur la langue cible en oral spontané comme enlecture oralisée (Billières, 2005a). Il est d’ailleurs intéressant de noter qu’à un niveau avancé,l’élocution des apprenants est beaucoup moins fluide en lecture qu’en oral spontané. Pourtant,le lecteur n’est pas en situation de planification du discours, et le phrasé est en partie indiquépar la ponctuation, même si la ponctuation ne retranscrit que très partiellement la prosodiepotentielle des énoncés écrits, et que cela pose également des difficultés aux lecteurs natifs(Martin, 2005). Le problème est que le véritable oral ne se retrouve jamais à l’écrit. Quelleque soit la transcription, elle est impuissante à rendre toute la richesse qui se dévoilespontanément à l’oral : l’intonation, le rythme, les silences, les changements de débit, lesvariations de tempo, le timbre, la tonicité, les indices sociaux ou affectif, tout ce que la voixtransmet et qui ne s’écrit pas (pour un parallèle avec les difficultés rencontrées en synthèse dela parole lue, voir l’approche par balises de l’intonation de Mertens & al, 2001).D’autre part, la majorité des enseignants considèrent que si les processus de décodagesont acquis en L1, ils seront automatiquement transférés en L2. En réalité, l’apprenant delangue étrangère se trouve face à au moins trois tâches complexes en situation de lecture: ildoit non seulement décoder la chaîne graphique et la recoder en chaîne phonémique, maisaussi organiser simultanément le matériau linguistique en groupes sémantiquement etsyntaxiquement cohérents via les patrons prosodiques de la L2. C’est pour cette raison quel’apprenant de langue étrangère se comporte davantage comme un lecteur débutant quecomme un normo-lecteur : le recours au contexte est ralenti parce qu’il ne va pas être à mêmed’utiliser la fonction de structuration de la prosodie de la L2 qui permet de faciliterl’encodage de la parole. Le codage phonologique est rarement disponible car il impliqued’une part une correspondance entre les formes graphémiques et les représentationsphonologiques stockées en mémoire, représentations souvent biaisées par l’influence de la L1,50


<strong>Actes</strong> d’IDP 09et d’autre part car cette forme de reconnaissance qui nécessite en L1 un apprentissageexplicite et souvent couteux (Gaonac’h, 2000) ne fait l’objet d’aucun enseignement en L2.Enfin la didactique du FLE ne prend pas en considération l’acquisition d’une consciencephonologique en langue cible - qui correspond chronologiquement à la sensibilisation auxfacteurs prosodiques puis à la capacité à discriminer et nommer deux sons entendus – alorsque cette dernière constitue une base déterminante dans la maitrise de la lecture pour lelecteur débutant, mais aussi pour le lecteur expert, car elle permet un traitement plus rapidedes mots nouveaux (Golder & Gaonac’h, 1998 ; Gaonac’h 2000). Autrement dit, le fait de nepas maîtriser la structure rythmico-mélodique, les essais-erreurs de placement des syllabesaccentuées, une gestion parfois erratique des différents types de pauses reviennent à altérersystématiquement tous ces paramètres prosodiques qui sont partie prenante de la fonctionstructurelle de la L2. Il s’ensuit un ralentissent dans l’encodage de la chaine parlée ainsiqu’une incapacité à actualiser les phonèmes dans des limites de prononciation acceptables.Il apparaît donc fondamental de positionner l’apprentissage de la prosodie au cœur del’enseignement d’une L2, et même comme préalable à l’apprentissage des autres niveauxlinguistiques, à l’instar des propositions des tenants de la Méthode Verbo-Tonaled’intégration phonétique (MVT).La MVT, élaborée par Guberina dans les années 50 est indissociable de la méthodologieaudio-visuelle structuro-globale (SGAV) qui a produit les méthodes phares en FLE dans lesannées 60-70. Dans cette méthodologie, l’écrit est introduit après plusieurs dizaines d’heuresexclusivement consacrées à l’apprentissage de l’oral avec comme objectif une amélioration dela production sonore des apprenants grâce à une « rééducation de l’oreille » obtenue par lesprocédés de remédiation employés en MVT (Billières, 2005b). Le rythme et l’intonation fontl’objet d’une sensibilisation systématique car considérés comme prioritaires. Les argumentsne manquent pas. Lors de l’écoute d’une L2, ce sont ces éléments qui sont perçus enpremier : en production, la verbalisation est impossible sans un recours à des schémasrythmico-intonatifs ; dans sa dimension communicative, « l’intonation expressive » remplitmaintes fonctions ; sur le plan linguistique, la fonction première de l’intonation –on n’utilisaitpas encore le terme prosodie à l’époque- est d’assurer la segmentation du discours en« groupes de sens » ; de façon plus large, il est permis de dire qu’à l’oral, toute la langue estcontenue dans la prosodie. En MVT, le rythme et l’intonation sont également utiliséspréalablement à d’autres procédures de remédiation afin d’éradiquer l’erreur de productiond’une unité segmentale. L’expérience démontre également qu’il est plus aisé de corriger leserreurs au niveau des voyelles et des consonnes chez un apprenant parvenant à acquérir lescaractéristiques rythmico-mélodiques de la L2. Dans le même ordre d’idées, un étranger ayantune bonne production prosodique en L2 - même s’il manifeste encore des incomplétudes surle plan morphosyntaxique - a davantage de chances d’être pris pour un natif ou acceptécomme tel par rapport à une personne possédant un réel niveau d’expertise (niveau C2 duCadre) mais dont la prosodie en L2 est encore imprégnée de traces de sa L1.Il convient donc de sensibiliser chaque apprenant aux spécificités prosodiques dès lestous débuts de l’apprentissage linguistique en formulant le souhait qu’une majorité d’entre euxparvienne à s’en approprier les propriétés de manière à se libérer progressivement de certainescontraintes de bas niveau. La maîtrise prosodique constitue ainsi le « cadre » facilitant pour lamaitrise des autres niveaux linguistiques (lexique, grammaire etc) de la L2.Ce constat trouve une résonance dans un certain nombre d’études sur les stratégies dedécodage de l’écrit en LM, ainsi que sur des études qui mettent en évidence l’architecturefonctionnelle et neurophysiologique du cerveau.51


Proceedings of IDP 091.2 Prosodie et didactique cognitive : vers de nouvelles perspectivesNotre étude s’inscrit dans le courant de la didactique cognitive des langues, conceptofficiellement introduit en FLE lors du 1 er Colloque International de didactique cognitive àToulouse en janvier 2005 (Billières & Spanghero-Gaillard, 2005). Cette approche permet deproposer des solutions pédagogiques concrètes pour les enseignants de langue étrangère, maisaussi de mieux comprendre les processus cognitifs qui sous-tendent les difficultés quepeuvent rencontrer les apprenants. La didactique cognitive propose également d’établir desparallèles entre les processus cognitifs mis en œuvre dans l’acquisition de la LM et ceux soustendantl’apprentissage d’un L2.Il a été montré récemment que la prosodie serait utilisée en lecture silencieuse (Fodor,2002 a & b). Plus précisément, le lecteur projèterait un contour prosodique par défaut sur letexte écrit. Autrement dit, le lecteur ne partirait pas du texte (modèle Bottom-Up) mais feraitappel à des modèles prosodiques établis et mémorisés par la pratique orale (modèle Top-Down). Si un parallèle entre LM et L2 peut être établi, il est possible de penser quel’apprenant de L2 projèterait les contours prosodiques de sa LM sur le texte de L2,handicapant ainsi considérablement le décodage et la compréhension du texte écrit. Lerésultat serait une chute de la fluence verbale en lecture oralisée pour l’apprenant de L2.Des recherches développementales récentes en sciences cognitives, utilisant l’imageriecérébrale, apportent une vision complémentaire à ce mécanisme. En effet, les caractéristiquesanatomiques et fonctionnelles du cerveau indiqueraient un transfert possible des compétencesauditives sur les compétences d’écriture et de lecture. Les aires visuelles et auditives sont nonseulement interconnectées avant que l’enfant apprenne à lire, mais l’aire de Wernicke – où lacompréhension du langage écrit et oral est traité – est localisée à la croisée des aires auditiveset visuelles. Par conséquent, tout processus linguistique appris avant le développement descompétences en lecture et en écriture est susceptible de ‘nourrir’ la modalité visuelle.Puisque la prosodie est si profondément ancrée dans notre comportement verbal etqu’elle est à la base des processus d’encodage et de décodage du langage (Di Cristo, 2004),nous postulons qu’elle se trouve au cœur de la pratique linguistique et de l’apprentissage deL2.1.3. Hypothèses de rechercheSur la base de ces observations, nous postulons que la fluence verbale de l’apprenant étranger,à la fois en oral spontané et en lecture oralisée, va dépendre de sa capacité à encoder laprosodie de la langue-cible. L’entraînement des paramètres prosodiques via la MVT devraitavoir une incidence positive sur la fluence verbale de l’apprenant, et donc sur le décodage dutexte écrit : la pratique linguistique à l’oral aura une incidence positive sur les compétences enlecture (Transferts de compétences de l’oral à l’écrit).De plus, si les processus cognitifs sous-tendant l’apprentissage et l’acquisition dulangage sont comparables, l’impact de l’entraînement linguistique devrait être plus importantà un stade précoce de l’apprentissage, puisque la maîtrise de la prosodie de la L2 estconsidérée comme un préalable indispensable à l’apprentissage des compétencesphonémiques, lexicales et syntaxiques de la L2. Plus tôt cette pratique prosodique sera miseen place dans l’apprentissage (niveau A1 du cadre), meilleure sera la fluidité de l’élocution del’apprenant, et sa prononciation. Nous émettons donc l’hypothèse qu’un travail poussé decorrection phonétique via la MVT (Renard, 1979; Intravaia 2000) - mettant l’accent sur lamaîtrise de la prosodie - va non seulement favoriser l’acquisition du système phonologique dela langue cible, mais aussi améliorer les performances des apprenants en lecture (décodagefacilité de l’écrit).52


<strong>Actes</strong> d’IDP 092. Méthodologie2.1 Matériel et design expérimentalPour tester ces hypothèses, nous avons mis en place une étude longitudinale avec quatreapprenants anglophones de FLE (3 femmes et un homme entre 18-40 ans, moyenne d’âge 29ans). Tous les locuteurs étaient originaires du Royaume-Uni et résidaient en France aumoment de l’étude. Ils avaient tous préalablement suivi un enseignement en français, soit aucours de leur scolarité en Angleterre, soit à leur arrivée en France à l’Alliance Française ou audépartement d’enseignement du FLE à l’université de Toulouse le Mirail. Néanmoins, durantles huit semaines de notre étude, aucun apprenant ne suivait de cours de français en dehors deceux proposés dans le cadre de cette recherche.Le niveau des apprenants a été évalué sur la base d’un entretien oral avec le premierauteur, selon l’échelle proposée par le CECRL. Ainsi, deux apprenants, MM et SR, ont étéévalués à un niveau élémentaire (niveau A du CECRL) tandis que les deux autres, DR et AM,ont été évalués à un niveau avancé (niveau B du CECRL).Afin de tester si un entraînement spécifique centré sur la prosodie permet d’obtenir demeilleurs résultats de fluence verbale dans le décodage du texte écrit en L2, nous choisissonsde comparer deux méthodes d’enseignement radicalement différentes : le SGAV, via la MVT,et les approches communicatives, méthodes prédominant en FLE depuis les années 1980. Eneffet, tout en reconnaissant l’importance de l’oral dans l’enseignement des langues étrangères,ces deux méthodologies en proposent une approche sensiblement différente. Si l’oral et lamaitrise des paramètres prosodiques constituent une priorité pour le SGAV, les approchescommunicatives proposent d’introduire des activités de lecture dès les premières heuresd’enseignement tout en négligeant parallèlement la correction phonétique.Les quatre apprenants ont donc été équitablement répartis entre les deux cours proposés.Afin de tester la corrélation entre le niveau des apprenants et les progrès réalisés avec chacunedes deux méthodes, chaque groupe était composé d’un apprenant de niveau débutant et d’unapprenant avancé.Le premier groupe (groupe contrôle) a suivi des cours de compréhension écrite‘classique’ dans une approche communicative : l’enseignante insistait sur la compréhensionglobale de textes écrits, les exercices structuraux et la lecture oralisée. Le second groupe(groupe test) a suivi des séances de correction phonétique centrées sur la sensibilisation à lastructure prosodique du français : l’enseignante a particulièrement travaillé le rythme etl’intonation, par la répétition de phrases types, les vires langues ainsi que des jeux de rôle. Lescours ont eu lieu à raison de deux heures par semaine sur une durée de huit semaines, pourchaque type d’enseignement.Deux tests identiques ont été proposés aux apprenants en début et en fin de formation(après 8 semaines), comportant trois activités autour de la notion d’argumentation : 1.proposer une lecture interprétée d’un texte argumentatif; 2.argumenter à partir d’un texteécrit; 3. improviser à l’oral, sur un sujet de type « Pour ou Contre ». Les activités orales sefaisaient donc de la parole lue (contrôlée) à la parole spontanée.Le choix du texte argumentatif n’est pas anodin. En effet, le discours argumentatifimplique un investissement du locuteur facilitant l’utilisation de figures prosodiques riches. Ilpermet l’utilisation de connecteurs du discours, du type ‘parce que’, qui nous permettent decomparer un matériau linguistique similaire en oral spontané et en lecture oralisée. Enfin, lesconnecteurs participent à la structuration du discours et « … facilitent le repérage desfrontières syntaxiques et sémantiques » (Ziti, 1995). De fait, ce sont des candidats idéauxpour une analyse de l’interface prosodie/discours.53


Proceedings of IDP 09Toutefois, dans le cadre de la présente étude encore préliminaire, nous centrons nosanalyses sur les corpus de lecture oralisée, recueillis en début et en fin de formation(avant/après 8 semaines). Si cet exercice est peu demandé en classe de FLE, la capacité àoraliser l’écrit déterminerait la compréhension en lecture. Des études en langue maternelle ontmontré que les capacités à oraliser l’écrit et la compréhension en lecture étaientinterdépendantes : l’oralisation serait une condition de la compréhension, compréhension quifaciliterait elle-même en retour l’oralisation (Golder & Gaonac’h, 1998).Le texte lu a été crée à partir d’un exercice extrait d’un manuel de FLE (Alter Ego).C’est un texte argumentatif composé de onze phrases et divisé en quatre paragraphes quireprennent chacun un argument en faveur de la pratique du vélo en ville. De récentes étudesont montré l’importance de l’architecture textuelle dans les stratégies d’oralisation (Maurel2004 a & b). C’est pourquoi la mise en page proposée est adaptée au déroulementargumentatif.2.2 Procédure expérimentaleLes sujets ont passé les tests individuellement dans une salle d’enregistrement, équipés d’unmicro-casque. Les conditions d’enregistrement étaient identiques pour les deux tests, avant etaprès les 8 semaines d’entraînement linguistique.Les données ont été recueillies à l’aide d’un logiciel d’enregistrement audio(Soundtrack-Pro ©; 16 bits/44kHz), puis étiquetées et analysées avec le logiciel Praat(v.5.1.0).Nous proposons deux types d’analyses complémentaires. Une première analyseacoustique des données recueillies nous permet de mettre en évidence les paramètresprosodiques les plus représentatifs de la fluence des productions des apprenants avant et aprèsl’entrainement. Cette analyse acoustique est complémentée par une analyse perceptive, sur labase d’une appréciation globale de la fluence des productions par douze futurs enseignants deFLE.2.2.1 Analyse acoustiqueLes corpus recueillis ont tout d’abord été écoutés par deux experts qui devaient repérer puisétiqueter sous Praat les syllabes et les pauses.Les paramètres prosodiques retenus et susceptibles de refléter au mieux la fluidité desapprenants sont :- les effectifs et la durée des différents types de pauses (pauses respiratoires ou vides,hésitations vocales, faux départs). Les pauses silencieuses (vides et respiratoires) sontégalement classées selon un critère de grammaticalité: les pauses situées à l’intérieurd’un mot ou d’un syntagme ont été étiquetées comme agrammaticales.- les effectifs, la distribution (accent initial vs. accent final) et la durée des syllabesaccentuées, et la durée des syllabes inaccentuées. Les accents finaux ont également étéétiquetés en fonction du niveau de frontière prosodique auquel ils étaient associés(mineur vs. majeur) (Astésano, 2001).Méthodologie statistique : Pour chaque sujet, nous avons réalisé des Anovas simplesséparément par types de syllabes (inaccentuées, accents initiaux, accents finaux mineurs etmajeurs) et par types de pauses. La Durée (log ms) et l’Occurrence des événements sont lesvariables dépendantes, et l’Etat (Avant/Après entraînement de 8 semaines) est variableindépendante (facteur à deux niveaux).54


<strong>Actes</strong> d’IDP 092.2.2 Test perceptifNous avons ensuite comparé ces résultats avec ceux de l’analyse perceptive de la fluiditéverbale des apprenants par 12 futurs enseignants de FLE francophones natifs. Les auditeursdevaient écouter 264 phrases regroupées en trois séries de 88 phrases (11phrases*4locuteurs*2 états*3 écoutes). Les phrases étaient présentées en mode aléatoire à l’intérieur dechaque série. Nous avons crée 6 séries afin de proposer une combinaison de trois séries dephrases différente pour chaque auditeur. Les auditeurs devaient juger la fluidité desproductions sur une échelle de magnitude de 1-7 (1 = mauvaise fluidité ou niveau débutant ; 7= excellente fluidité ou niveau natif) en se concentrant essentiellement sur le rythme et lamélodie des phrases.Le test a été réalisé avec le programme Presentation© et durait environ 50 minutes. Laphase d’entrainement et les pauses de deux minutes entre chaque série étaient comprises dansle temps indiqué.Méthodologie statistique : Afin de tester l’influence de la méthode utilisée sur les jugementsde la fluidité des apprenants de FLE par les auditeurs natifs, nous avons utilisé un modèlelinéraire mixte, avec un intercept aléatoire pour prendre en compte la variabilité entre les 12juges, et avec un intercept aléatoire pour prendre en compte la variabilité des réponses àtravers les 11 phrases. Les réponses (de 1 à 7) constituaient la variable dépendante tandis quela méthode d’enseignement (groupe contrôle vs. groupe test) et l’Etat (Avant/Aprèsentrainement de 8 semaines) constituaient les variables indépendantes (facteurs à deuxniveaux).Afin de tester l’incidence du niveau (A vs. B) des apprenants sur les progrès réalisés enfonction des méthodes, nous avons réalisé des t-test appariés pour chaque locuteur, à partir dela moyenne des réponses de chaque auditeur, en fonction de l’Etat (Avant/Aprèsentrainement).3. Résultats3.1 Résultats de l'analyse acoustiqueLes analyses statistiques révèlent que la variable Occurrence des types de pauses et des typesd’accents ne permet pas de distinguer significativement l’état Avant/Après entraînement, et cepour les deux groupes de locuteurs (groupe contrôle et groupe test).En revanche, la variable Durée des syllabes accentuées et inaccentuées, et Durée destypes de pauses plus particulièrement, nous permet de comparer la production des apprenantsselon la méthode d’enseignement utilisée et selon le niveau des apprenants (A vs. B), avant etaprès entrainement. Nous présentons les graphes représentant la durée des types de pausespour les apprenants d’un même niveau (A vs. B) et non pas d’un même groupe (groupe testvs… groupe contrôle). En effet, quelle que soit la méthode d’enseignement, les apprenants deniveau B ne produisent que très peu d’hésitations vocales et de pauses silencieusesagrammaticales, alors que les deux apprenants de niveau A, plus faibles, en produisentbeaucoup, que ce soit avant ou après entrainement. (cf. Figures 1a & 1b pour les résultats desapprenants de niveau débutant et Figures 2a & 2b pour les résultats des apprenants de niveauavancé).55


Proceedings of IDP 09Figure 1a. Durée (log ms) des pauses et hésitationsvocales avant (before)/après (after) entraînementpour l’apprenant débutant du groupe test (MM)(# VAG = pauses silencieuses agrammaticales;hesvoc = hésitations vocales ; # = pauses vides;#* = pauses respiratoires)Figure 1b. Durée (log ms) des pauses et hésitationsvocales avant (before)/après (after) entraînementpour l'apprenant débutant du groupe contrôle (SR)(# VAG = pauses silencieuses agrammaticales;hesvoc = hésitations vocales ; # = pauses vides;#* = pauses respiratoires)On observe une nette différence entre la progression de l’apprenant débutant du groupetest et celle de l’apprenant débutant du groupe contrôle (Figure 1). En effet, si la durée desdifférents types de pauses reste globalement inchangée entre le premier et le second test pourSR (Figure 1b), les résultats de MM (Figure 1a) mettent en évidence d’une part une réductionde la durée des pauses vides et respiratoires et d’autre part, une plus grande homogénéité dansla durée des pauses après entrainement.Pour ce qui concerne les apprenants de niveau avancé (Figure 2), on observe un résultatsimilaire pour les pauses respiratoires et vides avant et après entrainement pour l’apprenant dugroupe contrôle (Figure 2b) mais une durée plus courte des pauses respiratoires aprèsentrainement pour l’apprenant du groupe test (Figure 2a).Figure 2a. Durée (log ms) des pauses avant(before)/après (after) entraînement pour l’apprenantavancé du groupe test (DR) (# = pauses vides; #* =pauses respiratoires)Figure 2b. Durée (log ms) des pauses avant(before)/après (after) entraînement pour l'apprenantavancé du groupe contrôle (AM) (# = pauses vides;#* = pauses respiratoires)Tous les paramètres prosodiques initialement retenus ne se sont pas révélés pertinentspour mettre en évidence l’effet de l’entraînement. Nous choisissons donc de ne pas présenterle détail des résultats de durée pour les faux-départs, les hésitations vocales et les accents56


<strong>Actes</strong> d’IDP 09initiaux, mais uniquement pour les paramètres qui révèlent une tendance, significative ou non,de l’effet d’entraînement, pour au moins un locuteur (cf. Tableau 1).# AGGROUPE TESTGROUPE CONTROLEA (MM) B (DR) A (SR) B (AM)Nbre Durée Nbre Durée Nbre Durée Nbre DuréeT1 =43T2=40#* T1=31T2=33# T1=33T2=24INA T1=279T2=275AFmaj T1=61T2=62AFmin T1=78T2=65T1 =786.6T2=400.8T1=900.7T2=485.6***T1=345.8T2=249.7*T1=225,1T2=201,6*T1=321.35T2=299.1T1=355.2T2=303.6*T1=4T2=3T1=24T2=28T1=23T2=21T1=224T2=245T1=57T2=62T1=74T2=64T1=256T2=195.1T1=743.2T2=661.5T1=346.7T2=320.5T1=156T2=154.8T1=280.4T2=293.85T1=238.1T2=218.057T1=32T2=34T1=38T2=39T1=8T2=15T1=225T2=226T1=58T2=63T1=72T2=58T1=358.6T2=385.5T1=613.9T2=633.7T1=366.9T2=387.7T1=172.3T2=167.6T1=349.6T2=364.15T1=313T2=315.7T1=18T2=15T1=30T2=26T1=12T2=8T1=226T2=219T1=67T2=60T1=61T2=73T1=291.85T2=363.05T1=547.9T2=572.1T1=176T2=143T1=200.7T2=200T1=341.1T2=327.3T1=337.5T2=320.6Tableau 1 : Nombre et Durée (log ms) des paramètres prosodiques pertinents par locuteur, avant/aprèsentrainement (T1 = Test 1, avant entrainement ; T2 = Test 2, après entrainement).La Durée des types de syllabes (inaccentuées et types d’accents) et des types de pauses(incluant les pauses agrammaticales, les pauses respiratoires et vides) est globalementraccourcie pour les locuteurs du groupe test après l’entraînement, mais pas pour les locuteursdu groupe contrôle. La variable Durée n’est néanmoins significativement raccourcie que pourun locuteur du groupe test (MM), et pour un sous-ensemble des phénomènes prosodiquessusceptibles d’avoir un impact sur la fluidité de la lecture oralisée.En effet, les résultats de MM montrent qu’il a développé des stratégies de lecturedifférentes entre le premier et le second test - soit à seulement huit semaines d’intervalles - enmodifiant la durée des pauses respiratoires et des pauses vides grammaticales, ainsi que ladurée des syllabes inaccentuées et des accents finaux situés à des frontières prosodiquesmineures. La différence de durée des pauses respiratoires grammaticales est trèssignificative puisqu’elle a été divisée par deux entre le premier et le second test [(F (1; 62) =34.04; p < .001)]. La durée des pauses silencieuses est elle aussi significativement raccourcie(F (1; 55) = 5.17; p = 0.03). Enfin, la durée des accents finaux mineurs et des syllabesinaccentuées est significativement raccourcie entre le premier et le second test [F (1; 145) =7.80; p = 0.006, et F (1; 500) = 13.65; p < .001, respectivement].3.2 Résultats du test perceptifLe jugement de la fluence verbale des locuteurs par les 12 auditeurs natifs se concentrentautour du milieu de l’échelle de magnitude (scores moyens = 4), avant et après entraînement,pour les deux groupes test et contrôle confondus.Cependant, comme le montre la Figure 3, la méthode choisie (MVT vs. ApprochesCommunicatives) a eu une grande incidence sur l'amélioration de la fluidité en lecture oraliséedes apprenants. Le coefficient d'interaction révèle une amélioration très significative pour laMVT (beta = 0.336, t = 3.52, p < .001). En effet, les scores de jugement des auditeurs fait état


Proceedings of IDP 09d'une progression 0.336 supérieure pour les apprenants du groupe test par rapport auxauditeurs du groupe contrôle, après entrainement.Figure 3 : Moyenne des scores avant/après entraînement par groupe (ligne pointillée = Groupe Test ; lignecontinue = Groupe Contrôle)Le tableau 2 illustre les scores obtenus pour chaque locuteur, avant et après entraînement.MéthodesGroupe TestGroupe ContrôleNiveauEtatAvant AprèsA (MM) 2,46 3,08B (DR) 5,22 5,67A (SR) 3,33 3,47B (AM) 4,20 4,34Tableau 2 Moyenne des scores avant/après entrainement pour chaque locuteur.Ce tableau ne montre aucune différence dans le score de jugement de l’apprenantdébutant et de l’apprenant avancé du groupe contrôle. Le score ne représente qu’uneprogression, non significative, de 0.14 entre le premier et le second test pour chaque locuteur(t-test = 0.5863; t = 0.5606; df = 11, pour l’apprenant de niveau A, SR; et t-test = 0.08; t =1.9149; df = 11 pour l’apprenant de niveau B, AM).En revanche, les deux apprenants du groupe test ont significativement amélioré lafluidité de leurs productions. On observe ainsi une différence significative dans le jugementde la progression de l’apprenant de niveau débutant (+0.62) et l’apprenant du niveau avancé(+0.45) (t-test = 0.0069; t = 3.3166; df = 11 pour l’apprenant de niveau A, MM; et t-test =0.0116; t = 3.0225; df = 11, pour l’apprenant de niveau B, DR).4. DiscussionCette recherche prospective est née du constat selon lequel, contrairement aux prédictions duCECRL, la prosodie de la L2 n’est pas maitrisée à un niveau avancé. Les apprenantscommettent le même type d’erreurs de rythme en parole lue et en parole spontanée. Nousavons de plus observé que la parole lue semblait être davantage soumise à l’influence de lalangue maternelle, en dépit de l’aide apportée par la ponctuation dans les textes écrits.58


<strong>Actes</strong> d’IDP 09En faisant le parallèle avec de récents travaux de Janet Fodor (2002) sur la prosodie implicite– il existerait des schémas prosodiques mémorisés par la pratique orale qui seraient ensuiteprojetés sur le texte et traités comme faisant partie de l’input par le lecteur – nous avonspostulé l’existence de transferts de compétences de l’oral vers l’écrit.L’objectif premier de notre recherche était donc de tester l’influence de la pratiquelinguistique à l’oral sur les compétences en lecture d’apprenants de français langue étrangère(Décodage de l’écrit facilité). Sur la base de nos connaissances actuelles sur le rôle de laprosodie dans l’acquisition du langage, nous pensons en outre que, plus tôt l’apprenant sefamiliarise avec la structure prosodique de la langue cible, plus il pourra acquérir facilementles autres niveaux linguistiques.Ainsi, nous avons formulé l’hypothèse selon laquelle un travail poussé de correctionphonétique - mettant l’accent sur la prosodie - permettait d’améliorer les performances enlecture des apprenants, particulièrement s’il était proposé dès le début de l’apprentissage. Lafluidité verbale des apprenants en lecture oralisée serait une conséquence directe de leurcapacité à décoder l’écrit. En effet, la diminution du nombre de ruptures dans le discours etplus particulièrement de la durée de ces ruptures, ainsi que la diminution de la densitéaccentuelle et de la durée des accents, apportent un équilibre rythmique qui donne uneimpression de fluidité en français.Pour tester cette hypothèse, nous avons mené une étude longitudinale sur huit semainesavec quatre apprenants anglophones - dont deux apprenants de niveau élémentaire et deux deniveau indépendant - répartis également en deux groupes : un groupe contrôle qui a suivi descours de compréhension écrite ‘classique’ dans une approche communicative, et un groupetest qui a suivi des séances de correction phonétique centrées sur la sensibilisation à lastructure prosodique du français.Globalement, nos données acoustiques révèlent un impact limité de l’entraînementlinguistique sur la fluence verbale des locuteurs. Les locuteurs produisent en effet un nombresimilaire de pauses non grammaticales, de faux-départs et d’hésitations vocales avant et aprèsl’entraînement, quelle que soit la méthode d’enseignement. En revanche, pour ce qui concernela variable Durée, les résultats indiquent une tendance nette de raccourcissement des pausesvides et respiratoires grammaticales et non grammaticales pour les locuteurs du groupe testuniquement, ainsi qu’une tendance au raccourcissement de la durée des accents et des syllabesinaccentuées. Or, les phénomènes de pauses et d’allongement final reflètent les processus deplanification. Nos résultats indiquent donc que les locuteurs du groupe test parviennent à unemeilleure fluence verbale lors de l’activité de lecture après l’entraînement. La réduction de ladurée des syllabes inaccentuées indique également un débit de parole plus rapide et donc plusfluide. Cependant, ces paramètres prosodiques ne sont statistiquement significatifs que pour lelocuteur de niveau A (MM), ce qui tend à montrer que l’efficacité de la MVT est plusimportante à un stade précoce de l’apprentissage de la L2. Nos résultats acoustiques indiquentenfin que la durée des phénomènes de pauses et des accents n’a pas varié pour les locuteursdu groupe contrôle après l’entraînement. La fluence de leur lecture ne s’est donc pasaméliorée.Ces résultats sont renforcés par le test perceptif. En effet, les futurs enseignants de FLEn’ont perçu aucune progression significative pour les apprenants du groupe contrôle maisseulement pour les apprenants du groupe test. D’autre part le test perceptif a permis d’appuyerla seconde partie de notre hypothèse, puisque les scores de jugement de fluidité ont augmentéplus fortement pour l’apprenant débutant que pour l’apprenant avancé du groupe test.En conclusion nos résultats montrent une amélioration significative de la fluidité enlecture pour les apprenants du groupe test, et plus particulièrement pour l’apprenant débutant.59


Proceedings of IDP 09Cela va dans le sens des présupposés de la MVT qui postule l’existence d’un effet plafond : àun niveau avancé, les erreurs sont fossilisées et donc plus difficiles à corriger.5. ConclusionNos résultats acoustiques et perceptifs montrent que les transferts des caractéristiquesprosodiques de la langue maternelle (anglais) sur la langue cible (français), comparables àtravers les sujets lors du premier test, sont moins importants pour les apprenants du groupetest après entrainement à la correction phonétique : les caractéristiques prosodiques dufrançais sont mieux maîtrisées, plus particulièrement pour l’apprenant débutant. Ainsi, untravail centré sur la prosodie à l’oral va aider l’apprenant à acquérir une certaine fluidité enlecture car il lui permet de se débarrasser de stratégies erronées d’accès au texte, et doncd’acquérir certains automatismes en langue-cible qui facilitent l’appréhension globale dutexte. Le décodage du code écrit s’en trouve facilité pour les apprenants qui ont suivi unentraînement poussé de correction phonétique, par rapport à ceux qui ont suivi une formationplus ‘traditionnelle’ de compréhension écrite centrée sur le texte.Dans le même ordre d’idée que la théorie de la prosodie implicite de Fodor, ces résultatsindiquent donc que la prosodie aide le lecteur à accéder aux compétences de haut niveau encontribuant à la mise en place d’automatismes de décodage, aussi bien en LM qu’en L2,particulièrement lorsque la prosodie est enseignée avant toute activité d’écriture et de lecture.Cela pourrait avoir des implications en apprentissage de la LM à l’école pour les enfants quiapprennent à lire. Plus spécifiquement, il est probable qu’un travail poussé sur lescompétences orales pourrait contribuer à améliorer les compétences de lecture des enfants.Cette étude préliminaire va se poursuivre à plusieurs niveaux. Tout d’abord, nousaimerions confirmer ces tendances sur un plus grand nombre d’apprenants de FLE, car noussommes bien conscients que notre variable Niveau (A vs. B) est confondues avec noslocuteurs. Il n’est donc pas pour l’instant exclu que les résultats observés dans la présenteétude soient dus à des stratégies individuelles. L’analyse de nos résultats acoustiques seraégalement élargie au paramètre de F0 (configurations tonales) et nous proposerons decomparer les résultats dans les tâches de parole lue et spontanée. Nous souhaitons égalementallonger la phase d’entraînement sur plusieurs mois, et proposer des tests intermédiaires, aucours de l’entraînement. D’autre part, nous aimerions testé l’incidence de l’entraînement descompétences orales sur la compréhension de la lecture silencieuse, en émettant l’hypothèseque la maîtrise de la prosodie de la L2 aidera non seulement l’apprenant à améliorer safluence verbale, mais également à accéder au sens du texte écrit plus rapidement et plusefficacement. Enfin, nous testerons également la validité du postulat central de la MVT, selonlequel la maîtrise de la structure prosodique de la L2 facilite l’acquisition des caractéristiquessegmentales en L2. Pour l’instant, ce postulat n’a jamais été testé expérimentalement, alorsque les résultats en classe de langue sont très concluants.RéférencesAstésano, C. (2001). Rythme et accentuation en français, invariance et variabilité stylistique. Harmattan, Paris.Billières, M. (2005a). Codage phonologique et boucle articulatoire en mémoire de travail. Un support pour lafacilitation de l’accès à l’oral et à la lecture pour les publics débutants en français langue étrangère.CORELA, Numéro Spécial : Colloque AFLS.Billières, M. (2005b). Les pratiques du verbo-tonal. Retour aux sources. Berré, M (eds), Linguistique de laparole et apprentissage des langues. Questions autour de la méthode verbo-tonale de P. Guberina. CentreInternational de Phonétique Appliquée, Mons, pp. 67-87.Billières, M. (2002). La genèse du crible prosodique. Conséquences sur l'enseignement de la prononciation enlangue étrangère. Cahiers du Centre Interdisciplinaire des Sciences du Langage 16, pp. 51-64.60


<strong>Actes</strong> d’IDP 09Billières, M & N, Spanghero-Gaillard. (2005). La didactique cognitive des langues : regards croisés dedisciplines pour comprendre le « comment ». Revue Parole 34-35-36, pp.101-136.Boysson Bardiez de, B. (1996). Comment la parole vient aux enfants. Odile Jacob, Paris.Dehaene, S. (2007). Les Neurones de la lecture. Odile Jacob, Paris.Di Cristo, A. (2004). La prosodie au Carrefour de la phonétique, de la phonologie et de l’articulation formesfonctions.Travaux Interdisciplinaires du Laboratoire Parole & Langage 23, pp. 67-211.Fodor, J. (2002a). Prosodic Disambiguation in Silent Reading. Hirotani, M (eds). Proceedings of NELS 32,Amherst, MA: GLSA, University of Massachusetts.Fodor, J. (2002b). Psycholinguistics cannot escape prosody. Speech Prosody ISCA Workshop, Aixen-Provence, pp. 83-88.Galaburda, A.M. (eds.) (1989). From reading to neurons. The MIT Press, Cambridge.Gaonac’h, D. (2000). La lecture en langue étrangère : un tour d’horizon d’une problématique de psychologiecognitive. AILE 13, pp. 5-14.Golder, C. & D. Gaonac’h. (1998). Lire et comprendre - Psychologie de la lecture. Hachette, Paris.Guberina, P. (1965) La Méthode audio-visuelle structuro -globale. Revue de Phonétique Appliquée 1, pp. 35-64.Intravaia, P. (2000). Formation des professeurs de langue en phonétique corrective. Didier Erudition, Mons ;CIPA, Paris.Karmiloff-Smith, K & A. Karmiloff-Smith (2003). Comment les enfants entrent dans le langage. Retz, Paris.Konopczynski, G. (1986). Du prélangage au langage : acquisition de la structure prosodique. Thèse de doctoratd’Etat de l’université de Strasbourg.Martin, Ph. (2005). Linguistique de l’oralité : description de la prosodie et analyse instrumentale.The Interpreters’ Newsletter 13, pp. 15-24.Maurel, F. (2004a). Transmodalité et multimodalité écrit/oral: modélisation, traitement automatique etevaluation de strategies de presentation des structures “visuo-architecturales” des textes. Thèse de doctorat del’université Paul Sabatier, Toulouse.Maurel, F. (2004b). De l’écrit à l’oral: analyses et generations. JEP-TALN-RECITAL, 19-22 avril 2004, Fès.Mertens, P., Auchlin, A., Goldman, JP., Grobet, A., & A. Gaudinat., (2001). Intonation du discours et synthèsede la parole : premiers résultats d’une approche par balises. Cahiers de Linguistique Française 23, pp. 189-209.Molino, J. (2000). Toward an evolutionary theory of music and language. Wallin, N.L, Merker, B & S. Brown(eds.). The Origins of Music. MIT Press: Cambridge, MA, pp. 165-176.Renard, R. (1979). La méthode Verbo-Tonale de correction phonétique. Didier-Bruxelles, Mons.Troubetzkoy, N.S. (1976 [1938]). Principes de phonologie. Klincksiek, Paris.Ziti, A. (1995). Effets des connecteurs sur le traitement du texte en situation de lecture-compréhension. Revue dePhonétique Appliquée 115-116-117, pp. 385-401.61


<strong>Actes</strong> d’IDP 09Deux fonctionnements du marqueur français « tu vois » dans les dialoguesspontanés : relation entre les faits intonatifs et la structuremorphosyntaxiqueYuki ANZAIYuki121274@aol.comUniversité Aoyama Gakuin, TokyoAbstract :The purpose of this paper is to examine the contributions of prosody to the description of oral dialogue andthe interpretation of the enunciative function of the discourse markers. We examine the way in which the Frenchmarker tu vois is used in spontaneous dialogues, and their relationship with the morphosyntactic and intonationalstructure. By analyzing prosodic facts obtained by Praat, we identified two characteristics distinct in theintonational variations and that they correspond to two preferential positions at syntactic level. On the basis ofthis bipartition, we demonstrate how the intonational facts make it possible to distinguish the two categories ofoperation for this marker in the enunciative plan. In this study, we refer to the study of M.-A. Morel & L.Danon-Boileau (1998) to apply the two properties distinct of tu vois at intonational and syntactic levels to their model ofthe intonational paragraph.1. IntroductionComment peut-on prendre en compte les faits prosodiques dans la description du dialogueoral et dans l’interprétation de la fonction énonciative de certains marqueurs récurrents endiscours ? Cet article a pour objectif d’exposer les apports scientifiques d’une lectureinstrumentale des tracés mélodiques à une analyse discursive et énonciative d’un corpus oral.Pour cette présente étude, nous examinerons plus particulièrement les fonctionnements dumarqueur français tu vois, qui apparaît de façon très fréquente dans les dialogues spontanés,dans leur rapport avec la structure morphosyntaxique et intonative. Afin de considérer lescaractéristiques intonatives de ce marqueur, nous observerons ses occurrences dans desénoncés extraits des échanges oraux, entre autres des dialogues du type ‘à bâtons rompus’,illustrés en (1) et (2) ci-dessous.(1) 1 M : j’aime pas Claude FrançoisC : ah bah moi non plus hein {450} ma mère est (en)fin c’était l’époque de ma mèrequoi tu vois (h41) §mm§ elle elle me disait ouais moi quand j’étais à l’école ettout ben on faisait des claudettes avec mes copines et et moi c’était l’époque (/)l’époque de Spice Girls tu vois §mm§ (h) {94} et et puis quand (elle) me voyaitfaire tu vois les Spice Girls et tout elle me disait mais t’sais que :: c’est ::(D56) /-/tout vient des claudettes et tout (hein) §rire§{785}(corpus EP-1 2 )1Pour les conventions de transcription, voir en annexe à la fin de l’article (p.9).2Pour notre présente recherche, nous utilisons les corpus transcrits de deux enregistrements personnels(désormais EP) et les corpus oraux édités par C.Blanche-Benveniste et al. (2002) Choix de textes de françaisparlé - 36 extraits (désormais CBB). En ce qui concerne les informations sur les deux enregistrementspersonnels, voir en annexe à la fin de l’article (p.10).63


Proceedings of IDP 09(2) il y a plus de place bon ben là c’est physique mais imagine que même si tu pouvais euhutiliser un autre que par exemple si (/) tu utilisais le le tu vois par exemple tu tu prendseuh cette carte (/) là c’est un mauvais exemple mais (/) pour ton truc là mais euh disonsque tu vois il y a il y a plus de place ils ont ils ont réduit un maximum tu vois §hum§(corpus CBB, p.77)Des faits intonatifs obtenus par le logiciel de traitement de la parole et de l’intonation Praat,nous avons dégagé deux propriétés distinctes des variations intonatives. Par ailleurs, ellescorrespondent à deux positions préférentielles au plan syntaxique, qui peuvent influencerl’interprétation de la totalité de l’énoncé. Dans un cas, tu vois se positionne à la finale d’uneséquence, il est en mélodie un peu basse par rapport à la séquence précédente et montre unechute d’intensité (la première occurrence de tu vois dans l’exemple (1), voir Figure (1)). Dansl’autre cas, il apparaît au milieu d’une séquence en mélodie légèrement montante et l’intensitémonte également (la première occurrence dans l’exemple (2), voir Figure (2)). Nous nousinterrogerons sur les différences entre les deux cas au plan énonciatif. En partant de cettebipartition, nous chercherons à montrer comment les faits intonatifs permettent de discernerles deux catégories de fonctionnement distincts de ce marqueur.Avant d’entamer l’analyse détaillée, nous commencerons par expliquer le cadre théoriquede notre approche dans la section suivante. Puis, dans la section 3, nous nous pencherons deplus près sur l’analyse du marqueur tu vois.2. Paramètres de l’analyse2.1. Les variations de l’intonationPour appliquer l’interprétation des variations de tracés mélodiques obtenus par Praat, nousnous réfèrerons à l’étude de M.-A. Morel et L. Danon-Boileau (1998) en rapport avec lesindices de co-énonciation et de co-locution. Selon leur théorie, les variations de la mélodie([F0] = variations du fondamental de voix, gestion de la co-énonciation) et de l’intensité ([I] =gestion de la co-locution) 3 sont liées aux anticipations que fait nécessairement celui qui parleeu égard à celui auquel il s’adresse. Ces anticipations sont de deux ordres et portent sur laprise en compte du droit à la parole de chacun. D’une part, [I+] (haute) indique unerevendication du droit à la parole pour assurer, retrouver son droit à la parole et [I-] (chute)indique une cession du droit à la parole. C’est un indice de fin d’intervention, de la possibilitépour l’autre de prendre la parole. D’autre part, [F0+] indique une mise en place de la coénonciation,consensus, discordance, construction d’un foyer d’attention partagé et [F0-]indique une rupture de co-énonciation, retour sur soi, construction d’une cohérence pour soimême.C’est la façon dont celui qui parle envisage la réception de son discours par celuiauquel il s’adresse. En effet, nous avons des couplages interprétables des indices intonatifs,principalement des niveaux de [F0] et de [I], la durée de la pause, la durée de l’hésitation etl’allongement de la syllabe. Nous ferons un recoupement des indices intonatifs pour chaqueoccurrence de tu vois par le biais des tracés mélodiques ci-dessous.3F0 : Hauteur mélodique (Pitch : Hz), désormais « H » : niveau H1 (100 Hz), niveau H2 (200 Hz), niveau H3(300 Hz). I : Intensité (Intensity : dB).64


<strong>Actes</strong> d’IDP 092.2. Le paragraphe oralS’agissant du paragraphe oral, Morel et Danon-Boileau le considèrent comme une unitéd’analyse dans le dialogue oral en français. Ils expliquent qu’il se définit par des indicesintonatifs de démarcation finale, à savoir par la conjonction des trois éléments [ la chute de lamélodie [F0-] et de l’intensité [I-] et sans allongement de la syllabe] à la finale d’un segment.Selon leur théorie, chaque paragraphe se compose d’un ou plusieurs constituants et ilcomprend au moins un rhème. Dans un énoncé oral, ce rhème est régulièrement précédé d’unou plusieurs éléments constituant un ensemble prérhématique : ils l’appelle ‘préambule’. Eneffet, ils le considèrent comme étant une unité préparant l’auditeur à saisir la valeur du rhèmequi le suit. Ainsi, le paragraphe intonatif comporte-t-il deux constituants indispensables : lepréambule et le rhème. Si on applique à leur modèle les deux propriétés distinctes auxniveaux intonatif et syntaxique de tu vois que nous avons dégagées de nos corpus, on peutconstater que ce marqueur se place soit à la finale du rhème, soit au milieu comme un desconstituants du préambule dans l’organisation du paragraphe intonatif 4 . Dans cette étude, nousutiliserons leurs travaux non seulement afin de mettre en lumière les deux fonctionnementsdistincts de tu vois mais aussi pour en déduire la relation entre les faits intonatifs et lesspécificités énonciatives de ce marqueurs.3. Analyse linguistique du marqueur tu vois avec codage des propriétés intonatives3.1. tu vois IDans un premier cas, tu vois se positionne à la finale dans l’organisation du paragrapheintonatif. Considérons les deux exemples ci-dessous.(1) M : j’aime pas Claude FrançoisC : ah bah moi non plus hein {450} ma mère est (en)fin c’était l’époque de ma mèrequoi tu vois (h41) §mm§ elle elle me disait ouais moi quand j’étais à l’école ettout ben on faisait des claudettes avec mes copines et et moi c’était l’époque (/)l’époque de Spice Girls tu vois §mm§ (h) {94} et et puis quand (elle) me voyaitfaire tu vois les Spice Girls et tout elle me disait mais t’sais que :: c’est ::(D56) /-/tout vient des claudettes et tout (hein) §rire§{785}(corpus EP-1)Au niveau des indices intonatifs, la première occurrence de tu vois (C- 2 ème ligne) montre unechute d’intensité et une mélodie basse (F0 : niveau [H1]) (Figure.(1)). Cette associationconstitue une marque de rupture volontaire qui permet de mettre en place un jalonnement desétapes. Elle marque dans le même temps une demande de manifestation de compréhension dela part du co-locuteur. C’est un phénomène caractéristique en finale de paragraphe oral et leco-locuteur se sent ainsi en droit de prendre la parole. En effet, nous y constatons la marqued’écoute ‘mm’ de la part de M qui suit. Nous avons également une certaine durée de larespiration audible (h41) à la suite de ce marqueur. Cette respiration signifie également lanécessité d’un moment pour construire un nouvel énoncé. De plus, la locutrice C reformuleson énoncé par le marqueur de rectification ‘enfin’ [ma mère est]---›[c’était l’époque de mamère] et elle clôture sa formulation par le ponctuant ‘quoi ’ (C- 2 ème ligne ). Voici la structurede cette séquence.4En effet, Morel et Danon-Boileau expliquent que le marqueur tu vois se place soit à l’initiale du préambulecomme ligateur, ou à la finale d’un constituant comme ponctuant (1998 : 96).65


Proceedings of IDP 09[ma mère est(en)fin (marqueur de rectification)c’était l’époque de ma mèrequoi (ponctuant)tu vois ]§mm§En outre, dans cette séquence, F0 augmente légèrement sur le marqueur ‘enfin’ (passage duniveau [H1] au niveau [H2+]) et l’intensité s’élève (Figure (1)). Cette combinaison marqueune focalisation sur cette rectification.Quant à la deuxième apparition de tu vois (C- 4 ème ligne), elle est précédée d’uneautocorrection immédiate (C répète le même mot [c’était l’époque l’époque]), car elle aconscience de sa phrase erronée au moment où elle l’énonce. De plus, au milieu du segmentde la deuxième occurrence du mot ‘époque’, F0 indique une augmentation (passage du niveau[H1] sur ‘é’ au niveau [H2] sur ‘po’) (Figure (3)), qui signifie le pointage sur ce terme pour leco-énonciateur. En ce qui concerne F0 sur tu vois, on observe une mélodie basse [H1] parrapport à la séquence précédente avec une chute d’intensité [I-] (Figure (3)). Cettecombinaison des deux indices marque un appel à la prise en considération de ce qui vientd’être énoncé et nous supposons que C essaie de savoir si M est prêt à entendre la suite en luilaissant un moment pour réagir. Puis nous observons également la marque d’écoute ‘mm’ dela part de M : en introduisant le marqueur tu vois, C presse M de réagir pour qu’elle sache queM suit bien son énoncé alors qu’il y avait une maladresse. En effet, elle continue son énoncéen commençant par la conjonction [et et puis...] après cette séquence.De ces deux occurrences, on peut déduire qu’en utilisant le marqueur tu vois, C vérifie queM suit sa formulation pour la continuité de leur dialogue avant de passer à l’énoncé suivant(1 ère occurrence) et que l’énoncé qu’elle vient de produire a bien été reçu par M (2 èmeoccurrence) : l’occurrence de ce marqueur vise donc à faire réagir le co-énonciateur afin deconfirmer s’il suit bien son énoncé. Par conséquent, ce type d’émergence sonore ‘mm’contribue à répondre à l’attente du partenaire et il ne s’agit pas d’intervenir ni de saisir le tourde parole. Ce signal permet aux deux interlocuteurs d’avancer à l’étape suivante. Par cet acteinteractif, les deux interlocuteurs manifestent leur intention de construire ensemble unéchange en développant leur dialogue et nous comprenons que ce marqueur contribue àajuster par étape ce dialogue.(3) M1 : elle a des airs à Lorie je trouveC1 : ah ouiM2 : mm t(u) trouves pas [ des faux airsC2 :[mm::: (D83) /{101}/ non /{322}/ j’aime pas du tout Lorie§rire§ /-/ ce genre de fille je trouve trop banale quoi qui aucun {60} aucuncharme tu vois §mm§ {54} c’est euh ::(corpus EP-1)Dans l’énoncé (3), F0 sur tu vois reste au niveau moyen [H2] et l’intensité chute à la fin dusegment (Figure (4)). Cette chute d’intensité indique que C cède la parole à M (ici, Cdemande une réaction sonore). En effet, nous y voyons un indice de fin d’intervention de C,de plus la marque d’écoute ‘mm’ de la part de M apparaît juste après le marqueur tu vois. Parailleurs, avant l’apparition du marqueur tu vois, C manifeste son opinion d’un point de vue66


<strong>Actes</strong> d’IDP 09personnel à travers la séquence ‘je trouve’ [C2 : je trouve trop banale quoi qui aucun {60}aucun charme tu vois]. Cette séquence est construite à l’aide d’un verbe épistémique ‘trouver’et il sert à annoncer un point de vue propre en tant que modalité épistémique. Ici, C espèreque M acceptera son opinion et notamment qu’il abondera dans son sens.À travers l’observation intonative de ces trois types d’occurrence, on constate unepropriété principale commune du premier emploi de tu vois : la chute d’intensité qui indiquela cession du droit à la parole. C’est un indice pour inciter l’autre à une réaction sonore, soitune réponse, soit une simple marque d’écoute telle que mm afin de soutenir la continuité dudiscours. Par ailleurs, au plan énonciatif, nous pouvons constater que le marqueur tu vois jouele rôle de croisement au cours de l’échange, c’est-à-dire que ce marqueur apparaît dans unprocessus d’ajustement d’une entente sur le point de vue entre les deux interlocuteurs qui sedirigent vers une co-construction d’un dialogue.3.2. tu vois IIComparativement au premier cas ci-dessus, dans le deuxième cas, le marqueur tu voisapparaît au milieu du paragraphe intonatif. De plus, on peut observer de façon fréquente lesdifférents types de reformulation tels que ‘ c’est-à-dire ’, ‘je veux dire’, ‘par exemple’, ouencore ‘espèce de’, ‘truc’ et de formulation tels que ‘euh’, répétition de mots grammaticaux,dans les séquences avec tu vois. Considérons à présent quelques exemples ci-dessous.3.2.1. Co-occurrence du marqueur de reformulation(2) il y a plus de place bon ben là c’est physique mais imagine que même si tu pouvais euhutiliser un autre que par exemple si (/) tu utilisais le le *cette* tu vois par exemple tu tuprends euh cette carte (/) là c’est un mauvais exemple mais (/) pour ton truc là mais euhdisons que tu vois il y a il y a plus de place ils ont ils ont réduit un maximum tu vois§hum§(corpus CBB, p.77)Dans cet extrait, on observe que F0 reste au niveau [H1(+)] mais l’intensité monte fortementet elle se maintient à ce niveau (Figure (2)). Par ailleurs, on ne constate aucune pause entre tuvois et par exemple. Ces trois caractères conjugués indiquent que le locuteur essaie dedisposer son interlocuteur à porter son attention sur un point tout en anticipant unefocalisation sur le syntagme qui suit. L’absence de pause et l’intensité prouvent la volonté degarder la parole et s’opposent en cela aux conséquences du type [ tu vois I ]. Nous observonspar ailleurs une autre apparition du marqueur par exemple (deuxième ligne), la marqued’hésitation ‘euh’, des reprises du mot-outil ‘le le’, ‘tu tu’ et les séquences hypothétiques[mais imagine que même si tu pouvais euh utiliser un autre que par exemple si (/) tu utilisais].Ces constituants nous montrent que le locuteur cherche à établir un lien entre deux énoncés oudeux unités syntagmatiques et il essaie de reconstruire son énoncé en donnant des exemplescar le locuteur se trouve lui-même dans une mauvaise direction. Ici, le marqueur tu voiscontribue à annoncer que le locuteur est en train d’ajuster les informations afin de donner dela cohérence à sa pensée.3.2.2. Co-occurrence de la gestion de la formulation : co-occurrence des indices sonores : lamarque d’hésitation, l’allongement de la syllabe, la reprise d’un mot-outil(4) K1 : enfin ça suffit de payer à l’entréeA1 : pourquoi euh ah oui tu crois qu’i(l) y a des choses à payer en plus §mm§ non67


Proceedings of IDP 09ma(is) j’pense que l’entrée doit comporter euh §mm§ un certain nombre de:: (D55)tu vois de::: (D89) de tickets d’entrée à des §mm§ choses (h) oui parce que sinontrente euros c’est très CHER hein j’pense §mm§que ça doit perme(ttre) de montersur dix ou un truc comme ça enfin c’est un forfait quoi(corpus EP-2)(5) il existe enfin c’est c’est anecdotique ça veut rien dire il existe une une firmejaponaise puissante je sais pas laquelle (/) enfin j’avais lu ça sur un sur un canardune fois qui offrait une somme absolument euh (/) faramineuse quoi pour leschercheurs qui trouveraient le support {193} qui euh {117} dans lequel le courant{55} passerait tu vois de façon à ce que il y avait pas de de support qui ne qui nechaufferait pas tu vois §hum hum§(corpus CBB, p. 76)Par rapport au type de reformulation précédent (l’exemple (2)), dans les exemples (4) et (5), iln’existe pas d’occurrence de marqueur de reformulation ni de remplacement par d’autres motsou unités linguistiques. Cependant nous pouvons noter des marques d’hésitation et la reprisedes mots-outils (l’exemple (4) : de::: tu vois de::: de ticket d’entrée, l’exemple (5) lesupport {197} qui euh {117} dans lequel, il y avait pas de de support qui ne qui ne). Larépétition de ‘de’ accompagnée de l’allongement de la syllabe dans l’exemple (4) peut êtreattachée à la production d’un syntagme nominal ‘ticket d’entrée’ à la suite du groupe nominalderrière ‘un certain nombre de’. Voici la construction de la séquence.[un certain nombre de :: (D55)tu voisde ::: (D89) de tickets d’entrée]Par ailleurs, la réduplication des mots-outils dans l’exemple (5) nous montre la nécessitéde réinstaller la construction syntaxique en reprenant le mot laissé en suspens. En outre, le‘euh’ entre deux pronoms relatifs ‘qui’ et ‘dans lequel’ marque un joint entre ces deux unitésmais ce joint est annulé par la pause après le ‘euh’.[pour les chercheurs qui trouveraient le support{193}qui euh {117} dans lequelle courant {55} passeraittu voisde façon à ce que il y avait pas de de support qui ne qui nechaufferait pas]Ces constituants indiquent également une sorte de correction immédiate chez le locuteur aumoment même où il l’énonce.En ce qui concerne la co-occurrence de tu vois et de ces éléments, il s’agit donc d’unesorte de gestion de la formulation vis-à-vis de la réflexion du locuteur qui essaie lui-même dereconstruire et continuer son énoncé. De plus, à la fin d’un segment [de e::: (D55)] juste avantle marqueur tu vois, il existe une chute d’intensité (Figure (5)). L’association d’une chuted’intensité et la durée d’une syllabe ([I-] et [D+]) signifie l’abandon de la construction. Cesphénomènes manifestent donc la possibilité d’intervenir pour l’interlocuteur afin de compléterl’énoncé imparfait.68


<strong>Actes</strong> d’IDP 09Quant aux indices intonatifs, le tracé mélodique de tu vois dans l’exemple (4), reste plat[H2] et l’intensité remonte un peu (Figure (5)). Au moment de la production du marqueur tuvois, la locutrice maintient donc son tour de parole. Puis l’intensité reste plate accompagnéede l’allongement de la syllabe (de::: D89 cs). Ce couple ([I=] et [D+]) nous indique que lalocutrice est en train de chercher un mot exact dans son explication mais sans discontinuité.De plus, nous pouvons remarquer la chute de F0 [de ---› e::(D89)] sur l’allongementsyllabique alors que l’intensité est stable (Figure (5)). On en déduit que la locutrice hésite àconserver son droit à la parole dans la situation où elle a des difficultés à produire les mots.Dans l’exemple (5), F0 reste plate [H1(+)] et l’intensité ne chute pas, elle reste plutôtconstante (Figure (6)). Cela indique que le locuteur gère son tour de parole et qu’il est entrain d’organiser la modulation de l’explicitation de son discours.À partir de ces différents modes de reformulation et de formulation autour du marqueur tuvois, nous pouvons constater que la co-occurrence de tu vois et de ce type d’activité a pourrôle d’établir une correspondance sémantique entre deux énoncés séparés et contribue àmanifester une modulation et une reconstruction des énoncés chez le locuteur qui se trouve aumilieu d’une sorte de ‘tournoiement’ de l’ajustement des pensées au moment de la productionde l’énoncé. De ce fait, on peut déduire que lors de l’emploi de [tu vois II], le locuteur sesoucie de prévenir une discontinuité discursive et interlocutive, à un moment de difficulté oùil cherche à donner une cohérence à sa pensée. Ces éléments assurent la fonction d’ajustementmétadiscursif. Dans le même temps, dans le cadre du dialogue, cette co-occurrence est liée àla réaction de l’autre participant : c’est-à-dire à la modalité d’ajustement intersubjectif (niveaude compréhension entre les deux interlocuteurs). Ainsi, rencontrons-nous cette co-occurrenceparticulièrement dans les dialogues à bâtons rompus dans lesquels les deux interlocuteursvisent à organiser ensemble leurs énoncés afin d’atteindre à un point de conciliation entre euxen réinstallant la construction syntaxique et en cherchant un degré de précision lexicale.Par ailleurs, le locuteur ne demande pas une simple marque d’écoute ‘mm’ de la part deco-locuteur comme dans l’emploi [tu vois I] et on ne constate aucune pause après cemarqueur. De ce fait, on comprend que le locuteur veut garder le droit à la parole et celacorrespond à la propriété intonative de cet emploi ([F0+] et [I+]). C’est uniquement l’analysede l’intonation qui nous permet de montrer que l’emploi [tu vois II] n’a pas pour vocation dedemander le consensus du co-énonciateur.3.3. Deux fonctionnements distinctsEnfin, le locuteur utilise le marqueur tu vois au milieu d’un enchaînement des activitéslangagières telles que la demande d’une réaction sonore, la reformulation et la formulation entant que dispositif d’ajustement afin de gérer un dialogue en orientant son interlocuteur àsuivre ce qu’il souhaite extérioriser et également à construire ensemble le dialogue.Cependant, en ce qui concerne les indices intonatifs, on remarque une différencecaractéristique entre le type [tu vois I] et celui du deuxième [tu vois II] que nous avonsanalysé plus haut. Dans la plupart des exemples de ce dernier, on observe que l’intensitémonte légèrement ou reste constante dans le même niveau (moyen) par opposition auxconséquences des extraits du type [tu vois I] (l’intensité chute dans ce cas). De ce fait, on peutdéduire que lors de l’emploi de tu vois de la deuxième catégorie, dans laquelle il existe uneco-occurrence de l’activité de reformulation et la gestion de la formulation, le locuteur veutgarder le droit à la parole et ne demande pas véritablement une réaction sonore, que ce soitune réponse, ou une simple marque d’écoute comme l’emploi [tu vois I]. En effet, avecl’emploi [tu vois II], le locuteur ne laisse pas le tour de parole à son interlocuteur car il aencore des choses à dire, il reste dans la boucle réflexive en modulant ses énoncés et essaie de69


Proceedings of IDP 09les réinitialiser, de les annuler, de les corriger et de les réinstaller dans la construction aumoment où dialoguent les deux interlocuteurs.Voici la récapitulation des deux catégories de fonctionnement distincts de tu vois.Propriétés intonatifsPropriétésmorphosyntaxiques[tu vois I]• [F0] : Il montre une mélodie plate ouun peu basse par rapport à la séquenceprécédente.• [I] : Il montre une chute d’intensité.• On constate souvent une pause trèsbrève après son apparition.• Il se positionne à la finale duparagraphe intonatif.[tu vois II]• [F0] : Il est en mélodie légèrementmontante• [I] : L’intensité monte soit légèrement,soit fortement.• On ne constate aucune pause après sonapparition.• Il apparaît au milieu du paragrapheintonatif.Propriétés discursiveset énonciatives• On observe souvent la manifestationd’une marque d’écoute « mm » de lapart de celui à qui les propos sontadressés.• Le locuteur utilise ce marqueur pourfaire réagir le co-locuteur afin deconfirmer s’il suit bien l’énoncéprécédent.• Il existe une opération d’orientationvers le « chemin de compréhension » :“est-ce que tu me suis ?”/ “est-ce que tucomprends ce que je veux dire ?”• Le co-locuteur se sent ainsi en droit deprendre la parole.• On ne constate aucune marqued’écoute de la part de l’interlocuteuraprès son apparition.• On observe fréquemment une cooccurrenceavec d’autres marquesmétadiscursives (reformulation,hésitation, etc.).• Le locuteur se soucie de prévenir unediscontinuité discursive etinterlocutive, à un moment de difficultéoù il cherche à donner une cohérence àsa pensée (ajustement vis-à-vis de sapropre formulation).• Il contribue à établir unecorrespondance sémantique de deuxénoncés séparés.• Le locuteur ne laisse pas ainsi le tourde parole au co-locuteur.70


<strong>Actes</strong> d’IDP 094. ConclusionDans les études principales concernant les séries de ce type de marqueurs 5 , notamment dans ledomaine de l’analyse du discours, on se limite à les classer dans une catégorie large demarqueurs ‘discursifs’, ‘énonciatifs’ et on n’obtient pas jusqu’à présent des explicationssatisfaisantes au niveau prosodique. Cependant, les marqueurs du type tu vois sont desexpressions probablement très subtiles dans les nuances pour transmettre le sens de l’énoncéet de la modalité de l’énonciateur surtout dans les situations d’interaction. Il est, dans les faits,difficile d’identifier et d’interpréter objectivement chaque occurrence du marqueur en rapportavec l’attitude du locuteur sans s’appuyer sur les indices intonatifs. En effet, l’intonation estun des indices fondamentaux des modalités énonciatives, des attitudes émotives et aussi duniveau de compréhension entre les interlocuteurs dans l’interaction verbale.À travers cette analyse détaillée avec codage des variations mélodiques, on peut constaterque ce sont les faits prosodiques qui nous servent à interpréter les valeurs sémanticopragmatiquesdes marqueurs dans l’énoncé dans lequel apparaît le marqueur en question. Enfait, à partir de la suite-écoute sur l’enregistrement du son d’un corpus, on ne peut que décrireintuitivement les caractéristiques d’une séquence orale. L’analyse prosodique nous permet depréciser objectivement les règles de la structure de l’oral en rapport avec la variation de saposition syntaxique dans l’énoncé et également de décrire la dimension cognitive dépendantde notre perception subjective.Annexes1. Conventions de transcription{450} durée de la pause en centisecondes(h) note une pause remplie par une inspiration audible.(h 41) durée de la respiration audible(D 56) durée de l’allongement de la dernière syllabe§mm§ indique qu’une autre vois intervient à l’intérieur d’un énoncé.(/) note pause brève.[ provoque un chevauchement de paroles./-/ note une silence de plus d’une seconde.:: note l’allongement d’un son (plus il y a de points, plus l’allongement est long)( ) encadrent des éléments qui n’ont pas été prononcés et qui sont destinées à faciliter lalecture.e note la prononciation des ‘e’ finaux des mots grammaticaux ou des ‘e’ muets.* * prononciation très rapide du segment encadré entre les deux astérisquesMAJ indiquent une prononciation appuyée : accent d’intensité, d’insistance.Paris lettres en italique indiquent un nom propre.5Nous expliquons brièvement quelques terminologies utilisées pour ce type de marqueurs en français parlé,liés à notre recherche. Le marqueur tu vois est analysé comme « signaux de structuration » et particulièrement endeux catégories « marqueur d’ouverture et de clôture » (E. Gülich, 1970), comme « marqueur de recherched’approbation discursive » (W. Settekorne, 1977), comme « particule énonciative » (M.M.J. Fernandez-Vest,1994), comme « marqueur discursif » (G. Dostie, 1998) et comme « ligateur énonciatif » (M.-A. Morel et L.Danon-Boileau, 1998).71


Proceedings of IDP 092. Informations sur les données (deux enregistrements personnels)EnregistrementCorpus 1(EP-1)Date : 10/03/2007Lieu : Châtillon, chez lelocuteur MDurée totale : 54 minutesCorpus 2 (EP-2)Date : 22/12/2003Lieu : Paris, chez le locuteur Ket la locutrice ADurée totale : 55 minutesPrésentation du locuteur 1[ Locuteur M ]Sexe : MAge : 23 ansLieu de résidence actuelle :ChâtillonOrigine géographique : Nordde la FranceStatut social : étudiant (enmaster FLE)[ Locutrice A ]Sexe : FAge : 44 ansLieu de résidence actuelle :Paris (13 ème arrondissement)Domiciliée à Paris depuis 1976Profession : professeur desuniversitésPrésentation du locuteur 2[ Locutrice C ]Sexe : FAge : 19 ansLieu de résidence actuelle :Paris (13 ème arrondissement)Origine géographique : Sud dela FranceStatut social : étudiante enlangue et littérature[ Locuteur K ]Sexe : MAge : 44 ansLieu de résidence actuelle :Paris (13 ème arrondissement)Langue maternelle : le japonaisLe français : parlé commelangue pratique depuis 20 ansDomicilié en France (à Paris)depuis 1988Profession : traducteur72


<strong>Actes</strong> d’IDP 09Figures73


74Proceedings of IDP 09


<strong>Actes</strong> d’IDP 09Références bibliographiquesAnzai, Y. (2008). Quelques considérations sur l’ajustement intersubjectif et informationnel dans les dialoguesspontanés. A travers l’analyse de deux marqueurs « tu vois », « tu sais » en français et de quelquesmarqueurs correspondants en japonais. Thèse de doctorat, Université Sorbonne Nouvelle - Paris 3 etUniversité Aoyama Gakuin-Tokyo (soutenue en 2008).75


Proceedings of IDP 09Auchlin, A. (1981-a). Réflexions sur les marqueurs de structuration de la conversation. Études de linguistiqueappliquée 44, pp.88-103.Auchlin, A. (1981-b). Mais euh, pis bon, ben alors, voilà, quoi ! Marqueurs de structuration de la conversation etcomplétude. Cahiers de Linguistique française (CLF) 2, pp.141-159.Bange, P.(éd.) (1987). L'analyse des interactions verbales. La dame de Caluire, une consultation (coll. Sciencespour la communication 18) Peter Lang, New York.Berrendonner, A. & Parre, H. (éds.) (1991). L’interaction communicative (coll. Sciences pour la communication32). Peter Lang, Berne.Blanche-Benveniste, C. et al. (1991). Le français parlé. Études grammaticales. CNRS, Paris.Blanche-Benveniste, C., Rouget, C. et Sabio, F. (2002). Choix de textes de français parlé - 36 extraits. HonoréChampion, Paris.Bruxelles, S. & Traverso, V. (2001). Ben : apport de la description d’un “petit mot” du discours à l’étude despolylogues. Marges Linguistiques No.2 (novembre 2001), (http://www.revue-texto.net/1996-2007/marges/marges/Documents%20Site%200/00_ml112001/00_ml112001.pdf.), pp.38-55.Chanet, C. (2001). 1700 occurrences la particule quoi en français parlé contemporain : approche de la« distribution » des fonctions en discours. Marges Linguistiques No.2 (novembre 2001), (http://www.revuetexto.net/1996-2007/marges/marges/Documents%20Site%200/00_ml112001/00_ml112001.pdf.),pp.56-80.De Gaulmyn, M.M. (1987). Reformulation et planification métadiscursive. Décrire la conversation (sous ladir.de J.Cosnier et C.Kerbrat-Orecchioni), pp.168-198.Dosti, G.(1998). Deux marqueurs discursifs issus de verbes de perception. Cahier de lexicologie 73, pp.85-106.Fernandez, M.M.-J.(1994). Les particules énonciatives. PUF, Paris.Fernandez, M.M.-J. & Carter-Thomas, S. (éds.) (2004). Structure informationnelle et particules énonciatives.Essai de typologie. Harmattan, Paris.Gülich, E. (1970). Makrosyntax der Gliederungssignale im gesprochenen Französisch. Fink Verlag, München.Gülich, E. & Kotschi, T. (1983). Marqueurs de la reformulation paraphrastique. Cahiers de Linguistiquefrançaise (CLF) 5, Connecteur pragmatique et structure de discours (<strong>Actes</strong> de 2 ème colloque depragmatique de Genève : 7-9 mars 1983), pp.305-351.Jeanneret, T. (1999). La coénonciation en français. Approches discursive, conversationnelle et syntaxique. PeterLangue, Berne.Mertens, P. (1990). Intonation. C. Blanche-Benveniste et al.(éds.), Le français parlé. Études grammaticales.CNRS, Paris. pp.159-176.Morel, M.-A. (2003). Fusion/Dissociation des points de vue dans le dialogue oral : intonation et syntaxediscursive. Cahiers de praxématique 41, pp.157-190.Morel, M.-A. & Danon-Boileau, L. (1998). Grammaire de l’intonation. L’exemple du français oral. Ophrys,Bibliothèque de Faits de langues, Paris.Rossari, C. (1994). Les opérations de reformulation. Peter Lang.Rossi, M. (1999). L’intonation, le système du français : description et modélisation. Ophrys, Paris.Roulet, E. Auchlin, A., Moeschler, J., Rubattel, C., Schelling, M. (1985). L’articulation du discours en françaiscontemporain. Peter Lang, Berne.Settekorn, W. (1977). Pragmatique et rhétorique discursive. Journal of pragmatics 1,3, pp.195-209.76


<strong>Actes</strong> d’IDP 09Abstract:La dislocation à gauche avec reprise anaphorique en français parléEtude prosodiqueMathieu Avanzimathieu.avanzi@unine.chUniversités de Neuchâtel & de Paris Ouest Nanterre (Modyco)Many works have been done concerning prosodic properties of left-dislocation in spoken French. The hypothesiscommonly shared is that the dislocated element always constitutes an intonational phrase, marked on its rightedge by an obligatory prosodic boundary, due to its syntactic and pragmatic status (it is an adjunct with a topicalvalue). In this paper, I argue that it is not always the case in spontaneous French. I finally present somearguments that can be considered as evidences that certain French clitics should be analyzed as agreementmarkers.1. Avant-propos1.1. Délimitation de l’objetCette étude prend pour objet des constructions étudiées sous différentes appellations dans lalittérature, et que nous dénommerons ici, sans en faire un enjeu théorique, dislocations àgauche avec reprise anaphorique. Nous désignerons par là des énoncés dans lesquels uncomplément du verbe est exprimé deux fois, d’abord sous la forme d’un SN plein (mon père),puis sous la forme d’un clitique coréférentiel (il, l’, lui):(1) (a) mon père, il est cheminot(b) mon père, je l’aime bien(c) mon père, je lui ai donné ma montreSi les énoncés sous (2)-(6) correspondent également à cette définition, ils ne seront toutefoispas pris en compte:(2) (a) à mon père, je lui ai donné ma montre(b) gentil, mon père l’est(3) (a) la première année de droit, ils reprennent en octobre [< Coveney](b) les deux filles, ils sont avec la grand-mère [< Blasco-Dulbecco](4) (a) sortir de temps à autre, ça va(a’)? ? sortir de temps à autre va(b) le tabac c’est pas bon(b’)? ? le tabac est pas bon(c) les repas de gala, c’est toujours la même chose(c’) * les repas de gala, est toujours la même chose(5) les chaussures, j’ai acheté celles-ci(6) la glace, j’aime ce dessert77


Proceedings of IDP 09D’une part, parce que cette étude concerne le français spontané, et que dans le français descorpus que j’ai consultés (présentés au §.3 infra), les dislocations qui figurent sous (2) –qu’elles soient de type SPrép., (a); ou SAdj., (b) – sont quasi inexistantes; il en va de mêmeconcernant les cas de désaccords en genre et nombre entre SN sujets et clitiques, tels que ceuxqui sont donnés sous (3)1. D’autre part, dans les énoncés comme (4), la reprise se fait par unpronom de type /c-/, et, dans ces cas-là, il n’est pas toujours évident de savoir si le pronom estcoréférentiel avec le syntagme extraposé. En outre, mis à part le fait que de tels pronomspeuvent reprendre n’importe quel type de syntagme (comme des constructions verbalescomplètes, des infinitives, etc.) et que leur suppression entraîne des agrammaticalités (a’)-(c’)ou des changements de sens propositionnel (b’), ils donnent à la configuration un statutsémantique particulier (Carlier 1996), qui rend la rend proche d’une pseudo-clivée (Pekarek-Doehler & Muller 2009). Enfin, nous ne prendrons pas en compte les exemples dans lesquelsla reprise se fait par un pronom semi-lexical postposé au verbe (5), ainsi que les casd’anaphores lexicales par hyperonymie (6)2.1.2. Structure et objectifs de l’articleL’étude des dislocations a donné lieu à un nombre impressionnant de publications3, dans descadres théoriques variés, que ce soit en syntaxe (dans une perspective descriptive, v. Blasco-Dulbecco 1999; dans une perspective variationniste, v. Berrendonner & Béguelin 1997;Coveney 2003; dans une perspective générative, Rizzi 1997); du point de vue de ladynamique informationnelle (Lambrecht 1981; Lacheret & François 2003; Degand & Simon2005); en psycholinguistique et en acquisition (Dubuisson et al. 1983; Heilenman &McDonald 1993; Vion 1992; De Cat 2007); d’un point de vue diachronique (Harris 1978;Pagani-Naudet 2005) ou encore en analyse interactionnelle (Pekarek-Doehler 2001; DeStefani 2007)4. Sur le plan prosodique, la majorité des descriptions instrumentales repose surl’analyse de phrases lues (Rossi 1999; Delais-Roussarie et al. 2005), ou si elles portent surl’analyse d’énoncés non-lus, raisonnent sur des prototypes (Morel 1992; Berrendonner 2007;Mertens 2008).Dans cet article, je proposerai une description prosodique fine des dislocations à gauche enfrançais parlé «spontané» (i.e. non-préparé non-lu), qui soit largement «documentée», i.e. quisoit basée sur de larges collections d’exemples. Ceci devrait permettre d’avoir une idée dunombre de formes qui ne correspondent pas au(x) standard(s) décrits par la littérature.2. Etat de la questionJe ne pourrai pas, faute de place, dresser un état des lieux exhaustif de l’ensemble despropositions portant sur la prosodie des dislocations à gauche. Je me contenterai donc ici derésumer en quelques paragraphes les propositions les plus représentatives et les plusinfluentes sur le sujet 5 . Je parlerai d’abord du précurseur que fut Bally, pour passer ensuite1 Sur la totalité du corpus fouillé (v. section 3), je n’ai trouvé que 4 double-marquages de SPrép. (et il s’agit delocatifs), aucune dislocation d’adjectif. Quant aux cas de neutralisation de genre et/ou nombre entre SN sujet etclitique de reprise, j’en ai relevé un peu moins d’une dizaine.2 Je m’arrête ici dans l’inventaire des structures exclues. Pour un aperçu complet des constructions àdétachement, v. Fradin (1990).3 Voir déjà Blasco-Dulbecco (1999: 4 e de couverture): « Les constructions disloquées relèvent des questions lesplus travaillées et les plus soumises à polémique par la littérature linguistique ». Dix ans après, il me semble quecette remarque n’a pas perdu de son actualité.4 Pour des synthèses, on consultera Blasco-Dulbecco (1999), et plus récemment la notice encyclopédique deBlanche-Benveniste (2006) ou l'ouvrage de De Cat (2007).5 Un état des lieux plus développé est disponible dans (Avanzi, à par).78


<strong>Actes</strong> d’IDP 09aux propositions de Rossi, et terminerai par l’exposé de la règle de la frontière prosodiqueobligatoire, formulée de diverses manières par des auteurs émanant d’horizons variés.2.1. Ch. Bally, précurseur des idées sur la prosodie du français parlé (1944)Dans les travaux de Ch. Bally, qui est le premier à avoir écrit sur la prosodie des dislocationsen français parlé, les configurations que nous étudions sont traitées comme des «phrasessegmentées», assemblages qu’il réécrit AZ (1944: §79 sqq.). Dans la phrase segmentée AZ, Aest subordonné mélodiquement à Z. Il est assorti d’une mélodie montante, alors que Z est unsegment dont la forme du contour peut varier, en fonction de la modalité de l’énoncé, de lafaçon dont le locuteur entend connoter la fin de sa phrase, etc. Selon Bally, une pause séparetoujours AZ. Cette pause silencieuse, même si elle peut être effacée dans la parole, esttoujours présente, car c’est une marque qui est inscrite dans la langue 6 .2.2. M. Rossi, l’intonème de topique (1999)En se basant sur un corpus de phrases lues, Rossi (1999) valide empiriquement, si l’on peutdire, la description de Ch. Bally, qui était basée uniquement sur la perception.L’instrumentation lui permet d’affiner la description. Ainsi, il montre que l’intonème 7 dontest assorti le premier terme des disloqués à gauche (qu’il appelle «topique») a plusieurspropriétés bien spécifiques. Sur le plan phonétique, cet accent est défini par plusieurs traits.Au niveau de la mélodie, le point de F0 de la syllabe finale du constituant disloqué doit être lepoint culminant dans l’énoncé. Corollairement, il doit atteindre la plage la plus haute de latessiture du locuteur (aiguë ou suraiguë). Le contour de F0 a également une forme dynamique,montante. Cette modulation mélodique doit aussi être accompagnée d’une augmentationrelative de la durée syllabique (environ 5 UP 8 ), ce qui peut engendrer la perception d’unepause «subjective» (c’est-à-dire d’un silence qui n’est pas forcément visible sur unspectrogramme, mais perçue comme telle par les sujets parlants) après le segment topical.2.3. P. Mertens, la règle de la FPO (2008)Dans les approches contemporaines sur l’intonosyntaxe du français, bon nombre d’auteurs 9ont mis au jour l’existence d’une régularité que Mertens formule en ces termes:Dans "l’année universitaire commence demain", l’accentuation de «année» est facultative: soit onl’accentue, soit on l’intègre au Groupe Intonatif [GI] connexe qui suit. En revanche, dans «l’année, ellecommence demain», non seulement l’accentuation de «année» est obligatoire, mais la constructionexige aussi une frontière majeure après ce GI. Cette frontière prosodique obligatoire (FPO) seraindiquée par le signe ‘||’. Comme on verra plus loin, plusieurs constructions présentent une frontière dece genre à un endroit précis de leur articulation. Le phénomène prosodique de la FPO résulte de laprésence d’une frontière sous-jacente dans la construction syntaxique. Les constructions syntaxiques nesont donc pas neutres vis-à-vis de l’intonation; au contraire, elles sont dotées de propriétés intonatives,qui ne se manifestent pas à l’écrit. (Mertens 2008: 107)6 On retrouve ici la différence entre réalisation phonétique et marquage phonologique des frontières prosodiques,sur laquelle on reviendra au §4.3.7 Dans la terminologie de Rossi, un intonème est une forme prosodique codifiée en langue, à laquelle est attachéeune signification stable. Ce terme est synonyme de celui de « contour » chez Delattre (1966) ou de « morphèmeintonatif » chez Mertens (2008).8 Dans le modèle de Rossi, une UP est une unité de perception, dont la valeur est «égale à une fois le seuil deperceptibilité (ou seuil différentiel) du paramètre considéré» (1999: 212).9 Voir entre autres: Morel (1992: 31) ; Delais-Roussarie et al. (2005: 514) ; Martin (2006a: 84) ; de Cat (2007:50).79


Proceedings of IDP 09L’idée est qu’en français, les éléments disloqués sont toujours ponctués d’un accent de groupeprosodique effectif, qui leur confère le statut de groupe prosodique de type syntagme intonatif(Delais-Roussarie & Post 2008). Pour éviter de tomber dans les écueils terminologiques liés àla dénomination des unités prosodiques de différents rangs pertinents pour le français, oncaractérisera cet accent comme une proéminence accentuelle, sans se soucier du statut dugroupe qu’elle délimite dans la hiérarchie prosodique.2.3. Problématique et buts de l’articleLa perception des proéminences accentuelles est pluri-paramétrique par essence (t’Hart et al.1991; Lacheret & Beaugendre 1999), et la non-orthogonalité des différents paramètres quifont qu’une syllabe est proéminente est bien connue 10 . Quant à leur identification sur desimples bases auditives, on sait qu’elle demeure hautement problématique: la détectionauditive des proéminences, même lorsqu’elle est réalisée par des phonéticiens experts, est loinde donner des résultats fiables, comme l’a encore démontré la récente étude de Poiré (2006).En outre, si la proéminence est par définition un phénomène perceptif, on sait que laperception est largement informée par les connaissances, linguistiques en l’occurrence, decelui qui perçoit (Martin 2006b). Tenant compte de cet état de fait, j’ai utilisé un outil dedétection semi-automatique des proéminences accentuelles (outil dont la robustesse a étédémontrée par ailleurs, v. Avanzi et al. 2007 et Simon et al. 2008), en vue de vérifier cettehypothèse, communément admise, selon laquelle, pour mémoire, le syntagme antéposé dansles structures disloquées à gauche est prosodiquement mis en exergue dans un groupeprosodique périphérique. Je présente, dans la section suivante, les données sur lesquelles j’aitravaillé. Et dans la dernière partie de cet article, je discute les résultats de l’analyse enessayant d’expliquer pourquoi certaines dislocations ne présentent pas l’accent attendu là oùle prédit la règle de la FPO.3. Présentation du corpus et des outils de traitement semi-automatique3.1. Corpus fouillésPour cette étude, j’ai fouillé plusieurs corpus, dont certains ont été dépouillés en intégralité.Tel est le cas du CFPP2000 (Branca et al. 2009, 17 heures de parole), d’une sous-partie ducorpus PFC (Durand et al. 2002), plus précisément les départements 91 et 92 (5 heures deparole) 11 , et du corpus UNINE, constitué par des étudiants de l’université de Neuchâtel sousla direction de (Avanzi & Béguelin 2008/2009, 14 heures de français parlé en Suisseromande). D’autres énoncés ont été recueillis dans des corpus que nous n’avons pas fouilléssystématiquement, à l’instar du CRFP, élaboré par l’équipe DELIC (2004), du reste de PFC,ainsi que des corpus issus de la base de données GRE, constitué par Savelli à l’Université deGrenoble 3.3.2. Détail du nombre d’occurrencesLa description des SN disloqués que nous proposons dans la section suivante repose surl’analyse de 358 SN disloqués, qui se répartissent en trois types syntaxiques:10 Il suffit de voir la diversité des paramètres acoustiques étudiés par Rossi pour s’en convaincre.11 Avanzi (à par.).80


<strong>Actes</strong> d’IDP 09Type Squelette morphosyntaxique Exemple Nb. occ.Type I (SN) (ProSjt V) mon père, il est cheminot 247Type II (SN) (ProO [-Prép] V) mon père, on l’a embauché 64Type III (SN) (ProO [+Prép] V) mon père, il lui a acheté 47Tableau. Types et nombre des dislocations à gauche avec reprise anaphorique inventoriésCes trois types se distinguent selon la fonction du clitique de reprise: sujet pour le type I,objet [- prép.] pour le type II, objet [+ prép.] pour le type III.3.3. Alignement, stylisation et détection de proéminences3.3.1. Les outilsDans Praat (Boersma & Weenick 2009), nous avons procédé, pour chaque énoncé présentantune dislocation à gauche, à un alignement en phonèmes, syllabes et mots graphiques à l’aidedu script d’annotation semi-automatique Easyalign (Goldman 2008). Après correctionmanuelle des alignements, une stylisation du signal a été faite avec le script Prosogramme(Mertens 2004). L’étape suivante consistait à mettre au jour les articulations prosodiqueseffectives internes aux énoncés analysés, en d’autres termes, repérer les proéminencesaccentuelles qui scandent les énoncés à l’étude. Pour cela, j’ai eu recours à un autre script. Cedernier, nommé Prosoprom (Simon et al. 2008), prend en entrée les fichiers d’alignementstylisés via le Prosogramme. Il calcule, pour chacun des noyaux syllabiques stylisés, deuxmesures acoustiques: la hauteur du segment de F0, et la durée de la syllabe. Ces premiersparamètres acoustiques sont alors «relativisés», c’est-à-dire recalculés par rapport au contextesyllabique immédiat (en l’occurrence, relativement aux deux syllabes précédentes et à lasyllabe suivante), pour obtenir des durées relatives (en pourcentage) et des valeurs dedifférence de F0 relatives (en demi-tons). L’algorithme prend également en compte laprésence éventuelle d’une pause directement subséquente, et mesure la hauteur de la pente ducontour vocalique s’il est de forme montante.3.3.2. Seuils retenus pour la détection des proéminencesLes valeurs des seuils, qui permettent de savoir automatiquement si une syllabe estproéminente ou non, ont été fixées à la suite d’une étude dichotomique comparantsystématiquement les résultats de la détection automatique avec un corpus de référence annotépar deux experts 12 . Pour le travail qui est présenté ici, les seuils calculés par Simon et al.(2008) ont été abaissés de 25% 13 , ce qui donne au final:- Hauteur syllabique = 1.6 (en demi-tons)- Montée intra-syllabique = 2.8 (en demi-tons)- Durée syllabique = 1.6 (sans unité)12 Le corpus sur lequel cet entraînement a été réalisé est d’une durée totale de 80 minutes. Il comprend différentsgenres de français parlé (lecture, récits de vie, interviews radiophoniques, discours politiques, conférencesuniversitaires, journaux parlés et prescriptions d’itinéraires), de France métropolitaine, de Belgique francophoneet de Suisse romande. Les résultats de cette étude ont révélé que l’outil est relativement robuste, puisque le tauxd’agrément entre la machine et le codage manuel était d’environ 84% (le taux de variation entre deux codeursayant été évalué à 89,7% par Simon et al., 2008).13 Dans une précédente étude portant sur la dislocation à gauche en français parisien (Avanzi, à par.), j’explicitele but de cette manœuvre, qui vise à ne capter les syllabes qui manifestent uniquement des variationsprosodiques faibles, voire nulles, sur le plan perceptif.81


Proceedings of IDP 09- Pause silencieuse après = 0.1 (en millisecondes)J’ai considéré qu’il suffisait qu’un des quatre seuils soit activé pour que la syllabe soitconsidérée comme proéminente. Ainsi, si l’écart de hauteur entre la syllabe finale du membredisloqué et les syllabes immédiatement environnantes était supérieure ou égale à 1.6 demitons,ou que la durée de la syllabe était deux fois supérieure ou égale à la moyenne dessyllabes environnantes (1.6), ou qu’elle était suivie d’une pause, si courte soit-elle, et/ouactualisée par un contour montant de 2.8 demi-tons au minimum, la syllabe est étiquetéeproéminente.3.3.3. IllustrationsLa fig. 1 ci-dessous, représentation d’un Prosogramme enrichi 14 , est un exemple dedislocation accentuée: en plus de la présence d’une pause silencieuse après le SN extraposé(la Procure), tous les seuils sont dépassés: 4.0 dt de hauteur relative, 2.3 pour la durée, 6.6 dtde montée.Fig. 1. Prosogramme enrichi de l’énoncé: «La Procure vous vous y allez» [CFPP2000]Quant à la fig. 2 ci-dessous, elle donne un exemple de SN extraposé non-accentué:14 Sur la bordure droite de la figure sont données les valeurs de hauteur (en Hz). Le trait noir épais représente laf0 stylisée, le trait plus fin qu’elle recouvre est la f0 brute (les lignes en pointillé à l’horizontale sont éloignées de2 dt chacune). Au-dessus, les ondulations représentent l’intensité, les parties encadrées sur la bordure inférieure.Les trois couches de segmentations issues de l’alignement automatiques sont transcrites en alphabet SAMPApour les deux premières (phonèmes et syllabes), en alphabet standard pour la troisième. La durée des segmentsétiquetés peut être récupérée grâce aux gradations de la bordure supérieure (un intervalle = 10 ms). Les valeursdes paramètres calculés automatiquement sont données au-dessus de chaque syllabe. De haut en bas sontdonnées: la valeur de montée (en bleu), la valeur de hauteur relative (en rouge), la valeur de durée relative (envert). La durée de la pause adjacente est en sec., par le dernier chiffre sous la syllabe (avec trois décimales).82


<strong>Actes</strong> d’IDP 09Fig. 2. Prosogramme enrichi de l’énoncé: «en fonction des des petites euh des petites merdes que la vie elle vousmet comme ça sous les pieds euh» [UNINE]On voit sur ce second tracé que la syllabe finale du membre extraposé (la vie) ne se détachepas de son entourage immédiat, d’un point de vue phonétique: aucune pause ne la suit, et onne perçoit pas de montée mélodique sur ce segment. Quant aux seuils de hauteur et de durée,ils sont loin d’être atteints: l’écart de hauteur est de 0.5 dt, et l’écart relatif de durée est de 1.1.4. Analyse du corpus4.1. Résultats sur la totalité du corpusDe la détection automatique, validée perceptivement 15 , il ressort au final que si 79% desdislocations collectées (283 occurrences) contiennent une proéminence à l’articulation desdeux segments qui les composent (pour un exemple, voir la fig. 1 supra), dans 21% de cas (75occurrences), le logiciel ne détecte pas d’accent à la fin du syntagme disloqué (en guised’illustration, voir la fig. 2 supra).4.2. Les raisons de la non-accentuation des SN extraposésCe phénomène de non-accentuation, qui remet en question le principe de congruence entrestructure syntaxique et informationnelle d’un côté et structure prosodique de l’autre, mériteexplication. Plusieurs pistes sont exploitables. On essayera de voir si l’alternance +/-proéminence accentuelle est liée à la fonction qu’occupe ce SN dans la phrase (§4.2.1.), autype de reprise (§4.2.2.), à l’enchâssement de la structure disloquée dans une construction derang supérieur (§4.2.3.) ou au statut sémantique du SN extraposé (§4.2.4.).4.2.1. La non-accentuation est-elle déterminée par la fonction syntaxique du SN?Les sujets, du fait qu’ils occupent une position canonique dans la phrase, sont-ils plus exposésà perdre leur accent que les objets, qui eux sont déplacés de leur site préférentiel, après leverbe? Bien que le nombre de SN sujets et de SN objets ne soient pas les mêmes, on peutquand même tirer de l’observation de la fig. 3 que l’un comme l’autre type est enclin à la non-15 Pour les cas où le logiciel ne détectait pas de variation mélodique ou de variation de durée, l’auteur a validéperceptivement l’absence de proéminence.83


Proceedings of IDP 09accentuation:$%"#SN sujets (x 247)()"#SN objets (x110)"#$%!"#$%!!!"#&'"#$%!&'"#&'"#$%!Fig. 3. Répartition des SN ponctués d’une proéminence ou non, selon leur fonction (sujet vs objet)16% des SN objets (18 occ.) de la totalité des SN objets (110 occ.) sont non-accentués, contre23% (57 occ.) des SN sujets sur la totalité (247 occ.).4.2.2. La non-accentuation est-elle liée au type de reprise du SN?Y a-t-il une différence entre les types II et III, i.e. entre les SN objets repris par un pronompersonnel [-prép.] et ceux repris par un pronom personnel [+ prép.]? La question permet dequestionner au passage le problème du marquage prosodique des relations micro- et macrosyntaxiques.L’idée est que lorsque le SN extraposé est repris par un clitique [- prép.], ilentretient une relation micro-syntaxique de liage avec la construction qui suit, alors que dansle cas où il est repris par un clitique [+ prép.], il entretient une relation macro-syntaxique depointage 16 . Le croisement des variables [+/- prom] et [+/- prép.] donne les résultats suivants:$("#SN objets [pro -prép.](x63)(("#SN objets [pro -prép.](x50)(#$%!(#$%!)"#$%!)"#$%!!*"#&*"#Fig. 4. Répartition des SN objets ponctués d’une proéminence ou non, selon leur typeLà non plus, malgré le déséquilibre de nombre entre les deux classes, il n’est pas possible dedire que l’absence d’accent est liée au statut syntaxique du SN extraposé. 21% (13 occ.) de latotalité des SN objets de type II (63 occ.) sont accentués, contre 11% (5 occ.) des SN objetsde type III (47 occ.) 17 .16 Dans la réalité, l’analyse n’est pas si tranchée, les objets de type II pouvant être également décrits comme despériodes binaires de rang macro-syntaxique. , cependant ce point est l’objet d’une autre étude et ne sera pas traitéplus avant ici, et renvoie pour les détails de la démonstration à Berrendonner & Béguelin (1997).17 V. aussi Astésano et al. (2008), qui montrent à travers l’analyse de phrases lues, en se basant sur des testsstatistiques, qu’il n’y a pas de différence prosodique entre les types II et III (les paramètres étudiés sont lahauteur, la durée et la pause). De telles observations remettent en cause l’idée qu’un marquage prosodique84


<strong>Actes</strong> d’IDP 094.2.3. La non-accentuation est liée à l’enchâssement du SNLa place du SN dans la hiérarchie syntaxique de la phrase pourrait également jouer un rôle,j’ai donc distingué les SN enchâssés des SN non-enchâssés dans une subordonnée. J’ai doncdistingué les SN enchâssés des SN non-enchâssés dans une subordonnée.SN enchâssés (x 31))("#%*"#"#$%!&'"#$%!Fig. 5. Répartition des SN enchâssés, ponctués d’une proéminence ou nonLa fig. 5 montre que sur 31 SN enchâssés (28 sujets + 3 objets de type II), 14 (39%) sontassortis d’une proéminence. On peut donc conclure que l’enchâssement n’entraîne donc pasde facto la non-accentuation des SN disloqués.4.2.4. La non-accentuation est liée au sémantisme du SNUne autre raison pourrait être invoquée pour expliquer la non-accentuation des SN disloquésen français parlé. Ainsi, on pourrait voir si les SN indéfinis, réputés «inaptes à jouer le rôle detopique» (Berrendonner 2007: 87) du fait de leur sémantisme, ne sont jamais accentués. Sur lenombre total de SN indéfinis que contient notre corpus (17 occ.), un peu plus de la moitié sontaccentués (10 occ.).Fig. 6. Prosogramme enrichi de l’énoncé: «d’abord des passions je m’en invente tous les jours» [PFC]La fig. 6 ci-dessus montre un exemple de SN disloqué indéfini assorti d’une proéminencefinale par la hauteur (2.2. dt). Pour un exemple de SN indéfini non accentué, on se reportera àla fig. 8 infra.4.2.5. BilanAu terme de cette revue des causes potentielles de non-accentuation, il semble qu’aucune nesoit à elle seule satisfaisante 18 . L’unique explication qui me paraisse tenir la route, est, endéfinitive, à chercher dans les contraintes pesant sur la structure prosodique elle-même. Tousspécifique serait associé à des types syntaxiques distincts (hypothèse émise par Blasco-Dulbecco 1997: 18, citéepar Grobet & Simon 2009: 294).18 D’autres hypothèses possibles pour expliquer la non-accentuation sont étudiées dans Avanzi (à par.).85


Proceedings of IDP 09les spécialistes de l’intonation du français le savent: la réalisation d’un accent ou non dépendde facteurs divers, en particulier de facteurs phonologiques (contraintes eurythmiques, dedébit, évitement de clashes accentuels, etc.). À cela s’ajoute le fait qu’il est inutile, pour unsujet parlant, d’activer tous les traits à disposition (syntaxiques, sémantiques/pragmatiques,etc.) pour marquer les frontières discursives d’un énoncé donné. Dans cette optique, laréalisation ou non d’une frontière prosodique doit être considérée comme le résultat d’uncalcul complexe, visant à optimiser les coûts de production pour aboutir à un rendementcommunicatif optimal (sur ce point, voir le principe de pertinence de Sperber & Wilson 1989,et celui d’effort code de Gussenhoven 2002) 19 .4.3. L’absence de frontière est-elle un phénomène phonétique ou phonologique?Avant de conclure, je voudrais discuter de la nature de cette neutralisation de frontière. Est-ceun phénomène de surface – donc un effacement de nature phonétique, ou une absencephonologique – en structure profonde? Peu d’arguments sont à ma disposition pour endécider. Outre le critère «numérique», qui montre bien que l’absence de frontière n’est pas unaccident de performance (pour mémoire, sur 358 SN étudiés, 1 sur 5 n’est pas assorti del’accent attendu), on peut discuter de trois autres faits. Le premier concerne l’existenced’enchaînements consonantiques, le deuxième le marquage des autres frontières dans laphrase, et le dernier est relatif au fonctionnement des sujets lourds (SN non repris par unpronom).Dans la Théorie Prosodique (Selkirk 1984; Nespor & Vogel 1986), les regroupements dedifférents rangs qui s’agencent dans la hiérarchie prosodique sont envisagés comme autant dedomaines à l’intérieur desquels opèrent certains phénomènes phonologiques, comme ledownstep ou la liaison. En français, certains auteurs ont montré qu’au-delà du syntagmeintonatif (intonational phrase), qui est le statut assigné aux syntagmes adjoints tels que ceuxque nous étudions, les enchaînements et liaisons facultatives étaient bloqués (Post 2000;Delais-Roussarie 2008). Je n’ai pas fait de comptage, mais j’observe que dans mon corpus descas de re-syllabation entre le SN disloqué et la clause matrice sont attestés:Fig. 7. Prosogramme enrichi de l’énoncé: «oh ben ton père il allait se promener quand même» [PFC]Sur la fig. 7, on peut voir que dans la zone mise en valeur, le creux d’intensité se situe entre[ ] et [ ]. Cela montre qu’il y a eu re-syllabation de la suite, donc un enchaînement entre pèreet il. Si le membre disloqué avait été prononcé sans enchaînement, le creux d’intensité auraitété situé après le [ ].Partant, soit on renonce à considérer les frontières du syntagme intonatif comme bloquantles enchaînements, soit on révise l’idée que les constituants que nous décrivons sont desadjoints sur le plan syntaxique, et qu’ils n’ont pas le statut de syntagme intonatif19 V. pour plus de détails Avanzi (à par.).86


<strong>Actes</strong> d’IDP 09(corrélativement, cela irait dans le sens de l’hypothèse selon laquelle les clitiques sont desaffixes flexionnels en français, i.e. qu’ils n’occupent pas la place de sujet ou d’objet dans lareprésentation arborescente (v. entre autres, Jaeggli 1982; Roberge 1990; Creissels 1995;Berger 2003; Berrendonner 2007; pour une discussion, cf. De Cat 2007: 9-34).On pourrait penser que la non-réalisation de la frontière droite des SN est en fait due à unphénomène de désaccentuation plus général, propre à certains locuteurs qui ont tendance à neréaliser aucune des frontières majeures de leur énoncé. Ce serait par exemple le cas pour lelocuteur provençal qui a prononcé l’énoncé ci-dessous (fig. 8), dans lequel les frontières nesont pas marquées (sauf la dernière), suite à une compression de registre et un débit rapide:Fig. 8. Prosogramme enrichi de l’énoncé:«et pourtant là-bas tu étais obligé tout le monde il te parlait patois» [PFC]Cette observation n’est pas cependant généralisable. Car les locuteurs qui ne réalisent pas lafrontière droite du SN disloqué ne neutralisent pas de facto les frontières des autresconstituants majeurs de leur énoncé:Fig. 9. Prosogramme enrichi de l’énoncé: «donc souvent c’est des enfants/ qu’étaient placés/ là euh – pardécision juridique/ ou parce que les parents ils en peuvent plus/» [UNINE]Dans la séquence de la fig. 9, les frontières majeures sont presque toutes marquées, etdétectées proéminentes par Prosoprom (sur le tracé, les bornes prosodiques identifiées sont enbleu; elles sont suivies d’un slash dans la transcription en légende). La syllabe terminale duSN disloqué n’est quant à elle pas proéminente.87


Proceedings of IDP 09Enfin, l’idée que cette absence de frontière est bien un phénomène phonologique, et non denature réalisationnelle, est confirmée par l’étude du redoublement du sujet. Dans une étudesoumise (Avanzi et al., soumis), j’ai montré que l’alternance +/- prom affectait également lessujets non doublés d’un pronom, et qu’un même sujet parlant pouvait accentuer un SN lourd(= non repris par un clitique) sans forcément accentuer un SN double-marqué:Fig. 10. Prosogramme enrichi de l’énoncé: «mais les parents sont pas là non plus hein» [CFPP2000]Fig. 11. Prosogramme enrichi de l’énoncé:«les enfants maintenant les parents ils mettent une raclée» [CFPP2000]Les énoncés des fig. 10 et 11 ont été prononcés par la même locutrice parisienne. Dans lepremier, le SN les parents est accentué (2.3 dt pour la hauteur relative), alors que dans lesecond il ne l’est pas (hauteur: -0.9 dt; durée: 1.3). Au plan syntaxique, on aurait préditl’inverse, puisque le premier SN n’est pas double-marqué, alors que le second l’est. Le faitque cette alternance prosodique soit possible pour les deux formes de sujet (simple vs double)va dans le sens que dans certains cas, les clitiques du français n’occupent pas toujours uneposition argumentale, mais endossent bel et bien le rôle de flexifs.5. ConclusionCette étude sur la prosodie des SN disloqués avec reprise anaphorique a permis de tester unehypothèse intonosyntaxique largement répandue dans la communauté des spécialistes sur laprosodie du français, et d’apporter des éléments en vue de la falsifier. La discussion finale surla nature de l’absence d’accent a permis de présenter de nouveaux arguments en faveur del’hypothèse selon laquelle les clitiques sont des affixes flexionnels, les SN repris par unpronom ayant un comportement prosodique similaire à celui des sujets dits lourds. En cequ’elle constitue une description à la fois «instrumentale» et «chiffrée» du phénomène, ladémonstration ainsi faite aura permis de vérifier empiriquement un fait qui n’était restéjusqu’à l’heure actuelle qu’intuitif dans la littérature (Caroll 1982; Fradin 1990). Ce travaildoit être encore prolongé sur plusieurs points. Un typage des différents degrés de force desproéminences détectés s’avère nécessaire pour mieux saisir les différences entre les trois types88


<strong>Actes</strong> d’IDP 09de SN identifiés dans cette étude. En outre, il conviendrait de mener la même analyse sur desSN repris par un morphème de type /c-/, sur les SN non repris, entre autres circonstantscadratifs, de sorte à aboutir à une description unifiée de la périphérie gauche en français.RemerciementsCe travail s’inscrit dans le cadre d’un projet de recherche intitulé «la structure interne des périodes» (subside100012-113726/1), financé par le FNS et hébergé à l’Université de Neuchâtel. Il entre également dans le cadredes activités scientifiques de l’ANR Rhapsodie (ANR-07-CORP-030-01).RéférencesAstésano, C., Espesser, R. & N. Rossi-Gensane (2008). Quelques cas particuliers de détachement à gauche – oula prosodie à l’aide de la syntaxe. <strong>Actes</strong> des 27 èmes journées d’étude sur la parole (JEP 08), Avignon, 8-13juin 2008, non paginé.Avanzi, M., Goldman, J.-P., Lacheret-Dujour, A. Simon, A.-C. & A. Auchlin (2007). Méthodologie etalgorithmes pour la détection automatique des syllabes proéminentes dans les corpus de français parlé.Cahiers of French Language Studies, 13:2, pp. 2-30.Avanzi. M. (à par.). La dislocation à gauche en français parlé. Etude instrumentale. Le français moderne, 2011:2.Avanzi. M., Gendrot, C. & A. Lacheret-Dujour (soumis). Is there a prosodic difference between left-dislocatedand heavy subjects? Evidence from spontaneous French, Speech Prosody 2010.Avanzi. M. (en cours). Description prosodique de constructions périphériques, paratactiques et clivées enfrançais parlé. Thèse de doctorat, Universités de Neuchâtel & de Paris Ouest Nanterre.Bally, C. (1944$). Linguistique générale et Linguistique française. Berne, Francke.Berrendonner, A. (2007). Dislocation et conjugaison en français. Cahiers de praxématique, 28, pp. 85-110.Berrendonner, A. & M.-J. Béguelin (1997). Left Dislocation in French: varieties, use and norms. J. Cheshire &D. Stein (eds), Taming the Vernacular: from dialect to written standard language, London & New York,Longman, pp. 200-217.Blanche-Benveniste, Cl. (2006). Détachement constructions. Brown, K. (ed.). 2 nd Encyclopedia of Language andLinguistics. Elsevier, vol. 3, pp. 477-485.Blasco-Dulbecco, M. (1997). Pour une approche syntaxique des dislocations, Journal of French Languagestudies, 7, pp. 1-21.Blasco-Dulbecco. M. (1999). Les dislocations en français contemporain. Etude syntaxique. Paris, Champion.Boersma, P. & Weenink, D. (2009). Praat: doing phonetics by computer (Version 5.1). www.praat.org.Branca-Rosoff, S. et al. (2009). Discours sur la ville. Corpus de Français Parlé Parisien des années 2000(CFPP2000). http://ed268.univ-paris3.fr/CFPP2000/Carlier, A. (1996). ‘Les gosses ça se lève tôt le matin’: l’interprétation générique du syntagme nominal disloquéau moyen de ce ou ça. Journal of French Language Studies, 6, pp. 133-162.Caroll, S. (1982). Redoublement et dislocation en français populaire. Lefebvre, C. (ed), La syntaxe comparée dufrançais standard et populaire: approches formelle et fonctionnelle, tome 1, Office de la langue française,Québec, pp. 291-357.Coveney, A. (2003). Le redoublement du sujet en français parlé. Une approche variationniste. Hansen, A.B. &M.-B. Mosegaard-Hansen (eds), Structures linguistiques et interactionnelles dans le français parlé.Copenhague, Museum Tusculanum Press, pp. 110-143.Creissels, D. (1995). Eléments de syntaxe générale, Paris, PUF.De Cat, C. (2007). French Dislocation. Interpretation, Syntax, Acquisition, Oxford, University Press.Degand, L. & A.C. Simon (2005). ‘My brother, he drives like crazy’. Contextual salience, linguistic marking anddiscourse organization in spoken French. Stede, M. et al. (eds), Salience in Discourse: MultidisciplinaryApproaches to Discourse 2005, Stichting Neerlandistiek VU Amsterdam & Nordus Publikationen Münster,non paginé.Delais-Roussarie E. (2008). Structure prosodique et prosodie incidente, Verbum (sous presse).Delais-Roussarie, E., Doetjes, J. & P. Sleeman (2004). Dislocation. Corblin, F. & H. de Swart (eds.), Handbookof French Semantic, Stanford, pp. 501-528.Delais-Roussarie E. & B. Post (2008). Unités prosodiques et grammaire de l’intonation: vers une nouvelleapproche, <strong>Actes</strong> des Journées d’étude sur la Parole JEP-TALN 08, Avignon, Juin 2008.Delattre, P. (1966). Les dix intonations de base du français. The French Review. 40:1, pp. 1-14.89


Proceedings of IDP 09DELIC (2004). Présentation du Corpus de Référence du Français Parlé. Recherches sur le français parlé, 18, pp.11-42.De Stefani, E. (2007). La dislocation à gauche rythmée comme dispositif de clôture séquentielle. Tranel, 47, pp.137-156.Dubuisson, C. Emirkanian, L. & L. Lemay (1983). La dislocation, la topicalisation et la non-reprise du sujetsont-elles des critères de maturation syntaxique? Recherches linguistiques, 1:2/3, pp. 23-33.Durand, J., Laks, B. & Lyche, Ch. (2002). La phonologie du français contemporain: usages, variétés et structure.Pusch, C. & W. Raible (eds.) Romanistische Korpuslinguistik- Korpora und gesprochene Sprache/RomanceCorpus Linguistics - Corpora and Spoken Language. Tübingen, Gunter Narr Verlag, 93-106.Fradin, B. (1990). Approche des constructions à détachement. Inventaire. Revue Romane, 25:1, pp. 3-34.Goldman, J.-P. (2008). EasyAlign: a semi-automatic phonetic alignment tool under Praat,http://latlcui.unige.ch/phonetique.Grobet, A. & A.C. Simon (2009). Constructions à détachement à gauche. Les fonctions de la prosodie.Apothéloz, D, Combettes, B. & F. Neveu (eds). Les linguistiques du détachement. Bern, Peter Lang, pp. 289-303.Gussenhoven, C. (2002). Intonation and Interpretation. Proceedings of Speech Prosody’02, Aix-en-Provence,April 11-13, pp. 47-57.Harris, M.B. (1978). The evolution of French syntax. Longman, London.Heilenman, L.K. & McDonald, J.L. (1993). The processing of dislocated sequences by native speakers ofFrench, Journal of French Language Studies, 3, pp. 165-90.Jaeggli, O. (1982). Topics in Romance Syntax. Foris, DordrechtJun S.A. & Fougeron C. (2002). The Realizations of the Accentual Phrase in French Intonation. Probus, 14, 147-172.t’Hart, J. Collier, R. & A. Cohen (1991). A Perceptual Study of Intonation. An Experimental-Phonetic Approachto Speech Melody, Cambridge, University Press.Lacheret-Dujour, A. & F. Beaugendre (1999). La prosodie du français, Paris, CNRS.Lacheret-Dujour, A. & J. François (2004). De la notion de détachement topical à celle de constituant thématiqueextrapropositionnel. Cahiers de praxématique, 40, pp. 167-198.Lambrecht, K. (1981). Topic, antitopic, and verb agreement in non-standard French, Amsterdam, JohnBenjamins.Martin, Ph. (2006a). Intonation du français: parole spontanée et parole lue. Estudios de Fonética experimental,15, 133-162.Martin, Ph. (2006b). La transcription des proéminences accentuelles: mission impossible? Bulletin PFC, 6, pp.81-87.Mertens P. (2004), Le Prosogramme: une transcription semi-automatique de la prosodie. Cahiers de l’Institut deLinguistique de Louvain, 30:1-3, pp. 7-25.Mertens, P. (2008). Syntaxe, prosodie et structure informationnelle: une approche prédictive pour l’analyse del’intonation dans le discours. Travaux de linguistique, 56, 97-124.Morel, M.-A. (1992). Intonation et thématisation. L’information grammaticale, 54, pp. 26-35.Nespor, M. & I. Vogel (1986). Prosodic phonology, Dordrecht, Foris.Pagani-Naudet, S. (2005). La dislocation XIIe-XVIIe. Histoire d’un procédé de style. Champion, Paris.Pekarek-Doehler, S. (2001). Dislocation à gauche et organisation interactionnelles. Marges Linguistiques, 2,177-194.Pekarek-Doehler, S. & G. Müller (2009). Le problème c’est de les distinguer. Disloquée à gauche et pseudoclivéedans la conversation. Apothéloz, D, Combettes, B. & F. Neveu (eds). Les linguistiques dudétachement. Bern, Peter Lang, pp. 413-426.Poiré, P. (2006). La perception des proéminences et le codage prosodique. Bulletin PFC, 6, pp. 69-79.Post B. (2000). Tonal and phrasal structures in French intonation, The Hague, Holland Academic graphics.Rizzi, L. (1997). The fine structure of left periphery. Haegman, L. (ed.). Elements of Grammar. Handbook ingenerative syntax. Dordrecht, Kluwer, pp. 281-337.Roberge, Y. (1990). The Syntactic Recoverability of Null Arguments, Kingston, McGill. Queen’s UniversityPress.Rossi, M. (1999). L’intonation, le système du français – description et modélisation. Paris/Gap, Ophrys.Selkirk, E. O. (1984). Phonology and syntax. The relations between sound and structure, MIT Press.Simon, A. C., Avanzi, M. & J.-P. Goldman (2008). La détection des proéminences syllabiques. Un aller-retourentre l’annotation manuelle et le traitement automatique. Durand, J., Habert, B. & B. Laks (resp.), <strong>Actes</strong>du 1 er Congrès Mondial de Linguistique Française (CMLF 08), Paris, 9-12 juillet 2008, pp. 1673-1686.Sperber, D. & Wilson, D. (1989). La pertinence. Communication et cognition. Paris, Minuit.90


<strong>Actes</strong> d’IDP 09Vion, V. (1992). The role of intonation in processing left and right dislocations in French. Journal ofexperimental child psychology, 53:1, pp. 45-71.91


<strong>Actes</strong> d’IDP 09Prosody refers to semantic factors: evidence from French wh-wordsLena Baunaz & Cédric Patinlena.baunaz@gmail.com, cedric.patin@gmail.comUniversity of Geneva, LLF (Paris 7/CNRS UMR 7110)LLF (Paris 7/CNRS UMR 7110Abstract :Based on Baunaz (2011), we distinguish among French wh-words and claim that they are three-way ambiguous:they can involve partitivity, specificity (both are presuppositional) and non-presupposition (where nonpresuppositionalmeans not-specific/not-partitive). In addition to semantic differences, specificity and partitivityare argued to involve different prosody with wh-phrases in-situ. Building on an experimental study, we showthat the prosody of wh-words supports this analysis by constraining their interpretation: wh-words are exponentsof an accent when they involve specificity-based presupposition, i.e., prosody may mark different discoursestatus in colloquial French. This accent is not found on partitivity-based presuppositional French wh-words.1. IntroductionThis work aims at checking Baunaz’s (2005), (2011) claim about the importance of prosodyon the interpretation of wh phrases in-situ in French via an experiment. In order to do this, wehypothesize that the existential presupposition carried by wh-phrases has prosodic correlates.Our study is extended to wh-phrases ex-situ.Thanks to a production experiment, we argue that prosody can mark different discoursestatus in colloquial French. More precisely, wh-words (e.g., qui ‘who’, quoi ‘what’) are bearan accent when they involve specificity-based presupposition only. This accent is not foundon non-specific wh-words.This paper is organized as follows: the syntactic properties of wh-phrases in-situ are givenin section 2, where we claim that the grammaticality judgments of these constructions dependon the discursive context in which these sentences appear. The semantic properties of whwordsare highlightened in section 3, where we distinguish between three types of wh-words:specific, partitive and non-presuppositional. In section 4, we describe and discuss the main(prosodic) results obtained in our production experiment. Section 5 is our conclusion.2. General Properties(1) exemplifies the four most frequent strategies that French uses to for constituent questions(terminology from Boeckx (1999), see also Cheng and Rooryck (2000)): 11 The questions in (1) are not echo-questions, in that they are seeking for information. Echo-questions showdifferent pragmatic, semantic and prosodic properties from the type of questions we discuss in this paper. They93


Proceedings of IDP 09(1) a. Qui est-ce que tu as invité? Reinforced frontingwho est-ce que you have invited‘who did you invite ?’b. Qui as-tu invité ? FrontingWho have you invited‘who did you invite ?’c. C’est qui que t’as invité ? CleftingIt is who that you have invited‘who is it that you invite ?’d. T’as invité qui? in-situyou have invited whom‘who did you invite ?’In ‘written’ and standard formal Spoken French, wh-fronting is never an option: it iscompulsory. In spoken French, both strategies are available. Fronting and clefting are possiblein both registers. Reinforced fronting belongs to more formal registers. Our study focuses onthe (reinforced) fronting and in-situ strategies. For space reasons, only wh-phrases in-situ areexemplified. Yet, our claim extends to wh-phrases ex-situ.In the literature, French wh-phrases in-situ are said to be syntactically constrained to thefollowing contexts (Chang (1997), Boeckx (1999), (2000), Cheng & Rooryck (2000),Boskovic (2000), Mathieu (2002)): (i) they are restricted to root clauses; (ii) they cannot bemoved out of infinitival CP-complements; (iii) depending on the author, they can occur withmodals; (iv) they are blocked in negative islands; (v) they are trapped in scope islands (or atbest they take narrowest scope, see Mathieu (2002)); semantically , (vi) they must involveexistential presupposition. Conversely, Starke (2001), Baunaz (2005), (2011) and Adli (2006)observe that in informal spoken French, wh-phrases in-situ are productively used (i) inembedded clauses (8); (ii) with modals, (3)-(4); (iii) in neg-islands, (5); (iv) with Quantifiersof various types (6), (7). Note that speakers judged the sentences in (2)-(7) as degradedcompared to their fronted counterparts.(2) a. Tu crois que Pascal a invité qui/ quelle fille ?You believe that P. has invited whom/which girlb. Tu crois qu’il marche comment/où?You believe that he walks how/wherec. Marc a décidé de voir qui?Marc has decided C to see whom(3) a. Il peut rencontrer qui?He can meet who (Adli 2006: 16, (13))b. Il peut/doit aller où ?he can/must go where (Adli 2006 : 16, (14))are confirmation, or repetition-seeking questions ‘or “any question said in immediate response to an utterancewhich is surprising, deserving repetition, or which was in part not heard, or thought not to have been heardcorrectly,” “a request for repetition, or confirmation, or a showing of politeness, or concern, or an expression ofsurprise or disbelief, or the like,”’ (Boeckx (1999:76)). Echo wh-phrases involve specificity (see Starke 2001)and heavy stress (Mathieu 2002) or a ‘high + rising echo intonation’ (Boeckx (1999: 76), see also Mathieu(2002)).94


<strong>Actes</strong> d’IDP 09(4) Pascal peut/doit appeler qui/quelle fille?Pascal can/must call who/which girl(5) Pascal n’a pas rencontré qui/quelle fille ?He NE has not met whom / which girl(6) a. Plusieurs personnes ont reconnu qui?Several persons have recognized who (Adli 2006:16, (15))b. Plusieurs chênes ont été coupés où/quand ?Several oaks have been cut where/when (Adli 2006:16, (16))(7)?T’achètes toujours quoi en arrivant?You buy always what arriving‘What do you always buy when you arrive?’Baunaz (2005), (2011) argues that while (2)-(7) are acceptable for most speakers consulted,the acceptable status of these constructions depend on i) which discursive contexts theyappear in, ii) the type of existential presupposition they carry and iii) the intonation theyreceive. The author shows that lexical forms like qui ‘who’ are potentially ambiguousbetween (at least) three interpretations: specific, partitive and non-presuppositional and thatintonation help disambiguating between them. Our present study aims at checking theseclaims, from the prosodic side: it shows that prosody plays an important role indisambiguating specific from non-specific noun phrases. 2 Section 3 is devoted to thepresentation of these notions.3. French wh-phrases: interpretationThere is a long-standing tradition among linguists that distinguishes between French whphrasesin-situ and French wh-phrases ex-situ in terms of existential presupposition. Chang(1997), Boeckx (1999), Cheng and Rooryck (2000) (a.o) argue that wh-phrases in-situ mustbe associated with a ‘strongly presupposed context’. Wh-phrases ex-situ can also appear insuch a context, yet they can optionally appear in out-of-the-blue contexts, i.e., contexts whichdo not trigger any existential presupposition. The test of Negation aims as a diagnosis todiscriminate presuppositional vs. non-presuppositional contexts. In presuppositional contexts,rien ‘nothing’ is not a possible answer to a presuppositional wh-phrase, (8)-(9), (Boeckx(1999)). Conversely it is possible to answer with a negative word to a non-presuppositionalwh-phrase (10): 3(8) A: Jean a acheté quoi ?John has bought what‘What has Jean bought?’B: Un livre / une voiture / # rien (Boeckx (1999a :69, (3)))Un livre / a car / nothing2 Baunaz (2005), (2010) argue that these distinctions are syntactically grounded. The reader is referred to herwork for further details.3 ‘#’ marks that the answer goes against A’s presuppositions.95


Proceedings of IDP 09(9) A: C’est quoi que Jean a acheté ?it is what that J. has bought‘What has Jean bought?’B: Un livre /une voiture/ # rien…Un livre / a car / nothing(10) A: Qu’ a acheté Jean ?WH.cl has bought Jean‘What has Jean bought?’B : Un livre /une voiture/ rien… (Boeckx (1999 : 69, (2)))Un livre / a car / nothingWh-phrases in-situ behave like wh-clefts: they cannot be used out-of-the blue and a strongcontext where possible referents for the answer must be presupposed. Based on a more finegrainedsemantic distinction among noun phrases, Baunaz (2011) show that the observationsmade above about the semantics of wh-phrases in-situ in French needs to be refined.Because they can appear under negation in spoken French, Starke (2001) distinguishesbetween two types of wh-phrases in-situ which carry existential presupposition (wherepresupposed means already introduced in the discourse). Presupposed nouns phrases can beinterpreted depending on two discursive contexts: range and specificity. Following Baunaz(2011), we call range noun phrases partitive noun phrases. Both specific and partitive whphrasesrequire contextually specified domains (as opposed to out-of-the blue contexts).These notions are defined as follows. As will become clear, partitivity and specificity willalso be defined relative to the type of answer possible.A partitive wh-phrase is an object that has been previously mentioned together with otherobjects (i.e., there is a set of available alternatives), each of which is a possible referent of theanswer to the wh-phrase. In (11), Eva has no clue about what her colleagues will decide tohave for dinner. Her colleague will have to decide among the three possible menus on the list.Eva’s question asks for the identification of a member from the set of available alternatives.(11) Eva organizes a Christmas party in the department. She suggests three menus:vegetarian, turkey, and salmon. She asks one of her colleagues.Eva: et toi, tu préfères quoi dans la liste?and you, you prefer what in the list?In the partitive context in (11), no presupposition that there is a particular antecedent availablein the discourse (such that Eva’s colleague believes that this referent is the right one) isavailable. As such, the answer can potentially be any of the pre-defined members of the list,i.e., it can be a disjunctive. Note that it cannot be rien ‘nothing’, since it would go against thepresupposition that there is an antecedent to quoi, in (11).Conversely, a specific wh-phrase doesn’t entail set relations. Specificity is triggered whenthere is a familiar individual that the interlocutor has in mind as referent (antecedent) for thewh-word. A constituent question involving specificity asks for the identity of that entity: adisjunctive answer is then not possible, (12) (adapted from Adli (2006)):96


<strong>Actes</strong> d’IDP 09(12) During a trial, witnesses and defendants are confronted. One of the defendants hasbeen accused by all the witnesses. The journalist asks:J : et les témoins ont reconnu qui dans le box des accusés ?and the witnesses have recognized whom in the box of the defendants‘and whom did the witnesses recognize in the defendants’ box ?’In (12), the journalist asks for the identification of a familiar individual, i.e., which is theperson that all the witnesses recognized. The (only) felicitous answer can be the specificantecedent that all the witnesses recognized, i.e., it is non-disjunctive. As such, a negativestatement (or phrase) couldn’t answer the journalist’s question, since it would go against thepresupposition that there is a specific antecedent for the wh-phrase.A third type of wh-phrase that has been reported impossible in-situ (Boeckx (1999), a.o):non-presuppositional wh-phrases in-situ. We argue that this is incorrect and we claim thatnon-presuppositional (i.e., neither specific, nor partitive) wh-phrases typically appear out-oftheblue, as in (13):(13) Fred and Hélène are good friends, and they chat on the phone about the last gossipsaround. After a while, Fred changes topics and asks :Fred : tu vois qui vendredi soir ?You see who Friday night‘Who do you meet next Friday night’Using the test of Negation as a diagnosis for presupposition (see above), we claim that notall wh-phrases in-situ must involve a strong context where possible referents for the answermust be presupposed: wh-phrases in-situ do not necessary involve existential presupposition,(14), as opposed to partitive and specific wh-phrases, (15)-(16):(14) A. t’as invité qui ? (Out-of-the-blue)you have invited who ?‘who did you invite ?’B : Personne / MarieNothing / Marie(15) A: Fred a invité qui (de la liste)? (partitive)Fred has invited who (from the list)‘Who has Fred invited?’B: Marie /une fille/* personne…Marie / a girl / nobody(16) A: Fred a invité qui ? (specific)Fred has invited who‘Who has Fred invited?’B: Marie /une fille/* personne…Marie / a girl / nobody97


Proceedings of IDP 09On the basis of (14), we claim that some questions with wh-phrases in-situ can be answeredby rien. These questions do not commit to the existence of any referent for the wh-phrase. Assuch, the positive polarity item quelqu’un ‘someone’ would be a perfect answer to thequestion in (14), as it does not trigger any commitment of existence. Indeed, the speaker doesnot know whether Fred invited anybody in (14). 4 The variety of possible answers suggeststhat non-presuppositional wh-phrases in-situ involve alternatives, but not within a finite set(as partitive do), but outside of it.To sum up, a lexical form like qui, is then (potentially) three-way ambiguous: it can benon-presuppositional, or presuppositional, involving either partitivity or specificity. Thedomain of non-presuppositional wh-phrases is non-finite. As such, it opens up on anindefinite set of alternatives. No familiar individual is ever identified. Conversely partitivewh-phrases involve a closed, presupposed set of alternatives. One of the alternatives will bechosen as the antecedent for the wh-phrase, yet, it is not presupposed. Finally, the domain of aspecific wh-phrase is finite, but doesn’t involve sets of alternatives. It narrows down to afamiliar individual the interlocutor has in mind as referent.Up to this point, we have focalized on the relationships between the distribution of whwordsand their interpretation. In the next section, we show that prosody plays a crucial rolein the interpretation of wh-words. Before turning to our study, we would like to presentBaunaz’s works, on which our experiment heavily relies.Baunaz (2005), (2011) aim at understanding whether or not interpretation is reflectedwithin the syntactic component. She shows that the syntactic behaviors of French wh-phrasesin-situ depends on the presupposition (or its absence) triggered. In addition, she observes thatprosodic correlates can be associated with these different interpretations. As such,scope/lexical ambiguities are only apparent: they depend on the utterance context and theycan be (partially) resolved via prosodic cues. Under this approach, yet, intonation is taken as(perceptive) diagnostics discriminating specificity from partitivity and non-presupposition. Atthis point, the issue that arises is that of the role played by prosody in this system.In order to check i) if a particular prosody is associated with the three wh-phrasesidentified above, and ii) if prosodic parameters vary depending on the position of the whphrase(‘in-situ’ / ‘ex-situ’) (both have the same pragmatic restrictions cf. Baunaz (2011)), webuilt an experiment. The aim was to check whether the different contours identified byBaunaz (2005) existed, and if they do, to evaluate whether they correspond to each of therelevant constructions.In section 4, we show that the semantic distinction proposed in this article, namelybetween two types of existential presuppositions with wh-words in-situ, must be maintained,and prosody supports this claim. Indeed wh-phrases in- and ex-situ can get an accent when thecarry a specific presupposition. This accent is found neither with partitive wh-phrases in- andex-situ, nor with non-presuppositional wh-phrase in either position.4. French wh-phrases: prosody4.1. The experimentThe experiment took place on December 16, 2008 at the Institut de Linguistique et dePhonetique Générales et Appliquées (Université Paris 3), in Paris. Seven speakers were4 We owe Andreas Haida (p.c) for this argument.98


<strong>Actes</strong> d’IDP 09recorded, and six were retained 5 : two males and six females, the youngest being 23 years oldand the oldest 31 years old. All of them were graduate students in Linguistics at UniversitéParis 3. The participants were recorded in an anechoic chamber with a Marantz PMD670. Theaverage duration of the test was thirty minutes. 60% of the experiment consisted of distractors(experiments on non-restrictive relatives, verum focus, etc.), which will not be discussed here.As for the wh part of the experiment, the speakers were required to read interrogativesentences (e.g. 17b) in dialogues, such as (17), which were written on cardboards. Theexperimenters read the context outloud.(17) a. Tout le monde fait la queue à la cafétéria. Plusieurs plats sont proposés: steak,poulet, ragoût. Le cuisinier demande à Léa, qui hésite depuis trop longtemps àson goûtEverybody is in line at the cafeteria. Several dishes are suggested: steak, chicken,stew. The cook asks Léa, who is hesitating too much for his taste:b. Le cuisinier: bon! Quel plat vous choisissez, finalement?The cook: Well! Which dish are you choosing, after all?The speakers were divided in two different groups. Each group was associated with a set ofcards representing half of the sentences. Each set was repeated three times, in a semi-randomorder. The speakers were requested to use colloquial French, as ‘natural’ as possible;repetitions were allowed, and regularly requested, in case of mistakes or sputtering.The experiment consisted of 32 sentences, built upon 8 target sentences. The sentencesvaried depending on three parameters: (i) the polarity of the sentence (positive or negative);(ii) the place of the wh-word (in-situ or ex-situ); the form of the wh-word (qui ‘who’ vs. quelN ‘which N’).Example (18) provides an example of a target sentence varying depending on the place andform of the wh-word, giving four different sentences (18a-d).(18) Eva organise la fête de Noël du département. Elle propose trois menus : végétarien,dinde, et saumon. Elle interroge une de ses collègues :Eva organizes a Christmas party in the department. She suggests three menus:vegetarian, turkey, and salmon. She questions one of her colleagues.a. Eva: et toi, tu préfères quoi dans la liste?and you, you prefer what in the list?b. Eva : et toi, qu’est-ce que tu préfères dans la liste ?and you, what do you prefer in the list?c. Eva: et toi, tu préfères quel menu dans la liste?and you, you prefer which menu in the list?d. Eva : et toi, quel menu tu préfères dans la liste ?and you, which menu do you prefer in the list?Two distinct contexts, with two different sentences, were built for each category and split intotwo packs (29 and 31 sentences each), depending on the context (namely, context 1 wasassociated with the first group and context 2 with the second group). Thus, each pack roughly5 The seventh speaker was considerably younger than the other participants (thirteen years old), and had troublesperforming the test.99


Proceedings of IDP 09contained the same number and same type of contexts. Each target sentence was associatedwith partitive, specific and non-presuppositional contexts, to the extent the combinationgrammatical in the French (there is no combination of ‘non-presuppositional wh-phrase’ with‘neg islands’). 64.2. Main results4.2.1 Specificity vs. partitivityThe most important result of the experiment is that wh-words are frequently exponents of anaccent, in sentences involving positive polarity, when they involve specificity-basedpresupposition, while they are not when they involve partitivity-based presupposition. Moreprecisely, around 54% of specificity-based sentences are associated with an accent, but lessthan 10% of partitivity-based sentences are (cf. Figure 1). 7Figure 1: percentage of accent insertions in partitivity-based sentences and specificity-based sentences (positivepolarity)Most of the time, the accent is expressed by a high tone appearing on the wh-word. Such ahigh tone is associated with the wh-word quel ‘which’ in the second sentence (specificitybased)of Figure 2, while it is absent from the first sentence (partitivity-based).6 Extracting this type of wh-phrases is well-known to be impossible for both in-situ and ex-situ wh-words, crosslinguistically.See Ross (1967), Huang (1982) for Chinese, Watanabe (1992) for Japanese, Rizzi (1990) andStarke (2001) for French, among many others.7 In this paper, ‘accent’ has to be understood as ‘prosodic salience’.100


<strong>Actes</strong> d’IDP 09Figure 2: partitive reading: ‘vous choisissez quel plat, finalement?’ (which dish are you choosing, after all?),top example, vs. specific reading: ‘et t’as acheté quel CD, à la FNAC?’ (and which CD did you buy, at the FNAC(store)?), bottom example.However, there is an important amount of variability among speakers with respect to theinsertion of an accent on wh-words, explaining why only 54% of the specificity-basedsentences involve an accent. Figure 3 illustrates the results for three different speakers:speaker 1, speaker 4 and speaker 7. Note that there is an accent on 90% (all but one) ofspeaker 1’s specificity-based sentences (positive polarity), while there is an accent on only25% of the specificity-based sentences of speaker 4.Figure 3: accent realizations on wh-words, in partitivity-based and specificity-based sentences (positivepolarity) for three different speakersWe conclude from these preliminary results that the accent is an enhancement feature. Thevariation in the accentuation of the wh-word constitutes an interesting result since the whwordis claimed to be accented in many (Indo-European) languages. In Greek, for instance,the wh-word is the most prominent word of the utterance (Aravaniti & Ladd 2009). Hedberg& Sosa (2002) and Haan (2001) affirm that the wh-word always bears an accent, in Englishand in Dutch respectively.Chen (2006) and Lambrecht & Michaelis (1998), however, provide different results,arguing that this is true exclusively for the contexts when the remaining part of the question iscontextually given. Outside this context, the wh-word is usually unaccented in English,according to Lambrecht & Michaelis (1998), and 64% of the wh-words in Dutch are accented,according to Chen (2006).101


Proceedings of IDP 09The situation in French is less clear. Variation in pitch on the wh-word has been observedby Beyssade et al. (2007): the wh-word gets a phrasal high tone when the nuclear contour ofthe utterance is falling, and a phrasal low tone when the contour is rising.4.2.2. In-situ vs. ex-situA second important result of this preliminary study is that there is no difference with respectto the insertion of an accent depending on the in-situ or ex-situ position of the wh-word.These results were unexpected. They differ from those of Hamlaoui (in press), for whomthere is a distinction in French between in-situ wh-words, which carry the main stress of theutterance, and ex-situ wh-words. The results are summarized in Figure 4.Figure 4: overall results with respect to accent insertion on the wh-wordWhat is notable here is that this relative lack of distinction is observable for every speakerexcept speaker 2, who barely inserts an accent when the wh-word appears in an ex-situposition, (Figure 5).Figure 5: percentage of accent insertion on the wh-word depending on its position for each speakerThere is however a distinction between qui / quoi wh-words, on the one hand, and the quel(N) wh-words, on the other hand. In the former, there are less insertions of accents in ex-situpositions, because quoi ‘what’ is then realized as qu’est-ce que, a composition that involvesthe clitic qu’ with the set expression est-ce que. 8 In the latter, no such distinction is obvious.8 See Rooryck (1994) for details on interrogative constructions with est-ce que.102


<strong>Actes</strong> d’IDP 094.3. The 'accent'Figure 6: percentage of accent insertion on the wh-word according to the word categoryAs it has been said in section 4.2., the accent is most of the time realized as a high tone. Thehigh tone appears on the wh-word: qui, quoi or quel in the sentences involving a quel Nstructure (e.g. in the second sentence – the specificity-based one – of the Figure 7); etc. Forexample, in the second sentence of Figure 2, which involves a specificity-basedpresupposition, the wh-word is associated with a high tone, while this is not the case in thefirst sentence.One or several enhancement features sometimes accompany the high tone. Besides therising of the F0, the accent may be realized using:• the increasing of the intensity of the wh-word• the lengthening of the vowel of the wh-word (i.e. /ki/ ‘qui’![ki:])• the lengthening of the [k] (i.e. /ki/ ‘qui’ ![k:i])In Figure 7, for instance, the wh-word qui is by far more intense than the other words ofthe sentence. The vowel [i] is also lengthened.Figure 7: specific reading: ‘qui les témoins ont reconnu dans l’box des accusés?’ (whom did the witnessesrecognize in the box?)In Figure 8, the length of the [k] of the word quoi ([kwa]) ‘what’ is clearly lengthened: theconsonant is more than 0.151 second length.103


Proceedings of IDP 09Figure 8: specific reading: ‘et t’as acheté quoi, à la FNAC?’ (and what did you buy at the FNAC (store)?).Some speakers never use these enhancement features (e.g. speaker 5), while some use severalof them very frequently (e.g. speaker 1).4.4. Non-presuppositional readings and negative islandsTwo types of sentences lead to contradictory results: non-presuppositionnal-based sentences,on the one hand, and sentences involving a neg-island, on the other hand.An accent appears on the wh-word in 37,5% of the sentences that are associated with anon-presuppositionnal reading. However, a detailed study of the results reveals that thepresence of an accent strongly depends on the nature of the question (Figure 9).Figure 9: percentage of accents on the wh-word depending on the sentenceFigure 9 shows that an accent is frequently associated with wh-words of the sentences s23and s31, while this is not the case for other sentences such as s7 or s16; no accent was evenassociated with s32. How to explain these disparities? s23 and s31, along with the contextthey share, are presented in (22).104


<strong>Actes</strong> d’IDP 09(22) Céline passe l’après-midi chez Nathalie. Elle part faire une course rapide et lui ditqu’elle rentrera vite, mais elle ne revient que deux heures plus tard.Céline spends her afternoon at Nathalie’s place. She goes out to run a small errandand says she’ll come back soon, but she comes back two hours later.(s23) Nathalie : T’as fait quelle connerie pendant tout ce temps ?you – did – which – stupidity – all this time?(s31) Nathalie : Quelle connerie t’as fait(e) pendant tout ce temps ?which – stupidity – you – did – all this time?One can notice that the wh-word quel(le) ‘which’ is immediately followed by the wordconnerie ‘stupidity’ in s23 and s31. It seems that the insertion of an accent on the wh-word ofthese sentences relates to the vulgarity of the chosen noun. The two other sentences that werebuilt on the same target sentence but which involved the wh-words quoi ‘what (in-situ)’ andqu’est-ce que ‘what (ex-situ)’ – s7 and s15, respectively, rarely exhibit an accent on the whword.Results concerning the sentences involving a neg-island are also ambiguous. 30,5% ofthese sentences are associated with an accent, but this percentage covers a great diversity ofbehaviors. Speaker 1, for instance, almost always associates an accent with the wh-wordquell(les) ‘which’, but almost never with qui/quoi ‘who/what’. Speaker 5 and Speaker 7exhibit an opposite behavior. Speaker 4, however, never associates an accent with a wh-wordin a sentence that involves a neg-island. It is thus hard to make a good use of these results.Moreover, it has to be noted that some of the speakers questioned the acceptability of thegiven sentences.5. ConclusionIn this paper, we focused on the relationship between the prosody of wh-phrases in Frenchand their various interpretations. We have shown that speakers clearly discriminate betweenon the one hand specific and on the other hand partitive and non-presuppositional wh-words,regardless of their position (in-situ vs. ex-situ). In the former case, but not in the latter, anaccent is associated to the wh-word. This accent is realized as a high tone, possibly enhancedby other factors (such as increased intensity for instance). Yet no prosodic distinction betweenpartitive and non-presuppositional items has been identified. We conclude that wh prosody iscrucially sensitive to specificity. It is an argument to distinguish partitivity vs. specificitywithin existential presuppositions triggered by wh-words (Starke (2001), Baunaz (2010)).Apparent lexical ambiguities are context-dependent and can be (partially) resolved viaprosody.AcknowledgmentsFor useful comments and/or help, we would like to thanks Claire Beyssade, Elisabeth Delais-Roussarie, CécileFougeron, Jean-Philippe Goldman, Fabiola Henri, Tabea Ihsane, Jean-Marie Marandin, Katia Paykin, GenovevaPuskás, Rachid Ridouane, Selja Seppälä, Coralie Vincent and Hi-yon Yoo. Preminary versions of this paperwere presented at the Laboratoire de Linguistique Formelle (Paris 7), at the ILPGA (Paris 3), at the University ofGeneva (Switzerland), as well as at the conference on Minimalist Approaches to Syntactic Locality in Budapest(august 2009) and at the Interface Discourse - Prosody Conference '09 held in Paris. We warmly thank theseaudiences for their critical questions and comments. The research for this paper was supported by the SwissNational Founds (n° PBGEP1-123702 (Lena Baunaz)) and the ANR project PRO-GRAM (Cédric Patin).105


Proceedings of IDP 09ReferencesAdli, A. (2006). French wh-in-situ questions and syntactic optionality : Evidence from threedata types. Zeitschrift für Sprachwissenschaft 25, pp. 163-203.Aravaniti, A. & D. R. Ladd (2009). Greek wh-questions and the phonology of intonation.Phonology 26 , pp 43-74Baunaz, L. (2005). The syntax and semantics of wh in-situ and existentials: the case ofFrench. Leiden Working Papers in Linguistics 2.2, pp. 1-27.Baunaz, L. (2011). The Grammar of French Quantification. to be published in Studies inNatural Languages and Linguistic Theories, Springer.Baunaz, L. (2010). Between syntax, semantics and prosody: the case of wh in-situ in French.Ms. University of Geneva.Beyssade, C., E. Delais-Roussarie & J.-M. Marandin (2007). The prosody of interrogatives inFrench. Nouveaux cahiers de linguistique française 27, pp. 163-175.Boeckx, C. (1999). Decomposing French Questions. Ms, U.Penn.Boeckx, C. (2000). Decomposing French Questions. In University of Pennsylvania WorkingPapers in linguistics 6.1, Proceedings of the 23rd Annual Penn Linguistics Colloquium, edsJ. Alexander, N.R. Han & M. Minnick Fox, 69-80.Boeckx, C. (2003). French Wh-in-situ Interrogatives as (C)overt Clefts, Ms. HarvardUniversity.Boskovic, Z. (2000). Sometimes in SpecCP, sometimes in-situ. In Step by step: Essays onminimalism in honor of Howard Lasnik, eds. R. Martin, D. Michaels and J. Uriagereka, 53-87. Cambridge, Mass.: MIT Press.Chang, L. (1997). Wh-in situ in French. MA thesis, University of British Colombia.Chen, A. (2006). Interface between information structure and intonation in Dutch whquestions.In R. Hoffmann, & H. Mixdorff (Eds.), Speech Prosody 2006. Dresden: TUDPress.Cheng, L. et J. Rooryck. (2000). Licensing wh-in-situ. Syntax 3. 1, pp. 1-19Cinque, G. (1990). Types of A bar-dependencies. Cambridge, Massachusetts: MIT Press,Linguistic Inquiry Monograph.Haan, J. (2001). Speaking of questions. An exploration of Dutch question intonation. LOTdissertation series 52, LOT, Utrecht.Hamlaoui, Fatima (In press). On the role of phonology and discourse in Francilian Frenchwh-questions. Journal of Linguistics.Hedberg, N. & J.M. Sosa (2002). The Prosody of Questions in Natural Discourse.Proceedings of Speech Prosody 2002, pp. 375-378.Heim, I. (1982). The Semantics of Definite and Indefinite Noun Phrases, Ph.D. Diss., Umass.Huang, J. (1982). Move WH in a language without WH movement. The Linguistic Review 1:369-410.Mathieu, E. (2002). The Syntax of Non-Canonical Quantification: A Comparative Study.Doctoral Dissertation, UCL.Mathieu, E. (2004). The Mapping of Form and Interpretation: The Case of Optional Wh-Movement in French, Lingua, eds. M. Haverkort, H. de Hoop and M. van den Noort.Pesetsky, D. (1987). Wh-in-situ: Movement and unselective binding. In The representation of(in)definites, eds. Eric Reuland, and Alice ter Meulen. Cambridge, Mass: MIT Press.Rizzi, L. (1990). Relativized Minimality, Cambridge, MA: MIT PressRoss, John. R. (1967). Constraints on variables in Syntax. Ph.D. dissertation, MIT.106


<strong>Actes</strong> d’IDP 09Rooryck, Johan. (1994). On two types of underspecification: towards a feature theory sharedby syntax and phonology. Probus 6, 207-233.Starke, M. (2001). Move Dissolves into Merge: A Theory of Locality. Ph.D. dissertation,University of Geneva.Watanabe, Akira. (1992). Subjacency and S-structure movement of wh-in-situ. Journal ofEast Asian Linguistics 1:255-291.107


<strong>Actes</strong> d’IDP 09Prosodic Markings of Information Focus in FrenchClaire Beyssade, Barbara Hemforth, Jean-Marie Marandin & Cristel PortesClaire.Beyssade@ehess.fr; barbara.hemforth@univ-paris5.fr,marandin@linguist.jussieu.fr; cristel.portes@lpl-aix.fr*Institud J. Nicod : CNRS-ENS-EHESS ; **LPNC : CNRS et U. Paris René Descartes ;***LLF : CNRS et U. Paris-Diderot ; ****LPL : CNRS et U. ProvenceAbstract:This article addresses the controversial issue of the prosodic marking of Information Focus in French. We reportthe results of three experiments (one in production two in perception) that support three claims. The first one isempirical. Phrases that resolve a question may be set off by two types of intonational marks in French: they hostthe nuclear pitch accent (NPA) on their right edge and/or they are intonationally highlighted (IH). The secondone is analytical: NPA placement is sensitive to the informational/illocutionary partition of the content ofutterances, while intonational highlighting (IH) is sensitive to any type of distinguishedness: semantic orpragmatic. The third one is methodological: the “Question/Answer” pair provides a criterion to identify theInformation Focus (i.. e. the part of content specifically asserted and making up the update brought about by theutterance) only it the answer is congruent. Congruence of answers is impossible to control in experiments basedon question/answers pairs.1. IntroductionThere is presently no consensus about the phonology of Information Focus (IF) in French.Among others, Fery 2001 claims that the reflex of IF is prosodic and belongs to phrasing,while Di Cristo 1999 or Beyssade et al. 2004 claim that it is intonational and resorts tospecific pitch movements. Here, we report the results of three experiments that contributeevidence relevant to the choice between the competing descriptive or analytical claimscurrently debated.As a working hypothesis, we admit that the Question/Answer pair yields a criterion toidentify the IF in utterances: the IF is the part of the content of answers that resolves thequestion. We put such a definition to use in the design of several experiments whose resultsare presented here. At first glance, the phenomenology of the prosodic/intonational realizationof resolving XPs in answers is indeed varied. Accordingly, the question is whether IF givesrise to a systematic prosodic/intonational marking in French. We eventually give a positiveanswer and claim that the diversity results from the interplay of two distinct markingstrategies: the placement of the nuclear pitch accent in the utterance and the intonationalhighlighting of phrases. Moreover, those two strategies cue two distinct types ofsemantic/pragmatic statuses, which are currently lumped together in the notion of IF: beingspecifically asserted and being distinguished in the content conveyed in the assertion.The paper proceeds as follows. We briefly establish our terminology in section 2. Insection 3, we describe the corpus obtained via a production experiment and present ananalysis assuming the working hypothesis that resolving XPs are information foci. In section4, we report the results of two perceptual experiments designed to verify whether speakers109


Proceedings of IDP 09recognize the two distinct marking strategies observed in the production corpus and relatethem to the resolution of questions. In section 5, we present a more comprehensive analysis,which accounts for both intonational marking strategies.2. Descriptive framework2.1. Terminology for the question/answer pairLet's consider the two dialogues (1a) and (1b), involving discourse participants A and B. Wecall the question in (1a) a broad question and that in (1b) a partial question.(1) a. A: What happened? B [Jean invited Marie to the party yesterday night] Fb. A: Who did Jean invite? B: Jean invited [Marie] F to the party yesterday nightIn (1a), the resolving XP (R-XPs for short henceforth) is the whole sentence; in (1b), it is theObject NP. Under the assumption that IF is the part of content that resolves the question, theIF is contributed by the whole sentence in (1a), by the Object NP in (1b). Answer (1a) is anAll Focus answer and (1b) a Narrow Focus one (a. o. Lambrecht 1994, Vallduví & Engdahl1996).It must be kept in mind that the equation “R-XP = IF” is only valid in congruent answers;congruent answers are answers that strictly convey a value for the parameter introduced in thequestion (Krifka 2001, Kadmon 2001). Are thus excluded over- or under-informative answersof any types. This limitation will turn important for the comprehensive analysis of the data wepresent in section 5.It is usually assumed in the literature that resolving the question is an appropriate criterionfor IF, because it is a criterion for the newness of the content it contributes. The notion of new(vs. old) is notoriously vague. Here, we take it that “new” means the content the speakerproposes for updating the part of the Common Ground under discussion. Accordingly, new isclosely linked to the working of the assertion in declaratives: what is new is this part of thecontent that is specifically asserted by the Speaker.We strictly restrict ourselves to the Question/Answer pair here. We do not considerutterances conveying some sort of contrast be they corrections or denials (as e. g. in Jun &Fougeron 2000 or Dohen & Lowenbruck 2004). We assume that the intonational correlates ofcontrast are different from those of IF (Beyssade et al 2004, Selkirk 2009).2.2. Prosodic frameworkOur analysis is couched in the autosegmental-metrical framework (AMT). Two categoriesgrounded in the descriptions and modeling of French proposed by the Aix-en-Provenceschool (Di Cristo 1999, Rossi 1999) play a central role in this study. We briefly introducethem here; they will be illustrated in the next section.- Nuclear pitch accent (NPA). In keeping with Ladd 1996, Di Cristo introduces the notion ofnuclear accent in the autosegmental analysis of French: it is the most prominent accent in theutterance. It typically occurs as the last accent in the utterance. When XPs occur to the rightof the NPA, they are deaccented without being dephrased (Di Cristo & Jankowski 1999). 1 DiCristo relates the placement of the nuclear accent to the marking of the information structureof the utterance and shows that an early placement in the utterance does not necessarily1The deaccentuation is more accurately defined as the result of a more or less complete compression of thepitch range (Di Cristo, 1999 : 262).110


<strong>Actes</strong> d’IDP 09trigger a contrastive interpretation. Here, we assume that the intonational correlate of DiCristo’s nuclear accent is analyzable as a pitch accent in mainstream AMT. Hence the label:nuclear pitch accent (NPA). 2- Intonational highlighting (IH). The intonational highlighting corresponds to an intonationalsetting off of a phrase realized as a cluster of phenomena involving pitch contour and pitchrange (Di Cristo 1999, Rossi 1999). It involves an initial accentuation, (IA) which may forman “accentual arch” with the following rising accent, or triggers a high plateau up to thefollowing accent. The IA or the high plateau is generally implemented quite high in the pitchrange. 33. Marking of resolving XPsThe corpus of answers we analyze here has been elicited via a production experiment. Theycorrespond to the control utterances in a larger experiment devoted to theprosodic/intonational realization of the associate of the adverb seulement (only). (Beyssade etal. 2008).3.1. Experiment 1: set-upShort texts, involving a description of the context such as (2) and a question/answer pair suchas (3) were presented to the subjects. The contexts and the questions were presented visuallyas well as auditorily. There were two types of questions: partial questions (bearing on theObject) (3a) and broad questions (bearing on the whole sentence) (3b).The subjects’ task wasto read aloud answers as if they were actually participating in a dialogue.(2) Context [translated]: Richard is a policeman. He has to treat various documents (films,leaflets, K7s) seized in a terrorist cache.(3) a. Le responsable : Qu'as-tu visionné la nuit dernière ? What did you screen last night?Richard : J'ai visionné les vidéos la nuit dernière. I screened the videos last nightb. Le responsable : Où en es-tu dans ton enquête ? What’s up with your investigation?Richard : J'ai visionné les vidéos la nuit dernière. I screened the videos last nightWe recorded 112 answers from 14 participants from the University Paris Descartes: 10 ofthem were psychology students who received course credits for participation and four werepsychological staff. None of the participants had any training in linguistics. We only analyzed107 of the answers here: 5 answers were not taken into account in our quantitative analysesbecause of disfluencies or production errors.3.2. Results2A caveat here is in order: there is no consensus about the repertory of NPAs required to analyze Frenchintonation: Post 2000 has two (H*, H+H*), Beyssade et al. 2004 have four (L*, H*, HL*, H+L*). In particular,NPAs are part of contours whose analysis may involve the positing of edge tones. We will not commit ourselvesto a specific repertory here, as our study does not depend on a fine-grained analysis of those contours. Forexample, it does not depend on whether a Rise-Fall is analyzed as HL*, H*L- or H*L% as long as it involves theNPA. Notice that we assume the idea (stemming from Delattre 1969) that those nuclear contours are« contrastive », i. e. convey distinct pragmatic values.3The intonational highlighting roughly corresponds to the “focalisation d’emphase marquée bilatéralement”in Di Cristo (1999 : 266).111


Proceedings of IDP 09Results are graphically presented in Figures 1 (a,b).NPA on the right edgeof the objectNPA on the right edgeof the utteranceFigure 1a: Answers to partial questions. On the x axis, the position of the NPA; on the y axis,the percentage of answers for each NPA position; in red the percentage of non IH objects andin blue the percentage of IH objects.NPA on the right edgeof the objectNPA on the right edgeof the utteranceFigure 1b: Answers to broad questions. On the x axis, the position of the NPA; on the y axis,the percentage of answers for each NPA position; in red the percentage of non IH objects andin blue the percentage of IH objects.3.2.1. Answers to partial questionsThe Object noun phrases in answers to partial questions are distinguished in three differentways:(4) a. The Object hosts the NPA on its right edge and it is IH (intonationally highlighted)(Fig. 2);112


<strong>Actes</strong> d’IDP 09b. The Object hosts the NPA on its right edge without being IH (Fig. 3);c. The Object is IH, while the NPA occurs at the end of the utterance (Fig. 4).Pattern (4a) conjoins the placement of NPA and IH. It is the most frequent pattern with 49 %of all answers. NPA placement and IH appear separately in the two other patterns (4b, 4c).Pattern (4b) features the placement of the NPA on the Object with the correspondingdeaccenting of the PP to the right. It is the least attested pattern (11% of the whole answers).Pattern (4c) highlights the Object, while the NPA occurs at the end of the utterance. Crucially,the PP to the right of the Object is not deaccented. This pattern is well represented in thecorpus: 23,6 % of all answers. Finally, there are 16,4% of the answers in which the Object isnot distinguished: we come back to them in section 5 below.Figure 2. Answers with pattern 4a: IH Object (with a high implemented initial accent IA) andObject-final NPA.Figure 3. Answers with pattern 4b: Object-final NPA and no IH.113


Proceedings of IDP 09Figure 4. Answers with IH object (realization of an accentual arch IA-H*) and utterancefinalNPA.3.2.2. Answers to broad questions69,2% of the answers to broad questions show pattern (5):(5) NPA occurs at the right edge of the utterance (NPA is utterance final).Pattern (5) generally gives rise to a regular downstep of the accentual phrases following theinitial accentual phrase (figure 5). No constituent is highlighted: no high implemented initialaccent occurs. This pattern corresponds to 50% of all answers to broad questions.The remaining answers feature one of the patterns described in (4) for answers to a partialquestion. 30,8% (i.e. 17,3 + 13,5) of all answers show the NPA on the right edge of theObject, which corresponds to patterns (4a = with IH) and (4b = without IH). Moreover, 19,2%of the answers that show the NPA on the right edge of the utterance feature a highlightedObject, which corresponds to pattern (4c). We come back to those two cases in section 5below.Figure 5. Answers with Utterance-final NPA and downstep of the second and third accentualphrases. Downstep is modeled as a reference base line defined by the H targets (dashed linein bold) as proposed by van den Berg et al. (1992).114


<strong>Actes</strong> d’IDP 093.3. AnalysisWe first analyze the patterns we observe in the data assuming the working hypothesis that X-RPs are IFs and the intonational approach to IF marking as defined in (6).(6) XPs contributing the IF host the NPA on their right edge.Claim (6) is proposed by Di Cristo (1999) or Beyssade et al. (2004). According to Di Cristo,the right edge of XPs contributing the IF (focal XP for short) provide the site for anchoringthe nuclear accent. The nuclear accent is a Low tone in declarative sentences. 4 Beyssade et altake up Di Cristo’s claim and generalize it: on the basis of corpus observation, they claim thatthe right edge of focal XPs may anchor the whole repertory of nuclear pitch accents inFrench. In their framework, it may host L*, H*, HL* and H+L*. In both approaches, IFmarking is identical for narrow and broad IF: in the former case, IF is contributed by a phrasewhile it is contributed by the whole sentence in the latter. Moreover, Di Cristo and Beyssadeet al. also observe that initial accentuation (IA) may occur on the first left syllable(s) of thephrase conveying narrow IF. Di Cristo proposes that IA marks the left edge of the narrowfocal XP: he speaks of bilateral marking of Focus. As for Beyssade et al., they speculate thatIA can be related to contrastive focus (following Rossi 1999).Claim (6) is corroborated in the majority of the cases:– 60% of the answers to a partial question show the NPA at the right edge of the Object;– 69,2 % of the answers to a broad question show the NPA at the right edge of the utterance.Moreover, it can be observed that several types of NPA contours occur at those edges,which corroborates Beyssade et al.’s generalization. Three types of nuclear pitch movementare attested in the corpus:- falls (corresponding to Di Cristo’s B or Beyssade et al.’s L*) (Fig. 2, 3 and 4) above;- falls from the penultimate, which corresponds to Post’s H+H* or Beyssade et al.’s H+L*:the pitch pick occurs on the penultimate syllable and the following valley on the last syllable.It is illustrated for narrow IF in Figure 6.Figure 6. Narrow focus answer with a fall from the penultimate (FfP) occurring at the rightedge of the focused Object “bain de boue”. Note that an initial accent occurs on “bain”immediately followed by the initial pick of the fall on the penultimate syllable “de” whichcontains a schwa.4In Di Cristo’s system, the Low tone is labelled B and called a conclusive morpheme.115


Proceedings of IDP 09– rise-falls for which the pitch peak and the following valley occur on the last syllable. It isillustrated for narrow IF in Figure 7.Figure 7. Narrow focus answer with a rise- fall (RF) occurring at the right edge of thefocused Object NP “la valise”.Nevertheless, two facts do not fit the picture predicted by (6) and call for another analysis.(7) The high frequency of Intonational Highlighting on the Objects.72,6% (i.e. 49 + 23,6) of the answers to a partial question show a highlighted object. Amongthem, 23,6% – presenting pattern (4c)– show only highlighting of the Object, while the NPAis docked at the right edge of the sentence.(8) The high number of answers that do not abide by (6).This is the case for 40% of the answers to a partial question, and 30,8% of the answers to abroad question.We take (7) first and propose the hypothesis in (9) to account for the use of IH in answers:(9) The XP resolving a narrow question may be marked either by NPA placement or by IH.We devote the next section to the corroboration of (9) and we come back to (8) in section 5where we present a more comprehensive analysis of IF marking.4. Intonational highlightingWe ran two perception experiments in order to check hypothesis (9). In Experiment II, we aretesting whether IH alone can be recognized as a way of marking the XP resolving a question.In Experiment III we asked whether IH is linked to the expression of Contrast (as suggestedby Rossi 1999 and taken up by Beyssade et al. 2004).116


<strong>Actes</strong> d’IDP 094.1. Experiment IISet-up. We selected 20 answers from the preceding corpus: 10 realizations with NPA at theend of the sentence and no IH that are supposed to be identified as all focus answers, 10 withmarking of the Object (5 with NPA and 5 with IH only) which, conversely, are predicted to beidentified as narrow focus answers. The sentences were presented in two blocks. The firstblock is composed of 5 answers with final NPA (hypothesized all focus) and 5 sentences withfinal NPA and IH on the object NP (hypothesized narrow focus). The second block iscomposed of 5 answers with final NPA (expected all focus) and 5 answers with NPA on theobject NP (expected narrow focus). The 10 sentences composing each block were presentedin random order. The subjects had to listen to the selected items and to judge to which of twovisually presented questions the current sentence had been produced as an answer (10). Theexperiment involved 24 subjects, native speakers of French, first year undergrad students inHumanities at U. Paris Diderot.(10) Questions:1. Pour finir, qu’est-ce que tu as élargi ? Finally, what have you let out?2. Pour finir, tu t’en es sorti comment ? Finally, how did you get by?Answer: J’ai élargi le gilet avec du velours noir.I let out the vest with black velvetResults. Figure 8 shows how often participants chose partial questions as relevant for theheard answer. Participants clearly distinguished between answers with Final NPA andanswers with highlighted Objects (IH on NP) in block 1, as well as between answers withnuclear pitch accent at the end (Final NPA) and answers with nuclear pitch accent at the rightedge of NP (NPA on NP) in block 2. They chose the partial question reliably more often foranswers with IH on NP than for answers with final NPA (69 % vs. 40 %; F 1,24 =19.54; p


Proceedings of IDP 09Conclusion. Utterances with NPA on the Object or with IH Object are similarly recognizedas answers to partial questions bearing on the Object.4.2. Experiment IIIThe presence of IH in our production data concerns 72,6% of all responses to partialquestions. Looking for an explanation, we linked this massive occurrence to the systematicpresence of a set of alternatives in the eliciting contexts (see for example “films, leaflets, K7”in (2) above) 5 . We thus designed a second perception experiment in order to test thehypothesis that IH is related to the expression of Contrast as formulated by Rossi (1999). Wedefine the notion of contrast as a membership relation in a set of alternatives activated in theimmediate context (Chafe 1974).Setup. The only difference between Experiments II and III is that we added a sentencepresenting a set of alternatives in the description of the context before the presentation of thequestion. Otherwise the procedure was identical. For example, context (11) in which thephrase “le gilet et la veste” (in bold) corresponds to a set of two possible choices has beenadded to (10). The experiment involved 17 subjects, native speakers of French, first yearundergrad students in Humanities at U. Paris Diderot, who did not participate in ExperimentII.(11) Pierre ne rentre plus dans son costume : le gilet et la veste sont trop serrés. Comme ilest tailleur, il va faire les retouches. His suit does not fit Pierre any longer: the vest and thejacket are too tight. As he is a tailor, he will alter them.Results: Figure 9 shows the percentage of partial questions chosen by participants to beconsistent with the heard answer. The pattern is nearly identical to that of Experiment II. The17 subjects chose the partial question reliably more often for answers with IH on NP (67 %)than for answers with final NPA (67 % vs. 40 %; F 1, 17 = 8.86, p < 0.01). They also chose thepartial question reliably more often for answers with NPA on NP than for answers with finalNPA (58 % vs. 28%, F 1,17 = 5.12, p < 0.04). No reliable difference between answers with IHon NP and those with NPA on NP could be established.FinalNPAFinalNPA+ PHFinalNPANPAOnNP5This is due to the fact that our data come from an experiment originally designed to address the issue of“focus sensitive particles” where they appear as control material.118


<strong>Actes</strong> d’IDP 09Figure 9. Results of Experiment III. On the x axis, the prosodic realization of the answersheard by participants, on the y axis, the percentage of partial question (vs. broad question)associated with each prosodic scheme.Conclusion. The presence of alternatives in the immediate context does not influence thechoice of marks of the R-XPs.4.3. Conclusion of perception experimentsBoth experiments show that speakers recognize the highlighting of the Object as a cue to itsdistinguished status. Accordingly, we conclude that hypothesis (9) is corroborated. Comingback to the intonational description of the corpus (summarized in figures 1a and 1b above),we observe:- that 83,6 % of the answers to a partial question intonationally show a distinguished R-XPseither by NPA placement or by IH.- that 50% of the answers to a broad question intonationally distinguish the Object, which isunexpected and has to be explained.5. AnalysisIn this section, we propose a unified analysis for NPA placement and IH. Its core content isthat NPA placement and IH do not cue the same phenomenon: NPA placement is sensitive tothe illocutionary import of the content of the utterance, while IH is a polyvalent means to giveintonational distinctness to the content of a phrase.5.1. Background: congruent vs. non congruent answersIn section 2.2, we took up the accepted distinction between congruent vs. non-congruentanswers. The equation between IF and R–XP holds only in congruent answers. But, we knowthat in naturally occurring contexts, dialogue participants quite often answer in a noncongruentway: they contribute under or over-informative answers. (Krifka, 2001) This iseasily explained by reasons of cooperation or default of cooperation. There is a whole gamutof cases. For example, it is very common that speakers offer over-informative answersanticipating the reason for questioning of the questioner. This is the case with overinformativeanswers in (12) and (13) below: in (12), the speaker doesn't produce a directanswer to the polar question “Est-ce que Bernadette t'a contacté?”, but she produces ananswer to the partial question “Qui t’a contacté?”, and this answer implies that the answer tothe polar question is positive. In (13), the answer resolves the question and contributes a moreprecise information about the issue raised by the question.(12) A.: Est-ce que quelqu’un t’a contacté? Did someone contact you ?B.: Bernadette.Bernadette did.(13) A.: Qui t’a contacté? Who contacted you ?B.: Bernadette m’a envoyé un mail. Bernadette sent me an email.A case of under-informative reply is given in (14): the answer does not resolve the question,while it contributes relevant information about the question.(14) A.: Qui t’a contacté? Who contacted you ?B.: Il n’y a pas eu d’appel There was no call.119


Proceedings of IDP 09To recapitulate, discourse participants –when they answer– do not simply resolve the questionof the interlocutor; they have their own agenda and the answers they offer are a trade-offbetween what is required by the interlocutor’s question, what they think is required and whichinformation they are able/willing to give. In experiments in the lab, one does not control thataspect of the answers all that well, nor do we necessarily do so in natural dialogues.Accordingly, we do expect that not all answers we have elicited are congruent answers.5.2. ProposalPhrases that resolve a question (be they a constituent in a clause or the entire sentence) have adouble status:- a semantic status: they resolve the question,- a pragmatic status: they contribute the new content, viz. that part of content that makes upthe update brought forth by the assertion.It is currently assumed that those two statuses are interdependent and coincide. Theycertainly do in congruent answers. Now, part of the working of non-congruent answers can beexplained by the fact that both statuses are dissociated. For example, in (13), Bernadetteresolves the question while the whole answer contributes the update brought over by theanswer. If the statuses can be distinguished, their cueing can be too. Hence, we propose that:(15) NPA placement cues the part of the content that makes up the content of the updatebrought by the answer.(16) [Provisory] IH cues the constituent that resolves the question.The proposal in (15) is just a reformulation in dialogical terms of Jacobs’ 1984 definition offree focus (see also Beyssade et al. 2004). In terms of the contrast ‘new vs. old’ relativized tothe working of the assertion, only the NPA placement is sensitive to the newness of thecontent.We are now in a position to account for the distribution of the patterns we observe in thecorpus including the answers that at first blush do not abide by (6) or (9).5.3. Analysis of answers to a narrow questionAssuming (15) and (16), the analysis of patterns (4) can be made explicit for the answers to apartial question:- Pattern (4a) conjoins both the semantic and pragmatic markings,- Pattern (4b) only marks the pragmatic update.Accordingly, the intonation of answers in pattern (4a) and (4b) fits the working of the QApair: they are intonationally congruent.- Pattern (4c) disjoints the statuses: the semantic relation is marked while the whole content ispresented as making up the update of the answer. Accordingly, the intonation of answers inpattern (4c) is partly non-congruent.Now, we turn to the 16,9% of the answers that we left aside in section 3: they show no IHand the NPA occurs at the end of the sentence. As such, the intonation does not cue thesemantic relation holding with the question and they are realized like All Focus answers.120


<strong>Actes</strong> d’IDP 09They make up a clear case of intonational non-congruence. It certainly explains why they areso few in the corpus. 65.4. Analysis of answers to a broad questionAt first blush, the analysis of answers to a broad question should be simpler, since only theplacement of NPA is relevant: we expect NPA at the end of the sentence, which correspondsto pattern (5). And indeed, 69,2% of them in the corpus show pattern (5).We left aside 30,8 % of the answers in section 3. They show NPA at the right edge of theObject, which indeed corresponds to patterns (4a) or (4b) we observed for answers to anarrow question. In other words, those answers are intonationally realized as answers to anarrow question. As such, they make up a case of intonational non-congruence. Their numberin the corpus is relatively high. We may speculate that it is in keeping with a tendencyobserved in naturally occurring contexts: speakers tend to offer answers which are morearticulate than those that are required by polar or broad questions. Such a speculation has tobe consolidated by experimental evidence.5.5. Re-analysis of IHNow, we observe that 19,2 % of the answers to a broad question show a highlighted Objectwhile the NPA is at the right edge of the sentence, which corresponds to pattern (4c).According to (16), we should analyze them as resolving a question. Assuming a hierarchicalmodel of dialogue à la Büring 2003 or Roberts 1996, we could posit a covert intermediaryquestion as we did in the informal analysis of (13). But, this is not the intuition triggered bythose answers. In fact, the intuition is that IH in those answers may have a presentationalflavor: a marker of empathy with an element of the content (Kuno 2004) or a centeringmarker for the discourse topic to come. 7 To capture such an intuition, we generalize (16) into(17):(17) IH sets off a constituent that is distinguished at the semantic or pragmatic level.Claim (17) means that IH is a polyvalent marker that can be put to use for any sort ofdistinction. Resolving a question is just one among other distinguished statuses of phrases.Beyssade et al. 2008 observed that IH is also used to set off the associate of the restrictiveadverb seulement (‘only’). The results of experiment III prevents one to analyze IH as amarker of Contrast (i. e. membership in an activated set of alternatives): IH is certainlycompatible with Contrast, but not a marker of it.6. ConclusionPlacement of NPA in the utterance (with the correlative de-accentuation to the right) andIntonational Highlighting are two ways of setting off a phrase in French. Both are used inanswers, but with different roles. NPA placement marks the part of content that is specificallyasserted, which counts for the new content with respect to the working of assertion. In that6 Moreover, sometimes participants’ attention may falter in a long experiment. Between 5 and 15 % of errors caneasily be expected for complex settings like that of experiment I.7 This is roughly equivalent to the clefting of a phrase in presentational cleft sentences, as in (ii) and (iii) below :A. : Qu’est-ce que c’est que ce bruit ? Why that noise ?B. : i.Marie tousse Mary coughsii. J’ai Marie qui tousseiii. C’est Marie qui tousse121


Proceedings of IDP 09respect, placement of NPA is the primary way of marking what is new in answers, and moregenerally in assertions. On the other hand, IH sets off a phrase for any semantic or pragmaticreason. It may be used to mark a phrase that resolves the question –thus cueing the semanticrelation between questions and answers–, but also a phrase endowed with any other discourserole, in particular a role in the generation of the discourse topic.The analysis of the results of Experiment I rests on the assumption that subjects in the labbehave as Speakers in everyday situation do: they do not always answer in a congruent way.The lack of control on the way subjects answer during an experiment turned out to be anadvantage in the heuristic phase of our research we report here: it gave rise to non-congruentanswers that show the dissociation of both marking strategies and their different motivation.7. ReferencesBerg, R. van den, C. Gussenhoven & A. Rietveld (1992). Downstep in Dutch: Implications for a model, GerardJ. Docherty & D. Robert Ladd (eds) Papers in Laboratory Phonology II: Gesture, Segment, Prosody.Cambridge: Cambridge University Press. 335-359.Beyssade, C., E. Delais-Roussarie, J. Doetjes Jenny, J.-M. Marandin & A. Rialland (2004). Prosody andInformation in French. Corblin, F. & H. de Swart (eds.), Handbook of French Semantics. CSLI, pp. 477-499.Beyssade, C., B. Hemforth, J.-M. Marandin & C. Portes (2008). The prosody of restrictive seulement in French.Third TIE Conference on Tone and Intonation. Barcelone, pp. 15-17 September 2008.Büring, D. (2003). On D-trees, beans, and B-accents. Linguistics & Philosophy 26:5, pp. 511-545.Chafe, W. (1974). Language and consciousness, Language 50-1, pp. 111-133.Delattre, P. (1969). L’intonation par les oppositions, Le français dans le monde 64, pp. 6-12.Di Cristo, A. (1999). Le cadre accentuel du français contemporain, Langues 3(2), pp.184-205, Langues 4(2), pp.258-267.Di Cristo, A. & L. Jankowski (1999). Prosodic organisation and phrasing after focus in French, Proceedings ofXIVth ICPhS, San Francisco: USA, pp. 1565-1568.Dohen, M. & H. Loevenbruck (2004). Pre-focal Rephrasing, Focal Enhancement and Post-focal Deaccentuationin French. Proceedings of the 8th International Conference on Spoken Language Processing (ICSLP), pp.1313-1316, http://www.isca-speech.org/archive/interspeech_2004.Féry, C. (2001). Focus and phrasing in French. Féry, C. & W. Sternefeld (eds.), Audiatur Vox Sapientiae. AFestschrift for Arnim von Stechow. Berlin Akademie-Verlag, pp. 153-181.Jacobs J. (1984). Funktionale Satzperspektive und Illokutionsemantik. Linguistische Berichte 91, pp. 25-58.Jun, S.-A. & C. Fougeron (2000). A phonological model of French intonation. Botinis, A. (ed.) Intonation:Analysis, modeling and technology. Dordrecht, Kluwer, pp. 209-242.Kadmon, N. (2001). Formal Pragmatics: Semantics, Pragmatics, Presupposition, and Focus, Blackwell.Krifka, M. (2001). For a structured meaning account of questions and answers. Fery, C. & W. Sternefeld (eds.),Audiatur Vox Sapientia. A Festschrift for Arnim von Stechow. Berlin, Akademie Verlag, pp. 287-319.Kuno, S. (2004). Empathy and Direct Discourse Perspective. Horn L. & G. Ward, (eds) The handbook ofpragmatics, Blackwell.Ladd, D. R. (1996). Intonational phonology. Cambridge University Press, Cambridge.Lambrecht, K. (1994). Information structure and sentence form: topic, focus and the mental representations ofdiscourse referents, Cambridge University Press, Cambridge.Post, B. (2000). Tonal and phrasal structures in French intonation, Holland Academic Graphics.Roberts, C. (1996). Information structure in discourse: towards an integrated formal theory of pragmatics. YvonJ. H. & A. Kathol (eds.). OSU Working Papers in Linguistics 49.Rossi, M. (1999). L'intonation: le système du français. Ophrys, Paris.Selkirk, L. (2009). A New Paradigm for Studying the Prosodic Distinction between Contrastive Focus andDiscourse-New. Presentation at IDP 09. this volume.Vallduví, E. & E. Engdahl (1996). The linguistic realization of information packaging. Linguistics 34: 3, pp.459-519.Vallduví, E. & M. Vilkuna (1998). On rheme and kontrast. Culicover, P. & L. McNally (eds.), The limits ofsyntax, Academic Press, New-York, pp. 79-10.122


<strong>Actes</strong> d’IDP 09« Un plaisir coupable... mais un plaisir »(Étude prosodique de la rhétorique de plaidoiries et de réquisitoires)Georges Boulakia*, In-Young Kim**, Catherine Mathon***georges.boulakia@linguist.jussieu.fr, ikim@linguist.jussieu.fr,catherine.mathon@u-bordeaux3.fr*, **EA333 ARP, Université Paris Diderot, UFRL case 7003, 30 rue du Château des rentiers,75205 Paris CEDEX 13*** EA4195 TELEM (TELANCO), UFR Lettres, Université Michel de Montaigne Bordeaux3, 33607 Pessac CedexAbstract :We demonstrate the important role of prosody used in rhetoric development during courtroom discourse. Ourstudy is based on real-life examples of prosecution and defence speech taken from a documentary film aboutFrench courts. In addition to the well-known syntactic, semantic and attitudinal functions of intonation, weattempt to show how prosody is linked to the argumentative strategy used by the speaker in order to persuade theaudience with both a global discourse and particular utterances on internal levels.IntroductionLe discours judiciaire est l’un des trois grands genres rhétoriques définis par Aristote. L’idéeselon laquelle la parole n’est pas uniquement un moyen de transmission d’un message, maisbien plutôt un moyen mis en œuvre par le locuteur pour modifier son environnement estfondatrice de la rhétorique. Ainsi dans la conception aristotélicienne, le discours rhétoriqueest un acte. En tant que tel, il a un but (une intention communicative), un pré-requis, uneréalisation et un effet. Aristote distingue les genres rhétoriques selon le récepteur du discours,l’intention communicative et l’effet produit. Par ailleurs, il considère qu’à chaque genrerhétorique correspond une série de techniques langagières adaptées à la visée communicativedu discours.De manière plus générale, la rhétorique est l’art de persuader par la parole. Cet art de lapersuasion s’appuie sur trois principes. Le discours rhétorique est tout d’abord un discoursrationnel (logos) : il s’agit de convaincre l’auditoire par la logique de l’argument. Le discoursrhétorique comprend également une dimension émotionnelle (le pathos) : il s’agit de séduirel’auditoire, la raison seule ne suffisant pas. Enfin, selon la tradition antique, le discoursrhétorique repose sur un troisième principe, l’ethos, c’est-à-dire sur la représentation quel’orateur donne de lui-même.Le discours judiciaire en tant que genre rhétorique s’appuie sur ces principes et les réutilise,dans sa pratique. Le discours judiciaire s’adresse au juge, il cherche pour le bien del’accusation ou de la défense à persuader, convaincre cet auditoire-juge. En tant que discoursrationnel, le discours judiciaire est structuré selon un schéma en quatre parties : l’exorde, lanarration, l’argumentation et enfin la péroraison (Reboul, 1991). En tant que discoursrhétorique, le discours judiciaire peut intégrer à la logique de sa structure une dimensionémotionnelle, pour renforcer l’effet de persuasion. Considérant le discours comme un acte etle discours rhétorique comme un acte de persuasion, on pourrait transposer les principes de la123


Proceedings of IDP 09rhétorique traditionnelle, logos et pathos, en des stratégies qu’adopte le locuteur pouratteindre son but communicatif : convaincre. Le locuteur peut alors choisir entre la stratégiede la raison et celle de l’émotion.Nous allons voir dans notre étude comment ces deux stratégies peuvent se mettre en place àtravers la réalisation linguistique. Nous montrerons comment la prosodie prend en charge, demanière très globale mais aussi à des niveaux plus spécifiques, une structuration du discours,notamment dans ses aspects rationnels, mais également comment la prosodie va véhiculerl’émotion du discours rhétorique, cherchant ainsi à persuader l’auditoire par un phénomèned’empathie.1. Protocole expérimental1.1 HypothèsesSi le discours rhétorique est considéré comme un acte visant à persuader un auditoire, on peutdans ce cas transposer les principes de logos et de pathos de la rhétorique aristotélicienne endes stratégies mises en œuvre par le locuteur pour atteindre l’effet visé par son discours,convaincre son auditoire. Le locuteur pourrait donc choisir stratégiquement, en fonction de lasituation d’énonciation dans laquelle son discours intervient, de privilégier la raison ou deprivilégier l’émotion. L’une comme l’autre ne sont d’ailleurs pas mutuellement exclusives, ausens où on peut trouver de l’émotion dans un discours rationnel et du rationnel dans undiscours plus fondé sur l’émotion. Toutefois, on peut noter une tendance du locuteur à adopterplutôt l’une ou l’autre stratégie. Notre hypothèse est alors que, quelle que soit la stratégieadoptée par le locuteur, lui correspond un jeu vocal adapté.Si la stratégie adoptée par le locuteur est celle du discours rationnel, et c’est l’orientationprivilégiée dans la tradition rhétorique aristotélicienne, dans ce cas, le discours rhétorique serastructuré selon un cadre défini. Dans le cas du discours judiciaire, on peut s’attendre à unestructuration classique en quatre parties : exorde, narration, argumentation et péroraison.Notre hypothèse est que, à cette structuration rhétorique du discours judiciaire en quatreparties correspond une partition sur le plan prosodique.Par ailleurs, à l’intérieur de ces quatre grandes parties du discours judiciaire, la partieargumentative proprement dite est construite à partir d’un certain nombre de techniques quivont éclairer et expliciter le propos du locuteur, le rendre plus attrayant aussi. Ces« techniques argumentatives sont renforcées par des phénomènes prosodiques, qui leurdonnent une plus grande force de persuasion. Cette interface entre prosodie et techniquesrhétoriques est observable grâce à une analyse micro-prosodique.1.2 CorpusLe corpus provient d'un documentaire « 10 e chambre » (2003), filmé par Raymond Depardon.Le film est tourné dans une salle d'audience du tribunal de grande instance de Paris, et ilpermet au public d'avoir accès au discours de la justice. À la 10ème Chambre du TribunalCorrectionnel de Paris sont présentées en comparution immédiate pour être jugées les affairesqui font l’objet de flagrants délits ou de récidives. Ce sont des affaires pour lesquelles lajustice investit un temps relativement court car les faits sont établis. Par ailleurs c’est unejustice du quotidien puisqu’elle concerne des délits qui sont susceptibles d’intervenir dans lavie ordinaire du citoyen, soit qu’il soit l’objet de l’accusation, soit qu’il se présente comme lavictime.124


<strong>Actes</strong> d’IDP 09Nous avons choisi deux affaires ; chaque affaire comporte le discours de l’accusation et celuide la défense en réponse. Contrairement aux autres extraits de plaidoiries et de réquisitoiresqui apparaissent dans le DVD, nous avons ici, quatre discours prononcés dans leur totalité,c’est pourquoi ceux-là nous ont paru plus pertinents. Les quatre discours sont d’une durée quivarie entre 1 minute 30 et 3 minutes. Ces discours sont prononcés par quatre locuteursdifférents, deux femmes pour l’accusation et deux hommes pour la défense.Même si ces discours authentiques sont bien évidemment des discours dont le propos,l’argument a été préparé et qui sont construits selon les techniques préétablies del’argumentation, ils peuvent être considérés comme de la parole spontanée, en ce sens qu’àaucun moment les locuteurs sont dans la situation de lire un discours rédigé à l’écrit.1.3 Transcription orthographique et analyse discursive (textuelle)Les enregistrements audio ont fait l’objet d’une transcription orthographique effectuée avec lelogiciel Transcriber.À partir de cette transcription du corpus, nous avons produit une analyse discursive de façon àdéterminer les différentes parties du discours judiciaire : exorde, narration, argumentation etpéroraison. L’exorde correspond à la phase d’ouverture du discours : il s’agit pour le locuteurde présenter la thèse qu’il va défendre ou la question qu’il va examiner. L’exorde a égalementune fonction phatique : dans l’exorde, le locuteur va chercher à capter l’attention de sonauditoire, et à s’attirer sa bienveillance.La narration vient juste après l’exorde et consiste en l’exposé des faits concernant l’affaire. Lecaractère obligatoire de l’insertion de la narration dans le discours judiciaire peut se poser,notamment dans le cas où les juges connaissent les faits, ce qui est en général le cas aumoment du réquisitoire ou de la plaidoirie. Elle permet cependant de présenter les faits selonle point de vue le plus avantageux pour l’argumentation.L’argumentation est constituée soit d’une confirmation, dans le cas du réquisitoire, soit d’uneréfutation, dans le cas de la plaidoirie. La confirmation consiste pour l’accusateur à défendresa position. Pour ce faire, l’accusateur utilise, parmi d’autres techniques rhétoriques,l’amplification, c’est-à-dire la gradation en intensité des arguments présentés. La réfutationconsiste avant tout à défendre sa position par rapport aux accusations portées dans leréquisitoire : il s’agit alors pour le locuteur de réfuter les arguments de l’adversaire.La péroraison est la dernière partie du discours rhétorique. Dans le discours judiciaire, ellecorrespond en général aux recommandations promulguées par l’accusateur ou le défenseur aujuge concernant la peine encourue par l’accusé.Le travail d’analyse discursive a été exécuté à deux niveaux. Dans un premier temps, nousavons cherché à repérer et à délimiter le plus précisément possible dans le discours les quatreparties canoniques qui constituent en règle générale le discours judiciaire. Dans un secondtemps, à l’intérieur des parties ainsi dégagées, et notamment dans les parties argumentatives,nous avons cherché à déterminer quels étaient les procédés linguistiques mis en place par lelocuteur pour appuyer ses arguments ou réfuter ceux de l’adversaire.1.4 Analyse macro et analyse microL’analyse prosodique est menée à deux niveaux, à un niveau global du discours (analysemacroprosodique) d’une part, et au niveau de l’énoncé d’autre part (analysemicroprosodique).Pour l’analyse macroprosodique, nous avons procédé à une extraction automatique desvaleurs de F0 sur la durée totale de chaque discours. Les valeurs de F0 sont extraites toutesles 20 ms par le logiciel WinPitch sur la durée totale de temps de parole de chaque locuteur.Ces valeurs extraites ont fait l’objet de calculs statistiques en lien avec l’analyse textuelle.125


Proceedings of IDP 09Pour l’analyse microprosodique, nous avons sélectionné les énoncés qui nous paraissaient lesplus représentatifs et les plus intéressants pour nos hypothèses. Nous avons procédé sur cesextraits à des mesures portant sur la variation mélodique et sur le débit de parole.Cette analyse prosodique a deux niveaux est ensuite mise en relation avec l’analysepragmatique de la situation d’énonciation et le message référentiel, de manière à fournir uneinterprétation complète du discours judiciaire, où les niveaux segmental et supra-segmentalsont interfacés pour produire le sens.2. La stratégie « Pathos »Les principes rhétoriques de logos et de pathos peuvent être considérés comme deuxstratégies possibles mises en œuvre par le locuteur pour. La stratégie rationnelle semble laplus adaptée à première vue au discours judiciaire, puisqu’il s’agit de délibérer du vrai et dufaux. Cependant, lorsque que la vérité est déjà bien établie par les faits, le sujet del’argumentation est en quelque sorte déplacé. C’est ce qui se passe dans le corpus de discoursjudiciaires que nous avons choisi. En effet les locuteurs, que ce soit pour l’accusation ou pourla défense, interviennent ici en comparution immédiate pour des cas de flagrant délit. Les faitsreprochés à l’accusé sont donc déjà établis par le flagrant délit. Le discours de l’accusationcomme celui de la défense se trouve donc souvent déplacé de la vérité à la pertinence de lapeine qui doit être énoncée par le juge. Dans ce cas, la stratégie du pathos, c’est-à-dire latentative d’émouvoir pour convaincre peut se révéler plus efficace ; C’est ainsi que l’une desplaidoiries de notre corpus est articulée autour de cette stratégie émotionnelle.Du fait de cette stratégie, la structure traditionnelle du discours judiciaire est complètementbouleversée, au point que ce discours paraît de prime abord littéralement déstructuré. Demanière globale tout d’abord, on remarque que la partition classique du discours en quatreparties exorde-narration-argumentation-péroraison n’est plus respectée. Au niveauprosodique, le discours forme un tout relativement homogène, dans un registre de voix plutôtbas et sans grandes variations. L’histogramme ci-dessous représente les valeurs de F0extraites automatiquement toutes les 20 ms sur la durée totale du discours.EXORDE NARRATION & ARGUMENTATION PERORAISONFigure 1 : Histogramme des valeurs de F0 extraites toutes les 20 ms sur la durée totale dudiscours de l’un des deux avocats.On peut observer sur le graphe 1 que les valeurs de F0 sont comprises entre 120 et 180-200Hz. La tessiture de la voix du locuteur est donc relativement restreinte. Elle ne présenteaucune des variations mélodiques qui permettent la structuration du discours.On a dit que cette stratégie du pathos amenait à un discours déstructuré. Cette déstructurationjoue sur différents niveaux, syntaxique, sémantique et énonciatif. Au niveau syntaxique,l’enchaînement et l’enchâssement des propositions est tel que la construction syntaxique del’énoncé est difficile à rétablir. Les indices prosodiques permettent en partie de reconstruire lasyntaxe de l’énoncé.126


<strong>Actes</strong> d’IDP 09Pour illustrer notre propos, nous avons choisi un énoncé relativement long, qui est difficile àcomprendre en première écoute car il est composé d’une succession de différentessubordonnées enchâssées les unes dans les autres reliées à la principale par la conjonction« que » répétée. Or cet énoncé, comme le reste du discours, a une très faible mélodicité (entre120 et 140 Hz) et la variation mélodique ne contribue pas vraiment à une organisationsyntaxico-discursive. En revanche, l’apparition de pauses permet un découpagesyntagmatique (subordonnées) mais ne suffit pas à la compréhension syntaxique de l’énoncé,de sorte que seule une analyse en grille (Blanche-Benveniste, 2003) nous a permis d’expliciterla construction de ce passage.et je souhaiterais pour ma part[1,18s] que lorsqu'il y a eu de l'amour pendant sept ans et qu'on se voit signifier [1,00s]« tu t'en vas je veux plus entendre parler de toi c'est fini[0,75s] tu n'existes plus pour moi »[0,73s] que [0,28s] parfois ce qui était de l'amour [0,41s] devienne ce qu'il y a de plus mochede plus horrible et qui est de la haineet c'est vrai que j'aimerais bien moique l'amour soit pas aussi proche de la haine et bien sûr quand c’est de la haine [0,36s] ducôté des victimes [1,00s] bien sûr.C’est le souhait qui dirige l’énoncé sous la forme de deux verbes « je souhaiterais » et« j’aimerais bien » à la forme conditionnelle. La répétition de la forme verbale directricepermet de donner de la cohésion au texte. Entre les deux formes verbales, des subordonnéesconjonctives, circonstants de temps, délayent la complémentation directe, rendant laconfusion syntaxique encore plus importante. Enchâssé dans cet énoncé complexe, un extraitd’un discours direct rapporté ajoute à la complexité syntaxique, la difficulté de passer d’unevoix énonciative à une autre.La confusion énonciative est l’une des caractéristiques de ce discours. Le locuteur va donnerla parole aux deux parties de l’affaire. C’est ainsi par exemple la voix de l’accusé qui vaintroduire la partie argumentative proprement dite. Le locuteur (l’avocat) reprend les parolesmêmes de l’accusé, en les disant lui-même. Ces paroles figurent une narration résumée del’affaire toute entière. Donner voix aux protagonistes de l’affaire fait partie de la stratégied’émouvoir. En effet, si les faits reprochés à l’accusé sont implicitement reconnus, le fait de« rejouer » les paroles prononcées au moment des faits permet de les éclairer sous un autreangle. Ainsi, les paroles de l’accusé « allô toi bon écoute-moi c’est ne crois pas que j’appellepour te récupérer ou quelque chose comme ça j’en ai rien à foutre de ta gueule » (cf ; Fig. 2)sont répétées par le locuteur, de manière peut-être à introduire les faits, sous la forme d’unenarration, mais sont surtout destinées à montrer la blessure qui transparaît derrière ses proposet qui peut excuser d’une certaine manière l’attitude de l’accusé. L’avocat cherche ici àhumaniser l’accusé, en lui donnant la parole de manière indirecte, pour ensuite pouvoir d’unepart expliquer les faits sous un autre jour et d’autre part émouvoir le juge.Le locuteur reprend le même procédé un peu plus loin dans son argumentation enprêtant à la victime cette fois-ci des paroles « tu t'en vas je veux plus entendre parler de toic'est fini tu n'existes plus pour moi » qui sont connotées négativement de par leur caractèrebrutal et définitif. Là encore, la scène est « rejouée » (par l’avocat) de manière à transférerune partie de la responsabilité sur la victime. Le procédé est d’autant plus habile qu’à aucunmoment la voix énonciative qui prend en charge ces paroles n’est précisée, puisque celles-ci127


Proceedings of IDP 09sont introduites par une construction indéfinie « on se voit signifier ». Il ne s’agit pas decharger la victime, mais simplement de suggérer que dans cette affaire, les deux parties separtagent la responsabilité.D’un point de vue prosodique, le passage d’une voix énonciative à une autre n’est marquépratiquement par aucun indice particulier, mis à part la pause qui précède le discours directrapporté (cf. Figure 2). Sur cette figure, on note un registre de voix constant avec très peu devariation, et le passage d’une voix énonciative à l’autre n’est marqué par aucune altération dela F0. Cet aspect ajoute à la confusion entre les voix et renforce l’impression dedéstructuration.les affaires privées {2,515 s} allô toi bon écoute-moi c’est ne crois pas que j’appelle pour terécupérer ou quelque chose comme ça j’en ai rien à foutre {0,527 s} de ta gueuleFig. 2 : Représentation de la courbe mélodique de l’énoncé « affaires privées allô toi bonécoute-moi c’est ne crois pas que j’appelle pour te récupérer ou quelque chose comme ça j’enai rien à foutre de ta gueule »La dernière forme de déconstruction qui caractérise cette stratégie discursive est unedéconstruction sémantique, et c’est sans doute l’un des aspects les plus gênants de cediscours. En effet, un discours, quelle que soit l’intention de communication sous-jacente,doit présenter des aspects de cohésion et de cohérence pour être compris. Or celui-ci semble àcertains moments faire fi de ces obligations de cohésion et de cohérence. Cette déconstructionsémantique semble altérer alors l’efficacité du discours puisqu’il n’est plus intelligible.Pourtant elle fait partie à part entière de la stratégie du locuteur d’adopter un schéma plusémotionnel que rationnel pour son argumentation.Prenons l’exemple de la séquence suivante (Fig.3):il a fait un pas / aujourd'hui à l'audience / pas un pas de géant / un frère dans la salle / on estrarement fier de ça / moi ça m'est arrivé / de pas être très correctOn a ici un texte qui semble déconstruit sémantiquement : on ne trouve en effet aucunmarqueur de cohésion ou de cohérence, ni connecteur pour faire le lien entre les énoncés, nicohérence apportée par un référent commun et répété. On passe ainsi d’un référent « il » quisemble désigner l’accusé que le locuteur défend à un référent « un frère » puis à un référentindéfini « on » avec un premier transfert de la responsabilité, et enfin à un référent « moi »,avec un deuxième transfert de la responsabilité, le défendeur assumant une part de laresponsabilité. Cette responsabilité le locuteur la transférera ensuite aux hommes en général età un « nous » plus ou moins indéfini. Par ces mouvements incohérents d’un référent à un128


<strong>Actes</strong> d’IDP 09autre et par l’absence de lien cohésif entre chacun, le défendeur cherche à faire admettrel’idée selon laquelle l’attitude répréhensible de l’accusé pourrait être assumée par n’importequelle personne dans l’assistance. Ici, le locuteur essaie de faire en sorte que l’auditoire sereprésente dans la même situation que l’accusé et finalement compatisse et excuse sonattitude. Cette déconstruction sémantique de la chaîne référentielle est donc produite à desseinet fait partie de la stratégie de la défense.Il a fait un pas [0,841sec] aujourd'hui à l'audience [1,142sec] pas un pas de géant [2,0 sec]un frère dans la salle [3,7sec] on est rarement fier de ça [0,96sec] moi ça m'est arrivé [1,518sec] de pas être très correctFig. 3 : Représentation de la courbe mélodique de l’énoncé «Il a fait un pas aujourd'hui àl'audience pas un pas de géant un frère dans la salle on est rarement fier de ça moi ça m'estarrivé de pas être très correct »L’impression de déconstruction du texte au niveau sémantique est contrebalancée parl’homogénéité prosodique qui finalement fait la cohésion de cette séquence (cf. Figure 3). Onobserve deux blocs énumératifs, séparés par une pause relativement longue. Les deux blocsénumératifs sont constitués chacun d’énoncés courts, de même durée, interrompusrégulièrement par une pause de même durée approximative plutôt longue (1 à 2 secondes parpause). Par ailleurs, les énoncés sont tous marqués par une intonation plate, légèrementdescendante en fin d’énoncé. Cette similarité prosodique des énoncés est le seul élément decohésion entre les énoncés et donc le seul élément qui rend ce paragraphe intelligible commeun tout cohésif et cohérent.La stratégie discursive qui consiste à tout miser sur le pathos pour émouvoir l’auditoiresemble donc fonctionner à l’inverse de ce qu’on pourrait attendre d’un discours judiciaire,logique, factuel, structuré rationnellement. Nous avons montré au contraire que ladéstructuration sémantique, syntaxique et énonciative apparente était en fait un moyen desuggérer autrement que par le rationnel et de donner une vision différente mais vraisemblablede l’affaire.3. La stratégie « Logos »À l’inverse de la stratégie que nous venons de mettre en évidence, celle du logos semblerefléter plus classiquement les caractéristiques attendues du discours argumentatif, et ce aussibien au niveau du message référentiel en lui-même qu’au niveau prosodique. L’histogrammeci-dessous (Figure 4) représente les valeurs de F0 extraites automatiquement toutes les 20 mssur la durée totale du discours d’un locuteur adoptant plutôt cette stratégie rationnelle. Onpeut avec ce seul histogramme définir trois périodes prosodiques, qui correspondent129


Proceedings of IDP 09grossièrement aux trois périodes du discours judiciaire exorde/ narration-argumentation /péroraison. Il est intéressant d’observer que la période narration-argumentation se distinguetrès nettement au niveau prosodique de l’exorde et de la péroraison par une tessiture de voixplus étendue, et des variations mélodiques plus fréquentes et plus importantes.EXORDE NARRATION & ARGUMENTATION PERORAISONFigure 4 : Histogramme des valeurs de F0 extraites toutes les 20 ms sur la durée totale dudiscours de l’une des deux procureures.C’est à l’intérieur de la partie narration-argumentation que les variations mélodiques sontdonc les plus saillantes. C’est aussi plus particulièrement sur cette partie que l’effortargumentatif du locuteur va être le plus important et qu’il va déployer tous les effets quepermettent la langue pour mettre en avant les parties les plus décisives de son propos. Laprosodie est bien entendu ici un élément de cette mise en valeur permise par la langue.La plupart des effets de style construits à la fois par la forme du message et par la voix ontpour objet soit de mettre en évidence, d’insister sur un élément important du message, soitd’opposer deux éléments, deux arguments adverses.3.1. Structuration du discours rhétorique – Passage de l’argumentation à la péroraisonOn l’a vu, la stratégie rationnelle respecte une structuration du discours judiciaire, distinguant,aussi bien au niveau textuel que prosodique, les différentes parties de ce type de discours :exorde, narration-argumentation, péroraison. Il nous a semblé intéressant d’examiner lesextraits où le locuteur passe de la partie argumentative à la partie péroraison pour voircomment ce passage était caractérisé, notamment au niveau prosodique.non pas pour lui / parce qu'il l'a il l'a déjà pris son avenir il est déjà avec une autre personnemais pour elle / c'est pourquoi je requièreFig. 5 : Représentation de la courbe mélodique de l’énoncé « non pas pour lui parce qu'il l'ail l'a déjà pris son avenir il est déjà avec une autre personne mais pour elle c'est pourquoi jerequière »Le premier exemple que nous avons choisi (cf. Figure 5) montre le passage de la fin del’argumentation à la péroraison où le procureur expose la peine demandée en conclusion de130


<strong>Actes</strong> d’IDP 09son argumentation. Les deux parties argumentation et péroraison sont connectées par leconnecteur « c’est pourquoi ». Mais c’est au niveau prosodique que ce passage d’une partie àl’autre du discours est le plus saillant : il se traduit par une baisse globale du registre de voix,une variation mélodique beaucoup plus réduite et une accélération du débit de parole.Fig. 6 : Représentation de la courbe mélodique de l’énoncé « la manière dont vous lescommettez la manière dont vous les distanciez par un récit que je considère comme fantaisistemérite quinze mois d'emprisonnement dont une partie assortie d'un sursis mis à l'épreuve »Ce second exemple (cf. Figure 6) montre un phénomène à peu près identique au précédent àl’exception que la locutrice (qui représente l’accusation) continue l’argumentation dans lapartie péroraison, car elle argumente l’importance de la peine demandée. La fin de cetteséquence argumentative est brutalement suivie de la péroraison proprement dite c’est-à-direde l’énoncé de la peine demandée. Ce passage d’une phase à l’autre n’est absolument pasmarquée au niveau du message. En revanche, prosodiquement, on observe un phénomèneidentique d’accélération du débit et un decrescendo progressif de l’intonation qui contrasteavec les proéminences observées dans la séquence argumentative.En examinant ces deux extraits, et les passages qui sont marqués par un changement de partierhétorique, on s’aperçoit que ces changements sont essentiellement marqués au niveauprosodique et dans une moindre mesure au niveau du message.3.2. Mettre en valeur un élément importantLe discours judiciaire a pour objet de discuter du vrai et du faux, d’opposer une vérité à uneautre. La mise en valeur linguistique et prosodique de la vérité que le locuteur choisit dedéfendre est donc en quelque sorte un passage obligé de ce type de discours. La mise envaleur stylistique est un outil utilisé pour convaincre l’auditeur.L’exemple (cf. Figure 7) avec lequel nous nous proposons d’illustrer notre propos est extraitdu discours d’une procureure qui réquisitionne au sujet de la même affaire qui a amené sonadversaire, avocat de la défense, à adopter une « stratégie du pathos » (cf. section 3). Cettelocutrice ici, même si elle a choisi d’adopter une stratégie plus rationnelle et une structurationargumentative de son discours, n’élimine pas pour autant l’aspect émotif.131


Proceedings of IDP 09C'est terrible de penser qu'un jeune homme comme ça puisse supposer que qu'une femme esten quelque sorte {0,468s} un objet de possession {0,323s} qu'on ne rendra pas {0,546s}euh qui est à soi {0,211s} et qu'on peut contraindre {0,360} et qu'on peut menacer {0,343}et dont on peut détruire la vie et qui tout simplement maintenant vous dit ah ben j'en ai uneautre d'amie {1,028s} c'est donc terminé {0,369s} n'en parlons plus {0,137} tout celan'est rienFig. 7 : Représentation de la courbe mélodique de l’énoncé « C'est terrible de penser qu'unjeune homme comme ça puisse supposer que qu'une femme est en quelque sorte un objet depossession qu'on ne rendra pas euh qui est à soi et qu'on peut contraindre et qu'on peutmenacer et dont on peut détruire la vie et qui tout simplement maintenant vous dit ah ben j'enai une autre d'amie c'est donc terminé n'en parlons plus tout cela n'est rien »Elle commence en effet son argumentation en essayant de donner à voir à l’auditoire ladétresse morale dans laquelle a pu se retrouver la victime de l’affaire. Elle introduit sonargument avec un jugement de valeur négatif « c’est terrible » qui fait l’objet d’uneproéminence prosodique (saut mélodique sur « terrible »). Cette proéminence prosodiquecorrespond à l’emphase textuelle produite par l’utilisation du présentatif. Ce terme « terrible »sur lequel porte l’emphase est un adjectif qui porte un caractère de jugement qualitatif surl’ensemble de la structure rhématique qui suit. Il porte une connotation péjorative, qui insistedès le préambule de l’argument sur l’aspect négatif du comportement de l’accusé.Cette introduction est suivie d’une accumulation de verbes d’actions négatifs qui sont mis surle compte de l’accusé. Cette accumulation prend la forme d’une énumération où le verbenégatif est toujours en fin de groupe prosodique et porte donc une accentuation avec unemontée mélodique systématique qui rythme le propos de l’accusateur et semble enfoncer lesarguments contre l’accusé. Par ailleurs on a une progression dans l’agressivité dénotée par cesverbes. Ces montées mélodiques qui accompagnent les verbes mettent en valeur la montée del’agressivité «contraindre », « menacer », « détruire la vie ».Par ailleurs on a un contraste avec l’attitude supposée de l’accusé lorsqu’il décide brutalementde ne plus intervenir dans la vie de la victime, l’attitude d’abandon qu’il est supposé adopteret qui est transmise par un discours direct rapporté, sous la forme d’une énumération, où tousles groupes prosodiques portent une intonation descendante en fin de groupe, avec undecrescendo progressif du registre de F0. Ces intonations contrastées montantes puisdescendantes, marquent deux attitudes appliquées par l’accusation sur l’accusé. Leur rythmerégulier et les variations mélodiques brusques donnent dans les deux cas une impression deviolence qui vient renforcer la connotation globalement négative de l’énoncé.3.3. Opposer deux éléments adversairesOpposer deux éléments, deux théories, deux vérités adverses fait partie à part entière dudiscours judiciaire puisque dans une affaire judiciaire, deux locuteurs présentent chacun uneface vraie ou vraisemblable d’une même réalité. Cette mise en opposition de deux éléments132


<strong>Actes</strong> d’IDP 09adverses s’appuie sur des procédés linguistiques et prosodiques.Fig. 8 : Représentation de la courbe mélodique de l’énoncé « non pas pour lui parce qu'il l'ail l'a déjà pris son avenir il est déjà avec une autre personne mais pour elle »Dans l’exemple ci-dessus, les deux éléments mis en opposition sont les deux protagonistes del’affaire, l’accusé et la victime, représentés par les pronoms « lui » et « elle ». L’opposition deces deux pronoms est articulée autour de la conjonction « mais » qui a valeur d’opposition.Cette opposition est renforcée par la négation qui introduit le premier élément « non pas pourlui ». Au niveau prosodique, une proéminence mélodique met en valeur ces deux élementsavec une brusque montée de F0, particulièrement violente et agressive sur le « lui »(l’accusé), la voix de la procureure, montant de 250 à 400 Hz sur la dernière syllabe « lui ».Entre deux la parenthèse explicative introduite par parce que est articulée avec un débitbeaucoup plus rapide et si l’attaque est plutôt haute, le decrescendo mélodique sur cette partieparenthétique est relativement progressif. Il y a donc aussi contraste entre la variationmélodique brutale sur les deux éléments opposés et qui sont les éléments importants dupropos, par rapport au caractère plus plat de la mélodie de la parenthèse.Fig. 9 : Représentation de la courbe mélodique de l’énoncé « plaisir condamnable je vaisrevenir là-dessus mais n'a qu'un plaisir »133


Proceedings of IDP 09Ce deuxième exemple présente une structure pratiquement identique : deux syntagmes sontopposés autour de la conjonction « mais ».Entre les deux syntagmes opposés est insérée uneparenthèse caractérisée par une courbe mélodique plate et basse. Les deux éléments mis enopposition reprennent le même terme « plaisir ». La première partie de l’énoncé connotenégativement ce terme de plaisir avec le caractérisant « condamnable ». Dans le même tempscette connotation négative est gommée par l’intonation descendante et l’accélération du débiten contraste avec plaisir qui est mis en valeur par la pause qui le suit immédiatement et par lamontée mélodique. L’idée est que la prosodie met en valeur le « plaisir » et gomme laconnotation négative de condamnable. La deuxième partie de l’opposition est construitecomme une négation restrictive, dont le « plaisir » est le noyau. Cette restriction sur plaisiramenuise encore l’importance de l’aspect condamnable et permet de mettre en valeur l’aspect« plaisir » Les deux éléments « plaisir » sont par ailleurs mis en valeur, en fin de groupeprosodique, par le contraste de pentes montant/descendant.Fig. 10 : Représentation de la courbe mélodique de l’énoncé « est-ce que aujourd'hui,Monsieur XX, est un dealer / quelqu'un qui vit de son trafic / ou est-ce que Monsieur XX estun malade / un toxicomane »Dans ce dernier exemple, ce ne sont plus deux protagonistes d’une même affaire qui sontopposés, mais deux interprétations vraisemblables d’une même réalité. Le locuteur, icil’avocat de la défense, oppose deux termes qui résument d’un côté la thèse du procureur(Monsieur XX est un dealer) et de l’autre côté l’antithèse qu’il défend (Monsieur XX est unmalade). Chacun de ces deux éléments est articulé autour de la conjonction qui portel’alternative « ou ». Prosodiquement, les deux termes sont mis en évidence par une montéebrutale de F0. Ce schéma mélodique est d’autant plus intéressant que l’intonation constatéesur des interrogations alternatives est une intonation montante sur la première partie del’alternative suivie d’une intonation descendante sur la deuxième partie. Ici l’intonationmontante sur les deux parties de l’alternative rompt le schéma mélodique classique et met envaleur les deux éléments de l’opposition.4. Discussion et conclusionLa rhétorique est « l’art de s’exprimer et de persuader ». Dès les débuts de l’art oratoire, lanotion d’action est présente. C’est un art utile ; l’orateur en s’exprimant cherche à produireune action sur son auditoire. Cette action oratoire prend des formes diverses etcomplémentaires. Dès les origines de l’art, en effet, les dimensions référentielle, poétique,phatique et métalinguistique sont liées avec les fonctions conatives et expressives de l’acte decommunication. L’art rhétorique est donc considéré comme un acte de communicationcomplet. De même, dès l’Antiquité, la rhétorique considère comme des éléments importantsla voix et le geste. C’est en effet un des principes à l’origine de l’art oratoire : un bon orateurest celui qui va mêler dans son discours composition du discours (création, disposition des134


<strong>Actes</strong> d’IDP 09arguments et style), mémoire et action. L’action regroupe l’utilisation de la voix et du gesteau service du discours. Message, voix et geste sont donc liés dans l’acte rhétorique : onparlerait dans notre lexique moderne d’interface entre le discours, la prosodie, et la gestuelle.Nous avons montré dans cet article que le discours judiciaire, issu de cette traditionrhétorique, est un exemple intéressant de l’interface entre le message et la prosodie. Laprosodie n’est plus ici restreinte à sa fonction de principe organisateur de l’énoncé,redondance trop souvent ignorée de la syntaxe. Elle est au contraire partie prenante dudiscours, à la fois au niveau de la stratégie de communication qui est mise en place par lelocuteur (discours rationnel contre discours émotionnel), mais aussi au niveau de la structuredu discours. La prosodie permet de structurer le discours rhétorique selon ses partiesconstitutives. Elle organise l’énoncé et lui donne cohérence et cohésion. Enfin, elle permet demettre en valeur les arguments du discours, en les opposant ou en les reliant.RéférencesBlanche-Benveniste, C., 2003, Approches de la langue parlée en français, Ophrys.Boulakia, G., Deulofeu, J. & Martin, P., 2001, Quand la prosodie bienforme les énoncés mal formés, JournéeProsodie, Grenoble 2001, <strong>Actes</strong>, pp. 53-56.Boulakia, G., 2002, Linguistica e fonetica: senza o mezza voce?, in De Dominicis A. (ed.), La voce come beneculturale, Carocci, pp. 63-85.Depardon, R., 2004, 10e chambre, instants d’audience, DVD, Les Films du Losange.Duez, D., 1991, La pause dans la parole de l'homme politique, Collection Sons et Parole, CNRS.Duez, D., 1999, La fonction symbolique des pauses dans la parole de l'homme politique. in Danon-Boileau, L &Morel, M.A. (eds.), Oral-Ecrit : Formes et théories, Paris : Ophrys. pp. 91-97.Fónagy, I., 1983, La vive voix, Payot.Gardes-Tamine, J., 2002, La rhétorique, Armand Colin.Martin, P., 1981, Pour une théorie de l’intonation, in Rossi, M. & al. (eds.), L’intonation, Klincksieck.Molinié, G., 1992, Dictionnaire de rhétorique, Librairie générale française (‘Le Livre de Poche’).Reboul, O., 1991, Introduction à la rhétorique. PUF.Robrieux, Jean-Jacques, 1996, Éléments de rhétorique et d’argumentation, Dunod.Touati, P., 1991, Temporal Profiles and Tonal Configurations in French Political Speech. Lund Working Papers38, pp. 205-219.Touati, P., 1994, Prosodic Aspects of Political Rhetoric, Lund Working Papers 41, pp.168-171Touati, P., 1995, Pitch range and register in French political speech, XIIIth International Congress of PhoneticSciences, <strong>Actes</strong>, vol. 4, pp. 244-248, Stockholm.Touati, P., 1999, Rhétorique et prosodie des discours politiques, XIV Skandinaviska Romanistkongressen,Stockholm, août 1999, <strong>Actes</strong>, pp. 1115-1127.Touati, P., 2000, De la rhétorique. Action oratoire et discours publics quelques remarques, in Jönsson, A. & Piltz,A. (eds.) Språkets speglingar. Festskrift till Birger Bergh, Klassiska Institutionen, Lund, Skåneförlaget.Touati, P., 2003, Approche à une modélisation de la prosodie transphrastique du français parlé, Études Romanes54, Université de Copenhague (<strong>Actes</strong> du Colloque international Structures linguistiques et interactionnellesdans le français parlé, Université de Copenhague, juin 2001), pp. 69-88.135


<strong>Actes</strong> d’IDP 09The Acoustical Realization of Narrow Focus and Second Occurrence Focusin Taiwan MandarinChu-ting CHEN, Ho-Hsien PANmodi0819.flg96g@g2.nctu.edu.tw, hhpan@faculty.nctu.edu.twDepartment of Foreign Languages & Literatures,National Chiao Tung University, Hsinchu, TAIWANAbstractThis study syntagmatically and paragmatically compares the acoustical realization of narrow focus (NF) andsecond occurrence focus (SOF) in Taiwan Mandarin. Spontaneous production data were elicited via interactiveconversations describing images displayed on a computer screen. The F0 (fundamental frequency) range and theduration of target lexical items were taken from the target lexical items of the conversation. Preliminary resultsshow that the performance of second occurrence focus of Taiwan Mandarin is quite similar to that of narrowfocus. In other words, the second occurrence focused lexical items which carry old information but under thescope of the F-marking operator ‘only,’ are indistinguishable from the narrow focused items under the samefocus position.1. InstructionWith respect to discourse analysis, given information is not supposed to be a focus, whilefrom the perspective of semantic theory sensitive operators, such as ‘only,’ it is. For example,in sentence (1) a, adapted from Partee (1999: 215), the word “vegetables” is the item whichreceives narrow focus (NF). Therefore, the potential for conflict exists between discourseanalysis and semantic theory: the given information is not meant to be a focus according tothe former, but it is under a sensitive operator and, therefore, a focus for the latter. A SecondOccurrence of Focus (SOF), in which a sensitive operator within semantic theory carriesgiven information, addresses this conflict. For example, in sentence (1) b, the word “Paul” isthe new information with NF, but the given information “vegetable” placed within the domainof focus sensitive operator is proposed to receive SOF. (Fery and Ishihara, 2005)(1) a. Everyone already knew that Mary only eats [vegetables] NFb. If even [Paul] NF knew that Mary only eats [vegetables] SOF , then he shouldhave suggested a different restaurantNarrow focus (NF) in English is marked by a nuclear pitch accent, while SOF is markedby other prosodic cues, such as increased duration and intensity. In addition, Fery andIshihara (2005) have reported that, in German, (1) the phonetic marking of SOF in pitch andduration is revealed prenuclearly, but in duration only postnuclearly, and (2) in contrast toFirst Occurrence of Focus (FOF), SOF is realized in different ways. It has to be noted that theconvention FOF and NF mentioned above have the same definition in this paper. The termNF is used hereafter to be consistent with Beaver (2002, 2004).Xu (1999) found that the duration of the target syllable under focus increased and the F0range expanded under varying focus conditions. Under one narrow focus condition the F0high points were found to be higher, while the F0 low points were lower in non-final focused137


Proceedings of IDP 09wordsl; in other words, the F0 range experienced expansion. However, Hsiung (2002) hasreported that duration, which increased under narrow focus, is the most salient acousticparameter for sentence focus in Taiwan Mandarin. Moreover, Hsiung also found thatspeakers of Taiwan Mandarin do not always expand the F0 range significantly under narrowfocus, unlike Mandarin speakers on Mainland China according to the research conducted byXu (1999). Huang (2004) found that durations of target items under narrow focus areextremely longer than for their counterparts. Moreover, Huang has suggested that the F0range might be a salient acoustic cue, although it is not as prominent as duration.Existing research has not investigated the comparison between NF and SOF, which inthis paper is all revealed postnuclearly, in tone-based languages, such as Mandarin.Therefore, this study attempts to explore how NF and SOF are realized and to investigate thedifferences between them by comparing the acoustical realization of lexical items of NF andof SOF on Object (O) and Verb (V) to their defocused counterparts, respectively, in TaiwanMandarin.2. Methods2.1. ParticipantsThree female native Taiwan Mandarin speakers who speak neither Taiwan Min nor Hakka(two dominant dialects spoken in Taiwan) participated in this experiment. They were allundergraduates at National Chao Tung University at the time of the recording.2.2 CorpusThe sentence structures for NF were ‘Subject + [first Verb + second Verb] NF + Object,’ and‘Subject + Verb + first Object + second Object.’ As for the SOF, they were ‘Subject + only +[Verb] SOF + Object,’ and ‘Subject + Verb + only + [Object] SOF .’ The sensitive operator ‘only’was place before either V or O according to different interrogative patterns. S and Oconsisted of the same four targets, carrying four lexical tones, whereas the other four targetswith four lexical tones composed V. The noun that occupied the subject and object was neverthe same one. The lexical tones of the four lexical items for nouns were /jiang 55 +ju 55 / (ageneral), /zhai 35 +nan 35 / (a nerdy), /mei 214 , nv 214 / [mei 35 +nv 214 ] (a beauty) and /jiao 51 +lian 51 / (acoach). With regards to lexical items for verbs, they were /gen 55 +zong 55 / (to follow),/cha 35 +xun 35 / (to inquire), /dai 214 , bu 214 / [dai 35 +bu 214 ] (to arrest), and /shi 51 +fang 51 / (torelease). It must be noted that tone sandhi phenomenon took place in this experiment.There were two SOF conditions, namely (1) “only” placed before verb to govern the verb,and (2) “only” placed before object to govern the object. By matching the four lexical itemsfor S, V and O, there were 64 sentences (4 S x 4V x 4O): after excluding the sentences withthe same S and O, 48 target sentences remained. Again, by matching the two focusconditions with the 48 target sentences and by repeating each sentence six times, 576sentences were elicited (48 target sentences x 2 focus locations x 6 repetitions). The samefocus conditions were found in NF; therefore, the total number of target sentences elicitedwas 1152 (576 x 2).2.3 ProceduresSpontaneous speech was elicited through dialogues which described images displayed on acomputer screen. In order to elicit the interactive conversation from the subjects, theexperiment included a program which was designed to display simultaneously five images onthe computer screen at a time. The experimenter then asked the first question in order to elicitNF on the target lexical items. After the subject explicated the first answer with NF, the138


<strong>Actes</strong> d’IDP 09experimenter proceeded to ask the next question to elicit the second answer with SOF withouttaking the response time into consideration. The following section provides the images andsome examples of the sentence structures for the two focus locations (Subject and Object):(a)(b)Figure 1: Examples of pictures showed on the screen to elicit the interactive spontaneous conversation.(a) picture to elicit the sentences which had NF and SOF on verb(b) picture to elicit the sentences which had NF and SOF on object139


Proceedings of IDP 09(a) NF/SOF on VQuestion1. Experimenter: ‘From the five images, what do you think the generaldid to the nerdy today?’Answer 1. Subject: ‘The general [inquired and arrested] NF the nerdytoday.’Question2. Experimenter: ‘In the other three images, the nerdy released andfollowed the coach. What else did you see?’Answer 2. Subject: ‘The beauty only [arrested] SOF the general.’(b) NF/SOF on OQuestion1. Experimenter: ‘From the five images, who do you think the nerdyfollowed today?’Answer 1. Subject:‘The nerdy followed [the general and the beauty] NFtoday.’Question2. Experimenter: ‘In the other three images, the beauty arrested thegeneral and the coach. What else did you see?’Answer 2. Subject: ‘The coach followed only [the general] SOF .’It should be noted that the order of verbs or objects in NF is not bound; that meant in (a),‘The general [inquired and arrested] NF the nerdy today,’ and ‘The general [arrested andinquired] NF the nerdy today,’ and in (b), ‘The nerdy followed [the general and the beauty] NFtoday,’ and ‘The nerdy followed [the beauty and the general] NF today’ were all acceptable. Inorder to make a clear and careful comparison, the verb or the noun uttered earlier was named‘the first verb’ or ‘the first noun,’ while the verb or the noun uttered later was named ‘thesecond verb’ or ‘the second noun.’3. ResultsData on duration were taken at the points of onsets and offsets of the lexical items for targetverbs and objects. Moreover, for the F0 ranges, they were derived by subtracting theminimum values of F0 (F0 valleys) from the maximum values of F0 (F0 peaks) within thetarget verbs and objects. The F0 range of the first verbs, the second verbs, the first objects,and the second objects were recorded and compared respectively for the NF condition.140


<strong>Actes</strong> d’IDP 093.1 F0 range: NF on V vs. NF on OIn Figure 2(a), it was found that the expansion of the F0 range for the narrow focused firstverb was much greater than that of the narrow focused second verb. Moreover, by making acomparison of the narrow focused first verb and the second verb (Figure 2(a)), it can be seenthat the F0 range expansions of the narrow focused first verb carrying tone 3 and tone 4 werelarger than those carrying tone 1 and tone 2. A similar pattern of F0 range expansion was alsofound with the narrow focused object in Figure 2(b); that is, the F0 ranges of the narrowfocused first object were greater than that of the narrow focused second object. In addition,the F0 range expansions of tone 3 and tone 4 of narrow focused first object were also found tobe much greater than those of tone 1 and tone 2 as found in Figure 2(a).With reference to the F0 range, Figures 2 reveals that the value of the F0 range of thefirst targets under NF was greater than for their defocused counterparts, and these findings docorrespond to those of Xu (1999), Hsiung (2002) and Huang (2004).3.2 F0 range: SOF on V vs. SOF on OIn Figure 3(a) the F0 ranges of the focused verbs under SOF were found to expand, especiallyin lexical items carrying tone 3 and tone 4. As for the Object under SOF in 3(b), littleexpansion of the F0 range was observed in the lexical item carrying tone 3. This might bedue to declination effect which decreases the upper limit of the F0 range at a faster rate thanthe lower limit F0 range toward the sentence final. Thus it can be seen that little room wasavailable for the F0 range to expand when the second occurrence focused object at sentencefinal position was involved.3.3 F0 range: Focus (NF vs. SOF) on VBy comparing the narrow focused verb in 2(a) and the focused verb under SOF in 3(a), it wasfound that the F0 range of the narrow focused second verb performed similarly to that of thefocused verb under SOF. The F0 range of lexical items carrying tone 4 was greater than tone3, tone 3 greater than tone1, and tone 1 greater than tone 2. The scale of the F0 rangeexpansion was approximately from 40 Hz to 80 Hz.3.4 F0 range: Focus (NF vs. SOF) on OJust like what has been mentioned above in 3.3, the narrow focused second object in 2(b)performed similarly to the focused object under SOF in 3(b). The expansion of the F0 range141


Proceedings of IDP 09was found to be greater on lexical items bearing tone 4, then tone 3, then tone1, and finallythe least on tone 2. With respect to the scale of the F0 range expansion, it was from 20 Hz to60 Hz approximately.3.5 DurationFigure 4 compares the durations of verbs and objects under both NF and SOF conditions. Theduration of the verbs under NF and SOF conditions was indeed lengthened, especially underNF condition, when compared to their defocused counterparts. Similarly, the duration of thefocused objects under NF and SOF conditions, compared to their defocused counterparts, wasalso lengthened, especially under SOF condition in this case. Interestingly, in 4(a), theduration of the defocused verb seemed to decrease a little to enhance the lengthened durationof the focused object under NF. The result shows that the target lexical items under NFcondition endure longer durations than do their defocused counterparts and this is consistentwith the reported findings of to Xu’s (1999), Hsiung’s (2002) and Huang’s (2004), in whichreported that the focused items experienced longer duration than the defocused ones.4. DiscussionPreliminary results supported the idea that the target lexical items under focus do carry anexpanded F0 range, on the first target under NF in particular. Furthermore, with reference tothe duration cue, the lengthened duration of the focused lexical items was found to be themost prominent acoustical cue when compared to that of their defocused counterparts wasfound under both NF and SOF conditions.In other words, lexical items with given information were indeed ‘highlighted’, induration and F0 range, by SOF within the scope of the F-marking operator ‘only’. Withrespect to NF, the performance of the F0 range for all the lexical items in the same position,without the sensitive operator ‘only’, was quite similar to that of those with SOF. Inconclusion, the F0 ranges and duration of both NF and SOF in Taiwan Mandarin performedin quite similar ways. Finally, these results arouse the interests and highlight the need for thecollection of more data from other subjects in order to establish the accuracy of this study.ReferencesCaroline Fery and Shinichiro Ishihara (2005). Interpreting Second Occurrence Focus142


<strong>Actes</strong> d’IDP 09David I. Beaver, Brady Z. Clark, Edward S. Flemming, Maria K. Wolters (2002). Second Occurrence Focus isProsodically Marked: Results of a production experimentDavid I. Beaver, Brady Z. Clark, Edward S. Flemming, T. Florian Kaeger, Maria K. Wolters (2004). “WhenSemantics meets Phonetics: Acoustical studies of Second Occurrence Focus”Hsiung, S. C. (2002). Acoustic characteristics of sentential focus in Mandarin spoken in Taiwan. MA thesis,National Hsinchu Teachers College.Huang, Y. H. (2004). Focus Condition in Spontaneous Taiwanese Mandarin. MA thesis, Graduate Institute ofLinguistics and Cultural Studies, National Chao Tung University, Hsinchu, Taiwan.Xu, Y. (1999). Effects of tone on the formation and alignment of f0 contours. Journal of Phonetics, (27), 22-106.143


<strong>Actes</strong> d’IDP 09Interface entre structure syntaxique et structure prosodique: le syntagmeintermédiaire en françaisMariapaola D’Imperio, Amandine Michelasmariapaola.dimperio@lpl-aix ; michelas@lpl-aix.frLaboratoire Parole et Langage, CNRS & Aix-Marseille I – Aix-en-Provence, FranceAbstract :Within the autosegmental-metrical theory of intonation (Pierrehumbert, 1980; Ladd, 1996), there is onlyweak evidence for the existence of the intermediate phrase (ip) for French. Our assumption is that the emergenceof an intermediate prosodic level (ip) in French is not merely linked to a specific focus or marked syntacticstructure and predict that an alignment constraint (align-xp,r; ip,r) conspires to place an ip boundary to the rightof a major syntactic phrase boundary, such as an NP/VP boundary, when the maximal projection can be parsedin at least two accentual phrases. These boundaries appear to be signaled by prosodic cues that are stronger thanthe ones associated to ip-internal AP boundaries. The alignment between major syntactic constituents andprosodic structure can be signaled by boundary cues such as a H- right edge tone, which would be responsiblefor blocking recursive downstep of the subsequent AP final rises, as well as be associated with preboundarylengthening. We also propose that partial reset across the ip boundary is evidence for an internal structuring ofthe Intonation Phrase.1. IntroductionLes premières analyses qui se sont intéressées à la constituance prosodique du français (DiCristo 1976; Verluyten 1982) s'accordent sur l'existence de deux unités: le groupe intonatif(GI) et une unité de rang inférieur: le groupe accentuel (GA) défini comme l’unité rythmiqueminimale comportant un seul accent final ou primaire associé à la dernière syllabe pleine del'unité (Di Cristo 1978). Le GA, en tant qu’unité bornée à sa droite par l’accent dit« primaire » ou « final » a reçu de nombreuses autres appellations dans la littérature telles quemot phonologique (Selkirk 1972), mot prosodique (Vaissière 1974), groupe intonatif(Mertens 1987), mot rhytmique (Pasdeloup 1990), groupe rythmique (Delais-Roussarie1995), unité rhytmique (Di Cristo & Hirst 1993), syntagme accentuel (Jun & Fougeron 1995),syntagme phonologique (Post 2000) etc... Ces nombreuses appellations utilisées pour désignerl’unité prosodique bornée à sa droite par l’accent primaire sont problématiques pour deuxraisons essentielles : d’abord parce que dans le cadre de la phonologie prosodique (Selkirk1984; Nespor & Vogel 1986) on admet généralement que le mot phonologique, le groupeclitique et le syntagme phonologique correspondent à des unités de rangs différents dans lahiérarchie prosodique et d’autre part, car ces trop nombreuses appellations accroissent le flouthéorique et terminologique important qui existe dans la littérature concernant la constiuanceprosodique du français. Ce flou peut être en partie expliqué par les différents critères utiliséspour la définition des constituants prosodiques. Il existe en effet différentes approches quel’on pourrait globalement scinder en deux groupes: les approches syntaxiques d’une part,principalement représentées par les travaux de la phonologie prosodique (Selkirk 1984;Nespor & Vogel 1986) et les approches prosodiques d’autre part, qui vont tenter de définir lesconstituants en faisant références à des critères purement intonatifs et/ou prosodiques (Hirst &Di Cristo 1984; Jun & Fougeron 2000).145


Proceedings of IDP 09Dans le cadre de la théorie autosegmentale-métrique (Pierrehumbert 1980, Ladd 1996)trois modèles de l'intonation du français ont été élaborés (Hirst & Di Cristo 1984; Jun &Fougeron 2000, 2002; Post 2000). Ces trois approches s'accordent sur la définition d'uneunité de rang supérieur, le syntagme intonatif (Intonation Phrase, IP) également appelée UnitéIntonative (Hirst & Di Cristo 1984) et sur une unité de rang inférieur définit et appelée demanière différente selon les auteurs. Chez Jun & Fougeron (Jun & Fougeron 1995, 2000,2002) cette unité est le domaine de l'accent primaire et est caractérisée par une montée finaleobligatoire de la F0 (LH*) accompagnée d'un allongement et d'une montée optionnelle (LHi).Chez Post (2000) cette unité de rang inférieur à l'UI est une unité rythmique appelée syntagmephonologique (Phonological Phrase, PP) et définie en faisant appel à des règlesphonologiques et syntaxiques. Post propose d'expliquer la formation des PP dans le cadre del'étude de l'interface syntaxe/phonologie en se fondant sur des contraintes métriques et descontraintes d'alignement se réfèrant à des catégories syntaxiques. La figure suivante illustreles deux hiérarchies prosodiques postulées pour le français par Jun & Fougeron (Jun &Fougeron 2002) et Post (Post 2000).Jun & Fougeron (2002) Post (2000)Figure 1: Schéma des modèles de hiérarchie prosodique proposés pour la français par Jun & Fougeron (2002)et Post (2000) tiré de D'Imperio et al. 2007.Enfin dans les développements les plus récents du modèle de Di Cristo & Hirst (Di Cristo &Hirst, 1993), l'unité inférieure à l'IP est appelée Unité rythmique, UR. Contrairement à l'AP deJun & Fougeron, l'UR de Di Cristo & Hirst n'est pas une unité tonale mais une unitérythmique basée sur l'accent. L'UR est dotée du gabarit tonal LH accompagnée d'unallongement. Chez ces auteurs, contrairement aux deux modèles proposés par Post et Jun &Fougeron, l'UR n'est pas l'unité minimale de la hiérarchie prosodique. En effet il existe unetroisième unité: l'unité tonale (UT). La syllabe accentuée de l'UT se distinguerait de la syllabeaccentuée de l'UR car elle ne porte pas de marque d'allongement et sa tête métrique pourraitcorrespondre aussi bien à l'accent initial qu'à l'accent final (Di Cristo & Hirst, 1993). Lavalidité de l'UT a été contestée par Jun & Fougeron pour plusieurs raisons: (1) le fait que ledécoupage en UT ne respecte pas le principe de l'hypothèse des niveaux stricts ("Strict LayerHypothesis") ainsi que (2) le fait que toutes les UTs ne sont pas les mêmes du point de vue deleur réalisation phonétique (plus ou moins de degré d'allongement) et donc du point de vue dela force de la frontière (Jun & Fougeron 2000).146


<strong>Actes</strong> d’IDP 09Un niveau de constituance intermédiaire correspondant au syntagme intermédiaire(Intermdiate Phrase, ip) ou au syntagme phonologique majeur (Major Phonological Phrase,MAP; Selkirk 2000) postulé pour d'autres langues telles que l'anglais (Beckman &Pierrehumbert 1986), l'italien (D'Imperio 2002), la catalan (Prieto à paraître; Feldhausen2008) ou l'arabe du Caire (Helmuth 2007) a également été postulé pour le français bien queson existence soit toujours soumis à controverse. Dans les langues à accent lexical telles quel'anglais ou l'italien, l'ip est le domaine du downstep et il est borné à sa droite par un accent desyntagme (phrase accent). Au delà de la frontière de l'ip, le registre tonal est réinitialisé (carl'abaissement des tons H successifs est bloqué). Dans leur description de l'intonation dufrançais, Jun & Fougeron (Jun & Fougeron, 2000) n'ont pas retrouvé les mêmes propriétésphonologiques de l'ip mais ont proposé que ce constituant soit marqué à sa droite par unaccent de syntagme (L- ou H- en fonction de la valeur illocutoire de l'énoncé) et que sonapparition soit liée à des structures intonatives complexes comme par exemple des contoursvocatifs, implicatifs ou de listes. Di Cristo & Hirst (1996) ont également postulé un niveau deconstituance similaire, qu'ils appellent segment d'unité intonative (S.UI) afin d'expliquercertaines structures prosodiques telles que les questions tags, les dislocations ou lespostpositions. Selon leur analyse, une UI peut englober plusieurs segments d'UI. Dansl'énoncé (1) issu Di Cristo & Hirst (1996) et cité par Jun & Fougeron (2000), la clauseprincipale de la question tag forme une UI en elle-même qui est englobée dans une plusgrande UI correspondant à l'énoncé dans son ensemble.(1) Une bonne bouteille de Champagne, ça lui plairait?[( ) S.IU ( ) S.UI ] UIIl apparaît donc, aux vues de la littérature, que l'existence d'un constituant prosodique d'ordreintermédiaire en français ne puisse être écartée. Il semblerait également que ce constituant soitlié à des structures syntaxiques spécifiques et que son statut soit marqué. Dans le cadre d'uneligne de recherche assez récente (Generalized Alignment Theory; McCarthy and Prince,1993), le rôle de contraintes d'alignement dans le placement des frontières prosodiques a étédémontré dans différentes langues (Selkirk 1995; Truckenbrodt 1995, 1999; Feldhausen2008). Notre hypothèse est que l'émergence d'un niveau de constituance intermédiaire (ip) enfrançais ne soit pas simplement liée à des structures intonatives spécifiques mais pourraitapparaître sur tout énoncé lorsque les structures syntaxiques et prosodiques le permettent.Nous prédisons qu'une contrainte d'alignement de type (ALIGN-XP,R: "align the right edgeof a syntactic XP with the right edge of a prosodic phrase") conspire à placer une frontièredroite d'ip en correspondance avec une frontière syntaxique majeure lorsque l'ip contient auminimum deux APs. En d'autres termes, la frontière droite d'un constituant prosodique quenous définissons comme ip serait signalée par des indices tonals tels qu'une montée de F0 (H)ainsi que des indices prosodiques d'ordre acoustique plus forts que les mêmes indices associésà une frontière d'AP à l'intérieur d'un ip. (D'Imperio & Michelas in press).Une étude de Michelas & D'Imperio (Michelas & D'Imperio 2009) menée sur 40phrases lues à 4 reprises par 10 locuteurs de langue maternelle française a montré quel'allongement de la syllabe est significativement plus important lorsque la frontière d'APcorrespond à une frontière syntaxique majeur (figure 2a) que lorsque la frontière d'AP n'estassociée à aucune frontière de projection syntaxique maximale (figure 2b). Ces résultatssuggèrent que les indices prosodiques présents aux frontières prosodiques sont renforcéslorsqu'il y a alignement entre structure syntaxique et structure prosodique.147


Proceedings of IDP 09Figure 2a: Courbe de F0 pour la phrase "Gregory demandait la musicienne" dont le SN sujet "Gregory" estcomposé d'un AP.Figure 2b: Courbe de F0 pour la phrase "Le mari d'Amanda réclamait sa bicyclette" dont le SN sujet "Le marid'Amanda" est composé de deux APs.Dans l'étude présentée ici nous avons comparé les propriétés de voyelles contenues dans desénoncés de type SVO dont la structure du syntagme nominal sujet pouvait varier et contenirsoit 2 APs (figure 3a) soit 3 APs (figure 3b).Fig. 3a: Courbe mélodique pour la phrase “La mamie des amis de Rémy demandait l’institutrice” où le SN sujetest composé de 2 APsFig. 3b: Courbe mélodique pour la phrase “La mamie des amis de Rémy demandait l’institutrice” où le SN sujetest composé de 3 APsNous nous sommes attachées à comparer les propriétés acoustiques des syllabes associées àune frontière d'ip ([mi] de Rémy dans la phrase illustrée dans la figure 3a) avec des syllabesassociées à une frontière d'AP à l'intérieur de l'ip ([mi] de "amis" dans la phrase illustrée dansla figure 3b). Notre hypothèse était que, aussi bien les valeurs de F0 que le degréd'allongement de la voyelle, seraient plus importants lorsque la syllabe cible est à la fois enposition finale d'AP et finale d'ip, que lorsque la syllabe cible est simplement en positionfinale d'AP. Ensuite nous nous sommes intéressées à la structuration globale de l'IP afin dedéterminer s’il existe une relation entre les montées mélodiques à l'intérieur de ce constituant.Il a été postulé qu'une frontière d'ip bloquerait l'abaissement des cibles hautes dû au downstep(Beckman & Pierrehumbert 1986). Ceci serait vrai pour plusieurs langues et on aurait donc unphénomène de reset, c'est-à-dire un retour à des valeurs semblables à celles que l'on retrouve148


<strong>Actes</strong> d’IDP 09au début d'une ip, après une frontière d'ip. Toutefois, des phénomènes de reset partiel (lorsquela F0 ne revient pas à des valeurs semblables à celles que l'on retrouve au début d'une ip) ontété observés après une frontière dans des langues germaniques telles que l'anglais (Ladd,1988), le hollandais (Van den Berg et al. 1992) ou l'allemand (Truckenbrodt 2002). Cecisemble confirmer l'hypothèse d'une organisation de l'IP en constituants prosodiques structuréshiérarchiquement, où l'un serait subordonné par rapport à l'autre (cf. Truckenbrodt & Féry2005) ce qui se manifesterait par un abaissement du registre du constituant subordonné. Notrehypothèse est qu'un phénomène de reset partiel intéresserait la montée du premier AP audébut de la seconde ip du syntagme intonatif (Hpb dans les figure 3a et 3b).Nous émettons également l'hypothèse d'un blocage du downstep des cibles hautes pourchaque LH* en final d'AP devant une frontière d'ip. Autrement dit, selon nos prédictions,nous postulons que H3 (figure 3b) qui se trouve en final en d'ip sera plus haut que H2 (figure3b) qui n'est pas en finale d'ip.2. Méthode2.1. MatérielUn corpus de 4 paires de phrases de type SVO avec différentes structures de syntagmenominal sujet a été construit. Chaque paire de phrase était caractérisée parune première phrase dont le SN sujet est composé de deux APs et par une deuxième phrasedont le SN sujet est composé de 3 APs.Les syllabes cibles étaient de type CV et composées d'une voyelle antérieure non arrondiehaute /i/ pour la moitié des phrases et basse /a/ pour l'autre moitié. La consonne précédant lavoyelle était toujours voisée mais son mode d'articulation pouvait varier (consonne liquide /l/ou /r/ ou nasale /m/ ou /n/). Dans le but de faciliter l'analyse de la fréquence fondamentale(F0), la consonne qui suit la syllabe cible était toujours une consonne voisée /d/ (cf. Di Cristo1978 pour une analyse des phénomènes microprosodiques). Les syllabes cibles étaient situéesen finale de constituant et donc associées à une frontière de constituant qui pouvait être soitune frontière d'AP soit une frontière d'ip. L'ensemble des phrases utilisées dans le corpus estillustré dans la figure 4.VoyelleSN sujet contenant 2APsSN sujet contenant 3APs1 haute La mamie de Rémy demandait l'institutrice.2 haute Le mari de Carry deviendra un grand docteur.3 basse Le sauna d'Héléna deviendra la plus connu.La mamie des amis de Rémy demandait l'institutrice.Les carries du mari de Carry demandaient des soinsurgents.La nana du sauna d'Héléna devenait vraiment méchante.4 basseLe trois-mâts de Thomas devance tous les autresbateaux.Figure 4: Phrases du corpus.Le schéma du trois-mâts de Thomas devenait vraimentbrouillon.2.2. Participants et ProcédureDeux locuteurs de langue maternelle française et de sexe féminin ont lu les phrasesrandomisées à quatre reprises en vitesse de parole normale et en vitesse de parole rapide149


Proceedings of IDP 09puisque nous savons que la vitesse de parole affecte de manière significative le découpage enconstituants prosodiques (Fougeron & Jun 1998). Un total de 128 phrases expérimentales aété obtenue (8 phrases expérimentales x 2 vitesses de discours x 4 répétitions x 2 locuteurs).Les enregistrements ont été réalisés dans la chambre sourde du laboratoire Parole et Langage.Les phrases ont été présentées sur un écran d'ordinateur. Les participants ont été soumis à 6phrases tests avant de démarrer l'expérimentation.Les valeurs de la Fréquence fondamentale (F0) ainsi que la durée des voyelles et ciblesont été mesurées. Nous avons également mesuré la hauteur du premier LH* à l'intérieur dudeuxième ip (sur demandaient dans les figure 3a et figure 3b) car nous postulons l'apparitiond'un phénomène de reset partiel qui intéresserait cette section de l'IP.La durée totale de la phrase a également été calculée de manière à vérifier que la vitessede discours était significativement plus importante en vitesse de discours rapide qu'en vitessede discours normale [F(3,124)=0.68297, p


<strong>Actes</strong> d’IDP 09Figure 5: Allongement vocalique de V2 (relatif à V1) dans des SN sujets contenant 2 ou 3 APs (AP num) pourtous les locuteurs, en débit de parole rapide (f, à gauche) et normal (n, à droite).Conformément à nos prédictions, V2 calculée par rapport à V1, était significativement pluslongue dans la condition 2 APs que dans la condition 3 APs. La durée de la voyelle variaitdonc en fonction de sa position à l'intérieur de l'ip: elle était significativement plus longuelorsqu'elle était en position finale d'ip que lorsqu’elle était en position finale d'AP qui n'étaitpas le dernier de l'ip. Notons également que le degré d'allongement était plus important envitesse de discours normal qu'en vitesse de discours rapide.La figure 6 illustre la hauteur de H2 dans la condition 2 ou 3 APs (AP num) à vitesse deparole rapide (f, à gauche) et normale (n, à droite). Les valeurs de H2, regroupées pour nosdeux locuteurs, sont exprimées en tant que ratio de H1. Dans un premier temps, nous allonsvérifier que le downstep des LH* successifs à l'intérieur de l'ip est bloqué en frontière droitede l'ip. En d'autres termes, nous prédisons que le H2 dans la condition 2 APs (en positionfinale d'ip) sera plus haut que le H2 dans la condition 3 APs (en position finale d'AP qui n'estpas le dernier AP de l'ip). Conformément à nos hypothèses, H2 était significativement plushaut dans les phrases où le SN sujet contenait 2 APs que dans les phrases où le SN sujetcontenait 3 APs indépendamment de la vitesse de discours, bien que cette différence soit plusmarquée pour la vitesse de discours rapide que pour la vitesse de discours normale. Cesrésultats confirment que si les tons H en final d'AP sont abaissés à l'intérieur de l'ip, cetabaissement est bloqué à la frontière droite de ce même ip.151


Proceedings of IDP 09Figure 6: Ratio des valeurs de F0 de V2 (relatives à V1) dans des SN sujets contenant 2 ou 3 APs pourtous les locuteurs, en débit de parole rapide (f, à gauche) et normal (n, à droite.)Deux modèles mixtes ont été réalisés séparément pour les valeurs de durée de V2 calculée parrapport à V1 et les valeurs de F0 de H2 calculée par rapport à H1. Les deux modèles avaientle débit (normal/rapide), le type de SN (2 APs/3 APs), le type de voyelle (/a/ vs. /i/) et lelocuteur (CD/CP) en tant qu'effets fixes et la consonne précédente en tant qu'effet aléatoire.Pour une discussion sur l'avantage de ce type de modèle, nous renvoyons le lecteur àl'ouvrage de Baayen (Baayen, à paraître). Les deux modèles ont montré que H2 étaitsignificativement plus haut dans la condition 2 APs que 3 APs quelque soit la vitesse deparole (vitesse de parole normale: t=-3.67, p


<strong>Actes</strong> d’IDP 09Figure 7: Ratio des valeurs de F0 pour H- et Hpb relatives à H1 pour tous les locuteurs, en débit deparole rapide (f, à gauche) et normal (n, à droite)4. DiscussionLes résultats obtenus ont mis en évidence le fait que les valeurs de F0 ainsi que le degréd'allongement d'une voyelle sont significativement plus importants lorsque cette voyelle estcontenue dans une syllabe qui est à la fois en position finale d'AP et d'ip que lorsque lasyllabe est simplement en position finale d'AP. Ces résultats vont donc dans le sens del'existence d'un syntagme intermédiaire en français qui ne serait pas limité à des structuresprosodiques spécifiques contrairement à ce qui a été proposé par Jun & Fougeron (2000) ouconcernant le segment d'Unité Intonative mis en évidence par Di Cristo & Hirst (1996). Selonnos prédictions, une frontière de syntagme intermédiaire pourrait apparaître dans tout énoncéen français dès lors que les structures syntaxiques et prosodiques le permettent. Unecontrainte d'alignement de type (ALIGN-XP,R) engendrerait la mise en place d'une frontièred'ip en correspondance avec une frontière de constituant syntaxique majeur (de type SN/SVpar exemple) lorsque celui-ci est composé d'au moins deux APs. Cette frontière semble êtresignalée par un retour à la ligne de référence (symbolisée par la ligne en pointillée dans lafigure 8) pour le registre de la phrase qui est donné par la valeur du premier pic de F0 (H1),ainsi qu'un degré d'allongement plus important que ce que l'on retrouve à la frontière d'unsimple syntagme accentuel (AP).Figure 8: Schématisation du reset total (retour à la ligne de référence symbolisée par la ligne pointillée) avantla frontière d'ip et du reset partiel après la frontière d'ip dans les phrases où le SN sujet était composé de 3 APs.153


Proceedings of IDP 09Le retour à la ligne de référence semble être un processus phonologique que l'on retrouvedans d'autres langues que le français telles que l'allemand (Truckenbrodt 2002) pour signalerla présence d'une frontière prosodique. Nous proposons donc que la frontière d'ip soitmarquée en français par un contour intonatif montant dû à la présence d'un accent desyntagme H- qui déterminerait le retour à la ligne de référence pour le registre de ceconstituant et donc bloquerait l'abaissement itératif des tons H non initiaux à l'intérieur de sesfrontières. De plus, ce constituant serait caractérisé par un allongement de la syllabeimmédiatement précédant la frontière qui est plus important que l'allongement observé enfrontière d'AP. De plus, nos résultats vont dans le sens de l'hypothèse d'un phénomène dereset partiel après la frontière d'ip en Français. Le premier LH* du second ip (Hpb, figure 3aet figure 3b) était en effet toujours plus bas que H1 et donc que la ligne de référence duregistre pour le premier ip. Le registre relatif à chaque cible haute non initiale est schématisédans la figure 8. Nous proposons donc que la frontière d'ip soit non seulement marquée par unretour à la ligne de référence marquée par le premier LH* du syntagme et soit égalementcaractérisée par un phénomène de reset partiel après la frontière l'ip. Ces résultats,conformément à ce qui a été démontré pour d'autres langues que le français (Ladd 1988; Vander Berg et al. 1992; Truckenbrodt & Fery 2008), vont dans le sens de l'existence de plusieurstypes de downstep qui seraient emboîtés l'un dans l'autre: un downstep relatifs aux accentsserait emboité dans un downstep relatif aux domaines prosodiques.En ce qui concerne l'effet de vitesse d'élocution, nous n'avons pas observé dephénomènes d'effacements de frontière (et donc une augmentation du nombre de syllabes parconstituant prosodique), conformément à ce qui avait été montré dans une étude antérieure(Fougeron et Jun 1998). En revanche et de façon inattendue, nous avons enregistré des valeursde registre en frontière d'ip plus hautes en débit rapide qu'en débit lent. Ceci pourrait êtreexpliqué par l'affaiblissement des indices acoustiques liés à la durée en débit rapide quidonnerait lieu à un phénomène compensatoire de la part des indices mélodiques afin de mieuxsignaler à l'auditeur la présence d'une frontière prosodique. Cependant étant donné qu'il a étémontré que la vitesse de discours influe sur le découpage prosodique (Fougeron & Jun 1998)des études plus approfondies en vitesse de discours rapide sont nécessaires afin de mieuxdéterminer quels effets peuvent avoir une augmentation de la vitesse de parole sur leplacement des frontières d'ip (Michelas & D'Imperio in press). Dans le but d'assoir l'existencede l'ip au sein de la hiérarchie prosodique du français, des études de corpus de parole semispontanéeet spontanée sont également nécessaires.5. ConclusionDes preuves de la présence d'un constituant prosodique intermédiaire, l'intermediate phraseou ip, ont été apportées dans cette étude qui révèle certaines des propriétés phonétiques etphonologiques de ce constituants précédemment ignorées. Parmi ces propriétés acoustiques,nous avons montré qu'en frontière d'ip la syllabe finale est marquée par un allongement ainsique par des valeurs de F0 plus importantes que celles associées à des tons H non-finaux d'ip.D'un point de vue phonologique, nous proposons que la frontière droite d'ip soit signalée à lafois par un retour à la ligne de référence marquée par le premier LH* de l'énoncé (phénomènede reset total) mais également par un phénomène de reset partiel qui affecterait le premierLH* de l'ip suivant. Enfin, nous proposons que la présence d'une frontière d'ip ne soit pasforcement liée à des structures syntaxiques ou prosodiques marquées, mais qu'il existerait unecontrainte d'alignement entre la frontière droite d'une projection syntaxique maximale et lafrontière droite d'un ip (Align XP, R) lorsque cet ip est composé d'au moins deux APs. Desétudes futures seront consacrées à l'observation d'une possible interaction entre cette154


<strong>Actes</strong> d’IDP 09contrainte et des contraintes purement prosodiques telles que la longueur et le poids duconstituant (Michelas & D'Imperio in press).RéférencesBaayen, R. H. (à paraître). Analyzing Linguistic Data : A practical introduction to Statistics.! Cambridge :Cambridge University Press.!Beckman, M. & J. Pierrehumbert (1986). Intonational Structure in Japanese and English, Phonology Yearbook 3,pp. 15-70.Boersma, P. & D. Weenick (2007). Praat: doing phonetics by computer (Version 4.5.18), http://praat.org/.Delais-Roussarie E. (1995). Pour une approche probabiliste de la structure prosodique, étude de l’organisationprosodique et rythmique de la phrase en française. Thèse de Doctorat, Université de Toulouse-le-Mirail.Di Cristo, A. (1976). Des indices prosodiques aux traits perceptuels: application d’un modèle d’analyse à l’étudedu vocative en français. Travaux de l’Institut de Phonétique d’Aix 3, pp. 213-358.Di Cristo, A. (1978). De la microprosodie à l’intonosyntaxe. Thèse de Doctorat, Université de Provence, France.Di Cristo, A. & D. Hirst (1993). Rythme syllabique; Rythme mélodique et représentation hiérarchique de laprosodie du français. Travaux de l’Institut de Phonétique d’Aix 15, pp. 9-24.Di Cristo, A. & D. Hirst (1996). Vers une typologie des unités intonatives du français. XXIème JEP (Avignon,France), pp.219-22.D’Imperio, M.P. (2002). Italian intonation: An overview and some questions. Probus 14 :1, pp.37-69.D'Imperio, M.P., R. Bertrand, A. Di Cristo & C. Portes (2007). Investigating phrasing levels in French : Is therea difference between nuclear and prenuclear accents? Camacho, J., V. Deprez, N. Flores & L. Sanchez,Selected Papers from the 36th Linguistic Symposium on Romance Languages (LSRL). New Brunswick: JohnBenjamins Publishing Company, pp. 97-110.D’Imperio, M.P. & A. Michelas (in press). Mapping syntax onto prosodic structure: evidences for theintermediate phrase in French.Feldhausen I. (2008). The Prosody-Syntax Interface in Catalan, PhD Thesis, University of Postdam.Fougeron, C. & C.A. (1998). Rate Effects on French Intonation : Phonetic Realization and ProsodicOrganisation. Journal of Phonetics 26, pp. 45-70.Hellmuth, S. (2007). The relationship between prosodic structure and pitch accent distribution: evidence fromEgyptian Arabic. The Linguistic Review 24, pp. 291-316.Hirst, D. & A. Di Cristo (1984). French intonation: a prametric approach. Die NEuren Sprache Bd 83, Heft 5,pp. 554-569.Jun S.A. & C. Fougeron (1995). The Accentual phrase and the Prosodic structure of French. Proc. ICPhS(Stockholm, Sweden) 2, pp.722-725.Jun S.A. & C. Fougeron (2000). A phonological model of French intonation, Probus, 14, pp. 147-172.Jun S.A. & C. Fougeron (2002). The Realizations of the accentual phrase in French intonation. Probus 14,pp.147-172.Ladd, D.R. (1988). Declination "Reset" and the Hierarchical Organization of Utterances. Journal of theAcoustical Society of America 84, pp. 530-544.Ladd, D.R. (1996). Intonational Phonology. Cambridge University Press.McCarthy, J. & A. Prince (1993). Generalized alignment. Technical Report 7, Rutgers University Center forCognitive Science.Mertens, P. (1987). L’intonation du français, Thèse de Doctorat, Université catholique de Louvain.Michelas, A & M.P. D’Imperio (2009). Is There an Intermediate Phrase in French ? Poster presented at theconference Phonetics and Phonology in Iberia, Las Palmas de Gran Canaria, june.Michelas, A. & M.P. D’Imperio (in press). Durational cues and prosodic parsing in French: evidences for theintermediate phrase.Michelas, A. & M.P. D’Imperio (in press). Phonetic cues and phonological constraints in prosodic unitdefinition: evidence for the intermediate phrase in French.Nespor, M. & I. Vogel (1986). Prosodic Phonology. Dordrecht: Foris.Pasdeloup, V. (1990). Modèles de règles rythmiques du français appliqué à la synthèse de la parole. Thèse dedoctorat, Université de Provence.Pierrehumbert, J. (1980). The phonetics and phonology of English intonation. Ph.D. thesis, MIT.Prieto, P. (à paraître). “The Intonational Phonology of Catalan”. Jun S. A. (eds.), Prosodic Typology 2, OxfordUniversity Press: Oxford.Post, B. (2000). Tonal and phrasal structures in French intonation. The Hague: Holland Academic Graphics.Selkirk, E. (1972). The Phrase Phonology of English and French . Doctoral Dissertation. MIT.155


Proceedings of IDP 09Selkirk, E. (1984). Phonology and Syntax: The relation between sound and structure. Cambridge MA: MITPress.Selkirk, E. (1995). Sentence prosody: intonation, stress, and phrasing. Goldsmith, J. (eds.), The Handbook ofPhonological Theory. Cambridge, MA, and Oxford, UK: Blackwell, pp. 550-569.Selkirk, E. (2000). The interaction of constraints on prosodic phrasing. Horne M. (eds.), Prosody: Theory andExperiment, Dordrecht: Kluwer Academic Publishing, pp. 231-262.Truckenbrodt, H. (1995). Phonological phrases: Their relation to syntax, prominence and focus.DoctoralDissertation, MIT.Truckenbrodt, H. (1999). On the relation between syntactic phrases and phonological phrases. Linguistic Inquiry30: pp. 219-255.Truckenbrodt, H. (2002).Embedded register levels, Phonology 19, pp.77-120.Truckenbrodt, H. & C. Féry (2005) Sisterhood and tonal scaling. Horne M. & M. Van Oostendorp (eds.),Boundaries in intonational phonology (Studia Linguistica 59.2/3), , pp.223-243.Vaissière, J. (1974). On French Prosody. Quarterly Progress Report (MIT) 114, pp. 212-223.Van den Berg, R., C. Gussenhoven, & T. Rietveld (1992). Downstep in Dutch: Implications for a model.Docherty, G.J. & D. R. Ladd (eds.), Papers in laboratory phonology II: Gesture, segment, prosody,Cambridge: Cambridge University Press, pp.335-367.Verluyten, P. (1982). Recherches sur la prosodie du français. Unpublished PhD. Thesis, AntwerpenUniversiteit.156


<strong>Actes</strong> d’IDP 09Analyse multimodale des particules d’extension« et tout ça, etc. » en françaisGaëlle FerréGaelle.Ferre@univ-nantes.frUniversité de Nantes – LLINGChemin de la Censive du Tertre, BP 8122744312 Nantes cedex 3Abstract :Les particules d’extension de l’oral soulèvent des questions intéressantes car elles ont été très peu décrites sur leplan de la prosodie, un peu plus sur le plan du discours (voir l’ouvrage de M. Overstreet, 1999, qui décrit lefonctionnement des adjunctive/disjunctive general extenders de l’anglais oral), et les études qui portent sur lamise en relation des unités de la prosodie avec celles du discours ou de la syntaxe ne disposent pas dedescription prosodique détaillée de ce type de particules, ou bien alors de descriptions sommaires etcontradictoires. Il semble de plus que les chercheurs qui décrivent les particules d’extension sur le plan dufonctionnement discursif et syntaxique uniquement aboutissent à des classifications qui font toujours débat àl’heure actuelle. Deux questions se posent concernant ces particules auxquelles je m’efforcerai d’apporter desréponses : (a) les particules d’extension doivent-elles compter comme marqueurs discursifs/pragmatiques(MD) ? et (b) quelle est leur fonction ? Les paramètres multimodaux liés au statut et à la valeur des particulesd’extension me permettront de proposer un traitement phonologique des réalisations phonétiques de surface.1. IntroductionLes particules d’extension (aussi appelées marqueurs finaux de liste dans Lacheret 2004) del’oral soulèvent des questions intéressantes car elles ont été très peu décrites, à maconnaissance, sur le plan du discours (pour les particules du français québécois, voirl’historique qui en est fait dans le mémoire de Serra 2008; voir aussi Dubois 1992; voirégalement l’ouvrage de M. Overstreet 1999, qui décrit le fonctionnement desadjunctive/disjunctive general extenders de l’anglais oral, ainsi que deux de ses articles :Overstreet 2005; Overstreet & Yule 2002). Parmi ces travaux, les seules études quimentionnent les caractéristiques prosodiques de ces particules sont celles de Dubois (1992)pour le français québécois et Overstreet (1999) pour l’anglais. Leur description prosodique yest succincte et les études qui portent sur la mise en relation des unités de la prosodie aveccelles du discours ou de la syntaxe ne disposent pas de description prosodique détaillée de cetype de particules difficiles à classer. Il semble de plus que les chercheurs qui décrivent lesparticules d’extension sur le plan du fonctionnement discursif et syntaxique uniquementaboutissent à des classifications qui font toujours débat à l’heure actuelle. Deux questions seposent concernant ces particules auxquelles je tenterai d’apporter des réponses :(a) Les particules d’extension doivent-elles compter comme marqueursdiscursifs/pragmatiques (MD) ? En effet, si certaines études les classent automatiquementparmi les MD (Dines 1980; Dubois 1992; Stubbe & Holmes 1995; Serra 2008), d’autres(Overstreet 1999) s’interrogent sur leur réel statut. De même, les études portant sur les MDplutôt que sur les particules d’extension en tant que telles, peuvent compter ces dernièrescomme MD ou non selon la définition qui en est donnée. Ainsi, Shiffrin (1987:37) donne toutd’abord une définition large des MD en spécifiant qu’ils fonctionnent au niveau du discours,une définition qui peut, dans certains contextes, s’appliquer aux particules d’extension. En157


Proceedings of IDP 09revanche, plus loin, la définition des MD est plus précise sur les plans prosodique, discursif etsyntaxique et les exclut en partie. Cette dernière définition sera reprise par Fraser (1999) quiles exclut donc également. Récemment, des études ont adopté un point de vue intermédiaireen parlant de pragmaticalisation des marques (Beeching 2007; Vincent-Bour 2009). Cesétudes s’inscrivent plutôt dans une approche socio-culturelle ce qui n’est pas le cas du présentarticle, mais le point de vue est intéressant et nous verrons qu’il peut expliquer que desparticules d’extension similaires puissent fonctionner sur des plans différents.(b) Quelle est leur fonction ? En ce qui concerne la fonction des particules d’extension, ilme semble qu’Overstreet (1999) propose une analyse extrêmement fine et nuancée desparticules de l’anglais qui peut parfaitement s’appliquer aux particules d’extension dufrançais. La question en ce qui me concerne est plutôt de savoir si l’on peut déduire lesfonctions discursives des particules à partir des paramètres acoustiques. Je m’interrogeraiégalement, dans une perspective multimodale, sur la co-occurrence de marques gestuellesavec les particules.2. CorpusDans le cadre de cette étude, j’ai travaillé sur un extrait du corpus CID (décrit dans Bertrandet al. 2006, 2008). Il s’agit de trois heures d’enregistrement audio-vidéo de type interactionnelentre trois paires de locuteurs (2 paires femme-femme et une paire homme-homme). Leslocuteurs, assis côte à côte, étaient filmés par une caméra numérique en chambre sourde etenregistrés à l’aide d’un micro-casque. La consigne qui leur avait été donnée était de parler desituations insolites dans lesquelles ils s’étaient trouvés ; il s’agit donc d’interactionsdialogales assez peu contraintes. Le corpus a entre autres été intégralement transcritorthographiquement, la transcription alignée sous Praat 1 . C’est à partir de cette transcriptionque j’ai repéré les particules d’extension de cette étude. Je les ai re-transcrites sous Praat dansune piste distincte à partir de laquelle j’ai pu réaliser différentes annotations (voir plus loin).Dans son ouvrage, Overstreet (1999) fait une liste exhaustive des particules d’extension del’anglais. Dans ce premier travail, j’ai pensé qu’il était préférable de limiter mon choix auxparticules d’extension les plus fréquentes, en laissant de côté pour l’instant les autresparticules. J’ai donc choisi de travailler sur ‘et cetera’ et ‘et tout ça’, ainsi que sur ses deuxvariantes ‘tout ça’ et ‘et tout’, dont voici la répartition pour chaque locuteur :Loc. 1 Loc. 2 Loc. 3 Loc. 4 Loc. 5 Loc. 6 TotalEt cetera 23 2 1 0 4 0 30Et tout 3 0 5 17 3 1 29Et tout ça 0 4 0 1 15 3 23Tout ça 0 7 9 2 3 0 21Total 26 13 15 20 25 4 103Table 1. Répartition des particules d’extension pour chaque locuteur.Trois remarques peuvent être faites à partir de cette répartition : (i) Le locuteur 6 utilisebeaucoup moins de ces particules d’extension que les autres locuteurs, parmi lesquels on peutdistinguer deux groupes : les locuteurs 2 et 3 emploient un nombre comparable de cesparticules d’extension, de même que les locuteurs 1, 4 et 5. Je n’ai pas cherché la raison decette différence entre locuteurs qui fera l’objet d’une future étude, mais deux explications sont1 P. Boersma & D. Weenink. http://www.fon.hum.uva.nl/praat/.158


<strong>Actes</strong> d’IDP 09possibles : soit certains locuteurs emploient moins de particules d’extension que d’autres, soitils emploient d’autres particules que celles qui ont été analysées ici. (ii) La deuxièmeremarque que l’on peut faire est que chaque locuteur se ‘spécialise’ dans l’emploi d’uneparticule par rapport aux autres. Par exemple, le locuteur 1 emploie presque exclusivement ‘etcetera’, alors que pour le locuteur 4, c’est ‘et tout’ qui est largement privilégié et ‘et tout ça’pour le locuteur 5. Les écarts sont moins marqués pour les autres locuteurs, qui emploientglobalement moins de particules d’extension. Il semble donc que les locuteurs de ce corpusqui emploient le plus grand nombre de particules d’extension le font selon leurs habitudesdiscursives. (iii) Si l’on considère le nombre d’occurrences total pour chaque particuleétudiée, on observe une répartition beaucoup plus homogène, pour un total général de 103occurrences.Afin de voir si le corpus est représentatif du français parlé en ce qui concerne les particulesd’extension, j’ai comparé leur fréquence avec celle d’autres corpus de français parléinterrogés sur transcription (corpus Beeching) ou par concordanciers (CLAPI et Orléans). J’aiconsidéré séparément la particule ‘et cetera’ de la particule ‘et tout ça’ et ses variantes etobtiens les résultats suivants :Corpus CID Beeching CLAPI OrléansDurée 3h 17,5h 30h 80het tout ça 73 62 121 571Nb/h 24,3 3,5 4 7et cetera 30 24 18 157Nb/h 10 1,3 0,6 1,9Table 2. Nombre d’occurrences des particules d’extension étudiéesdans différents corpus de français parlé.Il apparaît dans la Table 2 que le CID comporte une proportion plus importante des particulesd’extension étudiées que les trois autres corpus. Plusieurs explications peuvent êtreenvisagées : la nature des enregistrements (formels – informels, entretiens, enquêtes,conversations authentiques…) peut avoir un impact important sur l’utilisation de ce type departicule, comme le remarque Overstreet (1999:6) : ‘although general extenders are foundboth in spoken and written contexts, the frequency of these forms appears to be highest ininformal, spoken conversation among familiars’ ; certaines formes peuvent avoir échappé àmon attention dans les concordanciers ; les concordanciers ne portent que sur une sous-partiedes enregistrements annoncés (cette explication est certainement la moins probable mais nepeut être absolument exclue) ; les locuteurs des autres corpus utilisent d’autres particulesd’extension (on sait qu’elles évoluent selon des paramètres socio-culturels variés, cf. entreautres Winter & Norby 1999, Wichmann 2005). Il sera intéressant d’interroger de nouveauces corpus (et notamment celui de Beeching qui comporte la transcription en ligne) lorsquej’aurai identifié les autres particules d’extension dans le CID et de refaire la comparaison.Malgré tout, il ressort de cette comparaison que le CID est riche en particules d’extension etle nombre relativement élevé d’occurrences m’a permis de mener cette étude préliminaire.3. Marqueurs discursifs ?Comme je l’ai évoqué dans l’introduction de cet article, le statut des particules d’extensionn’est toujours pas déterminé à l’heure actuelle. En effet, certaines études (Dines 1980; Stubbe& Holmes 1995; Serra 2008) les classent d’emblée parmi les Marqueurs Discursifs (MD). Or,si l’on considère les études portant exclusivement sur les marqueurs discursifs (Schiffrin159


Proceedings of IDP 091987; Fraser 1999) et les critères que fournissent ces études pour la classification des itemscomme MD, il apparaît que les particules d’extension ne répondent pas à l’intégralité de cescritères, que je vais présenter maintenant.3.1. Les critères de reconnaissance des marqueurs discursifs et leur application auxparticules d’extensionDans Schiffrin (1987:328) – critères repris ensuite par Fraser (1999) – les critères declassification des MD sont au nombre de quatre. Le premier critère concerne l’indépendancedes MD dans la structure syntaxique : un MD ‘has to be syntactically detachable from asentence’, c’est-à-dire qu’il est possible d’ôter le MD de la phrase sans la rendreagrammaticale et sans en changer le contenu informationnel. En ce qui concerne ce critère, ilsemble d’ores et déjà qu’il peut parfaitement s’appliquer à certaines particules d’extension,mais pas toutes. Considérons les deux exemples suivants 2 :(1) il avait un très grand chalet et cetera(2) ah mais c’est horrible et ceteraIl me semble qu’il y a une différence sémantique de ‘et cetera’ dans les deux exemples. Eneffet, dans l’exemple (2), ‘et cetera’ n’apporte rien à l’énoncé sur le plan syntaxique ouinformationnel et peut parfaitement être enlevé sans que l’énoncé soit modifié sur ces points.En revanche, dans l’exemple (1), ‘il avait un très grand chalet et cetera’ n’est pas équivalentsur le plan informationnel à ‘il avait un très grand chalet’. Dans l’énoncé ‘il avait un trèsgrand chalet’, le locuteur mentionne une possession de la personne dont il parle à l’exclusiondes autres. En revanche, dans l’exemple (1), le locuteur énonce plus que cela : non seulementla personne dont il est question possédait un très grand chalet, mais elle possédait égalementd’autres signes extérieurs de richesse que le locuteur évoque sans les mentionner. Aussi, onpeut dire que le fait d’enlever ‘et cetera’ dans l’exemple (1) n’est pas possible car cela changele contenu informationnel de l’énoncé, alors que ce n’est pas le cas de l’exemple (2).Le deuxième critère de Schiffrin (op. cit.) est : ‘It has to be commonly used in initialposition of an utterance’. Fraser (1999), reprenant ce critère, va plus loin en mentionnant queles MD doivent pouvoir occuper n’importe quelle position syntaxique dans l’énoncé. Si l’onconsidère les deux exemples cités plus haut, l’on voit immédiatement que ce critère ne peuts’appliquer à aucun des deux exemples, dans lesquels ‘et cetera’ ne peut occuper que laposition finale d’énoncé. C’est d’ailleurs le cas de toutes les particules d’extension du corpus,qui occupent systématiquement la position finale des phrases le plus souvent. Voici quelquesexemples – ils sont en fait assez rares dans le corpus – où la particule est placée en fin degroupe nominal :(3) on en parlait ces jours-ci avec tu vois Isabelle Armelle tout ça # à midi # ou Roxane 3(4) quand on aura un terrain tout ça une maison à nous(5) il était condamné à foutre le téléphone euh l’accès internet et tout ça tout du même côtéDans l’exemple (3), on pourrait penser à première vue que ‘tout ça’ a été déplacé dans la listeénoncée par le locuteur pour venir s’insérer en position médiane, or, l’impression que l’on a àl’écoute de l’énoncé, est que ‘à midi’ et ‘ou Roxane’ ont été ajoutés après-coup par le locuteurà une liste qui était initialement projetée comme complète avec ‘Isabelle Armelle’.2 Tous les exemples fournis dans l’article sont tirés du CID.3 # représente une pause silencieuse.160


<strong>Actes</strong> d’IDP 09L’impression est la même pour l’exemple (4). L’exemple (5) est différent dans la mesure où‘et tout ça’ vient clore une liste qui constitue l’un des arguments du prédicat ‘foutre’, l’autreargument, ‘tout du même côté’ étant obligatoirement mentionné après. Mais ces exemplessont très rares dans le corpus encore une fois, et ne sont pas des indices de grande mobilitésyntaxique : dans l’exemple (3), on peut comparer ‘tout ça’ avec ‘tu vois’, un MD reconnudans la littérature et voir que ‘tu vois’ peut occuper un bien plus grand nombre de positionssyntaxique (y compris l’initiale d’énoncé) que ‘tout ça’. Globalement donc, les particulesd’extension ne répondent pas au deuxième critère de Schiffrin.Le troisième critère de Schiffrin est d’ordre prosodique : ‘it has to have a range of prosodiccontours’. Je parlerai plus loin de l’annotation prosodique des particules d’extension, mais jepeux dire d’ores et déjà que c’est tout à fait le cas en ce qui les concerne puisqu’elles peuventêtre prononcées avec un contour intonatif montant, descendant ou bien plat, et de surcroîtdans des plages intonatives variées. Ainsi, les particules d’extension répondent-elles tout àfait à ce troisième critère.Enfin, le quatrième critère de Schiffrin est d’ordre discursif/pragmatique : ‘it has to be ableto operate at both local and global levels of discourse, and on different planes of discourse’.Ce qu’elle entend par là est que la portée du MD doit être l’énoncé, et non pas une portéeétroite comme un argument du prédicat. Ainsi, l’information apportée par le MD sera denature plutôt métadiscursive que discursive. Voyons les exemples (6) et (7) :(6) et elle pareil tu sais c’était une fana de # ils étaient bien trouvés à ce niveau-là d’ailleursle # tu sais tout ce qui était Provence et tout tout ça(7) c’est une humoriste niçoise # t’as jamais entendu Mado la Niçoise là # tout ça # ahputain c’est excellent(8) c’était devenu carrément gras inintéressant et tout çaDans l’exemple (6), la particule d’extension ‘tout ça’ intervient après une autre particule ‘ettout’ et il me semble que de ce fait, il y a une différence de portée entre les deux particules : laparticule ‘et tout’ porte sur le groupe ‘tout ce qui était Provence’ et vient le définir (on doitcomprendre ‘les motifs provençaux’, ‘la cuisine provençale’, etc). En revanche, la deuxièmeparticule ne peut plus être comprise comme ayant la même portée. Elle a plutôt une portéebeaucoup plus large et vient ponctuer l’énoncé dans son intégralité. Dans l’exemple (7), ‘toutça’ me semble également avoir une portée large au niveau de l’énoncé, car pour le locuteur, iln’est jamais question d’autres humoristes que celle qui est mentionnée et dont il rapporterades sketches. De plus, il intervient après un ponctuant ‘là’ qui le sépare de ‘Mado la Niçoise’sur laquelle il ne peut porter par conséquent. Ces deux exemples peuvent être comparés à (8)ou une interprétation de portée large est impossible puisque ‘et tout ça’ vient ponctuer la liste‘gras, inintéressant’ (portée restreinte) et ne peut être compris comme ayant une portée largeavec une valeur métadiscursive de ponctuant d’énoncé. On le voit donc, la portée desparticules d’extension est variable, et certaines d’entres elles répondent au quatrième critèrede Schiffrin, mais pas toutes. Or, c’est précisément cette notion de portée large qui incitePaillard (2004) à classer certaines occurrences de ‘déjà’ en français comme MD et non pascomme simple adverbe. De même, Bertrand et Chanet (2005:51) classent certainesoccurrences de ‘enfin’ comme MD pour lequel, lorsqu’il ‘n’a pas de fonction syntaxique dansl’énoncé, ne participe pas au contenu propositionnel, et n’intervient pas dans la référenceconstruite : son rôle est métadiscursif, il est censé signaler une opération du locuteur qui peutêtre exploitée pour favoriser l’interprétation’. Dans le cas des particules d’extension, on a vu àtravers les exemples (6) et (7) que cette définition peut s’appliquer à certaines d’entre elles et161


Proceedings of IDP 09que celles-ci peuvent alors être interprétées comme des ponctuants du discours (Morel etDanon-Boileau 1998), comme le remarque Dubois (1992:182) ce qui leur confère un rôle deprojection d’une clôture : ‘as they always appear after the sentence or phrase, extensionparticles are either connection markers, change-of-theme markers, or end-of-discoursemarkers, depending on what type of break they mark’.Si l’on reprend maintenant l’ensemble des critères de Schiffrin, on voit se dessiner deuxclasses de particules d’extension : dans l’une de ces classes, les particules joueraient un rôlede simples locutions adverbiales et leur portée serait étroite ; en dehors du critère prosodique,aucun des critères de Schiffrin ne s’appliquerait. Dans la deuxième classe, les particulesd’extension joueraient un rôle de MD et seul le deuxième critère – la position en initialed’énoncé – ne pourrait pas s’appliquer, ceci étant dû à leur fonction particulière de ponctuant.C’est sur cette base que j’ai étiqueté certaines particules d’extension du corpus comme MD,alors que les autres ont été considérées comme simples locutions (LOC), ce qui rejointl’analyse plus intuitive qu’en avait fait Overstreet (1999). Les annotations réalisées sur lesparticules d’extension sont décrites ci-dessous.3.2. Annotations réalisées sur les particules d’extensionDans un premier temps, j’ai tout d’abord distingué les MD des simples locutions adverbiales(LOC) en utilisant un double critère. En considérant que le rôle des particules d’extension àstatut de MD était de ponctuer l’énoncé, j’ai considéré comme MD uniquement les particulesqui étaient suivies d’une pause (silencieuse ou reprise de souffle audible). Parmi cesparticules, j’ai exclu celles qui autorisaient une lecture en portée restreinte comme dansl’exemple (3) repris en (9) :(9) on en parlait ces jours-ci avec tu vois Isabelle Armelle tout ça # à midi # ou RoxaneEn effet, dans ce cas il n’est pas du tout exclu (et même plus probable) que la portée de laparticule soit limitée à ‘Isabelle Armelle’. Donc, même si la particule est suivie d’une pausesilencieuse, je ne l’ai pas comptée comme MD. J’obtiens ainsi un total de 19 MD contre 84LOC. Sur toutes les particules, j’ai ensuite réalisé les annotations suivantes :ANNOTATIONS SYNTAXIQUES (REALISEES SOUS PRAAT)• Portée syntaxique des particules (GN, PV, NV, GA, GR – groupe adverbial)ANNOTATIONS DISCURSIVE (REALISEES SOUS ANVIL 4 )• Présence d’un backchannel (réponse minimale de l’interlocuteur) verbal, vocal ougestuel après la particuleANNOTATIONS PROSODIQUES (REALISEES SOUS PRAAT)• Mouvement mélodique (montant, descendant, plat)• Plage intonative (haute, moyenne, basse)• Accentuation nucléaire (accent principal de syntagme intonatif, ‘Intonational Phrase’,Selkirk 2001)• Présence d’une frontière à gauche et à droite de la particule• Allongement syllabique perçu (dans le contexte antérieur immédiat et sur la particule,réduit, non-allongé, allongé)4 Michael Kipp, http://www.anvil-software.de/. Annotation de la gestualité dans le corpus CID en cours dans lecadre du projet ANR « blanc » OTIM (Outils pour le Traitement de l'Information Multimodale, 2008-2011).162


<strong>Actes</strong> d’IDP 09ANNOTATION GESTUELLES (REALISEES SOUS ANVIL)• Mouvements de tête (hochements, mouvements de négation…)• Gestes manuels 5 (iconiques, métaphoriques, déictiques battements, emblèmes,adaptateurs)3.3. Résultats sur le statut des particules d’extensionsEn ce qui concerne la répartition des MD, les tests de proportion 6 montrent tout d’abord queles particules d’extension ‘et cetera’ et ‘tout ça’ sont plus susceptibles de jouer un rôle de MDque ‘et tout ça’ et ‘et tout’ (X-squared=4.18, df=1, p-value=0.04). Sur le plan prosodique, ilapparaît que les MD sont régulièrement désaccentués – ne portent pas l’accent nucléaire (Xsquared=4.52,df=1, p-value=0.03) et sont réduits ou non-allongés (X-squared=7.09, df=1, p-value=0.007). Sur le plan de la réduction en revanche, les chiffres ne sont pas très fiables dansla mesure où seul ‘tout ça’ est réduit perceptiblement (il est prononcé [tsa] au lieu de [tusa])dans seulement 4 occurrences (quantité négligeable si l’on considère le nombre total de 103particules d’extension). Il faudrait refaire le calcul avec non pas une réduction perçue, maisune réduction de durée calculée sur les moyennes des durées phonémiques dans desenvironnements similaires, peut-être aussi une réduction des cibles formantiques. Enfin, ilapparaît que les MD sont plus souvent rattachés au syntagme intonatif qui précède que lesLOC (X-squared=6.22, df=1, p-value=0.01). Il y a dans ce cas absence de frontière intonative(pas de rehaussement intonatif sur la particule d’extension, mouvement mélodique continuavec ce qui précède, pas de réinitialisation de l’intensité sur la particule) entre le groupe quiprécède la particule et la particule elle-même qui est désaccentuée. En revanche, les MDmontrent une aussi grande variété de contours mélodiques et de plages intonatives que lesLOC, à la différence d’un ponctuant comme ‘quoi’ qui est souvent décroché en plage basse eta un contour mélodique plat.Sur le plan de la gestualité, les MD sont plus souvent que les LOC accompagnés de gestesmanuels (X-squared=4.63, df=1, p-value=0.03) – contrairement à ce que je pensais trouverinitialement (je croyais que les locutions à valeurs d’extension de liste, cf. section 4. pour laterminologie, seraient plus favorables à ce type de gestualité, et c’est aussi le cas). Parmi cesgestes manuels, ce sont plus précisément les gestes métaphoriques qui sont le plus souventemployés avec le MD (X-squared=3.78, df=1, p-value=0.05). Les gestes métaphoriquesservent à exprimer les idées abstraites du discours.Dans la figure 1, la locutrice fait un mouvement rotatif des deux mains ce qui peut êtrecompris comme le déroulement des différentes actions mises en œuvre par le sujet ‘ils’. Sur leplan de la synchronisation discours/geste, il est d’ailleurs intéressant de noter que le gestecommence bien avant la production du MD sur la proposition ‘ils essayaient de me parler toutdoucement’ et s’arrête juste à la fin de la pause qui suit le MD, après quoi la locutriceenchaîne, sans phase de rétraction, avec un geste déictique sur le discours qui suit ‘surtout quemoi à un moment je commençais à m’énerver’. De cette manière, le MD forme une seuleunité gestuelle avec le groupe intonatif qui le précède. Cette unité gestuelle va de pair avecl’unité prosodique puisque qu’il n’y a pas de frontière intonative entre la proposition quiprécède et le MD qui est désaccentué.5 Les gestes manuels présentent une grande variabilité de forme, c’est pourquoi McNeill (1992) les regroupe encatégories selon leur relation au discours : les iconiques figurent des idées concrètes, les métaphoriques, desidées abstraites. Les déictiques sont des gestes de pointage, et les battements, des gestes de scansion du discours.A cette typologie, j’ai ajouté les emblèmes, gestes conventionnels, et les adaptateurs, gestes de contact(Descamps 1989).6 Statistiques réalisées sous ‘R’, http://www.r-project.org/.163


Proceedings of IDP 09! ! !Figure 1. Geste métaphorique sur ‘ils essayaient de me parler tout doucement tout ça’Enfin, toujours sur le plan de la gestualité, on observe que seul ‘et cetera’ est plus souventaccompagné de mouvements de tête que les autres particules (X-squared=4.29, df=1, p-value=0.03), mais on sait que ‘et cetera’ fait partie des deux particules auxquelles sontassignées le statut de MD de façon privilégiée, même si je ne peux établir un lien direct entrela production des mouvements de tête et le statut de MD accordé aux particules.La présence de gestes manuels métaphorique avec les MD, ainsi que la présence demouvements de tête avec ‘et cetera’ semble aller de pair avec le rôle pragmatique des MD quiindique la prise en compte de la dimension interlocutive dans l’interaction par le fait même dedonner à l’interlocuteur des indications d’ordre métadiscursif. Ces gestes sont d’ailleurs sansdoute accompagnés d’un regard vers l’interlocutrice, mais je n’ai cependant pas annoté ladirection du regard de manière systématique et ne suis pas en mesure de valider cettehypothèse à l’heure actuelle.L’annotation des backchannels m’a permis de voir comment est reçu le marqueur parl’interlocuteur. La valeur du MD me semble très proche de celle que décrit Noda (2005) pourle marqueur ‘hein’, ainsi que la valeur co-énonciative ‘d’appel à l’autre’ de ‘hein’ donnée parMorel & Danon-Boileau (1998:101), car les particules d’extension font appel implicitement àl’univers des connaissances partagées des interlocuteurs, alors que le MD ‘quoi’ permetl’énonciation d’une position ‘qui n’est pas ‘soumise à discussion’ (Morel & Danon-Boileau1998:102). S’il y a appel à l’autre en revanche, on ne peut pas dire qu’il est plus marqué dansle cas des MD que dans celui des LOC, car le test de proportion ne révèle pas plus debackchannels après les MD qu’après les LOC (X-squared=1.45, df=1, p-value=0.22). Il seraitintéressant de comparer ce résultat avec la présence ou l’absence de backchannels après lesMD ‘hein’ et ‘quoi’ afin de voir comment les différents MD sont reçus par l’interlocuteur.Intuitivement, on peut penser que les particules d’extension employées comme MD ont unevaleur intermédiaire entre ‘hein’ et ‘quoi’.3.4. Analyse métrique des LOC et des MDPour revenir à la prosodie, voici l’analyse que l’on peut faire de la réalisation des simpleslocutions par opposition aux MD, selon la théorie de Selkirk (2001, 2003). En ce qui concerneles locutions, tout d’abord, on a vu que le plus souvent elles portent l’accent nucléaire duSyntagme Intonatif ; quant au groupe qui les précède, deux cas de figure se présentent : soit ilforme un syntagme phonologique majeur comme en (10), soit il forme un syntagmephonologique mineur comme en (11).164


<strong>Actes</strong> d’IDP 09(10) Syntagme IntonatifSP MajeurSP MineurMot ProsodiquePied%( ( x)( ( x))( x)( x)( x)( x)( x)( x)( x)( x)( x)( x)( x)x x x x x x x[ ja vel so lEj e tu sa] 7y avait le soleil et tout çaFigure 2. Courbe intonative de ‘y avait le soleil et tout ça’(11) Syntagme IntonatifSP MajeurSP MineurMot ProsodiquePied%( ( x )( ( x))( x)( x )( x)( x)( x )( x)( x)( x)( x)( x )x x x x x x x x x[ u a dot za~dRwa e se te ra]ou à d’autres endroits et ceteraFigure 3. Courbe intonative de ‘ou à d’autres endroits et cetera’En ce qui concerne les MD, (10) et (11) sont bien sûr tout à fait possibles, mais le locuteur aaussi la possibilité de désaccentuer le marqueur au niveau du syntagme phonologique mineur(comme le proposent Kratzer & Selkirk 2007:129-131), ce qui lui permet, en quelque sorte,d’extraire le marqueur de la structure prosodique de surface, comme pour mieux marquer quesa portée n’est pas un élément de l’énoncé mais l’intégralité de l’énoncé. Ceci va tout à faitdans le sens de la remarque de Wells (2006) sur l’anglais : ‘Et cetera and its synonyms (…)are usually kept out of focus’, sachant qu’en français, ceci s’applique préférentiellementlorsque la particule a un statut de MD. Dans les autres contextes, elle porte l’accent final degroupe, comme c’est régulièrement le cas en français (à la différence de l’anglais).7 La transcription est donnée en SAMPA.165


Proceedings of IDP 09(12) Syntagme IntonatifSP MajeurSP MineurMot ProsodiquePied%(( x) )( ( x) )( x)( x) & désaccentuation du MD( x)( x)( x)( x)( x)( x)( x)( x)x x x x x x x x x[ i lE ta di z9R e se te ra]il est à dix heures et ceteraFigure 4. Courbe intonative de ‘il est à dix heures et cetera’Ces résultats et analyses ne confirment malheureusement pas l’analyse prosodique peut-êtretrop générale menée par Dubois (1992:182) qui disait : ‘An extension particle is anaccentuated rhythmic group, separated from what precedes and follows it in speech. It isseparated from what precedes it by a pause of varying length, depending upon the rate ofspeech and/or the presence of a connector before the particle.’4. Valeurs des particules d’extension qui ne jouent pas un rôle de MDComme il a été dit plus haut, les particules d’extension de l’anglais ont été très largementdécrites par Overstreet (1999) qui en propose une analyse très nuancée sur des exemples encontexte tirés de 20h d’enregistrement oraux (186 occurrences). Je ne reprendrai pas icil’intégralité des valeurs et des nuances proposées par Overstreet, même si elles peuvent tout àfait s’appliquer aux particules d’extension du français, mais j’ai retenu trois valeursprincipales dans mon annotation.La première valeur n’est pas la plus fréquente (23 occurrences dans le corpus CID) maiscorrespond au sémantisme de base (Schourup 1999) des particules d’extension : il s’agit de lavaleur d’extension de liste [LIST] comme dans l’exemple (13) :(13) on avait loué en fait les combinaisons le casque et tout çaAvec cette valeur, la particule d’extension permet au locuteur d’étendre la liste à d’autresitems sans les nommer en supposant que les items forment une liste homogène qui fait partiedes connaissances partagées avec l’interlocuteur. Ainsi, dans l’exemple (13), en employant ‘ettout ça’, l’interlocutrice mentionne tout l’équipement nécessaire à la pratique du canyoning,sans en nommer explicitement tous les items.La deuxième valeur est une valeur d’illustration [ILL] (14 occurrences dans le CID). Laparticule d’extension sert à marquer le groupe sur lequel elle porte comme un exemple d’uneclasse plus large comme en (14) et (15) :(14) où l’on voit plein de bêtes euh des chamois et tout166


<strong>Actes</strong> d’IDP 09(15) c’est comme les marrons qu’on bouffe tout ça ' c’est des châtaignes aussiEn (14), ‘et tout’ marque ‘des chamois’ comme un exemple de ‘bêtes’ rencontrées dans lesmontagnes de la région grenobloise. En (15), le locuteur illustre les approximations de lalangue française d’un exemple : les ‘marrons qu’on bouffe’ et qui sont en fait des châtaignes ;de la même manière qu’en (14), il marque cet exemple avec la particule ‘tout ça’.La troisième valeur est une valeur intersubjective [INTER] (valeur décrite aussi dansNorby & Winter 2001, proche de ce que Morel & Danon-Boileau 1998, appellent valeur coénonciative),grâce à laquelle le locuteur fait simplement appel aux connaissances del’interlocuteur sans attendre néanmoins de confirmation de sa part comme en (16), (17) et(18) et est un synonyme proche de ‘tu vois de quoi je parle’ ou ‘je vois de quoi tu parles’lorsqu’il se produit dans le feedback de l’interlocutrice comme c’est le cas en (16) et (17).(16) elle l’accuse quoi et cetera mais sans plus ' sans aller en justice(17) ouais dans le Doubs et tout ça ' c’est là(18) c’est des gîtes vraiment autonomes tout ça ' ça se loueLa valeur intersubjective est de loin la plus fréquente dans le CID (43 occurrences).Globalement, sur l’ensemble du corpus, pour seulement une locution, il était vraimentimpossible de déterminer une valeur.4.1. Portée des locutions adverbialesUne première remarque concernant la portée des particules d’extension : la Table 3 ci-dessousmontre que la portée syntaxique des particules d’extension, lorsque celles-ci jouent un rôle desimples locutions adverbiales, peut aussi bien être un Groupe Nominal (comme en (19) :‘ballons, plumes’) qu’un Groupe Verbal (Noyau ou Proposition Verbale, comme en (20)), lesautres types de constituants étant moins fréquents :(19) il jouait avec des gros ballons ou avec des plumes et cetera il jonglait(20) parce que lundi matin # je me lève je me prépare et tout çaPortéeLOC? 1GA 7GN 29GP 14GR 1NV 24PV 8Table 3. Nombre d’occurrences des locutions adverbiales en fonction de leur portéeSi l’on regarde maintenant la répartition des domaines de portée selon la valeur de laparticule, on voit que les occurrences sont plutôt bien réparties. On pourrait penser que laproportion de particules à valeur [LIST] ayant une portée NV est plus importante que pour lesautres particules, mais le test de proportion n’est pas significatif (X-squared=3.0853, df=1, p-value=0.079). Le nombre d’occurrences pour chaque valeur et chaque portée est de surcroîtinsuffisant pour réaliser des tests statistiques fiables.167


Proceedings of IDP 09ILL INTER LISTGA 1 3 3GN 6 17 6GP 3 8 3GR 0 1 0NV 2 10 10PV 2 4 1Total 14 43 23Table 4. Répartition de la portée selon la valeur de la particule4.2. Prosodie des locutions adverbialesPlutôt que d’attribuer d’emblée une fonction prosodique à chaque particule, avec en regard savaleur sémantique, je me suis demandé si l’on pouvait établir des correspondances entre desparamètres strictement acoustiques et ces valeurs. Pour ce faire, j’ai décidé d’annoter lescatégories fonctionnelles prosodiques pour chaque locution adverbiale sur de la paroledésémantisée. J’ai extrait des fichiers son sous Praat les particules et leur contexte (lesyntagme intonatif dans lequel elles étaient produites), puis j’ai filtré la voix de façon àdésémantiser la parole et ne conserver que la mélodie (dans Praat, filtre HANN passe-bas de 0à 250 Hz ou de 0 à 300 Hz selon le locuteur pour ne pas écrêter la mélodie). J’ai ainsiconstitué 6 fichiers WAV de parole filtrée distincts sur lesquels seule la mélodie est audible etdes textgrids spécifiques dans lesquels étaient uniquement notées les frontières entre les sonset les particules (pour conserver l’information sur leur emplacement et leur durée). Puis,plusieurs semaines plus tard pour éviter toute influence de l’annotation sémantique, j’ai notépour chaque particule 3 fonctions prosodiques, le but étant de vérifier si à chaque valeursémantique intuitive correspond un contour prosodique spécifique :CONTENUMTContour de continuationContour d’énumérationContour terminalL’hypothèse était de pouvoir associer le contour d’énumération à la valeur d’extension deliste, le contour terminal à la valeur intersubjective et le contour de continuation à la valeurd’illustration. Une plus grande finesse des contours ne m’a pas semblé réalisable sur de laparole filtrée.4.2.1. Contour d’énumérationIl apparaît, au vu des résultats, que l’on peut associer le contour ENUM avec la valeur LIST(X-squared=9.05, df=1, p-value=0.002), et que ce contour est réalisé avec une grande variétéde mouvements mélodiques et de plages intonatives : à la différence des énumérationsfermées, l’énumération qui comprend une particule d’extension reste ouverte (n’a pasnécessairement un contour intonatif descendant). Sa principale caractéristique est la présenced’un allongement dans le contexte antérieur immédiat, et/ou sur la particule elle-même (Xsquared=7.29,df=1, p-value=0.006). Ceci est tout à fait congruent avec le fait que les MDétaient plus susceptibles d’être réduits : puisque la valeur LIST est celle qui est la pluséloignée sur le plan sémantique de la valeur que pourrait avoir un MD (rappelons que lavaleur LIST est la plus proche du sémantisme de base), on s’attend à ce que le comportementdes particules qui portent cette valeur soit l’opposé du comportement des MD. Les deuxparticules les plus susceptibles de marquer une énumération sont ‘et tout ça’ et ‘et tout’, ce168


<strong>Actes</strong> d’IDP 09qui est aussi congruent avec le fait que ces deux particules sont les moins susceptibles d’êtreemployées comme MD. Enfin, on observe aussi plus de gestes (gestes manuels etmouvements de tête) produits sur les particules ayant un contour d’énumération (Xsquared=3.99,df=1, p-value=0.04) que pour les particules ayant un autre type de contour. Onavait vu, dans la section 3.3., que des gestes manuels (notamment métaphoriques) étaientproduits de manière inattendue sur les MD, avec souvent une trajectoire circulaire évoquant ledéroulement (en rapport avec la signification première du marqueur). On peut donc penserqu’il est normal qu’un tel type de geste accompagne une particule lorsque celle-ci est marquéeprosodiquement comme ayant la valeur de base d’extension de liste.4.2.2. Contour terminalOn peut également associer clairement le contour Terminal avec la valeur Intersubjective (Xsquared=22.19,df=1, p-value=2.46e-06). Cette valeur est régulièrement intonée en plagemoyenne (X-squared=7.24, df=1, p-value=0.007), mais les mouvements mélodiques associésau contour terminal sont également très variés car il n’y a pas plus de contours descendants ouplats pour cette fonction. En revanche, c’est avec ce contour que l’on trouve le plusd’occurrences inaccentuées (X-squared=18.38, df=1, p-value=1.80e-05). Là encore, lesrésultats sont intéressants car si l’on opère une gradation des valeurs et qu’on la met enrelation avec le statut MD/Locution, la valeur Intersubjective a une fonction beaucoup plusproche de la fonction métadiscursive des MD que les valeurs LIST et ILL.4.2.3. Contour de continuationEnfin, le contour CONT est le moins spécifié en termes prosodiques et ne peut être associé àune valeur spécifique (il n’est pas associé typiquement à ILL). Ce contour est égalementréalisé en plage moyenne (X-squared=7.99, df=1, p-value=0.004) et de préférence avec desmouvements mélodiques montants (X-squared=10.41, df=1, p-value=0.0012). On rencontreégalement moins de gestes avec ce type de contour (X-squared=11.50, df=1, p-value=0.0006).On voit donc qu’à l’absence de spécification prosodique marquée correspond une absence demarquage gestuel.5. ConclusionEn conclusion, cette étude préliminaire sur les particules d’extension les plus fréquentes dufrançais a montré que les particules fonctionnent sur différents plans du discours : en tant quesimples locutions adverbiales à un niveau local ou en tant que marqueur discursif à un niveauglobal. Lorsque la particule est employée comme MD (les particules ‘et cetera’ et ‘tout ça’sont privilégiées dans ce contexte), sa portée est l’énoncé. Une forte proportion de particulesau statut de MD sont désaccentuées et réduits phonétiquement. On note également uneabsence de frontière intonative régulière entre le groupe qui précède et la particule. Les MDmontrent une grande variété de contours mélodiques et de plages intonatives et sontrégulièrement accompagnés de gestes manuels métaphoriques qui rappellent le sémantisme debase des particules et qui confirment par leur synchronisation avec le discours l’intégrationprosodique des MD avec le groupe précédent. Ces remarques m’ont permis de proposer uneanalyse phonologique dans le cadre de la théorie de Selkirk (2007) qui rend compte de ladésaccentuation du MD au niveau du syntagme phonologique mineur.En ce qui concerne la valeur des particules d’extension, trois fonctions principalesproposées par Overstreet (1999) ont été retenues : (a) extension de liste (valeur la plus prochedu sémantisme de base), (b) illustration et (c) intersubjectivité (valeur la plus proche du rôledes MD en discours) que l’on peut représenter sur l’axe suivant, figurant le continuum des169


Proceedings of IDP 09valeurs entre le sémantisme de base et le rôle de ponctuant des MD (autrement dit des valeursallant du moins au plus pragmatique) :Extension de liste Illustration Intersubjectivité MDSémantisme de basePonctuantCes valeurs sémantiques peuvent être mises en relation avec les fonctions des contoursprosodiques annotées sur de la parole désémantisée : (a) énumération, (b) continuation et (c)contour terminal. On peut associer le contour d’énumération avec la valeur d’extension deliste. Ce contour est réalisé avec une grande variété de mouvements mélodiques et de plagesintonatives, mais sa principale caractéristique est la présence d’un allongement dans lecontexte antérieur immédiat, et/ou sur la particule elle-même. Les deux particules les plussusceptibles de marquer une énumération sont ‘et tout ça’ et ‘et tout’. On observe aussi denombreux gestes produits sur les particules ayant ce contour prosodique.On peut également associer clairement le contour Terminal avec la valeur Intersubjective.Ce contour est régulièrement situé en plage intonative moyenne, mais les mouvementsmélodiques sont également très variés. C’est avec ce contour que l’on trouve le plusd’occurrences inaccentuées.Enfin, le contour de continuation est le moins spécifié en termes prosodiques et gestuels etne peut pas dans l’immédiat être associé avec la valeur d’illustration, comme je l’avais espéré.Il sera nécessaire, dans une future étude, d’approfondir les raisons de cette absence despécification.Les premiers résultats présentés ici sont néanmoins globalement intéressants et je prévoisde procéder au repérage et à l’annotation de l’intégralité des particules d’extension sur cecorpus, ce qui permettra, je l’espère, de confirmer les analyses sur un plus grand nombre dedonnées et de dresser un inventaire plus complet des utilisations contemporaines desparticules d’extension en français, sachant que celles-ci évoluent avec le temps.RemerciementsTous mes remerciements vont aux organisateurs du colloque IDP09, à R. Bertrand qui m’a autorisée à travaillersur le corpus CID. Merci aussi pour ses suggestions concernant la méthodologie au début de cette étude. Enfin,je voudrais remercier les relecteurs anonymes de la version courte de cet article pour leurs encouragements etleurs demandes d’éclaircissement qui ont largement contribuées à l’amélioration de l’étude. Toute erreur ouomission survenue au cours de cet article relève de ma propre responsabilité.RéférencesBeeching, K. (2007). La co-variation des marqueurs discursifs bon, c'est-à-dire, enfin, hein, quand même, quoi etsi vous voulez : une question d'identité ? Langue Française, Les marqueurs discursifs 154, pp. 78-93.Bertrand, R. & C. Chanet (2005). Fonctions pragmatiques et prosodie de enfin en français spontané. Revue desémantique et pragmatique 17, pp. 41-68.Bertrand, R. et al. (2006). Le CID – Corpus of Interactional Data – : protocoles, conventions, annotations.Travaux Interdisciplinaires du Laboratoire Parole et Langage (TIPA) 25, pp. 31-60.Bertrand, R. et al. (2008). Le CID - Corpus of Interactional Data - Annotation et Exploitation Multimodale deParole Conversationnelle. Traitement Automatique des Langues 49:3, pp. 1-30.Corpus Beeching, http://www.uwe.ac.uk/hlss/llas/iclru/corpus.pdf , enregistrements d’entretiens en français dontla transcription est consultable en ligne.Corpus CLAPI, http://clapi.univ-lyon2.fr/ , Corpus de LAngue Parlée en Interaction enregistré en situationréelle, dans des contextes variés, développé par le Groupe ICOR, 30h de transcriptions interrogeables parconcordancier.170


<strong>Actes</strong> d’IDP 09Corpus Orléans, http://bach.arts.kuleuven.be/elicop/ , enregistrements d’entretiens réalisés dans 40 villes deFrance, repris dans le projet ELICOP (Etude LInguistique de la COmmunication Parlée), 80h detranscriptions interrogeables par concordancier.Descamps, M.-A. (1989). Le langage du corps et la communication corporelle. Paris, Presses Universitaires deFrance.Dines E.R. (1980). Variation in discourse—“and stuff like that”. Language in Society 9:1, pp 13-31.Dubois, S. (1992). Extension particles, etc. Language Variation and Change 4, pp. 179-203.Fraser, B. (1999). What are discourse markers? Journal of Pragmatics 31, pp. 931-952.Kratzer, A. & E. Selkirk (2007). Phase theory and prosodic spellout: The case of verbs. The Linguistic Review24, pp. 95-135.Lacheret, A. (2004). Structure communicative et géométrie intonative : que nous dit la synthèse de la parole ?Cahiers de l’Institut de Linguistique de Louvain, 30:1-3, pp. 115-139.McNeill, D. (1992). Hand and Mind: What Gestures Reveal about Thought. The University of Chicago Press,Chicago and London.Morel, M.-A. & L. Danon-Boileau (1998). Grammaire de l’intonation. L’exemple du français oral. Paris, Gap,Ophrys.Noda, H. (2005). L'emploi des mots du discours et la prosodie. Le cas de hein. In: Interface Discours-Prosodie(IDP), Aix en Provence. pp. 1-17. http://aune.lpl.univ-aix.fr/~prodige/idp05/actes/noda.pdfNorby, C. & J. Winter (2001). Affiliation in Adolescents' Use of Discourse Extenders. In: Conference of theAustralian Linguistic Society, Canberra, Australia, 27-30 Sept 2001, pp. 1-8.http://www.als.asn.au/<strong>proceedings</strong>/als2001/winter_norrby.pdfOverstreet, M. (1999). Whales, candlelight, and stuff like that: General extenders in English discourse. OxfordUniversity Press, New York, Oxford.Overstreet, M. (2005). And stuff und so: Investigating pragmatic expressions in English and German. Journal ofPragmatics 37, pp. 1845-1864.Overstreet, M. & G. Yule (2002). The metapragmatics of and everything. Journal of Pragmatics 34, pp. 785-794.Paillard, D. (2004). « Déjà : adverbe ou marqueur discursif ? » <strong>Actes</strong> du colloque Chronos 6 (Genève, 22-24septembre 2004), pp. 1-12. http://www.llf.cnrs.fr/Gens/Paillard/dejaPaillardChronos6.pdfSchiffrin, D. (1987). Discourse Markers. Cambridge University Press, Cambridge.Schourup, L. (1999). Discourse markers. Lingua, 107, pp. 227-265.Selkirk E. (2003). Sentence Phonology, International Encyclopedia of Linguistics, 2nd ed. Oxford UniversityPress, Oxford.Selkirk, Elisabeth. (2001). The syntax-phonology interface. In International Encyclopedia of the Social andBehavioral Sciences, eds. N.J. Smelser and P. B. Baltes, Pergamon, Oxford, pp. 15407-15412.Serra, C. (2008). Les virgules et les particules discursives: une méthode de transposition de l'oral à l'écrit. MAThesis, Université du Québec à Montréal. www.archipel.uqam.ca/1741/01/M10662.pdfStubbe, M. & J. Holmes (1995). You know, eh and other ‘exasperating expressions’: An analysis of social andstylistic variation in the use of pragmatic devices in a sample of New Zealand English. Language &Communication 15:1, pp. 63-88.Vincent-Bour, S. (2009). Pragmaticalisation et acquisition pragmatique dans le parler d'adolescents de Cardiff :le cas de like et just. In <strong>Actes</strong> du colloque du Cerlico : Grammaire et prosodie 2 (Ed. Daniel Roulland), PUR,Rennes, pp. 151-168.Wells, J. C. (2006). English Intonation. An Introduction, Cambridge, Cambridge University Press.Wichmann, A. (2005). Prosody and Discourse: a Diachronic Approach. In <strong>Actes</strong> de la conférence InterfacesDiscours Prosodie (IDP), Aix en Provence, pp 1-11.Winter, J. & C. Norby (1999). Set Marking Tags – ‘And Stuff’. Proceedings of the 1999 Conference of theAustralian Linguistic Society, Perth, Australia, 28 Sept-2 Oct 1999, pp. 1-8.http://www.linguistics.uwa.edu.au/__data/page/73643/winter&norrby.pdf171


<strong>Actes</strong> d’IDP 09Description prosodique des "recteurs faibles en incise"Frédéric Gachet 1 & Mathieu Avanzi 2frederic.gachet@unifr.ch; mathieu.avanzi@unine.ch1 Université de Fribourg, 2 Universités de Neuchâtel & de Paris Ouest Nanterre (Modyco)Abstract:This paper focuses on the prosodic description of so called comment clauses in spoken French (e.g. je crois, jepense, je trouve, etc.) in postposed position or interrupting a syntactic construction. Section 2 gives an overviewof the most representative descriptive works existing on this topic. First, classic and less known theoriesconcerning final extraposition are resumed; those concerning intermediate insertions are resumed in §2.2. Thecorpus and the tools used for our analysis and description are presented in section 3. Empirical data is describedin section 4. We show that tools developed by the existing models are not sufficient to describe all therealizations of the utterances of our corpus, and that other patterns must be considered. We also discuss theassumption that the left and the right edges of a parenthetical are associated with phonological boundaries.1. Introduction1.1. L’objectif de cet article est d’examiner les réalisations prosodiques de constructionsverbales dites à « recteur faible en incise » (désormais RFI). On entend par « verbes recteursfaibles » (Blanche-Benveniste 1989; Blanche-Benveniste & Willems 2007; Willems &Blanche-Benveniste sous presse) des formes verbales ayant comme caractéristique syntaxiquela possibilité d’être employées en position d’incise, à l’intérieur (1) ou à la fin d’un énoncé(2), et en position initiale avec que (3) 1 :(1) a. on se faisait la tête je crois pour un appareil photo qui avait disparu (crfp)b. il est je trouve bien situé(2) a. on se faisait la tête pour un appareil photo qui avait disparu je croisb. il est bien situé je trouve (pfc)(3) a. je crois qu’on se faisait la tête pour un appareil photo qui avait disparub. je trouve qu’il est bien situéAu plan sémantique, ces formes verbales sont réputées jouer dans l’énoncé un rôle modal,épistémique, évidentiel, etc 2 . Cela revient à dire qu’elles ne constituent pas la prédicationprincipale de l’énoncé, même lorsqu’elles sont en position de verbe enchâssant (3). Cettesituation suscite des questions d’ordre syntaxique: en position initiale, ces verbes régissent-ils,ne régissent-ils pas, ou régissent-ils "faiblement" la que-P qui suit? Et, d’autre part, commentrendre compte de leur fonction syntaxique en position d’incise 3 ?1 Les exemples sont cités avec leur référence réduite. La signification des acronymes est donnée dans la partie 3,consacrée à la présentation du corpus. Les exemples sans références sont inventés ou modifiés pour les besoinsde la démonstration.2 On se reportera à Schneider (2007) pour un aperçu développé des fonctions des RFI dans les langues romanes,à Kaltenböck (2008) pour une revue récente sur l’anglais.3 Il faut signaler que les nombreux travaux ayant trait à ces constructions divergent notablement quant àl’extension de la notion et à la terminologie employée. Pour ne citer qu’eux, Andersen (1997) et Schneider(2007) proposent des délimitations assez différentes de la notion. Quant à la terminologie servant à désigner cesformes verbales, elle est également très diverse: on fait référence à ces constructions verbales sous les notions deverbes parenthétiques (Urmson ; 1952, Andersen 1997), verbes d’opération (Benveniste 1958), clausesparenthétiques réduites (Schneider 2007), comment clauses (Kaltenböck 2008; Dehé 2009), etc. Nous nous173


Proceedings of IDP 09Notre propos n’est pas de traiter la question syntaxique, ni de trancher entre les différentesconceptions, mais seulement d’étudier la prosodie de ces recteurs faibles dans leur emploi enincise. Nous concentrons donc nos observations sur quelques recteurs faibles prototypiquesunanimement acceptés (je trouve, je crois, je pense, il me semble, paraît-il, etc.).1.2. Le présent article est organisé de la façon suivante. Les RFI relevant à la fois desphénomènes parenthétiques et des segments dits postfocaux, nous passons d’abord en revueles travaux concernant la prosodie de ces deux types de constructions (§2). Nous présentonsensuite le corpus sur lequel nous avons porté nos observations et donnons quelquesexplications méthodologiques et techniques (§3). Finalement, nous nous livrons àl’observation des différentes réalisations prosodiques affectant les énoncés de notre corpus(§4). Notre objectif est de confronter les faits authentiques observés aux théories évoquéesdans la section 2, avec une attention particulière pour les cas ne répondant pas auxdescriptions antérieures.2. Etat de la questionIl convient de souligner d’emblée qu’il n’existe pas de description prosodique spécifique pourles séquences faisant l’objet de cet article (les RFI). Partant, les remarques qui les concernentsont à glaner dans les études traitant plus largement des segments postfocaux 4 ou desparenthétiques. Pour le français, de nombreuses propositions ont été faites pour décrire laprosodie de ces phénomènes. Les plus anciennes se fondent sur l’analyse de phrases lues,tandis que d’autres examinent des données de français spontané. L’état de la question quenous esquissons est structuré en deux sections. La première (2.1) est consacrée à ladescription des éléments relevant de la périphérie droite des énoncés, sous les noms depostfixe (Blanche-Benveniste & al. 1990), report (Perrot 1978), antitopic (Lambrecht 1981)ou encore appendice (Mertens 2008). La seconde (2.2) est dédiée aux segments médians,appelés entre autres incises médianes (Wunderli 1987), incidents (Marandin 1999) ouparenthétiques (Dehé & Kavalova 2007; Delais-Roussarie 2008).2.1. Sur les incises en position finaleFaute de place, nous ne faisons pas un état des lieux exhaustif des théories traitant del’intonation des segments postfocaux. Nous nous contentons de passer en revue trois d’entreelles, qui nous paraissent représentatives des modèles en vigueur dans les travaux que nousavons consultés. Dans cette section, les exemples sont ceux des auteurs eux-mêmes. Lesillustrations sont reproduites sous une forme unifiée par nos soins.2.1.1. Delattre (1966)Dans ses « dix intonations de base du français », Delattre (1966) accorde une placeparticulière aux segments postfocaux, puisqu’il leur attribue deux contours intonatifs, lesintonations de parenthèse et d’écho, l’une grave et l’autre aiguë. La figure 1 donne unereprésentation de chacun de ces deux contours: à gauche, l’incise se place après un contourdescendant (finalité + parenthèse) et à droite, après un contour montant (question + écho):tenons pour cette étude à la dénomination certainement la plus spécifique, qui est celle proposée par Blanche-Benveniste (1989): verbes recteurs faibles.4 Parmi ceux-là, on peut citer notamment les « dislocations à droite », dans lesquelles un syntagme est expriméune fois sous forme clitique et une seconde sous la forme d’un SN, placé après le verbe (il est beau le lavabo).174


<strong>Actes</strong> d’IDP 09Fig. 1. Représentation des contours intonatifs de parenthèse (à gauche) et d’écho (à droite) selon Delattre(1966). Les chiffres dans la marge représentent les quatre niveaux de hauteur pertinents dans le modèle deDelattre (de bas en haut: infra-grave à supra-aigu)Dans l’approche de Delattre, ces contours mélodiques sont « plats » (i.e. sans modulation); ilssont en distribution complémentaire, du fait que « la hauteur de plateau est conditionnée par lacourbe d’intonation qui précède » (op. cit.: 13) 5 .2.1.2. Rossi (1999)Rossi (1999: 82 sqq.) propose de décrire la prosodie des incises postfocales d’une façondifférente. Selon lui, le profil prosodique du segment parenthétique reproduit à l’identique leprofil du contour qui précède, mais sous forme réduite. Cette réduction affecte le niveau dehauteur du contour, son amplitude, et l’intensité 6 . Schématiquement:Fig. 2. Représentation des intonèmes de copie réduite après un contour descendant (à gauche) et un contourmontant (à droite) selon Rossi (1999). Les symboles dans la marge sont mis pour représenter les cinq niveaux dehauteur, avec, de bas en haut: infra-grave, grave, medium, aigu et supra-aigu)L’idée que les incises finales des appendices copient le contour qui les précède a été reprise etcommentée par Apothéloz & Grobet (2005). Elle a été également mise à profit pour décrirecertains éléments extraposés à droite en anglais (Gussenhoven 1990, 2004).2.1.3. Berrendonner (2008)L’analyse d’énoncés non lus conduit Berrendonner (2008) à l’idée que la distribution desintonèmes affectant les segments postfocaux n’est pas contrainte par la forme du contour quiprécède, puisque de nombreux exemples enfreignent la règle de copie 7 . Partant, il propose defaire la part entre deux types réalisations prosodiques: les échos et les addenda. Les premierscorrespondent aux formes de copie identifiées par Rossi; les seconds portent un intonèmedont la forme est différente de celui qui le précède. La figure 3 illustre deux formes possiblesde ce second type:Fig. 3. Représentation de deux addenda: après contour montant (à gauche) et après contour descendant (àdroite), d’après Berrendonner (2008)5 Cette représentation est la même chez Mertens (2008) et chez Morel (2007).6 Il n’y aurait diminution de la durée que pour les segments suivant un contour interrogatif montant.7 Des remarques allant dans le même sens ont été, nous semble-t-il, formulées par Wunderli (1987: 42 sqq.).175


Proceedings of IDP 09S’il met ainsi en cause la notion de copie de contour, Berrendonner (2008) conserve l’idéeque les segments postfocaux se réalisent avec un contour réduit.2.2. Sur les incises en position médianeA propos des incises en position médiane, une majorité d’auteurs a écrit qu’elles étaientisolées de leur entourage par des frontières prosodiques fortes, formant ainsi un groupeintonatif 8 distinct à la fois de ce qui le précède et de ce qui le suit :Les appositions sont délimitées par des FPOs [frontières prosodiques obligatoires]. Il en est demême des incises ou parenthèses, qui vont le plus souvent de pair avec un changement deregistre (Mertens 2008: 114)Cette position, qui est celle de la majorité des chercheurs, est explicitée et critiquée, entreautres 9 , par Delais-Roussarie (2005, 2008). Dans les données qu’elle étudie (français parlé luet oral spontané), elle observe que de nombreux cas correspondent à cette doxa, mais qued’autres ne suivent pas ce schéma canonique. Ainsi elle note que la frontière gauche duparenthétique n’est pas toujours marquée :!Fig. 5. Représentation de l’énoncé « Marie devra je pense acheter une nouvelle voiture »d’après Delais-Roussarie (2005: 12)Dans l’exemple ci-dessus (fig.5), que nous lui empruntons, l’incise médiane je pense(encadrée en grisé), n’est pas séparée du segment d’énoncé qui précède par une frontièreprosodique majeure. La syllabe finale du segment Marie devra n’est pas assortie d’unmouvement mélodique quelconque, et n’est pas non plus allongée. L’auxiliaire devra étant unleaner 10 , Delais-Roussarie conclut à juste titre que le parenthétique forme avec lui un seul etmême groupe intonatif. Elle observe en revanche que, dans son corpus, la frontière droite desincises en positon médiane est toujours marquée prosodiquement. Si ce marquage peutprendre différentes formes dans la substance, un certain nombre d’arguments laissent penser,selon elle, que cette frontière existe au niveau phonologique. Ainsi, s’il doit y avoir unefrontière dans l’énoncé (pause et/ou rupture mélodique représentée par ‘#’ dans les exemplesci-dessous, empruntés à l’auteur), ce sera obligatoirement après le parenthétique, et non avant:8 Ce que nous appelons ici groupe intonatif (désormais GI) correspond à un groupe ponctué par présenceeffective (c’est-à-dire perceptible) d’une proéminence accentuelle sur la dernière syllabe pleine d’un mot (oud’un groupe de mots). Il s’agit de ce que d’autres nomment « syntagme accentuel » (Jun & Fougeron 2002) ou« mot prosodique » (Martin 1987).9 Voir aussi Gachet & Avanzi (2008); Dehé (2007, 2009).10 “Leaners are independent words that are prosodically deficient. […] Leaners differ from clitics in not beingsubject to the same kind of sandhi phenomena; clitics, but not leaners, are assumed to form a prosodic word withtheir host. French leaners include the definite and indefinite articles, monosyllabic prepositions such as `a ‘at’and de ‘of’, and monolyllabic forms of auxiliaries and of the copula” (Bonami & Delais-Roussarie 2006).176


<strong>Actes</strong> d’IDP 09(4) a. le frère aîné de Pierre apparemment # viendra demainb. * le frère aîné de Pierre # apparemment viendra demainEn outre, un enchaînement consonantique ou une liaison facultative sont impossibles entrel’incident et ce qui suit, mais envisageables entre l’incident et ce qui précède:(5) a. le frère aîné de Pierre_apparemment # viendra demainb. Pierre, je pense // est maladec. *Pierre, je pense_est maladed. Ce livre_apparemment lui est tombé des mains2.3. Synthèse intermédiaireComme le montre ce rapide état de la question, les segments abordés relèvent de descriptionsdifférentes selon qu’ils se placent à la suite ou à l’intérieur de l’énoncé. En position finale, ilssont généralement décrits comme présentant des contours plats ou réduits, qui les signalentcomme dépendants discursivement de la séquence qui les précède. En position médiane, ilspeuvent être phrasés prosodiquement avec le syntagme précédent, mais pas avec celui quisuit. Comme nous le verrons dans la dernière partie (§4), les RFI ne se contentent pas d’offrirdes attestations de tous ces cas de figure, mais ils en ajoutent d’autres encore…3. Corpus3.1. L’étude que nous proposons s’appuie sur l’observation de RFI en position médiane etfinale, en français parlé non lu. Nous avons procédé, dans plusieurs corpus 11 , à une rechercheautomatique des formes je crois, je pense, je trouve, il me semble/ me semble-t-il, il paraît,etc. en excluant leurs occurrences en début d’énoncé. Les énoncés dont la qualité n’était passuffisante pour une analyse instrumentale (chevauchement de parole, bruit de fond, etc.) ontégalement été exclus de notre inventaire. Notre corpus se compose de 138 énoncés avecsegments verbaux en position finale, et de 48 en position médiane.3.2. Pour chaque séquence, nous avons découpé l’énoncé contenant la clausule verbale àanalyser, puis procédé à un alignement en phonèmes, syllabes et mots graphiques à l’aide duscript d’annotation semi-automatique Easyalign (Goldman 2008). Après correction manuelledes alignements, une stylisation du signal a été faite avec le script Prosogramme (Mertens2004), qui permet d’obtenir des représentations telles que celle de la fig. 6:Fig. 6. Prosogramme de l’énoncé «[c’]était à l’époque je rentrais en C.E.1. il me semble»[CFPP2000, 22-7e-VRF-1]11 Les corpus que nous avons explorés sont des corpus « publics », tels le corpus constitué dans le cadre du projetPFC (Durand & al. 2002), le CID (Bertrand & al. 2008) et le CFPP2000 (Branca-Rosoff & al. 2009), et descorpus « privés » (non publiés) à l’instar du CRFP, élaboré par l’équipe DELIC (2004). Tous ces corpus sont àdominante monologale, et sont alignés texte/son.177


Proceedings of IDP 09Sur la bordure gauche de la figure sont données les valeurs de hauteur (en demi-tons). Le traitnoir épais représente la fréquence fondamentale (f0) stylisée, le trait plus fin qu’elle recouvreest la f0 brute (les lignes horizontales en pointillé sont distantes de 2 demi-tons chacune); audessus,les ondulations représentent l’intensité. Au-dessous de ces tracés apparaissentencadrées les trois couches de segmentations issues de l’alignement automatique, transcritesen alphabet SAMPA pour les deux premières (phonèmes et syllabes) et en alphabet standardpour la troisième. La durée des segments étiquetés peut être mesurée grâce aux gradations dela bordure supérieure (un intervalle = 10 ms).4. Description du corpusCette section est destinée à présenter les différentes réalisations prosodiques des RFIrencontrées dans notre corpus. Le nombre d’exemples rassemblés nous autorise à penser queles différents cas recensés donnent un échantillon assez crédible des réalisations prosodiquespossibles pour les RFI en français spontané.4.1. RFI affixésUne première catégorie d’exemples, majoritairement représentée dans notre corpus, estconstituée de RFI réalisés avec des caractéristiques prosodiques qui confirment lesdescriptions antérieur des segments postfocaux, telles qu’elles ont été présentées au §2.1. LesRFI qui entrent dans cette catégorie sont réalisés avec une prosodie d’appendice, procédé quenous nommerons affixation prosodique et qui correspond à deux caractéristiques principales:(i) la frontière qui les sépare du GI précédent est faible (cela signifie qu’ils appartiennent àla même unité prosodique majeure 12 que lui);(ii) leur réalisation prosodique les met en quelque sorte en retrait, notamment au moyend’une intonation peu modulée (aiguë ou grave) ou d’un contour intonatif "réduit"(éventuellement associé à une baisse de l’intensité).Cette affixation prosodique peut s’appliquer aux incises postposées ou médianes.4.1.1. RFI postposésNous commençons par l’observation des incises postposées. L’exemple suivant (fig.7) est uncas typique de RFI en plage grave peu modulée, faisant suite à une intonation descendante.C’est un cas d’intonation de parenthèse au sens de Delattre (v. supra §2.1.1):Fig. 7. Prosogramme de l’énoncé «en nouveaux en anciens francs dans les cinq cents millions je crois»[PFC, 11agm1lg_1322]12 Une unité prosodique majeure (UPM) est une portion de discours délimitée par des ruptures prosodiquesfortes. Une rupture prosodique forte correspond à une pause silencieuse suivant un contour mélodique d’unecertaine amplitude (i.e. la différence de hauteur entre le dernier extremum de F0 et la moyenne de F0 sur toute laportion qui précède la pause) et accompagnée d’un reset mélodique (soit la différence de hauteur entre ladernière valeur de F0 précédant la pause et la première valeur de F0 suivant la pause).178


<strong>Actes</strong> d’IDP 09Symétriquement, voici un exemple (fig.8) correspondant à l’intonation d’écho selon Delattre.Il s’agit d’un appendice en plage haute, après un GI à contour montant:Fig. 8. Prosogramme de l’énoncé «elle est venue avec ses gamins – puis son mari je pense»[PFC, 21aml1gg_14116]Dans la catégorie des appendices, on rencontre également une grande quantité de RFIréalisant une copie du contour intonatif qui les précède. Le plus souvent, le contour copié estascendant. La copie peut être légèrement réduite, et associée à une baisse d’intensité. La fig.9en est une illustration:Fig. 9. Prosogramme de l’énoncé «son père était hollandais et sa mère néo-zélandaise je crois» [CID, LJ-vrf-1]Un RFI peut aussi copier un contour descendant. C’est le cas dans l’exemple suivant 13 :Fig. 10. Prosogramme de l’énoncé «moins qu’avant je trouve» [CFP2000, F_60_12e-VRF-4]On rencontre également des contours réduits ne copiant pas le contour intonatif qui précède.Cela correspond aux cas d’addenda décrits par Berrendonner (v. supra §2.1.3):13 Dans cet exemple, la distinction entre copie abaissée ou plage grave n’est pas facile à faire; c’est uneattestation parmi d’autres qu’il y a des cas limites entre les différentes réalisations prosodiques.179


Proceedings of IDP 09Fig. 11. Prosogramme de l’énoncé «il savait même pas se faire cuire un œuf je crois»[CFPP2000, Orsin_F_11e-VRF-2]Dans cet énoncé (fig.11), une intonation plate grave affecte le RFI, qui fait suite à un GIportant une intonation exclamative montante.4.1.2. RFI médiansDe nombreuses incises médianes sont également affixées prosodiquement au GI qui lesprécède. Voici un exemple de RFI affecté d’une intonation grave plate (fig.12):Fig. 12. Prosogramme de l’énoncé «ça pourrait être très banal je trouve comme idée quoi en fait»[CID, CM-vrf-2]Le RFI de l’énoncé suivant (fig.13) copie, sous forme réduite, l’intonation ascendante du GIqui le précède:Fig. 13. Prosogramme de l’énoncé «et en plus comme il nous restait je crois des feux d’artifice tu vois des trucscomme ça» [CID, AB-vrf-2]Si ces exemples sont en conformité avec les descriptions habituelles concernant les postfixes,ils vont à l’encontre de l’idée traditionnelle selon laquelle les insertions parenthétiquesmédianes sont isolées de leur entourage par des frontières prosodiques fortes (v. supra §2.2).Les RFI sont ici réalisés comme des GI entourés par des frontières faibles, appartenant donc àla même UPM que les segments qui l’entourent.180


<strong>Actes</strong> d’IDP 094.2. RFI dominantsDans notre corpus, parmi les RFI précédés d’une frontière faible, certains ne sont pas traitéscomme des segments prosodiques affixés: ils ne sont pas mis prosodiquement en retrait parrapport au GI qu’ils suivent, comme un segment accessoire, mais sont au contraire réaliséscomme des GI dominant celui qui précéde. On peut observer ce phénomène dans l’exempleillustré par la fig.14, où le RFI porte un contour montant plus marqué que le GI précédent:Fig. 14. Prosogramme de l’énoncé «qui a été construit dans les années dix-huit cent trente je crois »[PFC, 75ccr2gg_54493]Le RFI est précédé d’une frontière faible, et affecté d’une proéminence forte. Les deux GIsuccessifs font donc partie de la même UPM, mais le RFI n’est pas en retrait par rapport àcelui qui le précède; au contraire, portant une proéminence plus forte que celui-ci, il ledomine prosodiquement pour faire avec lui un seul groupe prosodique, par empaquetage(règle de dominance de Mertens 1987).Notre corpus compte également des exemples où le RFI est affecté d’un contour non réduitqui ne copie pas celui du GI précédent. C’est le cas des deux exemples suivants:Fig. 15. Prosogramme de l’énoncé «il a marché vite un an je crois» [PFC, bgaal1lg_83260]On observe dans l’énoncé de la fig.15 une légère descente du grave à l’infra-grave sur un an,et sur je crois une montée plus ample du médium à l’aigu. L’énoncé suivant (fig.16) présenteune situation inverse:181


Proceedings of IDP 09Fig. 16. Prosogramme de l’énoncé «assez jeune quand même je crois» [PFC, blant1lg_88105]Ici, c’est le RFI qui est marqué par une intonation descendante conclusive, après l’intonationmontante suspensive du segment précédent. Le RFI n’est pas traité prosodiquement commeun appendice greffé sur le GI précédent; au contraire, c’est à lui qu’est confié le rôle demarquer prosodiquement la fin d’une étape communicative, au moyen de l’intonationconclusive.Dans la section 4.1, le RFI était réalisé avec une prosodie qui en faisait un appendice, i.e.un élément accessoire greffé sur le GI précédent. Celui-ci portait le contour significatif(conclusif ou continuatif) permettant l’enchaînement avec la suite du discours, "par-dessus" leRFI mis en retrait. Au contraire, avec le type de prosodie observé dans la section 4.2, le RFIest affecté d’une intonation plus marquée que le GI précédent. Ainsi, c’est au RFI qu’estconfié le soin d’enchaîner avec la suite du discours. Le RFI empaquette avec lui le GIprécédent et c’est lui qui relie prosodiquement le groupe ainsi obtenu avec la suite dudiscours 14 .4.3. RFI précédés d’une frontière forte4.3.1. A la différence des RFI présentés ci-dessus (§§4.1 et 4.2), les suivants sont séparés deleur entourage par des frontières prosodiques fortes, et constituent donc des UPM. Si de telsRFI ne sont pas à proprement parler affixés au GI précédent, leur réalisation prosodiqueconserve pourtant fréquemment leur statut d’élément en retrait. Ils présentent dans bien descas un contour plat et grave faisant suite à une intonation descendante, comme dans l’énoncéde la fig.17 :14 Les RFI présentés dans cette section sont à rapprocher d’études récentes portant sur la dislocation à droite, quiont montré qu’il existait des segments extraposés présentant des contours non-réduits, qu’ils respectent leprincipe de copie (Avanzi 2009: 66) ou non (De Cat 2007: 37-42).182


<strong>Actes</strong> d’IDP 09Fig. 17. Prosogramme de l’énoncé «la racine où on est né où on a vécu jeune on le garde je pense»[CID, Mo-VRF-9]Dans l’exemple suivant (fig. 18), le RFI il me semble constitue une UPM à contour grave nonmodulé, mais n’est pas placé immédiatement après une intonation descendante; il fait suite àun premier RFI, ce dernier étant affixé et également émis en plage grave non modulée:Fig. 18. Prosogramme de l’énoncé «c’était en mille neuf cent soixante-dix exactement je crois il me semble»[CFP2000, Mo-VRF-1]D’autres énoncés montrent le RFI copiant, après la pause, l’intonation du GI précédent:Fig. 19. Prosogramme de l’énoncé «là tu as moins de euh une personne sur cent je pense»[PFC, 75cvl1gg_56297]Dans cet exemple (fig.19), le RFI je pense réitère l’intonation montante du GI qui le précède.Ces quelques RFI présentent toutes les caractéristiques d’une sorte d’appendice retardé,comme si le locuteur avait besoin d’un bref temps de réflexion avant de se décider àmodaliser son énoncé au moyen du RFI.183


Proceedings of IDP 094.3.2. Pour d’autres RFI prosodiquement séparés, il paraît difficile de conserver l’idée qu’ilsreprésenteraient des cas d’appendice, même retardé. Ils semblent au contraire munis d’uncontour intonatif autonome, qui n’est ni copié ni mis en retrait d’une quelconque façon.L’énoncé suivant (fig.20) en donne un exemple:Fig. 20. Prosogramme de l’énoncé «il en pleure tous les jours mais ça c’est pas très gênant hein je pense»[PFC, 44ajn1gg_29038]Ici, le verbe recteur faible est séparé de ce qui précède par une longue pause, et réaliséprosodiquement de manière autonome, avec un contour non réduit qui ne copie pas le GIprécédant la pause. Celui-ci finit par une intonation descendante conclusive; après la pause, lehein est marqué par une intonation montante de demande de confirmation et le RFI suit avecun contour en cloche ressemblant à l’intonation d’implication de Delattre. Il faut le considérernon comme un appendice, mais comme une étape communicative nouvelle dans le discours(une période au sens de Berrendonner). Pour de tels cas, on peut se demander si l’appellationd’incise est encore justifiée.4.4. RFI médians «rattachés» à droite4.4.1. D’autres réalisations observées dans notre corpus vont à l’encontre de descriptionsantérieures concernant la prosodie des incises. Il faut mentionner les cas où le RFI tend à serattacher prosodiquement avec le segment qui le suit. Il s’agit notamment d’énoncésprésentant une frontière prosodique majeure avant l’incise, et une frontière plus faible après:Fig. 21. Prosogramme de l’énoncé «il a été fait euh je pense l’année dernière» [PFC, 50arm1gg_35691]On voit dans l’exemple de la fig.21 que l’incise est précédée mais pas suivie d’une pause.Cette tendance peut être encore plus marquée: dans l’énoncé suivant (fig.22), non seulement il184


<strong>Actes</strong> d’IDP 09n’y a pas de pause après l’incise, mais on assiste à l’effacement de toute frontière prosodiqueentre l’incise et ce qui suit. Le RFI se trouve donc intégré, noyé dans le GI qui la suit:Fig. 22. Prosogramme de l’énoncé «l’un d’eux a hérité un bar je crois de son grand-père ou je sais plus enfin»[CFPP2000, _11e-VRF-5]4.4.3. L’exemple suivant (fig.23) comporte une autre manifestation de la tendance à rattacherl’incise avec ce qui suit: l’enchaînement syllabique. On observe un enchaînement syllabiqueentre le RFI et la suite du discours, la dernière consonne de je pense et la voyelle initiale del'adjectif extravagantes étant prononcés comme une seule syllabe.Fig. 23. Prosogramme de l’énoncé «donc elle est venue faire ses études à Toulouse ça été les années euh jepense extravagantes et de folie» [PFC,!31afr1gg_16745]Ce type de réalisations prosodiques semble contredire l’idée, soutenue dans le cadre de lathéorie prosodique (Selkirk 2005; Delais-Roussarie 2008), selon laquelle il existerait auniveau phonologique une frontière prosodique à droite des incises. Comme on l’a vu au §2.2,d’après Delais-Roussarie (2008), cette frontière phonologique se manifeste au niveauphonétique par deux indices : (i) si une seule frontière prosodique jouxte un segment incident,il s’agit nécessairement de la frontière droite (v. supra ex. 4), (ii) l’enchaînementconsonantique n’est pas possible entre l’incise et ce qui suit (v. supra ex. 5). Les exemplesprésentés ci-dessus attestent le contraire: les énoncés des fig.21 et 22 vont à l’encontre de (i)et celui de la fig.23 tend à contredire (ii). Les indices en faveur d’une frontière phonologiqueà droite des incises s’en trouvent affaiblis.185


Proceedings of IDP 094.4.4. Il faut souligner que cette tendance à intégrer le RFI dans le même GI que le segmentqui suit n’est pas un fait exceptionnel 15 . Dans notre corpus, les énoncés où la frontièreprosodique est effacée à droite du RFI sont même en plus grand nombre que ceux où elle l’està sa gauche. Cette tendance peut être notamment mise en perspective avec le fait que le focusde l’information est très souvent situé à droite de l’incise. Dans la performance du discoursspontané, les locuteurs peuvent avoir tendance à rattacher prosodiquement l’incisemodalisatrice avec l’élément focal de l’information qu’ils délivrent. Dans l'exemple de lafig.21 ci-dessus, le locuteur semble incité à marquer prosodiquement le lien entrel’information rhématique de son énoncé (l’année dernière) et la modalisation qu’apporte leRFI, en les "rattachant" ensemble prosodiquement, de telle manière que le RFI peut être aussiinterprété comme portant spécifiquement sur le syntagme focalisé 16 . Ce phénomène est à voircomme une simple tendance et ne constitue en aucun cas une règle. On a pu constater que,dans des structurations informationnelles comparables, la frontière peut aussi être marquée àdroite de l’incise, conformément aux observations de Delais-Roussarie (2008). La fig.24 lemontre:Fig. 24. Prosogramme de l’énoncé «une oeuvre qui s’appelle je crois "Chants bourboumes de la Bellière"»[CRFP,!PRI_GAP2-vrf-1]Dans cet énoncé, le focus informationnel est également placé à droite du RFI, sans que le RFIse rattache prosodiquement avec lui.4.4.5. La disparition de la frontière droite n’est pas toujours liée à la position du focus aprèsl’incise. Elle peut également avoir lieu lorsque l’incise se situe dans la zone postfocale del’énoncé, comme on le voit ici:Fig. 25. Prosogramme de l’énoncé «donc c’est ça qui me manque je pense à mon niveau »[PFC, 974nbgg_76295]15 Dehé (2009: §4.3.) observe dans son corpus de «comment clauses», équivalents anglais de nos RFI, que c’estl’absence de frontière s’observe dans 74,8% des cas.16 En l’occurrence, l’interprétation de l’énoncé est quasiment équivalente, que l’on interprète le RFI commeportant sur tout l’énoncé (cf. je pense qu’il a été fait l’année dernière) ou sur le seul syntagme focalisé. Dans lesdeux cas, ce n’est pas le fait d’avoir été fait qui est modalisé, mais le fait de l’avoir été l’année dernière.186


<strong>Actes</strong> d’IDP 09L’énoncé ci-dessus (fig.25) est une clivée, construction qui place le focus informationnel, icile pronom ça, à son début. La zone postfocale qui suit se présente ainsi: la P qui me manque àmon niveau est interrompue, entre le verbe et le circonstant cadratif, par le RFI. Au point devue sémantique, le verbe faible porte sur l’ensemble de l’énoncé (on peut le paraphraser: doncje pense que c’est ça qui me manque à mon niveau). Au point de vue prosodique, la zonepostfocale est structurée en deux GP affixés, le premier étant constitué par le début de la Pjusqu’au point d’insertion du RFI, et le deuxième contenant le RFI et le circonstant cadratif,reliés ensemble par une absence de frontière et un enchaînement syllabique. Ce type deréalisation prosodique va dans le sens d’une observation déjà faite par Delais-Roussarie(2008) et par Di Cristo (à par.), qui ont noté une tendance à l’effacement des frontièresprosodiques dans la zone postfocale.4.4.6. Les énoncés présentés dans cette sous-section, montrant des RFI rattachésprosodiquement à ce qui les suit, paraissent bien établir que les recteurs faibles en incise nesont pas nécessairement suivis d’une frontière à leur droite. Dans leur cas au moins, l’idéequ’il existe une frontière phonologique à droite ne semble pas tenable. La possibilité derattacher prosodiquement une insertion parenthétique avec le segment suivant a d’ailleurs déjàété signalée par Gachet & Avanzi (2008); dans le cas particulier des RFI, cette possibilité semue en véritable tendance, et ces réalisations ne peuvent pas être traitées comme des casisolés ou exceptionnels.5. ConclusionCette étude a permis de montrer que l’on pouvait distinguer plusieurs « patrons » pour décrireles recteurs faibles en incise. Ainsi, elle confirme ce que d’autres ont dit avant nous, à savoirqu’il n’y a pas une prosodie spécifique pour les incises, mais des réalisations diverses 17 . Notreétude a pu montrer que les incises finales ne sont pas toujours prosodiquement en retrait, etqu’elles peuvent parfois, en dominant le segment précédent, se charger de l’enchaînementavec la suite du discours. Nous avons également observé que les incises médianes peuventêtre rattachées au segment qui suit, contrevenant ainsi à l’idée d’une frontière phonologique àleur droite. Pour rendre compte de cette diversité, on a dû prendre en compte non seulement laforme des contours, mais aussi le degré de force des frontières de groupes intonatifs dedifférents rangs. L’étude de la prosodie ne peut plus reposer sur la prise en compte exclusivede l’un ou l’autre de ces paramètres. Il reste à comprendre dans quelle mesure les différentesréalisations identifiées dans la section 4 sont en lien avec les autres niveaux de l’analyselinguistique. Il serait par exemple intéressant de tester les hypothèses récemment formuléespar Dehé & Wichman, i.e. de se demander si la façon dont le segment parenthétique estaccentué donne des informations (i) sur son degré de grammaticalisation 18 (Dehé &Wichman, 2009b), et (ii) sur les fonctions pragmatiques particulières qu’il revêt en discours(Dehé & Wichman, 2009a). Ce travail ouvre également la voie à une étude de plus grandeampleur, qui viserait à vérifier si les autres segments incidents ou postfocaux, verbaux 19 ounon 20 , manifestent les mêmes possibilités de réalisations prosodiques. Cela fera l’objet d’unprochain article.17 Des conclusions similaires ont été faites pour l’anglais (v. p. ex. Gussenhoven 2004; Kaltenböck 2008; Dehé2009).18 Les verbes que nous avons étudiés hésitent, on le sait, entre le statut de verbes recteurs forts et celui demarqueurs discursifs (Thompson & Mulac 1991; Andersen 1997; Apothéloz 2003).19 Incises de discours rapporté, structures à compléments antéposés (Sabio 1995), etc.20 Dislocations à droite, vocatifs, etc.187


Proceedings of IDP 09RemerciementsCe travail s’inscrit dans le cadre de deux projets de recherches, financés par le FNS, hébergés aux universités deFribourg et de Neuchâtel, et respectivement intitulés: "Macro-syntaxe des insertions parenthétiques" (subside n°n°10012-113876) et "La structure interne des périodes" (subside 100012-113726/1). Il entre également dans lecadre des activités de l’ANR Rhapsodie (ANR-07-CORP-030-01).RéférencesApothéloz, D. (2003). La rection dite ‘faible’: grammaticalisation ou différentiel de grammaticité? Verbum, 25:3,pp. 35-63.Apothéloz, D. & A. Grobet (2005). Appendices dans le discours. Aspects syntaxiques, prosodiques etpragmatiques. Travaux neuchâtelois de linguistique, 41, pp. 95-126.Andersen, H.A. (1997). Propositions parenthétiques et subordination en français parlé. Thèse de doctorat del’université de Copenhague.Avanzi, M. (2009). Aspects prosodiques de la dislocation à droite en français, Apothéloz, D. Combettes, B. & F.Neveu (eds), Les linguistiques du détachement. <strong>Actes</strong> du colloque international de Nancy (7-9 juin 2006).Bern, Peter Lang, pp. 59-71.Benveniste, E. (1958). De la subjectivité dans le langage. Problèmes de linguistique générale, 1966, I. Paris,Gallimard.Berrendonner, A. (2008). Il est beau, le lavabo: il fait problème, cet intonème. Birkelund, M., MosegaardHansen, M. & Norén, C. (eds), L’énonciation dans tous ses états. Mélanges offerts à Henning Nølke àl’occasion de ses soixante ans. Bern, Peter Lang, pp. 669-687.Bertrand, R., P. Blache, R. Espesser, G. Ferré, C. Meunier, B. Priego-Valverde & S. Rauzy (2008). Le CID.Corpus of Interactional Data. Annotation et exploitation multimodale de parole conversationnelle. TraitementAutomatique des Langues, 49:3, pp. 1-30.Bonami, O & E. Delais-Roussarie (2006). Metrical phonology in HPSG. Müller, S. Proceedings of the HPSG06Conference, CSLI Publications, http://www.llf.cnrs.fr/Docs/adverbes-fr.php.Blanche-Benveniste, C. (1989). Constructions verbales "en incises" et rection faible des verbes. Recherches surle français parlé 9 pp. 53-73.Blanche-Benveniste, C. & al. (1990). Le français parlé. Etudes grammaticales. Paris, CNRS.Blanche-Benveniste, C. & D. Willems (2007). Un nouveau regard sur les verbes faibles. Bulletin de la SociétéLinguistique de Paris, 102:1, pp. 217-254.Branca-Rosoff, S., S. Fleury, F. Lefeuvre & M. Pires (2009). Discours sur la ville. Corpus de Français ParléParisien des années 2000 (CFPP2000). http://ed268.univ-paris3.fr/CFPP2000/De Cat, C. (2007). French Dislocation. Interpretation, Syntax, Acquisition. Oxford, University Press.Dehé, N. (2009). Clausal parentheticals, intonational phrasing, and prosodic theory. Journal of Linguistics. 45:3,569-615.Dehé, N. & Y. Kavalova (eds.) (2007). Parentheticals. Amsterdam/Philadelphia, John Benjamins.Dehé, N. & A. Wichmann. (2009a, to appear). The multifunctionality of epistemic parentheticals in discourse:prosodic cues to the semantic-pragmatic boundary. Functions of Language.Dehé, N. & A. Wichmann. (2009b, to appear). Sentence-initial I think (that) and I believe (that): Prosodicevidence for use as main clause, comment clause and discourse marker. Manuscrift, Freie Universitaet Berlinand University of Central Lancaster.Delattre, P. (1966). Les dix Intonations de base du français. The French Review, 40:1, pp. 1-14.Delais-Roussarie, E. (2005). Vers une grammaire prosodique formelle: le cas des incidentes en français, <strong>Actes</strong>électroniques de la conférence Interface Discours et Prosodie 05, Université de Provence, Septembre 2005.Delais-Roussarie, E. (2008, sous presse). Structure prosodique et prosodie incidente, Verbum.Delais-Roussarie, E. & B. Post (2008). Unités prosodiques et grammaire de l’intonation: vers une nouvelleapproche, <strong>Actes</strong> des Journées d’étude sur la Parole JEP-TALN 08, Avignon, Juin 2008.DELIC (2004). Présentation du Corpus de Référence du Français Parlé. Recherches sur le français parlé, 18, pp.11-42.Di Cristo, A. (à par.). Regards sur la prosodie du français. Première partie: accentuation et phrasé prosodique.Durand, J., Laks, B. & Lyche, Ch. (2002). La phonologie du français contemporain: usages, variétés et structure.Pusch, C. & W. Raible (eds.) Romanistische Korpuslinguistik- Korpora und gesprochene Sprache/RomanceCorpus Linguistics - Corpora and Spoken Language. Tübingen, Gunter Narr Verlag, 93-106.Gachet, F. & M. Avanzi (2008, sous presse). La prosodie des parenthèses en français spontané. Verbum.Goldman, J.-P. (2008). EasyAlign: a semi-automatic phonetic alignment tool under Praat, c.188


<strong>Actes</strong> d’IDP 09Gussenhoven, C. (1990). Tonal association domains and the prosodic hierarchy in English. Ramsaran, S.M.(ed.), Studies in the Pronunciation of English. A Commemorative Volume in Honor of A.C. Gimson, London,Routledge, pp. 27-37.Gussenhoven, C. (2004). The phonology of tone and intonation. Cambridge, University Press.Jun, S.A. & C. Fougeron. (2002). The Realizations of the Accentual Phrase in French Intonation. Probus, 14,147-172.Kaltenböck, G. (2008). Prosody and function of English comment clauses. Folia linguistica, 42 :1, pp. 83-134.Lacheret-Dujour, A. & Victorri B. (2002), La période intonative comme unité d’analyse pour l’étude du françaisparlé : modélisation prosodique et enjeux linguistiques. Verbum, 24:1-2, pp. 55-73.Lambrecht, K. (1981). Topic, antitopic, and verb agreement in non-standard French. Amsterdam, JohnBenjamins.Marandin, J.-M. (1999). Grammaire de l’incidence. http://www.llf.cnrs.fr/fr/Marandin/Martin, Ph. (1987). Prosodic and rhythmic structure in French. Linguistics, 5:5, pp. 925-949Mertens, P. (1987). L’intonation du français : de la description linguistique à la reconnaissance automatique.PhD, K. U. Leuven.Mertens, P. (2004), Le Prosogramme: une transcription semi-automatique de la prosodie. Cahiers de l’Institut deLinguistique de Louvain, 30:1-3, pp. 7-25.Mertens, P. (2008). Syntaxe, prosodie et structure informationnelle: une approche prédictive pour l’analyse del’intonation dans le discours. Travaux de linguistique, 56, 97-124.Morel, M-A. (2007). Le postrhème dans le dialogue oral en français. L’information grammaticale, 113, pp. 40-46.Perrot, J. (1978). Fonctions syntaxiques, énonciation, information. Bulletin de la Société Linguistique de Paris,73:1, pp. 85-101.Riegel, M., J.-C. Pellat & R. Rioul, (1999), Grammaire méthodique du français, PUF, Paris.Rossi, M. (1999). L’intonation, le système du français – description et modélisation. Paris/Gap, Ophrys.Sabio, F. (1995). Micro-syntaxe et macro-syntaxe: L’exemple des "compléments antéposés" en français,Recherches sur le français parlé, 13, pp. 111-155.Schneider, S. (2007). Reduced Parenthetical Clauses as Mitigators. A corpus study of spoken French, Italianand Spanish. John Benjamins, Amsterdam.Selkirk, E. (2005). Comments on Intonational Phrasing in English. S. Frota, M. Vigario, M. & J. Freitas (eds),Prosodies: Selected papers from the Phonetics and Phonology in Iberia Conference, 2003. Mouton deGruyter, Berlin.Thompson, S.A. & A. Mulac (1991). A quantative perspective on the Grammaticalization of EpistemicParentheticals in English. Traugott, E. & B. Heyne (eds), Approaches to Grammaticalization, vol. 2.Amsterdam/Philadelphia, John Benjamins, pp. 313-329.Urmson, J. O. (1952), Parenthetical verbs. Mind, 61 (244), 480-496.Willems, D. & C. Blanche-Benveniste (sous presse). Verbes ‘faibles’ et verbes à valeur épistémique en françaisparlé: il me semble, il paraît, j’ai l’impression, on dirait, je dirais. Proceedings of the International Congressof Romance Languages and Linguistics, Innsbruck, Sept. 2007.Wilmet, M. (1997), Grammaire critique du français, Duculot, Bruxelles.Wunderli, P. (1987). L’intonation des séquences extraposées. Gunter Narr Verlag.189


<strong>Actes</strong> d’IDP 09Prosodic hierarchy and spectral realization of vowels in FrenchCédric Gendrot and Kim Gerdescgendrot@univ-paris3.fr, kim@gerdes.frLaboratoire de Phonétique et Phonologie, Université Paris3 Sorbonne Nouvelle, CNRSUMR7018Abstract :The aim of this study is to relate spectral realization of vowels and prosodic hierarchy in continuous speech. TheIRISA speech alignment system is used and formant values of oral vowels are automatically measured in a totalof 500,000 segments from around 30 hours of journalistic broadcast speech in French.The link between the duration of vowels and their spectral realization (through their formant values) has beenvalidated for a long time since Lindblom (1963), i.e. the longer the vowels the more hyperarticulated they are.Similarly, the relation between prosodic constituents of different levels (the prosodic hierarchy) and the durationof phonemes close to these boundaries has been demonstrated (for French, Fougeron 2001; Tabain 2003ab).In this study we show that the level of prosodic constituent influences the spectral realization of vowels.Although significant differences can't be established for all levels and phonemes, we observe a general prosodichierarchy (from syllable to word, then accentual phrase and finally intonational phrase) based on spectralmeasurement results, showing that the higher a vowel is in the prosodic structure of French, the morehyperarticulated it is.1. Introduction1.1. General comments and recalling previous resultsThis work is part of a larger scale study aiming at describing the variability of French vowels.With the help of very large automatically segmented corpora, we were able to study a largenumber of contexts known to influence the realization of phonemes so as to quantify preciselytheir influence and their interaction.In previous studies we observed that spectral realization of vowels was greatly influencedby their duration in French (Gendrot & Adda-Decker 2005; Gendrot & Adda-Decker toappear), i.e. longer vowels were considerably hyperarticulated compared to shorter vowels. Inother words, the longer the vowels, the larger the acoustic space they will occupy, being thusmore and more distinct from one another (figure 1). If we consider the result from an oppositeview, the gap between the measured mean formant values and reference formant values isinversely proportional to vowel duration: a tendency to reduction for vowels of short durationclearly emerged. This result was measured for French as well as for seven other languages(German, English, Mandarin Chinese, European Portuguese, Spanish, Italian and Arabic inGendrot & Adda-Decker 2007).191


Proceedings of IDP 09The link between spectral realization of vowels (through their formant values) and theirduration has been validated for a long time by Lindblom (1963) and many others since then. Ithas been also shown that reduction of short vowels as can observed on figure 1 is not a mere‘centralization’ of the acoustic space, but rather coarticulation: short vowels take the acousticcharacteristics of consonants which draws them for most contexts towards the centre of theacoustic space. The relation between acoustic realization and articulation of vowels can beestimated from the formant measurements (Stevens 1997; Vaissière 2007 and referencestherein). Indeed, F1 can assess for vowel aperture, notably for open and semi-open vowels,while F2 is more dependant on frontness/backness of the vowel. As for F3, it gives a goodindication of rounding, especially for vowels /y/, /!/ and /"/. Vowels /!/ and /"/ are not theobject of this study as they are central vowels (for more details see Fougeron et al. 2007 orBürki et al. to appear); we will only focus on peripheral vowels here for an approximation ofvocalic space used by vowels. Variations of vowels /y/ (and /i/) are also further detailed inother studies as their different realisations may be more dependent on F3 movements(Gendrot et al. 2008). Our interest goes mainly towards the variations in terms of F1(correlated to opening/closing) and F2 (roughly correlated to frontness/backness)Reasons for variation in vowel duration are multiple. Factors such as speaker's style andspeech rate can of course greatly influence, but linguistic factors such as the surroundingphonemic context, the phoneme position in the syllable, the word, the syntagm or theutterance can be of great influence too. The four units lastly mentioned are considered asprosodic constituents since specific intonation and duration patterns produced by speakersmay serve a demarcative function: ‘they indicate the occurrence of the boundaries of wordsand phrases and, presumably, make it easier to identify such grammatical units in the streamof speech […] they are boundary signals that reinforce the identity and syntagmatic unity ofwords and phrases’ (Encyclopedia Britannica).The realized prosodic constituents are considered as being organized in a prosodichierarchy, each constituent being embedded in a higher one: this is the strict layer hypothesisas developed by Nespor and Vogel (1986) for example. In this thread, the relation betweenprosodic constituent boundaries of different levels and the duration of phonemes adjacent tothese boundaries has been demonstrated. It has been shown that the higher the level of theprosodic constituent, the longer the vowels are at the boundaries of these constituents (for192


<strong>Actes</strong> d’IDP 09French, Fougeron 2001; Tabain 2003). In this study we aim at showing that the level ofprosodic constituents in French in turn influences the spectral realization of vowels. Fourunanimously accepted categories for prosodic constituents were chosen, from a low to ahigher level: syllables, words, accentual phrases and intonational phrases. These categorieswill be automatically detected and analyzed in their initial and final positions, i.e. at theirboundaries.1.2. Previous findings and hypothesesThese positions have been more rarely investigated in terms of articulation and especiallyspectral measurements. Focusing on French, Tabain used EMMA (ElectroMagneticMidsgaittal Articulatograph) on constituent final positions while Fougeron used EPG(ElectroPalatoGraph) on initial positions. Their results showed that for a phoneme in an initialor final position of a prosodic constituent, the higher the constituent in the prosodic hierarchy,the more strengthened or hyperarticulated the phoneme tends to be (see also Cho 2005, forAmerican English). They also showed that this strengthening is not necessarily correlatedwith duration (Keating et al. 2004). Our aim in this study is to replicate these results oncontinuous speech rather than controlled read speech - and for all vowels - but with the use ofacoustic measurements only. The same spectral measurements (i.e. formants of vowels) usedin our previous studies will be effected on these positions. We want to show that vowels at theboundaries of higher prosodic constituents in French are hyperarticulated when compared tolower prosodic constituents. So as to do this, we will evaluate the acoustic space used by allvowels for each of these prosodic levels (keeping initial and final positions apart). Accordingto the hypotheses previously developed, we expect to observe an enlarging of the vocalicspace when going upwards in the prosodic hierarchy, i.e. from syllable, to word, thenaccentual phrase and finally intonational phrase. So as to quantify these differences, we willcalculate the dispersion (euclidean distance) from the acoustic centre as measured on thewhole data (Gendrot & Adda-Decker 2007; Bradlow 1996); if the vowel is moving awaysignificantly from the acoustic centre (F1: 450 Hz; F2: 1450 Hz), then it is considered ashyperarticulated. We bear in mind that this measure is inappropriate in some ways as it isrelated to the measurement of vowel centralization, which as detailed previously is only asecondary effect of vowel coarticulation. However, with all vowels moving awaysimultaneously from the acoustic centre, they necessarily get away from one another, thusfavouring the phonemic identification (see Lindblom's theory of adaptive dispersion for aninterpretation of this in the shape of vocalic systems).In the following sections, we will summarize the procedures and methods used in ourprevious studies. In a first place, the corpus used and its automatic segmentation will bedescribed. Secondly, the measurements will be detailed, including the precautions used toavoid detection errors.2. Method2.1. Corpus and automatic segmentationThe corpus corresponds to approximately 30 hours of speech (roughly 500 men and 300women) mainly extracted from broadcast news of France Inter and France Info, recorded andtranscribed orthographically at the French CTA/DGA (Galliano et al. 2005). It corresponds toradio and TV journalistic shows: articulation, without being emphasized, remains quitedistinct, so that speech can be understood by a broad audience. Such speech cannot bedescribed as fully spontaneous, but rather as prepared speech: only few hesitations,193


Proceedings of IDP 09repetitions, and word fragments are observed and syntactic structures often remain close towritten language. Hypo- and hyperarticulation vowel phenomena, which we are interested inthroughout this study, are undoubtedly less present here than in more conversational-stylespontaneous speech.The IRISA (‘Institut de Recherche en Informatique et Systèmes Aléatoires’) speechtranscription system was used for corpus alignment. Orthographical transcriptions beingknown a priori the alignment system is used to locate phone boundaries, to choose amongpotential pronunciation alternatives (in particular ‘liaisons’ and schwas), and to discardsilences, breath and other noise segments. Context independent phone models are used foralignment. Whereas context-dependent (e.g. triphones) acoustic models produce bettertranscription performances (i.e. a lower word error rates), context-independent acousticmodels are more reliable for phone boundary location. For technical reasons, thesegmentation resolution is limited to 10ms and the minimum duration of a segment is 30ms.Labelling thus produced is not a phonetic, but rather a phonological or phonemic labelling(corresponding in most cases to standard word pronunciations). Formant measures then allowto evaluate the variations observed in the acoustic realisation of phonemes.2.2. Automatic formant extractionFormant extraction makes use of the Burg algorithm implemented in the PRAAT software(Boersma & Weenink 2009). The detection of amplitude peaks is determined in a band lowerthan 5 KHz for male speakers and lower than 5.5 KHz for females. Measurements were takenrespectively at 1/3, #, 2/3 of the vowel segment, and then averaged to provide a single value.The interpretation of the extracted amplitude peaks as formants can raise controversy on aconsiderable number of segments: noises, too high fundamental frequency (voice of womenand children), nasality... Two methodological safeguards are applied to prevent from errors:(i) nasal vowels were excluded from the study. (ii) amplitude peak values are filtered in orderto reject erratic items, with respect to the acoustics of the vocal tract. For each vowel, upperand lower formant value limits are given for the first three formants (Gendrot & Adda-Decker2005 for the values): if one of the formants lies outside the specified ranges, thecorresponding vowel segment is rejected. Formant ranges were chosen in a broad way. Ahundred visual checks for each vowel were carried out in order to reject as "errors" onlysevere formant detection problems and not the ‘deviating’ values which might be due tocontextual assimilation effects, to prosody or to speaker’s characteristics for example. Afterthis filtering, approximately 20000 vowels out of the 500000 oral French vowels wererejected (4% of segments rejected). The major part of these rejections corresponds tosegments of very short duration (12000 of the rejected segments have a duration smaller than50ms). Listening to many of them shows that, at least for the shorter segments, thesegmentation is not questionable. Other reasons may explain these rejections, in particular apartial or total devoicing of vowels, thus making formant detection more difficult (or evenimpossible) and potentially producing non-sense formant values. Similarly, when twoformants of a vowel are close, especially in low frequency ranges, (which is the case forposterior closed vowels), the algorithm may detect only one formant instead of two, thusentailing a shift towards the higher order values. The /u/ is particularly prone to rejection, asall mentioned reasons may apply. More details and rejection rates for each vowel aredescribed in Gendrot & Adda-Decker (2005).2.3. Prosodic Categories selectionFour prosodic categories were evaluated in this study. From the lowest to the highest:syllables, words, accentual phrases (syntactic chunks), intonational phrases (pauses). We194


<strong>Actes</strong> d’IDP 09describe the choices made to select these categories below, starting from word positions.Boundaries of each of these categories will be investigated, that is to say both initial and finalphonemic positions.Words were obtained from the manual transcription and segmented by the alignmentsystem. Vowels described as word-initial were absolute word-initials: only taken from wordsstarting with a vowel (‘armée’ [a#me]: armée), not from initial syllables more simply (‘partir’[pa#ti#]: to leave). Indeed, as moving up the prosodic hierarchy, we found very littlehyperarticulation for vowels in words' second phoneme position. However a more detailedanalysis would be of interest in a future study as some effects were still observed betweenword second phonemes and word internal vowels. As for positions described as word-final,we considered both final and penultimate vowels (‘partie’ [pa#ti]: party; ‘partir’ [pa#ti#]: toleave). Indeed both positions had an effect of the same magnitude along the prosodichierarchy; this interesting point will be developed in the discussion.Syllables were determined from phonemic segmentation. Syllabation rules inspired fromPallier (1994) and Adda-Decker et al. (2005) were used for the continuous string ofphonemes, i.e. not taking word delimitations into account. For example the two wordssequence ‘bon ami’ (‘good friend’) is segmented into 3 syllables : ‘bo’, ‘na’ and ‘mi’ unlessthey are separated by a pause. Pauses were considered as delimiters and syllables and,according to this principle, wouldn't contain pauses. If we were to follow the prosodichierarchy in a strict manner, the lower level below word category is the syllable. However, itwas difficult, if not impossible, to collect vowels that were syllable initial and still wordinternal. Vowels that are syllable initial but not word initial are very scarce as they can onlybe found in simple V-syllable kinds (‘aéroport’: airport, 2% in word internal positions inFrench). On the other hand, open syllables inside words are predominant (78 %) due to theopen syllable status of French. We finally decided to take into account word syllables thatwere neither word final nor word initial, no matter which kind. Consequently, vowelsconsidered here as word internal are predominantly (78 %) syllable final.The third level analyzed in our prosodic hierarchy is what we identified as accentualphrases (see (1) for an example). They were obtained from a syntactic chunking based onautomatically established grammatical categories, combined with several rules we describehere.1. In the first place, each word is labelled with all available categories in the Frenchdictionary of ‘formes fléchies’ (‘Lefff’: Clément et al. 2004), slightly modified for ourneeds. For example, we suppressed very rare word categories confounded with morefrequent words (for example the adjective ‘sûr’ entailing false labellings).2. Then the chunker from the ‘Natural Language Toolkit’ was used so as to generate twokinds of segments:a. Nouns, prepositions and verbs were gathered with their closest surroundings(clitics, determinants, prepositions, adjectives, etc.)b. All sequences of words not defined by the previous ruleIn a final step, three merging rules were applied:3. Merging of any segment ending on an auxiliary or a modal with the followingsegment.4. Merging of any verbal segment with the following segment if the whole resultingchunk is less than seven syllables.5. Merging of any other sequence of segments of less than seven syllables.195


Proceedings of IDP 09(1) combien de fois la justice française a-t-elle accepté de se remettre en question comme celaChunks generated by this algorithm may still have more than seven syllables, if the previousrules allow for it, for instance the chunk ‘avec qui j'ai pu m'entretenir’ (with whom I couldtalk) is very difficult to chunk further. The seven syllables rule applied here - taken afterWioland (1985) - is a rough limitation to avoid overly long chunks. This constituent sizelimitation has also been mentioned by previous writers such as Grammont (1933). It may besupplanted in future studies by a duration threshold which would be more suited to be adaptedto different speaking styles. This category is meant to be as close as possible to the accentualphrase although we are aware not all these chunks are ‘accented’, i.e. bearing a generallyrising tone and/or accompanied with a lengthening of the last syllable. The accentual phrase,referred to as ‘sense group’ by Grammont (‘groupe de sens’) has a demarcative function asexplained in the introduction. We could also have combined this morpho-syntacticinformation with prosodic information such as lengthening to make sure the accentual phrasewas indeed one, but that would have been a somewhat circular procedure as the longestvowels are hyperarticulated in the first place. Hence, this procedure aims at evaluatingaccentual phrases on a syntactic (underlying) level rather than based upon their prosodiccharacteristics. We could also have used pitch rising but accentual phrases may also berealized with a lowering tone or a plateau as long as there is lengthening at their finalboundary. That procedure would thus have excluded a non negligible part of the data.The fourth and highest prosodic category we investigated is the intonational phrase. Thiswas automatically detected with the help of pauses, the latter being taken into account whenlonger than 50ms only. Pauses were detected by the alignment system and this threshold waschosen so as to allow for possible detection errors. It is known in French that intonationalphrases may be preceded/followed by pauses (Jun & Fougeron 2000). That's why we considerit as similar to intonational phrases. Intonational phrases may not be systematicallypreceded/followed by a pause, but when they are, they are surely considered as intonationalphrases. However, a distinction has to be made here between rising and falling contours whena pause is following as it may be confounded with an utterance ending. As for the beginningof intonational phrases, we have no way of ensuring it cannot be an utterance (the highestprosodic level according to most authors).We are aware that detecting automatically accentual and intonational phrases in such a waywill lead some misidentification of categories. For example intonational phrases may beconfounded with utterances as mentioned previously. Accentual phrases may also be taken forintonational phrases without pauses but may also be simply realized as wordendings/beginnings. However the aim of this study was to determine four different theoreticalcategories, not based upon prosodic cues, and none of our examples can be in two categoriesat the same time. The large number of contexts is also believed to allow for a certainpercentage of errors. Finally, an investigation of usual prosodic cues such as f0 and durationvalues on boundaries will help us check whether the detection of these categories hassucceeded.3. Results3.1 Initial positions.As was hypothesized, we can notice at a first glance on figure 2 that vowels occupy a much196


<strong>Actes</strong> d’IDP 09larger vocalic space in the highest prosodic category (intonational phrase), and this graduallyfor every analyzed level. It seems that high vowels /i/ and /y/ don't undergo as much variationas the other vowels. The dispersion measurement detailed in the method section gives anindication of the statistical differences involved here.Figure 2.a.b.c.d:. from left to right and top to bottom. Comparison of all prosodic categorieslevel by level: word internal, initial of word, accentual phrase and intonational phrase. Thedashed triangle in the first three figures represents the lower level in each comparison pair.The bottom right figure summarizes all four positions.Dispersion measurements results in figure 3 show that values generally increase with the levelof the prosodic hierarchy, i.e. vowels move away from the acoustic centre of the acousticspace, allowing themselves to be more distinguishable from one another. Statistic tables won'tbe presented for sake of space but standard error bars shown on the figures give a hint aboutsignificant differences.Only /e/ shows significant differences for all levels. Other vowels /$%, /a/, /o/, /u/ show asignificant dispersion according to the prosodic hierarchy for three levels out of four. For&%'/and /i/, only two levels can be significantly distinguished, in both cases the syllable and wordlevels together versus accentual and intonational phrases. Only /y/ doesn't reveal astraightforward tendency according to all levels. We found in previous studies (Gendrot et al.,2008) that high front vowels /i/ and /y/ in French don't undergo as much variation in the F1/F2plane as other vowels, but rather in the F3/F4 plane.Third formant (F3) and fourth formant (F4) variations were also investigated so as to checkwhether these vowels undergo more variation in these dimensions. We observe that whereasF3 rises for all non rounded vowels, it lowers for rounded vowels /u/, /o/& and more197


Proceedings of IDP 09interestingly /y/. As for F4 values, they are lowering for /i/ when going up the prosodichierarchy while they don't show any significant tendency for other vowels. These F3 and F4movements allow /i/ and /y/ to be more focal by bringing together F3/F4 and F2/F3respectively (Schwartz et al. 1997). In articulatory terms, /y/ is more rounded, while /i/ ismore spread when going up the prosodic hierarchy, thus enhancing their articulatorycharacteristics.,&e$&&&&&&&&&(&&&&&&&&&&'&&&&&&&&&)&&&&&&&&&&*&&&&&&&&&&+&&&&&&&&&Figure 3: dispersion measurements at initial positions for all peripheral vowels according tothe prosodic hierarchy (from S: syllable, to W: word, then AP: accentual phrase, and finallyIP: intonational phrase.A short glance at f0 and duration values in figure 4 reveals that both values are rising withthe level of the prosodic hierarchy which confirms that phonemes are hyperarticulated notonly in spectral but also in prosodic terms. Vowel lengthening favours hyperarticulation and af0 raise generally increases all formant values. These prosodic measurements also confirm thefiability of our automatic detection of selected prosodic categories. The relation between f0,duration and formant measurements will be developed in the discussion.198


<strong>Actes</strong> d’IDP 09e$&&&&(&&&&&'&&&&&&)&&&&&*&&&&&&+&&&&&,&,&e$&&&&&(&&&&&'&&&&&)&&&&&&*&&&&&&+&&&&&&Figure 4a.b: duration (left) and f0 (right) values at initial positions according to the prosodichierarchy (from S: syllable, to W: word, then AP: accentual phrase, and finally IP:intonational phrase).3.2. Final positionsAs observed for initial positions, we can see at first glance in figure 5 that vowels occupy amuch larger vocalic space in the highest prosodic category (intonational phrase), and thisgradually for every analyzed level. It seems that /i/ doesn't undergo as much variationcompared to the other vowels, while /y/ is rather characterized by untypical variations.199


Proceedings of IDP 09Figure 5.a.b.c.d.: from left to right and top to bottom. Comparison of all prosodic categorieslevel by level: word internal, final of word, accentual phrase and intonational phrase. Thedashed triangle in the first three figures represents the lower level in each case. The bottomright figure summarizes all four positions.Once again, the dispersion measurements in figure 6 give an indication of the statisticaldifferences involved here: the amplitude of variations is larger than for initial positions.Vowels /e/, /a/, /o/ and /i/ show significant differences for all levels, although with lessamplitude for /i/. Other vowels /$/, /'/, and /u/ show a significant dispersion according to theprosodic hierarchy for three levels out of four. As for /y/ finally, variations don't quite go inthe expected direction with the accentual phrase level having the smallest values. The highestlevel (intonational phrase) still has higher values than syllable and word levels, which followsthe general tendency.F3 and F4 variations were investigated as well: F3 lowers for rounded vowels /u/, /o/ and/y/ but for the latter, only two levels were distinguished (syllable and word level togetherversus accentual and intonational phrases). As for F4 values, they are lowering for /i/ whengoing up the prosodic hierarchy for final positions, in the same way it did for initial positions.As noticed for initial positions, these F3 and F4 movements allow /i/ and /y/ to be more focal,although less so for /y/.200


<strong>Actes</strong> d’IDP 09,&e$&&&&&&&&&(&&&&&&&&&&'&&&&&&&&&)&&&&&&&&&&*&&&&&&&&&&+&&&&&&&&&Figure 6: dispersion measurements at final positions for all peripheral vowels according tothe prosodic hierarchy (from S: syllable, to W: word, then AP: accentual phrase, and finallyIP: intonational phrase.A short glance at f0 and duration values reveals that both values are rising with the levels ofthe prosodic hierarchy. As noticed for dispersion measurements, the amplitude of thisvariation is much larger than for initial positions. This corresponds to predictions of theFrench prosodic hierarchy and in turn, confirms that the four analyzed prosodic categorieswere correctly detected.,&e$& & & & & (& & & & & &'& & & & & )& & & & & & *& & & & & & +&&&&&&&,&e$& & & & & (& & & & & &'& & & & & )& & & & & & *& & & & & & +&&&&&&&Figure 7a.b.: duration (left) and f0 (right) values at final positions according to the prosodichierarchy (from S: syllable, to W: word, then AP: accentual phrase, and finally IP:intonational phrase).201


Proceedings of IDP 094. Discussion4.1. General results: significant differences and possible improvementsAs hypothesized, we observe a general prosodic hierarchy (from syllable to word, thenaccentual phrase and finally intonational phrase) based on spectral measurement results. Itshows that the higher a vowel is in the prosodic structure of French, the more hyperarticulatedit is. However, as noticed by previous studies (Fougeron 2001; Tabain 2002; Tabain & Perrier2005; Cho 2005), all levels cannot be statistically distinguished from one another in asystematic manner. That is to say, some vowels are less variable according to the differentprosodic positions analyzed. For example, /i/ and /y/ were noticed to be less variable on theF1/F2 plan. A further investigation on F3 and F4 movements showed that when moving upthe prosodic hierarchy, /y/ is characterized by a narrowing of F2 and F3, while /i/ ischaracterized by a narrowing of F3 and F4, thus favouring their focal characteristics(Schwartz et al.,1997).Other vowels such as /'/, /o/, and /u/ revealed variations that could be unexpected in somecontexts, sometimes larger or smaller than for other vowels. These results may be partlyexplained by the scarce number of these vowels at specific prosodic levels for phonotacticreasons. For example, we noticed that /'/ has a non typical variation in (strictly) finalpositions with particularly high F2 values; /'/ is typically found in closed syllables (‘or’,‘corps’, ‘corpus’, etc.) according to French Phonology. However these odd variations arepartly covered as we considered both final and penultimate vowels. No F3 lowering wasobserved for /'/, neither for initial nor final positions. This is rather surprising since /'/ isusually mentioned as a rounded vowel. But French /'% has already been mentioned to becloser to /"/ in some varieties of French (Boula de Mareuil et al. 2008). As for /u/ and /o/,they are the least represented peripheral vowels (around 2% each) which may account fortheir somewhat less regular variations along the prosodic hierarchy. Finally, we also have tomention that an f0 increase, as was noticed in figures 4b and 7b results in an increase of all F1values. This fact may explain why we do not systematically get the same results as in figure 1,i.e. hyperarticulated close vowels having a lower and lower F1.4.2. Information content and span of the hyperarticulationNo distinctions between grammatical categories (‘parts of speech’) were considered in thisstudy. It has to be mentioned that distribution of grammatical categories is not even,depending on the analyzed prosodic positions. Indeed, beginning words of accentual ofintonational phrases are usually prepositions, conjunctions or determinants, while for the twoother prosodic categories (syllable and word), nouns and adjectives are the most represented.It could be expected that grammatical words are more hypoarticulated since they are morefrequent lexicon items and don't carry as much information as lexical words. Indeed, abundantliterature already exists about the linguistic information carried by words as well as theirlexical frequency, and their implications in the articulation of these words (Lindblom and theHypo- & Hyperarticulation theory as one mere example). The predictions emanating fromthese theories have been empirically tested on the acoustic realization of vowels (Wright,2003, among others). We could thus have expected that boundaries of accentual andintonational phrases might be more hyperarticulated towards the end and not at the beginning.However, in previous unpublished analyses, we noticed that vowels formants were not subjectto much change when comparing grammatical with lexical words. We decided not to filter outthese constituents with the hypothesis that in continuous speech, if the speaker does decide to202


<strong>Actes</strong> d’IDP 09signal boundaries to the listener, then he will do it whatever the grammatical category.Indeed, it was measured that both initial and positions are characterized byhyperarticulation on the higher levels of the prosodic hierarchy (accentual and intonationalphrase), despite a large number of grammatical words at the beginning of these prosodicconstituents One has to remember that beginnings of each accentual phrase or intonationalphrase is also the end of a preceding one of the same level. As proposed by Byrd & Saltzman(2003), these boundaries are moments of gesture slowering (pi-gesture) which favourhyperarticulation. It is thus fairly logical to observe the same phenomena at both initial andfinal positions of our analyzed prosodic levels, whatever the grammatical category involved.One interesting result was the fact that for final positions, strictly final but also penultimatevowels were considered for analysis, while for initial positions, only strictly initial vowelswere taken into account. As suggested by Fougeron (2001) for French or Byrd et al. (2006)for American English, the span seems to more important on final than on initial positions. Infact some variations could be observed between syllable and word initial position but theywere overall less important than strictly initial positions. The amplitude of variations forhyperarticulation was noticed to be larger in final positions. Duration and f0 variations as wellare much larger for final than for initial positions. It is also possible that for grammaticalwords, the span of hyperarticulation might not be as spread as for lexical words and thisshould be soon investigated.4.3. Hyperarticulation and ‘prosodic’ characteristicsSo as to make sure to retain intonational phrases and filter out utterance endings, we measuredf0 contours on analyzed vowels and kept only rising contours for intonational phrasecategory. The filtering of rising f0 contours in final positions had in fact few consequences. Asimilar hyperarticulation pattern could be found for lowering f0 contours. Phonemes in finalpositions of intonational phrases with a lowering f0 contour (supposedly utterance endings)were even slightly hypoarticulated compared to intonational phrases (with a rising f0contour). This tends to show that - as suggested by Fougeron (2001) for French - there arefew articulatory differences at boundaries between the intonational phrase level analyzed hereand an utterance level.We noticed that f0 and duration values increased in parallel to dispersion measurements,along the prosodic hierarchy. It seemed in the first place that these three parameters werelinked since f0 and duration are also known to mark boundaries. Correlations were effected,but as noticed by Keating et al. (2004), they turned out to be weak (at initial positions: r=0.21between dispersion and duration and r=0.26 between dispersion and f0; at final positions:r=0.18 between dispersion and duration and r=0.27 between dispersion and f0). If f0 andduration that are usually considered as boundary markers are not strongly correlated with ourdispersion measurements, it suggests that there might be compensations between spectral andprosodic variations used to by speakers in order to signal boundaries. Therefore it alsosuggests that speaker variability should be investigated in a near future.Some modifications are currently being added so as to improve the chunking results. Firstof all, we are working on some possible improvements to the syntagmatic chunking so as toavoid some irregular accentual phrases (a small proportion of these were noticed whenchecking manually the chunked portions of speech). Changing the number of 7 syllables(Wioland 1985) to an amount of time dependent on speech rate adopted by the speaker shouldbe an interesting point in the future and finally, other kinds of chunking based on statisticaltraining might be also used. Thanks to these, more significant differences may be foundbetween all prosodic levels. We also started studying consonants in the same prosodicpositions. Indeed, word initial vowels in French are scarce due to the CV predominance, and203


Proceedings of IDP 09significant results could be found for initial consonants.5. ConclusionIn this study we showed that the level of prosodic constituent in French influences theacoustic realization of vowels at constituent boundaries. We observe a general prosodichierarchy (from syllable to word, then accentual phrase and finally intonational phrase) basedon formant measurements, showing that the higher a vowel is in the prosodic structure ofFrench, the more hyperarticulated it is. However, as noticed by these previous studies, alllevels cannot be statistically distinguished from one another in a systematic manner.Phonotactics and the lack of occurrences of a few phonemes in restricted contexts werepossibly involved in some non significant or unexpected results. Possible improvements willbe brought by other chunking methods.These hyperarticulation results follow the increasing f0 and duration values measured onthese phonemes although correlations were noticed to be weak. Both initial and final positionswere subject to hyperarticulation for higher prosodic levels but hyperarticulation seems tohave a longer ‘span’ for final positions. Finally, grammatical category of the word involveddoesn't seem prevalent since ‘determinants’ and ‘conjunctions’ that are predominant at thebeginning of accentual and intonational phrases are still hyperarticulated compared to ‘nouns’or ‘verbs’ in the lower prosodic level.ReferencesAdda-Decker M., P. Boula de Mareüil, G. Adda & L. Lamel (2005). Investigating syllabic structures and theirvariation in spontaneous French. Speech Communication 46, pp. 119-139.Boersma, P. & D. Weenink (2009). Praat: doing phonetics by computer (Version 5.1.22) [Computer program].Retrieved September 15, 2009, from http://www.praat.org/Boula de Mareuil, P., B. Vieru-Dimulescu, C. Woehrling & M. Adda-Decker. Accents étrangers et régionaux enfrançais. Traitement Automatique des Langues 49:3, pp.135-163.Bradlow, A.R., G.M. Torreta & D.B. Pisoni (1996). Intelligibility of normal speech: global and finegrainedacoustic-phonetic characteristics. Speech Communication 20, pp. 255-272.Bürki, A., C. Fougeron, C. Gendrot & U. Frauenfelder (to appear). Phonetic reduction versus phonologicaldeletion: Methodological questions regarding the study of schwa/zero alternation in French. Journal ofPhonetics.Byrd, D. & E. Saltzman (2003). The elastic phrase: Modeling the dynamics of boundary-adjacent lengthening.Journal of Phonetics 31:2, pp. 149-180.Byrd, D., J. Krivokapic & S. Lee (2006). How far, how long: On the temporal scope of phrase boundary effects.Journal of the Acoustical Society of America 120, pp. 1589-1599.Cho T. (2005). Prosodic strengthening and featural enhancement: Evidence from acoustic and articulatoryrealizations of /a,i/ in English. Journal of Acoustical Society of America 11:6, pp. 3867-3878.Clément, L., B. Sagot & B. Lang (2004). Morphology based automatic acquisition of large-coverage lexica. In<strong>proceedings</strong> of LREC'04, Lisboa, Portugal, pp. 1841–1844.Fougeron C. (2001). Articulatory properties of initial segments in several prosodic constituents in French.Journal of Phonetics 29:2, pp. 109-135.Fougeron, C., C. Gendrot & A. Bürki (2007). On the acoustic characteristics of French schwa. In Proceedings ofthe 16th International Congress of Phonetic Sciences, Saarbrücken, Saarbrücken, Germany. pp. 941-944.Galliano, S., E. Geoffrois, D. Mostefa, K. Choukri, J.-F. Bonastre & G. Gravier (2005). ESTER Phase IIEvaluation Campaign for the Rich Transcription of French Broadcast News. In Proceedings of Interspeech,Lisboa, Portugal, pp. 1149-1152.Gendrot, C. & M. Adda-Decker (2005). Impact of duration on F1/F2 formant values of oral vowels: anautomatic analysis of large broadcast news corpora in French and German. In Proceedings of Interspeech –Lisboa, Portugal, pp. 2453-2456.204


<strong>Actes</strong> d’IDP 09Gendrot, C. & M. Adda-Decker (2007). Impact of duration and vowel inventory size on formant values of oralvowels: an automated formant analysis from eight languages, In Proceedings of the 16th InternationalCongress of Phonetic Sciences, Saarbrücken, Germany. pp. 1417-1420.Gendrot, C., M. Adda-Decker & J. Vaissière (2008). Les voyelles /i/ et /y/ du français : focalisation et variationsformantiques. In <strong>proceedings</strong> of 26èmes Journée d’Etude de la Parole, Avignon, France, pp. 205-208Gendrot, C. & M. Adda-Decker (to appear). Impact of duration and consonantal context on formant values oforal vowels: An automatic analysis of large broadcast news corpora in French. In M. Embarki & C. Dodane(Eds.), Patterns of speech coarticulation: Between physics and metaphysics. Cambridge: CUP.Grammont M. (1933). Traité de phonétique, Paris: Librairie Delagrave.Jun S.-A. & C. Fougeron (2000). A Phonological model of French intonation. In A. Botinis (ed.) Intonation:Analysis, Modeling and Technology. Dordrecht : Kluwer Academic Publishers. pp.209-242.Keating P., T. Cho, C. Fougeron & C.-S. Hsu (2004). Domain-initial articulatory strengthening in four languages.In J.K. Local, R. Ogden and R.A.M. Temple (eds.) Papers in Laboratory Phonology VI: Phonetic interpretation.Cambridge: CUP, pp. 145-163.Lindblom B. (1963). Spectrogaphic study of vowel reduction. Journal of Acoustical Society of America 35, pp.1773-1781.Lindblom B., 1990, Explaining phonetic variation : a sketch of the H & H theory, in Speech production and speechmodelling, W. Hardcastle et A. Marchal, Dordrecht, Kluwer, pp. 403-440.Nespor M. & I. Vogel (1986). Prosodic phonology, Dordrecht : Foris.Pallier, C. (1994). Rôle de la syllabe dans la perception de la parole : études attentionnelles. PhD thesis, EHESS,Paris.Schwartz J. L., L. J. Boë, N. Vallée & C. Abry (1997). The dispersion-focalization theory of vowel systems.Journal of Phonetics 25, pp. 255-286.Stevens, K.N. (1997) Articulatory-acoustic-auditory relationships. In W.J. Hardcastle and J. Laver (eds.), TheHandbook of Phonetic Sciences , Blackwell: Oxford, pp. 462-506.Tabain M. (2003a). Effects of prosodic boundary on /aC/ sequences: acoustic results. Journal of the AcousticalSociety of America 113, pp. 516-531.Tabain M. (2003b). Effects of prosodic boundary on /aC/ sequences: articulatory results, Journal of theAcoustical Society of America 113, pp. 2834-2849.Tabain M. & Perrier P. (2005). Articulation and acoustics of /i/ at prosodic boundaries in French, Journal ofPhonetics 33, pp. 77-100.Vaissière, J. (2007). Area Functions and Articulatory Modeling as a Tool for Investigating the Articulatory,Acoustic, and Perceptual Properties of Sounds Across Languages. In: Sole, M-J., Beddor, P.S., Ohala, M.(eds), Experimental Approaches to Phonology, Oxford University Press, pp. 55-72.Wioland, F. (1985). Les structures syllabiques du français : Fréquence et distribution des phonèmesconsonantiques, Contraintes idiomatiques dans les séquences consonantiques. Slatkine-Champion, Genève-Paris, 1985.Wright, R. (2003). Factors of lexical competition in vowel articulation, in J. Local, R. Ogden & R. Temple (eds),Papers in Laboratory Phonology VI, Cambridge: CUP, pp. 75-87.205


<strong>Actes</strong> d’IDP 09Discrimination de styles de parolepar analyse prosodique semi-automatiqueJean-Philippe Goldman 1,2 , Antoine Auchlin 1 , Anne Catherine Simon 2jean-philippe.goldman@unige.ch, antoine.auchlin@unige.ch,anne-catherine.simon@uclouvain.be1 Département de Linguistique, Université de Genève, Suisse2 Institut Langage & Communication, UCLouvain, BelgiqueAbstractThis study focuses on prosodic differences between speaking styles, and their automatic distinction. We aim atcharacterizing speaking styles with the purpose of distinguishing them from each other, modeling them andeventually adding expressivity to text-to-speech systems. This can be done with a multi-level annotation ofvaried corpora, based on automatic processes (like phonetic segmentation, grammatical tagging) and manualannotations (of perceived syllabic prominences and of delivery speech objects). Quantitative comparisons ofvarious prosodic parameters are conducted through the acoustic and linguistic dimension to catch differencesbetween speaking genres.1. IntroductionNotre recherche porte sur la discrimination de phonostyles, c’est-à-dire de styles de paroleperçus comme identifiant une situation de communication, via un genre, une imageacoustique typifiée. Notre approche est basée sur l’examen de corpus. Notre objectif est decomprendre quels paramètres prosodiques discriminent certains genres de parole, afin demieux décrire ces genres et d’implémenter, en synthèse, les styles correspondants.Quels paramètres prosodiques permettent de discriminer des phonostyles, ces stylessonores caractéristiques d’un individu, d’un groupe social ou d’une circonstance de parole(Léon 1993: 3) ? Pour répondre à cette question, notre étude se base sur l’analyse d’une partiedu corpus C-PROM (Avanzi et al. 2010) comprenant 6 genres de parole (lecture, conférencescientifique, interview radiophonique, journal parlé, récit conversationnel et discourspolitique) représentés chacun par trois échantillons. Notre objectif est de comprendre quelsparamètres prosodiques discriminent le mieux une partie ou l’ensemble de ces genres deparole, afin de les décrire de manière appropriée et d’implémenter, en synthèse, les stylescorrespondants.La définition comparée des styles de parole n’est pas une opération triviale: d’une part, lesstyles ne s’échelonnent pas aisément sur un seul axe (par ex. du plus au moins formel)permettant de faire des prédictions sur leurs caractéristiques prosodiques; d’autre part, lesstyles peuvent se décrire selon une matrice de traits situationnels partiellement indépendantsdu degré de formalité évoqué ci-dessus (par ex. parole publique vs. privée; monologue vs.dialogue) qui, on le verra, semblent être corrélés avec certains paramètres prosodiques. Cetteétude (voir § 2) prend donc à la fois en compte chaque style-genre et les groupements de cesderniers selon des traits situationnels qui ont une influence sur le mode de conception dudiscours (Koch & Oesterreicher 2001).Méthodologiquement, nous avons privilégié une description semi-automatisée de laprosodie (voir § 3), basée sur des outils libres d’accès et permettant d’obtenir pour chaqueéchantillon ou groupe d’échantillons une série de mesures pouvant être contrastées: débit,207


Proceedings of IDP 09registre et chemin de f0, proportion et localisation des syllabes proéminentes, etc. Lesmesures, et les résultats, concernent tantôt les syllabes tantôt les phénomènes prosodiques seréalisant dans les macro–unités, définies ici comme « unités séparées par des pauses ».2. Définir les styles-genres de paroleCommençons par une précision concernant l’emploi des termes genre et style ici. Johns-Lewis (1986) amalgame dans les ‘discourse modes’ (modes de discours) ce que Hymesdésigne par « genre » (prière ; lecture ; poésie) et ce que Crystal & Davy nomment« modality » (bulletin de nouvelles radio ; commentaire sportif en direct…). Ces termes et cesexemples renvoient à une catégorisation préalable, situationnelle, de contraintes etdéterminations donnant des formes particulières à la parole. Léon (1993, ch.8), après Lucci(1983), utilise également le terme de genre pour désigner cette catégorisation, et celui dephonostyle pour désigner les caractéristiques effectives d’une parole donnée – quoi que demanière non systématique ; le terme de phonostyle, chez Fónagy, Léon, entre autres, étantsouvent également entendu comme hyperonyme. Nous distinguons ici, partout où c’estpossible, le genre, classification basée sur le type d’activité de parole et le type decirconstances dans lesquelles elle est produite ; du style, ensemble de propriétés d’unéchantillon (ou d’un groupe d’échantillons) de parole donné, qui appartient à un genre donnéet le reflète plus ou moins. Ainsi, méthodologiquement, on étudie un phonogenre lorsqu’onregroupe des échantillons de parole selon leurs conditions de production (par genre) et qu’onétudie le profil prosodique commun (moyen) ; et l’on étudie un phonostyle, singulier ouprototypique, si l’on étudie les échantillons et qu’on les groupe selon leurs propriétés,communes ou distinctives.Deux types d’approches sont illustrés dans les études prosodiques sur les styles de parole.Des auteurs comme Pierre Léon ou Ivan Fónagy se sont attachés à décrire des phonostylestypiques d’une manière qualitative, en faisant ressortir telle particularité (allongement de lasyllabe pénultième de groupe intonatif, présence d’une certaine courbe mélodique, etc.)associée à tel type de locuteur / situation de parole. Des descriptions très fines et détaillées ontété produites 1 , qui forment de bonnes sources d’hypothèses.D’autre part, il existe une tradition d’études qui visent à comparer, souvent deux à deux etde manière partiellement automatisée, des échantillons de parole représentatifs de genres pourvoir selon quels indicateurs prosodiques ils divergent de manière significative. On y apprendpar exemple que• du point de vue de la structure temporelle: le type et la distribution des pauses varieentre la lecture et la parole spontanée (Guaïtella 1997; Hirschberg 2000);l’allongement des voyelles sous l’accent en français varie entre la lecture (allongementdes accents finaux plus marqué) et l’interview (accents initiaux plus marqués)(Astésano 1999); le débit de parole est plus élevé en parole lue que spontanée(Hirschberg 2000: 336 sur des données en anglais américain; cependant Koopmans &van Beinum 1991 font l’observation inverse sur du néerlandais);• du point de vue tonal: le registre mélodique est plus compact en parole spontanéequ’en parole lue, et, pour la parole radiophonique, le registre mélodique est plus réduitpour les informations que pour les commentaires sportifs;• du point de vue des unités intonatives: on compte plus d’unités intonatives mineurespar unité intonative majeure en parole spontanée qu’en parole formelle, et la parole1 Par exemple, sur la manière de parler de Brigitte Bardot, sur l'accent du Midi, sur le style des journalistes à laradio, etc. (Fónagy 1983; Léon 1993 ; Callamand 1987).208


<strong>Actes</strong> d’IDP 09formelle se caractérise par des unités intonatives majeures plus longues (Cid &Corugedo, cités par Llisterri 1992: 14; Degand & Simon 2009); par contre il n’a pasencore été démontré qu’il y ait des différences dans le choix des types de contoursmélodiques selon le style (ou le genre) de parole (Hirschberg 2000: 345; Llisterri1992).Ainsi, on trouve dans la littérature d’une part des descriptions exhaustives d’un style deparole typé (un genre), et de l’autre des informations sur des paramètres prosodiques quivarient de manière systématique selon le style, la notion de style étant souvent réduite à uneopposition entre deux styles (genres), typiquement entre parole lue et parole spontanée ouentre style formel et style informel.Dès lors qu’on cherche à comparer plus de deux styles (ou genres) de parole, il devientdifficile de les classer sur une unique échelle, de formalité, par exemple. Ainsi, pour prendre 4genres parmi les 6 que compte de notre corpus - le journal parlé radiophonique, la lecture àhaute voix (dans le cadre d’une tâche de recueil de données élicitées), la conférencescientifique et le discours politique - lequel devra être considéré comme le plus formel? Demême, peut-on regrouper sous l’étiquette uniforme de parole lue la lecture à haute voix et lejournal parlé radiophonique au titre que le locuteur lit un texte écrit à l’avance? Plusieursaspects d’une situation de communication (discours préparé ou improvisé; discours public ouintime; discours monologal ou dialogal) se trouvent amalgamés si l’on tente de réduire lavariation à un axe unique (formel vs informel), et des situations très différentes peuvent setrouver assimilées les unes aux autres.Afin d’éviter ces écueils, nous faisons les propositions méthodologiques suivantes:! identifier un genre de parole en précisant la tâche communicative spécifiqueaccomplie, afin d’éviter que des tâches aussi différentes que des réponses produitesdans le cadre de dialogue homme-machine (voir corpus étudié dans Hirschberg 2000)ou une narration conversationnelle entre amis soient catégorisées comme parolespontanée alors qu’elles diffèrent grandement entre elles;! caractériser chaque genre selon les trois axes suivants (Llisterri 1992; Eskenazi 1993;Koch & Oesterreicher 2001; Simon et al. 2009 2 ): (i) discours préparé (lu) 3 - improvisé(non lu); (ii) type d’audience (0=micro - face à face - beaucoup) 4 ; (iii) discoursmédiatique (radio- ou télédiffusé) - discours non médiatique.! essayer de relier différents paramètres de la variation prosodique (débit, registre tonal,pauses, etc.) à ces dimensions multiples qui caractérisent les genres de parole.Nous discrétisons en traits des dimensions réputées graduelles pour des raisonsessentiellement pratiques. De même l’inventaire des traits situationnels retenus estdélibérément restreint (suffisant à discriminer nos situations de parole) et synthétique, chaquetrait neutralisant différentes facettes 5 . Plusieurs avantages découlent de cette méthodologie:! on peut à la fois opposer les genres de parole, mais aussi analyser leurs ressemblancesen fonction des caractéristiques situationnelles qu’ils partagent (par ex. deux types delecture - lire une histoire à un enfant vs lire un texte en laboratoire - partagent le trait« discours préparé » mais s’opposent sur celui du « type d’audience »);2 Une étude préalable (Simon et al. 2009) nous a permis de montrer que certains paramètres prosodiques (commel'étendue du registre tonal ou le débit de parole) varient systématiquement selon certains aspects de la situation.Voir aussi (Lucci 1983, Campbell 2004).3 Le degré ultime de la parole préparée étant la parole lue.4 Ce trait renvoie au cadre interactionnel de Roulet et al. (2001), et plus précisément à la réciprocité (ou non), etaux conditions de co-présence spatiale et temporelle des interactants.5 Nous laissons ainsi de côté des traits importants, comme le caractère naturel - élicité (laboratoire) des données,ou le degré d'intelligibilité recherché (Eskenazy 1993: 502) et l’effort fourni par le locuteur.209


Proceedings of IDP 09! on peut mieux comparer les résultats des études publiées ou, tout au moins, statuer surla comparabilité des résultats les uns avec les autres.Cette méthodologie repose sur l’hypothèse, forte, d’un déterminisme des conditions deproduction de la parole sur ses propriétés, prosodiques et formelles. Cette déterminations’exerce de façon plus ou moins rigide, selon le degré de prototypicité de la situation deproduction, et se reflète dans l’homogénéité vs la dispersion de la variation prosodique - cequi s’inscrit dans le cadre de notre hypothèse. Mais ceci définit les propriétés de genre (deparole), plutôt que de style. Le genre est un objet typifié, associé à un ensemble d’attentesnormatives. Le style quant à lui doit être vu comme ce qui émerge de la parole dans un genredonné, et satisfait plus ou moins les attentes associées à ce genre. Le style, en retour, peut reconfigurerle genre, et par là la situation dans laquelle il apparaît ou est supposé apparaître(Johns-Lewis 1986).Tel est bien le défi que doit relever la synthèse de la parole: il faut que la parolesynthétique présente les propriétés stylistiques typiques de genres de parole déterminés,permettant à l’auditeur de l’intégrer à tel ou tel mode, régime de production, dans telle ou tellesituation - réelle ou virtuelle.Aussi notre analyse ne repose-t-elle que temporairement sur l’hypothèse de ladétermination situationnelle, hypothèse dont dépend par exemple la comparaison des mesuresde dispersion par genre, tel genre apparaissant comme plus compact que tel autre. Lescomparaisons faites sur les valeurs chiffrées de l’ensemble des syllabes en revanches’inscrivent dans le cadre complémentaire, émergentiste: ce sont les propriétés deséchantillons qui déterminent leurs assemblages en familles stylistiques. Elles visent à faireapparaître des ressemblances entre profils prosodiques, dans certaines dimensions; ellespermettent également de proposer une hiérarchisation raisonnée de paramètres situationnels,en fonction de leur « impact stylistique », leur degré de marquage ou neutralisation dans leséchantillons.3. Méthodologie: analyse automatique de la prosodie3.1. Présentation du corpus d’étudeNotre corpus comprend 17 échantillons de parole d’une durée moyenne de 210 secondes,appartenant à 6 genres ou conditions de production : (i) lecture à voix haute d’un texte(lecture d’un article de journal, situation neutre); (ii) journal parlé radiophonique (chaînenationale); (iii) discours d’un chef d’état le jour de la fête nationale (télédiffusé ou adressé àun public co-présent); (iv) conférence scientifique (par un orateur devant un public de pairs,lors d’une seule et même conférence); (v) interview radiophonique (émission littéraire); (vi)récit conversationnel. Le Tableau 1 ci-dessous détaille pour chaque genre de parole et chaqueenregistrement: sa durée, son nombre de syllabes et d’unités séparées par des pauses (USP)(voir définition §3.2), et la longueur moyenne en syllabes et en seconde de ces USP.Selon ce qui a été argumenté sous 2, chaque situation de production est décrite selon unematrice de traits, chaque trait pouvant prendre deux valeurs, ou trois (dans certains cas, unevaleur intermédiaire ; dans d’autres, le descripteur est sans objet) 6 . Cette description par traitpermet de regrouper certains genres qui partagent les mêmes propriétés situationnelles.6 Cette description forme une version simplifiée, et exploitable statistiquement, des 10 critères de Koch &Oesterreicher (2001). Lucci (1983, cité dans Léon 1993:159), retient quant à lui 9 invariants situationnels,globalement opposés les uns aux autres dans les situations « dialogue » (face-à-face), « lecture » (face au micro),et « conférence » (neutralisant les dimensions de sexe, d'âge, de « dialecte »).210


<strong>Actes</strong> d’IDP 09Méthodologiquement, cela nous permettra de corréler certains traits prosodiques non pas à unstyle particulier, mais à une sous-composante d’un genre. La limite de cette description résided’une part dans le fait que notre corpus ne couvre pas toutes les configurations de traitspossibles ; d’autre part, nous ne prétendons pas que chaque échantillon soit « le meilleurreprésentant » du genre envisagé.Lecture(LEC)Genre Enregistrement Durée (sec) Nb syll Nb USPNb syllabe Dur. moyennepar USP USP(sec)lec-be 114 606 31 20 3.677lec-fr 150 617 42 15 3.571lec-ch 137 606 44 14 3.114cnf-ch 219 950 98 10 2.235cnf-fr 224 1117 59 19 3.797Conférencescientifique(CNF) cnf-be 244 1065 46 23 5.304Interview radio int-be 296 1197 91 13 3.253(INT) int-fr 331 1403 114 12 2.904jpa-fr 188 971 27 36 6.963Journal parléjpa-be 253 1315 56 23 4.518(JPA)jpa-ch 180 879 42 21 4.286Récitnar-ch 218 948 51 19 4.275conversationnel nar-be 206 945 49 19 4.204(NAR) nar-fr 198 775 44 18 4.500pol-be 188 420 66 6 2.848Discours politiquepol-ch 230 1011 69 15 3.333(POL)pol-fr 217 744 84 9 2.583Total 4183 17799 1013 18 4.129Tableau 1. Description du corpus, par enregistrement : durée en secondes, nombre de syllabes articulées,et nombres d’unités séparées par des pauses (USP)Traits situationnelsDiscours médiatique professionnel(M) / non médiatique (NM) 7Type d’audience (0 - face àface - beaucoup)Discours préparé /improviséGenresConférencesemi-préparé (nonNMpublicscientifiquelu)Interviewsemi-préparé (nonMface à faceradiophoniquelu)Journal parlé M 0 (micro) préparé (lu)Lecture NM 0 (micro) préparé (lu)RécitNM face à face improviséconversationnelDiscours politique M 8 public préparé (lu)Tableau 2. Description des genres de parole du corpusselon des traits de la situation de communication3.2. Présentation des annotationsL’ensemble des échantillons a fait l’objet d’un alignement phonétique avec l’outil desegmentation EasyAlign (Goldman 2010) à partir duquel sont construites différentes couchesd’annotations. Le fichier d’annotation complet de chaque échantillon sonore compte 7 tires(couches d’annotation) dans le format TextGrid de Praat (Boersma & Weenink 2010) (cf.7 « Médiatique » décrit un discours produit par des professionnels des médias, c'est-à-dire un discours qu'on peutqualifier de « journalistique ».8 Non médiatique eu égard au (sous-)trait « professionnel » - mais diffusé sur les médias de masse.211


Proceedings of IDP 09Tableau 3). Les 3 premières tires sont produites automatiquement par EasyAlign (phones,syll, words). L’analyse prosodique (décrite ci-dessous) est largement automatisée mais ellerecourt à une annotation manuelle de phénomènes liés à la production du discours (prises desouffle, hésitations, interruptions, phénomènes paraverbaux, alternance des tours de parole).Pour l’analyse prosodique, l’unité de base est la syllabe. A l’aide d’un script basé surProsogram, les noyaux syllabiques sont détectés et leur fréquence fondamentale stylisée(Mertens 2004). Cette stylisation vise à minimiser le risque d’erreurs de détection de la f0pour les mesures mélodiques (Hermes 2006).Nom de la tirePhonesSyllWordsDeliveryGraSequencesContenu de l’annotationTranscription phonétique alignée sur le signal, en SAMPASyllabation de la transcription phonétiqueDécoupage en mots graphiques (séparés par une espace ou une apostrophe)EasyAlignAnnotation des phénomènes de production et des proéminences :! : interruption syntaxique (amorce , faux départ) z : hésitationP : syllabe perçue comme proéminente @ : schwa post-tonique* : prise de souffle audible _ : pause silencieuse% : bruit extérieur + : syllabe avec chevauchement de parolec : creaky voice# : paraverbalÉtiquetage (automatique et vérifié manuellement) en catégories grammaticales (VERB,NOUN, ADJ, ADV...)Découpage manuel en séquences syntaxiques fonctionnelles (Séquence Sujet, SéquenceVerbe, Séquence Objet, etc.) (voir Bilger & Campione 2002; Degand & Simon 2009)Découpage automatique en unités séparées par des pauses silencieuses longues. Les pausesUSPlongues sont isolées.Tableau 3. Description des fichiers d’annotation (TextGrids)liés à chaque échantillon du corpusChaque syllabe est étiquetée manuellement et selon un protocole strict, comme« proéminente » ou « non proéminente »; une syllabe est proéminente lorsqu’elle se démarquedes syllabes environnantes par une durée ou une hauteur moyenne plus importante, ou encorela présence d’un mouvement mélodique interne (Simon et al. 2008). L’annotation enproéminences syllabiques se combine avec une annotation des syllabes ayant une prosodieparticulière due au travail de formulation. On identifie ainsi les allongements d’hésitation, lesinterruptions, etc. De même, les différents types de pauses silencieuses (avec ou sans prise desouffle, etc.) sont spécifiés. Cette annotation prend place dans la tire delivery. Elle permet degérer l’inclusion ou l’exclusion de certains types de syllabes pour la suite de l’analyse.L’interprétation des syllabes proéminentes dans le système accentuel du français requiertleur localisation par rapport à la chaîne morpho-syntaxique, par rapport à des mots clitiquesou non clitiques et à des constituants grammaticaux (Mertens 1993). Pour cette raison, nousavons ajouté une annotation grammaticale (tire gra) automatique et une annotation syntaxiquemanuelle (découpage en chunks dans la tire sequences) (Beaufort 2002, Roekaut 2009).Chaque enregistrement a été découpé en unités séparées par des pauses (USP) en fonctiondes pauses longues réalisées par le locuteur. On présente souvent le seuil de 180-200 mscomme seuil minimal pour les pauses perçues comme fonctionnelles (Candea 2000: 23-24 ;Lacheret-Dujour & Victorri 2002 définissent l’unité période à partir d’une durée de pause de250 ms). Cependant, au lieu de se fonder sur une durée de pause standard pour opérer undécoupage fonctionnel, notre corpus montre qu’il est pertinent d’adapter ce seuil à la parolede chaque locuteur. Les distributions de pauses de la Figure 1 montrent des structures212


<strong>Actes</strong> d’IDP 090 1 2 3 4jpabimodales. Cependant, la valeur des pics ou modes (correspondant aux pauses courtes etlongues) ainsi que celle des creux, varient selon que l’on considère le corpus entier, seulementun genre (ici POL est représenté) ou chaque locuteur pris isolément. Par exemple, le creux(que l’on retiendra comme 0.0 0.2 valeur-seuil 0.4 0.6 pour 0.8 discriminer 0.0 les 2 types 0.2 0.4 de pauses) 0.6 0.8 de pol-be (0.4s) est bien plus élevé que celui des deux autres locuteurs de ce genre politique (230 et 225msn= 212 seuil= 0 msn= 190 seuil= 0 mspour respectivement pol-ch et pol-fr).0.0 0.5 1.0 1.5 2.0lec0.0 1.0 2.0 3.0int0.0 0.2 0.4n= 293 seuil=tous genrespoliti0.0 1.0 2.00.0 0.5 1.0 1.50.0 0.5 1.0 1.50.0 0.2 0.4 0.6 0.8n= 1723 seuil= 0 ms0.0 0.2 0.4 0.6 0.8n= 282 seuil= 0 ms0.0 0.2 0.4 0.6n= 240 seuil= 0 ms0 1 2 3 4jpa0.0 0.5 1.0 1.5 2.0lec0.0 0.2 0.4 0.6 0.8Figure 1. Distributions des durées de pauses (en secondes):n= 212 seuil= 0 mstous genres confondus (1732 pauses) ; pour les 3 échantillons de discours politique, puis par échantillon.Par conséquent, l’analyse de la durée moyenne et de la distribution des pauses 9 pourchaque locuteur a permis d’établir un seuil discriminant des « micro-pauses » et des pausesconsidérées comme longues (voir Tableau 4). Les micro-pauses sont jugées non pertinentespour le découpage; les pauses longues (supérieures au seuil) permettent de segmenterautomatiquement l’enregistrement en USP. Il n’est pas tenu compte du contenu lexicosyntaxiquequi précède ou suit ces pauses (par ex. la présence d’un euh d’hésitation, d’uneinterruption, etc), de sorte qu’on ne différencie pas des pauses « structurantes » ou« d’hésitation » (Candea 2000); la valeur linguistique ou fonctionnelle de ces USP n’est pasanalysée ici.NAR POL INT LEC 0.0 0.2 0.4 JPA 0.6 0.8 CNFbe ch fr be ch fr be fr be ch fr be ch fr be ch frn= 1723 seuil= 0 msdur 275 220 275 400 230 225 175 190 260 275 250 200 250 240 270 150 160Tableau 4. Valeurs seuils (exprimées en ms) pour discriminerles micro-pauses des pauses longues, par locuteurLe nombre de syllabes des USP et leur durée moyenne peuvent ainsi être calculés (cfTableau 1 en §3.1). Ces caractéristiques seront étudiés plus en détail en §4.2.0.0 1.0 2.00.0 0.2 0.4 0.6n= 190 seuil= 0 ms9 L'ensemble du corpus totalise 1723 pauses silencieuses.213


Proceedings of IDP 09À partir de ces différents niveaux d’annotation présentés dans la Tableau 3, des propriétésacoustiques du signal sont mesurées et mises en regard d’informations linguistiques, commenous l’expliquons au point suivant.3.3. Présentation des mesures acoustiquesLes propriétés du signal de parole affectant les syllabes - fréquence fondamentale, durée etintensité - génèrent les caractéristiques prosodiques intonatives, accentuelles et rythmiquesobservables dans la parole, et perceptibles, voire saillantes. A l’aide de l’outil ProsoReport(Goldman et al. 2007), ces caractéristiques peuvent être mesurées, que ce soit pour l’ensembled’un enregistrement ou pour des parties de celui-ci.Les mesures prosodiques obtenues par le ProsoReport et exploitées dans cette étude sontles suivantes:- mesures sur les syllabes: durée moyenne et distribution; hauteur relative; proportionde syllabes proéminentes (selon la détection automatique); ces mesures sont spécifiéespour les différentes catégories de syllabes (syllabes en position initiale ou finale de motaccentuable; autres positions - voir §4.1);- mesures sur les unités séparées par des pauses (USP): pour chaque USP, on mesurele débit de parole (nombre de syllabes par seconde, y compris les pauses) etd’articulation (en excluant les pauses); l’amplitude du registre tonal (en demi-tons);l’agitation mélodique (en valeur absolue de demi-tons parcourus); la densitéaccentuelle (proportion de syllabes proéminentes par rapport aux syllabes nonproéminentes).3.4. HypothèsesD’une part, nous recourons à une approche relativement inductive 10 en cherchant à opérer desregroupements entre les données sonores qui présentent les mêmes caractéristiquesprosodiques. Nous nous attendons à ce que les données appartenant aux mêmes genres, oupossédant les mêmes traits situationnels, présentent des caractéristiques prosodiques plusproches entre elles. Cependant, les caractéristiques des locuteurs pourraient résulter dans lefait que deux enregistrements appartenant à deux catégories de genres différentes présententplus de ressemblance entre eux qu’avec ceux du même genre, pour des raisons par exemple devariation régionale, ou de sexe, ou idiolectale. Plus généralement cela revient à admettre unepart de créativité phonostylistique 11 .D’autre part, sur la base d’études préalables (Goldman et al. 2007; Burger & Auchlin2007; Simon et al. à par.), nous attendons certaines tendances, telles que- une proportion plus importante d’accents initiaux (voir §4.1) dans le genrejournalistique;- un registre tonal élargi dans les genres de parole publique (discours politique) oumédiatique (journal parlé);- un débit plus rapide pour la parole lue (lecture; genre journalistique);- un parcours mélodique global plus important pour le genre médiatique;10 Notre approche ne peut cependant pas être qualifiée de data driven en raison des annotations basées sur deshypothèses préalables.11 Voir par exemple pour l'évolution du phonostyle radiophonique Boula de Mareüil et al. (2008).214


<strong>Actes</strong> d’IDP 094. RésultatsLes résultats sont présentés en deux volets: les mesures sur les syllabes d’abord, les mesuressur les USP ensuite.4.1. Mesures sur les syllabesNotre annotation permet, pour chaque échantillon de corpus, de calculer le pourcentage desyllabes proéminentes et de décrire leur localisation (syllabe initiale ou finale de clitique oude mot accentuable). Dans la mesure où la tire d’annotation delivery (voir Tableau 3) exclutune série de syllabes (hésitations, faux départ, etc.) et où l’annotation grammaticale indique lacatégorie des constituants, on peut postuler que les syllabes proéminentes en position initialeou finale de polysyllabes des catégories Nom, Adjectif, Verbe 12 , Infinitif et Adverbecorrespondent respectivement à des accents initiaux et finaux.Nous nous attendions à voir surgir des différences dans la fréquence des accents initiauxdans les styles médiatiques, par rapport aux autres styles; nous souhaitions explorer si lesstyles divergeaient quant aux types de constituants affectés d’un accent initial; enfin, nousavons analysé les caractéristiques acoustiques des syllabes selon leur localisation(proéminentes initiales, finales, autres; non proéminentes; voir Astésano 1999: 186-187 ).Selon les Tableau 5 et Tableau 6, les trois styles médiatiques se distinguent globalementpar un nombre plus important de syllabes proéminentes (33% en moyenne contre 29% pourles styles non médiatiques). Cette différence est accrue si on considère le pourcentage desyllabes proéminentes en position initiale de mot accentuable polysyllabique : dans les stylesmédiatiques, 28% des mots pleins portent un accent initial, contre 15% pour les styles nonmédiatiques (alors qu’ils ont le même nombre de syllabes). Le degré de préparation d’undiscours semble être un autre trait qui favorise l’apparition de ce type d’accent: 15% de motspleins portent un accent initial dans les styles non préparés (conversationnel), 18% dans lesstyles semi-préparés et 24% dans les styles préparés et lus. Le trait situationnel qui décrit letype d’audience ne semble pas avoir d’impact sur cette variable. Globalement, la variation vadans le même sens pour les accents finals (voir dernière colonne du Tableau 6).Genre Prom (%) I Fnar 25 14 48lec 26 13 54cnf 31 15 64pol 31 25 61jpa 33 31 51int 34 28 58Tableau 5. Proportion de syllabes proéminentes par genre, et selon leur localisation grammaticale (Iinitialeou F-finale de mot accentuable)12 à l'exception des auxiliaires.215


Proceedings of IDP 09Trait situationnel Prom (%) I Fmicro 30 22 53Audience face à face 30 19 51public 31 19 63Médiatiquenon-médiatique 29 15 56médiatique 33 28 56non préparé 28 15 51Préparé semi-prép 32 18 63préparé et lu 31 24 55Tableau 6. Proportion de syllabes proéminentes par variable situationnelle, et selon leur localisationgrammaticale (I-initiale ou F-finale de mot accentuable)Le Tableau 7 détaille ces fréquences selon la catégorie grammaticale du mot affecté d’uneproéminence en syllabe initiale. Il apparaît que les genres « lecture » et « narrationconversationnelle » sont relativement proches en ce qu’ils contiennent le moins de syllabesinitiales accentuées. Le genre « journal parlé » se caractérise par une distribution égale desaccents initiaux entre les quatre catégories grammaticales, tandis que ces accents affectentessentiellement les adverbes et les verbes dans le genre « conférence » et les adjectifs dans legenre « politique ».ADV ADJ VERB NOMcnf 32 9 26 13jpa 22 25 33 32Genrenar 12 21 12 12int 31 50 24 29pol 43 38 31 19lec 11 16 12 12Tableau 7. Pour chaque catégorie grammaticale, et uniquement pour les polysyllabes: pourcentage demots affectés d’une proéminence initiale.La distribution des accents initiaux selon les traits situationnels résiste quelque peu à notreanalyse. Le trait du type d’audience (seul face à un micro, face à un public…) ne semble pascorrélé à la distribution des accents initiaux. Les discours médiatiques présentent en moyennedeux fois plus d’accents initiaux que les discours non médiatiques, sans que cetteaugmentation soit spécifique pour une des catégories grammaticales. Enfin, les discours nonpréparés se distinguent à la fois des discours semi-préparés et préparés par un nombresignificativement plus faible d’accents initiaux.ADV ADJ VERB NOMmicro 16 22 18 23Audience face à face 17 31 15 19public 36 20 29 15non-médiatique 18 14 15 13Médiatiquemédiatique 32 31 30 28non préparé 12 22 14 14Préparé semi-prép 32 14 25 17préparé et lu 28 26 27 23Tableau 8. Pourcentage de mots affectés d’une proéminence initialepar traits situationnels216


<strong>Actes</strong> d’IDP 09média , non-média%prom-i10 20 30 40nar-chjpa-chpol-chiti-06nar-belec-chjpa-be jpa-friti-07int-beiti-03 cnf-beiti-04cnf-frlec-frpol-frcnf-chiti-02pol-beiti-05lec-benar-friti-0140 50 60 70 80%prom-fFigure 2. Distribution des locuteurs selon la proportion de proéminences finales et initiales. Enrouge les genres non médiatiques, en vert les genres médiatiques4.2. Mesures sur les unités séparées par des pauses (USP)Le séquençage de chaque enregistrement en USP vise, entre autres, à mesurer l’homogénéitédes caractéristiques prosodiques sur sa durée, c’est-à-dire la constance du style.Précédemment (Goldman & al. 2007; Goldman & al. 2008; Simon et al. 2010), nous avonsdécrit chaque phonostyle à l’aide d’un rapport prosodique global, c’est-à-dire de mesuresmoyennes sur un enregistrement (débit moyen, registre moyen, etc.). La question se posepourtant de savoir si un locuteur est constant dans sa manière d’exploiter les traitsprosodiques.Que ressort-il de l’observation des propriétés prosodiques des 1013 USP du corpus, quandon compare les locuteurs et les paramètres situationnels ? Cette analyse vise à vérifier si les(familles de) styles se discriminent entre eux sur la base de caractéristiques prosodiques, etaussi à analyser les éventuelles ressemblances inter-genres (voir la description parparamètres). Selon un troisième cas de figure, nous envisageons que les prosodies de certainslocuteurs se ressemblent, malgré qu’ils ne partagent pas la même situation de communication.La première observation concerne la longueur moyenne des USP (en nombre de syllabes)dans chaque genre. Le style JPA présente les USP les plus longues (en moyenne 22 syll/USP)tandis que les styles INT et POL ont les USP les plus brèves (autour de 10 syll/USP). Entreces valeurs extrêmes, on trouve les autres styles NAR, CNF et LEC.217


Proceedings of IDP 09Figure 3. USP: nb de syll / genreAucun des traits situationnels (type d’audience, degré de préparation ou médiatique vs. nonmédiatique) n’est corrélé à la longueur des USP. Le fait que le style « journal parlé » ait lesUSP les plus longues peut s’expliquer par le caractère très rapide du débit et la présenceessentiellement de pauses prises de souffle. La brièveté des USP dans le style POL peuts’expliquer par le caractère solennel de ce type de discours, tandis qu’elle s’explique plutôtpar la planification nécessaire à la production du discours dans les interviews radiophoniques(voir Degand & Simon 2009 qui analysent le placement des pauses et des frontièresprosodiques par rapport aux structures syntaxiques). Aucun trait situationnel n’est communaux styles se caractérisant par des USP de longueur moyenne (CNF, NAR et LEC).!Figure 4. USP : amplitude du registre mélodique (en demi-tons), par genreLa Figure 4 décrit l’amplitude du registre mélodique exploité par le locuteur. Il apparaîttrès clairement que les styles publics présentent des registres de F0 plus amples / élargis; ceteffet est particulièrement accru pour les styles radiophoniques (environ 13 demi-tons pour218


<strong>Actes</strong> d’IDP 09JPA et INT et 10 demi-tons pour POL et CNF). L’étendue du registre est réduite pour LEC et,dans une moindre mesure, pour NAR. Nos données confirment donc les observations deBlaauw sur le néerlandais (cité par Llisterri 1992: 14) selon lesquelles le registre de f0 estréduit en lecture par rapport à la conversation spontanée.Enfin, les mesures de débit de parole (avec les pauses silencieuses) et d’articulation (sansles pauses silencieuses) distinguent les styles lus des styles non préparés, à l’exception desdiscours politiques.Figure 5! USP : débit de parole et d’articulation (sans les pauses silencieuses, ensyll.sec), par genre (en syll/sec)!Pour ce qui est du débit d’articulation, il est plus élevé pour les styles lus LEC et JPA etpour ces deux styles la distribution du débit est très stable, mais pas pour POL qui présente undébit particulièrement lent : on peut attribuer ce trait au caractère solennel de ce type dediscours – mais il faut noter que les 3 échantillons de parole ne se comportent pas de manièretout à fait homogène. Le trait situationnel que nous avons retenu ne rend donc pas compte deces différences, qui peuvent être imputées également à des contraintes liées à la rentabilité desmédias (pour la vitesse d’élocution des journalistes.Pour ce qui est du débit de parole (incluant les pauses longues), JPA se différencie encoreplus nettement (à cause du petit nombre et de la faible durée des pauses) d’un côté et POL del’autre (pauses longues et nombreuses). Les autres styles ont des valeurs proches.5. Conclusion5.1. Discussion des résultatsCe travail décrit la mise en place d’une méthodologie d’analyse prosodique outillée dans lebut de comparer les réalisations prosodiques de différents locuteurs, dans des genrescontrastés distingués les uns des autres en termes de traits situationnels. Deux objetsprincipaux sont examinés : i. la proéminence syllabique, son taux, et sa localisation dans lemot, et par catégorie grammaticale ; ii. les unités séparées par des pauses, déterminées par unseuil de pause ajusté au locuteur, décrites par des mesures classiques (nombre de syllabes parUSP, registre, débit).219


Proceedings of IDP 09Nos observations confirment l’hypothèse d’une proportion importante de proéminencesinitiales pour le trait situationnel « médiatique » (15% vs 28%, représenté graphiquementfigure 2), alors que le trait « audience » ne semble pas influencer ce taux (Tableau 6).Les observations par USP permettent une description plus riche qu’une moyenne globalepar enregistrement, donnant accès à la distribution, régulière ou irrégulière, des valeurs dansle temps (constance et régularité des locuteurs). Ainsi la lecture à haute voix, réputée pouravoir un registre tonal réduit, s’avère également constante dans cette dimension, à l’opposé del’interview radio qui présente un registre tonal plus ample, mais plus irrégulier. De même, ledébit moyen élevé du journal parlé varie peu en comparaison avec le discours politique, cequi peut être interprété par un « effet plafond ».Deux écueils se présentent sur la voie de la définition des phonogenres, le fait que certainssont compacts, et d’autres beaucoup moins, et le fait qu’il n’est pas vraiment possibled’énumérer un jeu de traits définitoires. Par ailleurs, pour distinguer plus formellement lesinfluences respectives du phonogenre et de l’idiostyle qui interviennent dans la productionorale, il convient de prendre en considération un nombre plus élevé d’échantillons pourchaque genre envisagé, ainsi que de multiplier les genres pris en considération, et donc lestraits situationnels.5.2. La variation prosodique - phonostylistique, quel intérêt?Ce questionnement présente un intérêt strictement prosodique: disposer de mesures devariations pour une population donnée; et un intérêt sociolinguistique discursif: disposer demesures (certes, peu documentées) croisées sur différentes conditions de parole et différentesrégions linguistiques francophones (échantillonnage non représentatif de la francophonie).Le dernier intérêt est d’ordre pragmatique et épistémologique, et réside dans le sens quel’on donne à cette variation. Les différences constatées ne servent pas à communiquer de lasignification, des concepts; elles servent, globalement, la « fonction identificatrice »: que leparler reflète un locuteur singulier, un rôle typifié, une situation ou un ingrédient spécifiquede celle-ci. La « fonction identificatrice » agit dans deux directions:- pour le producteur de la parole, elle projette et lui permet de contrôler son identité deparole, par conformité à un genre normé ou singularisation;- pour le récepteur, elle consiste à l’informer quant à la source de la parole. Cetteinformation elle-même établit un chemin direct entre des perceptions auditives et laperception-identification, pré-conceptuelle, d’une identité, individuelle ou générique.L’expérience ordinaire permet de supposer que cette perception catégoriseprématurément le familier / non-familier, le standard / singulier.Ainsi, la variation prosodique détermine des dimensions et des qualités de l’expérience deparole, du locuteur, et de l’auditeur.RéférencesAstésano, C. (1999). Rythme et discours: invariance et sources de variabilité des phénomènes accentuels enfrançais. Thèse de doctorat de Sciences du Langage, Aix-en-Provence: Université Aix-Marseille I.Beaufort, R., T. Dutoit & V. Pagel (2002). Analyse syntaxique du français. Pondération par trigrammes lissés etclasses d’ambiguïtés lexicales. In Proceedings of JEP, pp. 133–136.Bilger, M. & E. Campione (2002). Propositions pour un étiquetage en ‘séquences fonctionnelles’. Recherchessur le français parlé 17, pp. 117-136Boersma, P. & D. Weenink (2010). Praat: doing phonetics by computer (Version 5.1.29) [Computer program].Retrieved March 11, 2010, from http://www.praat.org/220


<strong>Actes</strong> d’IDP 09Boula de Mareüil, A. Rilliard & A. Allauzen (2008). A diachronic study of prosody through French audioarchives. 4th Conference on Speech Prosody, Campinas, pp. 531–534.Burger, M. & A. Auchlin (2007). Quand le parler radio dérange : remarques sur le phono-style de France Info.Broth, M., M. Forsgren, C. Norén & F.Sullet-Nylander (éds). Le Français parlé des médias. <strong>Actes</strong> ducolloque de Stockholm 8-12 juin 2005, Acta Universitatis Stockholmiensis, Stockholm, pp. 97-111.Callamand, M. (1987). Aspects prosodiques de la communication. Études de linguistique appliquée 66, Paris,Didier.Campbell, N. (2004). Accounting for voice-quality variation. Speech Prosody 2004, 217-220Candea, M. (2000). Contribution à l’étude des pauses silencieuses et des phénomènes “d’hésitation” en françaisoral spontané. Etude sur un corpus de récits en classe de français. Thèse de Doctorat, Université Paris III.Degand E. & A. C. Simon (2009) On identifying basic discourse units in speech: theoretical and empiricalissues. Discours 4 [En ligne]. URL : http://discours.revues.org/index5852.html.Eskenazi, M., (1993). Trends in Speaking Styles Research. ISCA, pp. 501-509.Fónagy, I. & J. Fónagy (1976). Prosodie professionnelle et changements prosodiques. Le Français Moderne 44,pp.193-228.Fónagy, I. (1983). La vive voix. Parole et expressivité. Payot, Paris.Goldman J.-P. (2010) EasyAlign [Computer program]. Retrieved June 18, 2010 fromhttp://latlcui.unige.ch/phonetique.Goldman J.-P. & al. (2007). Phonostylographe : un outil de description prosodique. Comparaison du styleradiophonique et lu. Nouveaux cahiers de linguistique française 28, pp. 219-237Goldman J.-P. & al. (2008). ProsoReport: an automatic tool for prosodic description. Application to a radiostyle. Speech Prosody -2008, pp. 701-704.Goldman, J.P., T. François, S. Roekhaut & A. C. Simon (2010). Étude statistique de la durée pausale dansdifférents styles de parole, Journées d’Etudes sur la Parole, Mons, BelgiqueHermes, D.J. (2006). Stylization of Pitch Contours. Sudhoff S. & al. (eds), Methods in Empirical ProsodyResearch. Berlin and New York, Walter De Gruyter, pp. 29-61.Hirschberg, J., 2000. A corpus-based approach to the study of speaking styles. Horne, M. (ed). Prosody, Theoryand Experiment: Studies Presented to Gösta Bruce. Amsterdam, pp. 335-350.Johns-Lewis C. (1986). The prosodic differentiation of discourse modes. Johns-Lewis C. (ed.), Intonation inDiscourse, Croom Helm, London & Sidney, pp. 199-219.Koch, P. & W. Oesterreicher (2001). Langage parlé et langage écrit. Holtus, G., M. Metzeltin, Ch. Schmitt (eds).Lexicon der Romanistischen Linguistik, tome 1-2, Max Niemeyer, Tübingen, pp. 584-627.Koopmans-van Beinum, F. (1991). Spectro-temporal reduction and expansion in spontaneous speech and readtext : Focus words versus non-focus words. In Proceedings of the ESCA workshop Phonetics and Phonologyof Speaking Styles: Reduction and Elaboration in Speech Communication, Barcelona, paper 036.Lacheret-Dujour, A. & B. Victorri (2002). La période intonative comme unité d’analyse du français parlé:modélisation prosodique et enjeux linguistiques. Verbum XXIV/1-2, pp. 55-72.Léon, P. (1993). Précis de phonostylistique. Parole et expressivité. Nathan Université, Paris.Llisteri, J. (1992). Speaking styles in speech research. ELSNET/ESCA/SALT Workshop on Integrating Speechand Natural Language, Dublin, Ireland. http://liceu.uab.es/~joaquim/publicacions/SpeakingStyles_92.pdf[consulté 20 juin 2010].Lucci, V. (1983). Etude phonétique du français contemporain à travers la variation situationnelle. Thèse deDoctorat, Publications de l’Université de Grenoble.Mertens, P. (1993). Accentuation, intonation et morphosyntaxe. Travaux de Linguistique 26, pp. 21-69.Mertens, P. (2004). Le Prosogramme: une transcription semi-automatique de la prosodie. CILL 30, no 1-3, 7-25.Roekhaut, S. (2009). Expressive. Système automatique de diffusion vocale d’information dédicacée: synthèse dela parole expressive à partir de textes balisés, Scientific Report (Convention n° 0616422 avec la Régionwallonne), Unpublished ms.Simon A. C., M. Avanzi, J.-P. Goldman (2008). La détection des proéminences syllabiques. Un aller-retour entrel’annotation manuelle et le traitement automatique. Congrès Mondial de Linguistique Française 2008, Paris,Juillet 2008Simon, A.C. et al. (2010). Les phonostyles: une description prosodique des styles de parole en français. inAbécassis M. & G. Ledegen (eds), Les voix des Français : en parlant, en écrivant, Bern, Lang, pp. 71-88.221


<strong>Actes</strong> d’IDP 09Discourse ‘Major Continuatives’ in a Non-Monotonic FrameworkJacques Jayez and Mathilde Dargnatjjayez@isc.cnrs.fr, mathilde.dargnat@atilf.frUniversité de Lyon (ENS-LSH) and L2C2, CNRSUniversité de Nancy and ATILF, CNRSAbstract :Delattre (1966) proposed a classification of French basic melodic contours. He defined in particular ‘majorcontinuatives’ as melodic rises that mark the frontier between higher constituents in a hierarchy of clausal andsentential constituents. Although Delattre’s empirical basis for his classification has been discussed, there is astrong intuition that some sort of melodic rise can be used in French at the frontier between discourseconstituents.The go al of this paper is to explore this possibility in two directions. First, we provide experimental evidencethat, taken in isolation, major continuatives are not significantly discriminated from interrogative contours by‘naïve’ subjects, having no training in phonetics. Second, we try to account for the fact that, in real discourse,people do not confuse major continuatives and interrogative contours, by controlling the interactions betweeninterpretation constraints using a non-monotonic logic in the general framework of Answer Set Programming.1. IntroductionIn a famous paper (Delattre 1966), the French phonetician Delattre proposed to distinguishten basic melodic contours in French. He introduced two continuative contours, that he calledminor (mc’s) and major continuatives (MC’s). The discrimination between mc’s and MC’s isbased on physical and functional differences. Physically, Delattre uses a four step melodicscale 1 . mc’s span the 2-3 zone, whereas MC’s, like question contours, span the 2-4 zone. mc’scan be rising or falling, whereas MC’s are rises. Finally, MC’s are ‘convex’, whereas questioncontours are ‘concave’. Mathematically, what Delattre calls concave (convex) is actuallyconvex (concave). These properties are summarised in figure 1.Figure 6 : After Delattre (1966)1An analogous melodic division had been proposed by Pike (1945) for English; see also Trager & Smith 1951.223


Proceedings of IDP 09Functionally, mc’s occur at the frontier between elementary constituents. In contrast, MC’ssignal that (i) a number of smaller meaningful constituents have been grouped together into abigger one and (ii) a new ‘big’ (= non-elementary) constituent is about to begin. This isillustrated in (1) with one of Delattre's examples. ‘(’ marks a mc and ‘((’ a MC.(1) Si ces (oeufs étaient (( frais j’ en prendraisIf those eggs were fresh I of them would take‘If those eggs were fresh I’d take some’Recent literature provides evidence in favour of the existence of continuatives. The existenceof continuative rises has been attested in English (Pierrehumbert & Hirschberg 1990) and inother languages (Jasinskaja 2006, Chen 2007). Not every continuative is strictly ‘rising’,though. For instance, Chen (2007:sec.1.1) mentions the case of English continuatives, forwhich some studies identify a pitch fall on the stressed syllable before a final rise. It is moredifficult to assess the relevance of the mc vs. MC distinction to recent work. In particular,many models, following (Pierrehumbert 1980), distinguish between two kinds of unit. The‘big’ ones, called or corresponding to Intonation Phrases (IPs) in Pierrehumbert’sterminology, are separated by boundary tones, located on the last syllable of the IP, or, incertain cases, on the last syllable of the focal/rhematic part of the IP. Typically, boundarytones convey information that helps determine the speech act type or discourse changepotential of a sentence or clause. The existence and nature of ‘smaller’ units has given rise tomore discussions (see, for instance, Di Cristo 1999, Jun & Fougeron 1995, 2000, 2002,D’imperio et al. 2007) and is more difficult to assess empirically in a theory-independentway. The reader is referred to Jun (2003), Frazier et al. (2006), Millotte et al. (2008) andCarlson (2009) for recent research connecting phrasal boundaries and cognitive processing.Returning to Delattre, whereas the identification of its MC’s with IP boundary tones isadmissible, it is much less clear whether mc’s can be paired with small units. For one thing,as we just saw, the status of such units is still a matter of debate (see Rossi 1981, Delais-Roussarie 2005, chap. 8:104 and Portes & Bertrand 2005: 3-4). In addition, the mc vs. MCdistinction suffers from the general imprecision of Delattre’s acoustic descriptions. Forinstance, Roméas (1992, cited in Di Cristo 1998) discussed the convexity-concavity criterionand showed that the difference is not systematically associated with the question-continuationdistinction. Ideally, the convex vs. concave distinction, should be checked in terms ofconvexity (concavity) ‘rate’. Drawing a segment between the endpoints of the melodic curveunder consideration, and assuming a constant time step, one can count how many timesteppedsegments are under (over) the main segment and how much they depart from it(angular distance). For n (resp. m) segments below (over) the main segment, one can calculatethe quotient C = () i=1...n * i / ) j=1...m + j ). C gives an indication of the relative quantity of angulardistance. To our best knowledge, this has never been carried out systematically for Delattre’sdistinction. Nor has the cognitive relevance of such measures been estimated.In this paper, we won’t delve into such complicated and empirically unexplored issues. Wewill be concerned only with continuative boundary tones of IP phrases and will ignore theinformational and semantics status of other tones and contours. Our official terminology forthe tones under study will be Discourse Continuative Rises or DCR’s for short.Our main goals are (i) to see whether there is any cognitive basis, i.e. uniform response, toDCR’s and (ii) to discuss how to integrate DCR’s in a general description of discourse inview of the findings related to (i). In section 2, we describe the general experimental design,the statistical tests and their interpretation. In section 3, we exploit the non-monotonic224


<strong>Actes</strong> d’IDP 09‘answer set programming’ framework and implement the discourse default interpretation weassociate with DCR’s in the DLV system.2. An experimental setting2.1 Description22 native speakers of French between 19 and 25 years old 2 were collectively presented with16 sentences of four different discourse types: Assertion, Question, Exclamation andContinuation. Continuation sentences were ‘artificial’. They had been obtained by cutting thesignal corresponding to a S1S2 structure, where S1 ended with a DCR; there was no break(pause) between S1 and S2 and S1S2 formed a meaningful unit. For instance, the unit Jean araté son examen, il avait rien fichu (‘John has failed his exam, he had done bugger all’) wasshortened to the first part (Jean a raté son examen, ‘John has failed his exam’). Each sentencehad been pre-recorded and was played twice. 8 sentences were read by a female speaker and 8by a male speaker. The 16 sentences were randomised. Subjects were instructed to assign toeach sentence at least one of the labels Assertion, Question, Exclamation and Indeterminate.They were not aware of the goal of the experiment.We wanted to test whether subjects discriminate DCR’s and questions. In order not tomultiply sources of confusion, exclamations were realised as (relatively) end-falling. Forinstance, sentence 2 (Jean a gagné au loto) was realised as in figure 2a, not as in 2b.Figure 7a : mid-rising exclamationFigure 2b : end-rising exclamationAs noted by a reviewer, under the present setting, exclamations ‘are’ assertions 3 . This ispotentially misleading for subjects and it turns out that there is a significant effect on thedistinction between exclamations and assertions (see the results in figure 7 and the finalremark of section 2.2). However, our main goal was to determine how DCR’s are categorised.In this respect, the fact that exclamations and assertions are not quite distinct would be aproblem only if DCR’s were significantly classified as exclamations or assertions by subjects,thus creating an additional ambiguity (in short, are DCR’s perceived as ‘neutral’ assertions or‘exclamative’ assertions?).2We thank the Linguistics Master2 students and the French Language and Communication L1 students ofNancy University for their participation.3We do not claim that exclamations are assertions in general. The type of exclamation used in the experimentcorresponds to the ‘proposition exclamations’ studied by Rett (2008), that is, declarative sentences that expresssurprise at a salient proposition. Importantly, proposition exclamations entail that the speaker is committed to thetruth of the proposition, like with an assertion.225


Proceedings of IDP 09The sentences are shown in figure 3, in their order of presentation.1 Assertion Jean a attrapé la grippe John has got the flu2 Exclamation Jean a gagné au loto John has won the lottery3 Continuation Jean a raté son examen John has failed his exam4 Question Jean a rangé son bureau John has tidied his office5 Question Jean a changé de voiture John has got a new car6 Exclamation Jean a repeint son appartement John has repainted his flat7 Assertion Jean a fait un cauchemar John has had a nightmare8 Continuation Jean a adopté un chien John has adopted a dog9 Question Jean a pris le train de nuit John has taken the night train10 Exclamation Jean s’est fait opérer John has got an operation11 Continuation Jean a démissionné John has resigned12 Assertion Jean est tombé en panne John has had a breakdown13 Question Jean est allé en Chine John has gone to China14 Exclamation Jean a acheté une maison John has bought a house15 Continuation Jean a revu Marie John has met Mary again16 Assertion Jean a été au ski John has gone skiingFigure 8 : The sentences2.2 Results and analysisAssertion Answers Question Answers Exclamation Answers Ind AnswersAssertions 81 0 4 3Questions 1 86 0 1DCR’s 7 72 3 6Exclamations 19 2 65 2Figure 9 : Summary of the resultsIn view of table 4, there is a strong correlation between the initial type assigned to a sentenceby the experimenter and the type assigned by subjects. The type tends to be identical in bothcases, except for DCR’s, where the preferred response type is Question. In order to assessmore precisely the significance of these figures, one may try several kinds of tests. 4First, one may run a multinomial (or ‘polytomous’) logistic regression on the whole set ofdata, interpreting the type chosen by subjects as a four-level response variable. We used theVGAM package (Yee 2006) and obtained quite clear results. For instance, the predictedprobabilities of answer type are as follows (the " sign marks the winner).4 All the tests we mention have been carried out in R (R Development Core Team 2009)226


<strong>Actes</strong> d’IDP 09Assertion Answers Question Answers Exclamation Answers Ind AnswersAssertions 92% " 0.00000535 % 4.54% 3.40%Questions 1.13% 97.72% " 0.00000420% 1.136%DCR’s 7.954% 81.818% " 3.409% 6.818%Exclamations 21.590% 2.272% 73.863% " 2.272%Figure 10 : Predicted probabilitiesHowever, this method is open to the pseudo-replication problem, because the same individualis taken into account several times on the same kind of stimulus (e.g. assertions), whichpossibly creates spurious degrees of freedom. We used two clustering procedures to provideevidence that DCR’s are associated with a particular effect. The first one (figure 6, left) isstandard and aggregates the multinomial responses that are the most similar. The second one(figure 6, right) uses a probabilistic algorithm provided by the R package pvclust, co-authoredby Ryota Suzuki and Hidetoshi Shimodaira (http://www.is.titech.ac.jp/~shimo/prog/pvclust/).We first transformed the responses into binary ones. An answer was counted as a success(TRUE) whenever the subject had guessed the ‘correct’ category, i.e. assertion for assertionsand DCR’s, question for questions and exclamation for exclamations. We also counted“indeterminate” answers as correct when they corresponded to DCR’s. This is motivated bythe desire to detect any potential trace of an identification of DCR’s. The numbers appearingin the clusters correspond to the categories in the following way: A = 1, 7, 12, 16, Q = 4, 5, 9,13, E = 2, 6, 10, 14, C (i.e. DCR’s) = 3, 8, 11, 15. With the standard clustering, the higherleftmost cluster gathers the question and DCR groups. With the probabilistic clusteringapplied to binary responses, the higher leftward cluster gathers the DCR’s. The (red)rectangles indicate the clusters for which the p-value on the A(pproximately) U(nbiased)method is superior or equal to 0.95. Whereas the standard clustering separates assertions andexclamations, the probabilistic clustering puts exclamation 6 next to assertions 7 and 16 andquestion 5. This is to be expected since the latter procedure is based on the distribution of‘good’ answers, not on the identification of the category assigned by the experimenter.Figure 11 : Multinomial standard and binary probabilistic clustering227


Proceedings of IDP 09Another strategy is to fit a mixed model, that is, a model that incorporates random variation onthe variables of interest, subjects in our case. There is a strong suspicion that subjects react inan homogeneous way. The binary responses analysed with the lme4 package, coauthored byDouglas Bates and Martin Maechler (http://cran.r-project.org/web/packages/lme4/index.html), see (Bates 2009). The AGQ parameter was fixed to 2, to force an Adaptive Gauss-Hermite Quadrature, appropriate for unique grouping factors (subjects in the present case).The results are as follows.Model1Pair.type with4 levelsA, C, E, QModel2Pair.type with3 levelsC, E, QModel3Pair.type with3 levelsA, E, QModel4Pair.type with3 levelsA, C, QModel5Pair.type with3 levelsA, C, EFixed effects:Estimate Std. Error z value Pr(>|z|)(Intercept) 2.4747 0.4015 6.164 7.09e-10 ***pair.typeC -5.1164 0.5842 -8.758 < 2e-16 ***pair.typeE -1.4208 0.4665 -3.046 0.00232 **pair.typeQ 1.3159 0.8264 1.592 0.11132---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Fixed effects:Estimate Std. Error z value Pr(>|z|)(Intercept) -2.6150 0.4229 -6.183 6.29e-10 ***pair.typeE 3.6539 0.4876 7.494 6.68e-14 ***pair.typeQ 6.3760 0.8309 7.673 1.67e-14 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Fixed effects:Estimate Std. Error z value Pr(>|z|)(Intercept) 2.6861 0.4491 5.981 2.22e-09 ***pair.typeE -1.5201 0.4868 -3.123 0.00179 **pair.typeQ 1.3517 0.8663 1.560 0.11871---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Fixed effects:Estimate Std. Error z value Pr(>|z|)(Intercept) 2.4485 0.3940 6.215 5.12e-10 ***pair.typeC -5.0635 0.5780 -8.761 < 2e-16 ***pair.typeQ 1.3126 0.8166 1.607 0.108---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Fixed effects:Estimate Std. Error z value Pr(>|z|)(Intercept) 2.4589 0.3970 6.193 5.9e-10 ***pair.typeC -5.0845 0.5805 -8.759 < 2e-16 ***pair.typeE -1.4141 0.4643 -3.046 0.00232 **---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Figure 7 : mixed effect linear regressionModels take into account all or some of the levels of the pair type factor, assertions (A),exclamations (E), DCR’s (C) and questions (Q). The first factor in the list is the referencefactor and the remaining factors are compared to it. In model1, E’s and C’s are significantlydifferent from A’s (look at the stars) and have a negative influence on the proportion ofpositive (= TRUE) answers. Q’s are not significantly different from A’s, which is to beexpected since questions and assertions are identified as such by most subjects. model2 shows228


<strong>Actes</strong> d’IDP 09that E*s are significantly different from DCR*s and comparatively positive (they indeed causeless error). Model3, model4 and model5 confirm model1. The global result is that DCR*s andexclamations facilitate errors, unlike assertions and questions. The clusters shown in figure 6indicates that the errors associated with DCR*s are confusions with questions. As noted insection 2.1, exclamations cause a significant amount of errors (they are categorised asassertions), when compared to assertions and questions.2.3 DiscussionThere are obviously a lot of variants and additions that one can consider on the basis of thissimple experiment, but we will mention only two of them. The exclamation part of theexperiment could be redesigned, either by adding final exclamative contours and studyingpossible confusions with questions and DCR’s or by suppressing exclamations altogether.Another, more radical, change would consists in adopting a gating methodology (see forinstance Vion & Colas 2006). Gating amounts to presenting the signal stepwise andregistering the reactions of subjects at each step. In our case, it would be interesting todetermine whether there are significant differences in early recognition for questions andDCRs and whether there is a judgement inversion (from question to assertion) at some pointin the incremental presentation of two sentence pair with a DCR.3. A non-monotonic approach3.1 IntroductionThe problem we address in this section is to provide an explicit description of the fact thatDCR’s receive different interpretations in different discourse settings. They favour a questioninterpretation when considered in isolation, but may contribute an assertion, question, orcommand interpretation in other environments. This suggests that the inferences that allowhearers to assign an interpretation are governed by non-monotonic procedures.Non-monotonic inference is concerned with defeasible reasoning. In standard logicalinference, a conclusion derived from a set of premises is considered to be stable with respectto the addition of new premises. In everyday reasoning, conclusions are very oftenprovisional. They are based on partial evidence and can be suspended in the presence of newinformation. Non-monotonicity is compatible with the existence of competing conclusions,which are selected on the basis of extra information. The existence of multiple unstableconclusions is probably the hallmark of interpretation and plays a crucial role in systemswhere elements carry several values and are disambiguated as information grows.This seems to be the case with prosodic contours. In the previous section, we have seenthat DCR’s are not intrinsically reliable indicators of continuation. In fact, they areintrinsically misleading in isolation, since they favour a question interpretation. Moregenerally, rises in general may be associated with quite different aspects of interpretation. Forinstance, they may convey emotions like surprise, speech act types like question, and anepistemic or interactional bias (see Gunlogson 2003, Jasinskaja 2006, Marandin 2006,Nilsenova 2006, Reese 2007 for various illustrations).A simple way to represent symbolically non-monotonic inferences is to use a nonmonotoniclogic. Such logics are exploited on a large scale to construct big reasoningsystems, in particular for planning or diagnosis. They can also be used, as here, to describelimited systems of constraints in an orderly way. The problem of non-monotonicity indiscourse interpretation has been studied in the framework of SDRT (Asher 1993, Asher andLascarides 2003) and we have shown how it can be applied to DCR’s in (Jayez and Dargnat229


Proceedings of IDP 092008b). However, in its present state, SDRT does not support prioritized rules, that is, ruleordering according to plausibility. This prompted us to move to the DLV system (Leone et al.2006) which includes facilities for expressing priorities. 53.2 The DLV system. BasicsThe DLV system has two main features. Like other non-monotonic implementations, itextends the expressiveness of traditional Prolog-style logic programming by using stablemodel semantics to build non-monotonicity into the resolution engine of logic programming.In addition, it offers also functionalities for organising a competition between constraints. Wewon’t try to present DLV in detail in this paper but will discuss these two features in thecontext of our problem.Non-monotonicity can be found in every implementation of a non-monotonic engine forlogic programming. It consists in adding a non-monotonic rule schema to the traditional ruleschema of logic programming. Schema R1 in (1), where the L i ’s are literals, shows thetraditional head-body structure of logic programming. R2 shows the non-monotonic format,where the ‘not L i ’ literals are interpreted as negation-by-failure instances. The ‘:-’ separatorbehaves like an implication, ‘X :- Y1, …, Yn’ being equivalent to (Y1 & … & Yn) ! X, andmeaning that X is satisfied whenever Y1, …, Yn are satisfied. (2) applies the non-monotonicschema to the case of questions. First, we have some facts (F1), which describe the propertyof a constituent called ‘a’. They say that, prosodically and syntactically, ‘a’ can be anassertion, an exclamation or a question. It bears also a final rise. By introducing only a‘final_rise’ property, we follow the conclusions mentioned in the previous section. Theexistence of a specific acoustic category of major continuatives has never been established.So, we prefer to use a neutral label, which does not commit us to the existence of a ‘DCRobject’. R1 triggers a competition between speech act assignments. We interpret assertion asessentially distinct from exclamation. Should this choice be judged oversimplistic, we mightamend F1 and R1 by introducing a more abstract category covering both assertions andexclamations. The result of running the program is shown under R1.(1) R1 : head :- L 1 , +, L n .R2 : head :- L 1 , +, L n , not L* 1 , +, not L* k .(2) F1 : illocf_prosody(a,assertion). illocf_prosody(a,exclamation). illocf_prosody(a,question).illocf_syntax(a,assertion). illocf_syntax(a,exclamation). illocf_syntax(a,question). final_rise(a).R1 : illocf_chosen(X,assertion) :- illocf_prosody(X,assertion), illocf_syntax(X,assertion), notillocf_chosen(X,question), not illocf_chosen(X,exclamation).illocf_chosen(X,exclamation) :- illocf_prosody(X,exclamation), illocf_syntax(X,exclamation),not illocf_chosen(X,question), not illocf_chosen(X,assertion).illocf_chosen(X,question) :- illocf_prosody(X,question), illocf_syntax(X,question),not illocf_chosen(X,assertion), not illocf_chosen(X,exclamation)._______________________________________________________________________________Result : {illocf_chosen(a,assertion)}{illocf_chosen(a,exclamation)}{illocf_chosen(a,question)}At this stage, DLV cannot arbitrate between the three interpretations and constructs threeequivalent ‘best’ models. The conclusion is clear: whereas the above rules improve on purelyrigid ones, they do not allow us to express preferences. For instance, we cannot say that5 We use in fact an extension of DLV, DLV-complex, which allows one to handle lists (as in standard Prolog)and sets (see http://www.mat.unical.it/dlv-complex). However, the example program we present here is writtenin ‘pure’ DLV.230


<strong>Actes</strong> d’IDP 09DCR’s are preferentially interpreted as questions. DLV uses a special mechanism of levelsand weights for the expression of preference. Rigid constraints are then replaced by weakconstraints and, unless instructed otherwise, the program selects the answer sets that, at eachlevel, violate the less costly weak constraints and favours the less costly levels in case of aninter-level competition. The general method to create a competition based on non-monotonicrule is illustrated in (3). We posit two rules which block each other, since if R1 is satisfied,‘blue’ is true and blocks R2, whereas if R2 is satisfied, ‘green’ is true and blocks R1. Thenwe declare that ‘sea’ is the case, which allows the two rules to fire. The program uses the twoconstraints, R3 and R4, to arbitrate between the rules. In this case, ‘blue’ wins over ‘green’. Itis important to understand that inference relies on rules. Constraints by themselves do notallow one to draw conclusions from facts. They only select the less costly subset(s) of rules.So, in (3), it is not possible to dispense with R1 and R2. The program can be found athttp://pagesperso-orange.fr/jjayez/sea.dlv.(3) RulesR1 : blue :- sea, not green.R2 : green :- sea, not blue.FactsF1 : sea.Weak constraintsR3 : :~ not green, sea. [1:1]R4 : :~ not blue, sea. [2:1]Elaborating on (3), we now organise the competition about illocutionary forces in a moreorderly way. R1 is declared at level 1 and costs two units, when not satisfied, whereas R2 andR3, declared at the same level, cost only one unit. DLV selects R1 and issue {question(a)} asthe best answer set. It indicates that the cost was two units at level one. It is remarkable that,although the total cost for not satisfying R2 and R3 is the same as the cost for not satisfyingR1, DLV prefers R1 because, other things being equal at a given level, it protects the mostcostly rule. This remains true whatever the number of competitor rules is. For instance, wecould add another competitor constraint declared at [1,1] with the same final result. Theprogram is at http://pagesperso-orange.fr/jjayez/isolated_DCR.dlv.(4) R1 : :~ not illocf_chosen(X,question), final_rise(X), illocf_syntax(X,question). [2:1]R2 : :~ not illocf_chosen(X,assertion), final_rise(X), illocf_syntax(X,assertion). [1:1]R3 : :~ not illocf_chosen(X,exclamation), final_rise(X), illocf_syntax(X,exclamation). [1:1]_______________________________Best model: {question(a)}Cost ([Weight:Level]): 3.3 Integrating DCR’sThe treatment considered up to now is oversimplified. It cannot take into account discourseconstituency, since it is limited to isolated ‘constituents’, sentences in our examples.Extending the approach is done in three steps (A), (B) and (C).(A) First, we define the notion of constituent we rely on in the rest of the paper.(5) Atomic constituentsAn atomic constituent is any sentence that expresses a proposition and/or a speech act.231


Proceedings of IDP 09We limit our study to sentences because we lack empirical evidence concerning nonsententialclauses. Certain constituents convey a speech act, others convey a propositionwhich is involved in a speech act. The latter case may be illustrated by pseudo-imperativeslike Travailles dur (et) et tu réussiras (‘Work hard (and) you will succeed’ = if your workhard you will succeed) or pseudo-declaratives like Tu prends le métro tu arrives plus vite(‘You take the metro you arrive sooner’ = if you take the metro you’ll arrive sooner), see(Dargnat 2008, Franke 2008, Dargnat and Jayez 2009).Atomic constituents may be attached together by discourse relations. They can also formcomplex constituents, which recursively enter discourse relations, as proposed in SDRT(Asher 1993, Asher and Lascarides 2003). Specifically, we assume the following constituencydefinition, adopting the SDRT constraint that no discourse relation cross the frontier of aconstituent (point 6.2b).(6) ConstituentLet DR be a set of discourse relations, a constituent over DR is a pair of sets, where,1. nodes is a singleton and dr the empty set, or,2. nodes is a set of constituents over DR and dr a set of formulas R(*, +) with R " DRand *, + " nodes such that: (a) for each * " nodes, there is a + " nodes such thatR(*,+) or R(+,*) is in dr for some R and, (b) no constituent is in nodes and occurs insome other constituent in nodes.In order to reflect the formal definition, we can use the simple definition in (7). An atomicconstituent has no constituent (R1). A complex constituent is anything which has asubconstituent. Ideally, complex constituents are defined on the basis of attachment, which isitself constrained by the ‘possattach’ predicate discussed below. However, this requires usinglists or sets, a feature not supported in pure DLV. 6 Since, in this paper, we focus onattachment, and constituency remains tangential to ours concerns, we have imposed particularvalues for ‘constituent_of’, thus creating the relevant literals without trying to derive them.(7) R1 : :- atomic_const(X), constituent_of(X,Y).R2 : complex_const(X) :- constituent_of(X,Y).(B) The second point concerns the temporal structure of discourse. It follows from (6) thatthe representation of a ‘discourse’, that is of a sequence of atomic constituents, is a graphwhose nodes are either atomic constituents (of the form ) or complex constituents (asgraphs), and edges are discourse relations. Two nodes may be connected by more than oneedge. Apart from the no-crossing restriction, we do not impose any constraint on attachment.In particular, we do not restrict it to the right frontier, as is done in SDRT. Attachment can besimulated in DLV by weak constraints like in (8), where $ and % stand for (possiblycomplex) properties of X and Y.(8) Attachment schema:~ attach(X,Y,R), $(X), %(Y). [j,k]6 See http://pagesperso-orange.fr/jjayez/const.dlv for a small demo using sets.232


<strong>Actes</strong> d’IDP 09The specificity of DCR’s is that they ‘program’ an immediate attachment. They require thatthe last constituent introduced into the discourse (typically, the last sentence) be attached tothe constituent that ends with the DCR. The last constituent must be attached to thepenultimate constituent carrying the DCR or to a complex constituent including it. ‘Backjumps’ to other previous constituents are not allowed. The no back jump requirementcorresponds to Delattre’s intuition: a DCR signals that discourse construction is still ongoing,or, equivalently, that the constituent under construction cannot be abandoned (see Jayez &Dargnat 2008b and Dargnat & Jayez 2009 for a more detailed discussion). In order to reflectthe temporal sequencing, we index the constituents through a general predicate ‘d_time’which allows us to compare the temporal indices of constituents. For a complex constituent,its relevant temporal index is the one that indexes the first or last element of the constituent.Selecting the relevant index is done with the help of the ‘#min{x : P(x)}’ or ‘#max{x : P(x)}’constructors, which select the minimal or maximal element of the set of elements that satisfyP. The relations of immediate succession are defined by replacing ‘TX < TY’ or ‘TX > TY’by ‘succ(TX,TY)’ or ‘succ(TY,TX)’. In order to save space, we give only a few examples ofthe rules we use. The full set can be found at http://pagesperso-orange.fr/jjayez/dcrpureDLV.dlv.(9) Discourse sequencingR1 : d_before(X,Y) :- atomic_const(X), atomic_const(Y), d_time(X,TX), d_time(Y,TY), TX < TY.R2 : d_after(X,Y) :- atomic_const(X), atomic_const(Y), d_time(X,TX), d_time(Y,TY),TX > TY.R3 : d_before(X,Y) :- atomic_const(X), complex_const(Y), d_time(X,TX), TY=#min{U :const_of(Y,Q), d_time(Q,U)}, TX < TY.… etc.R4 : d_before(X,Y) :- complex_const(X), complex_const(Y),TX=#max{U : const_of(X,Q),d_time(Q,U)}, TY=#min{U1 : const_of(Y,Q), d_time(Q,U1)}, TX < TY.… etc.R5 : d_just_before(X,Y) :- atomic_const(X), atomic_const(Y), d_time(X,TX), d_time(Y,TY),succ(TX,TY).… etc.(C) Since DCR’s are not distinguished from questions in isolation, their interpretation indiscourse depends on the presence of other elements. However, as mentioned after definition(5), constituents may convey a speech act or a proposition, and be integrated into a structurethat conveys a speech act in the latter case. This leaves two families of possibilities. Either wefind a lexical element, typically a subordinating conjunction, that influences the choice of adiscourse relation for attachment, or we have a juxtaposition. In both cases, discourserelations select pieces of information associated with either constituent. For instance aJustification relation can connect a question and an assertion, which, intuitively, wouldconstitute a justification for the question. It can also connect a command and a question ortwo assertions. These possibilities are illustrated in (10-F1).(10) CompatibilityF1 : illocf_comp(justification,assertion,assertion). illocf_comp(justification,command,assertion).illocf_comp(justification,question,assertion).It is then relatively easy to express a standard attachment rule as in (11), where R1 says that Rcan connect X et Y whenever every illocutionary force and propositional content that Radmits is a member of the sets of illocutionary forces and propositional contents associatedwith X and Y. The illocutionary forces are assigned via the set of non-monotonic rules and233


Proceedings of IDP 09arbitrating constraints described above and illustrated in (2) and (4). The ‘excluded’ predicateallows for blocking by stronger rules.(11) Standard attachmentR1 : possattach(X,Y,R) :- const(X), const(Y), d_before(X,Y), illocf_comp(R,SA1,SA2),illocf_chosen(X,SA1), illocf_chosen(Y,SA2), prop_comp(R,PX,PY),express_prop(X,PX), express_prop(Y,PY), not excluded(X,Y,R).Exclusion may be triggered by the presence of a subordinating conjunction (‘SC’), as in (12-R1). The ‘comp_sub_conj’ predicate allows one to enumerate the discourse relations that arecompatible with a given subordinating conjunction, as shown in F1 for parce que. R2 is therigid rule for subordinating conjunctions. It is just a copy of (11-R1) minus the ‘excluded’ lastliteral.(12) Attachment blockingR1 : excluded(X,Y,R) :- const(X), const(Y), disc_rel(R), sub_conj(Y,SC),not comp_sub_conj(SC,R).F1 : comp_sub_conj(parce_que,cause). comp_sub_conj(parce_que,justification).R2 : possattach(X,Y,R) :- const(X), const(Y), d_just_before(X,Y), sub_conj(Y,SC),comp_sub_conj(SC,R), illocf_comp(R,SA1,SA2), illocf_chosen(X,SA1),illocf_chosen(Y,SA2), prop_comp(R,PX,PY), express_prop(X,PX), express_prop(Y,PY).Finally, we come to the interpretation of DCR’s. Recall that DCR’s are preferably interpretedas questions in isolation but may be connected with immediately following constituents andlose this illocutionary status. We have used the ‘illocf_prosody’ predicate, which determineswhich speech acts are compatible with the prosody of the constituent. Although‘illocf_prosody’ gives access to several mutually exclusive possibilities, they remain purelydisjunctive (= unordered) and they do not interact with the ‘possattach’ head rules in aninteresting way. What we need to obtain is the following: (i) the speech act assignment, i.e.the output of ‘illocf_chosen’ should be preferably ‘question’ and (ii) the attachment chosen by‘possattach’ should win over the local speech act assignment. The first point is a direct effectof non-monotonicity and arbitration through the system of levels and weights. The secondpoint can be implemented similarly, by introducing a variant of the ‘possattach’ rules,‘possattach_fr’, which uses the illocutionary forces as determined by the syntax –not theprosody– and checks whether the chosen force belongs to the set of forces normallycompatible with a final rise. The two relevant literals are underlined in (13-R1).‘illocf_syntax’ is the same predicate as the one used in (2). ‘illocf_dcr_comp’ enumerates allthe illocutionary forces compatible with a final rise under an integrated interpretation wherethe constituent bearing the rise is connected to another constituent.(13) R1 : possattach_fr(X,Y,R,Z) :- const(X), const(Y), d_just_before(X,Y), final_rise(X),illocf_comp(R,Z,SA2), illocf_syntax(X,Z), illocf_dcr_comp(Z), illocf_chosen(Y,SA2),prop_comp(R,PX,PY), express_prop(X,PX), express_prop(Y,PY), not excluded(X,Y,R).The introduction of ‘possattach_fr’ is not sufficient since we need to connect it to‘illocf_chosen’ and to make a fresh hierarchy of priorities to prevent the default nonintegratedinterpretation of final rises (i.e. question) to win. This is done in (14). R4-R6 addthe possibility of choosing the illocutionary force via ‘possattach_fr’; constraints C1-C6create a new weight (3) at the same level as before (1).234


<strong>Actes</strong> d’IDP 09(14) R1 : illocf_chosen(X,assertion) :- illocf_prosody(X,assertion), illocf_syntax(X,assertion),not illocf_chosen(X,question), not illocf_chosen(X,exclamation).R2 : illocf_chosen(X,exclamation) :- illocf_prosody(X,exclamation), illocf_syntax(X,exclamation),not illocf_chosen(X,question), not illocf_chosen(X,assertion).R3 : illocf_chosen(X,question) :- illocf_prosody(X,question), illocf_syntax(X,question),not illocf_chosen(X,assertion), not illocf_chosen(X,exclamation).R4 : illocf_chosen(X,assertion) :- possattach_fr(X,Y,R,assertion), not illocf_chosen(X,question),not illocf_chosen(X,exclamation).R5 : illocf_chosen(X,exclamation) :- possattach_fr(X,Y,R,exclamation), not illocf_chosen(X,question),not illocf_chosen(X,assertion).R6 : illocf_chosen(X,question) :- possattach_fr(X,Y,R,question), not illocf_chosen(X,assertion),not illocf_chosen(X,exclamation).C1 : :~ not illocf_chosen(X,assertion), possattach_fr(X,Y,R,assertion). [3:1]C2 : :~ not illocf_chosen(X,exclamation), possattach_fr(X,Y,R,exclamation). [3:1]C3 : :~ not illocf_chosen(X,question), possattach_fr(X,Y,R,question). [3:1]C4 : :~ not illocf_chosen(X,question), final_rise(X), illocf_syntax(X,question). [2:1]C5 : :~ not illocf_chosen(X,assertion), final_rise(X), illocf_syntax(X,assertion). [1:1]C6 : :~ not illocf_chosen(X,exclamation), final_rise(X), illocf_syntax(X,exclamation). [1:1]In order to illustrate how (13-R1) works, we have defined three constituents c4, c5 and c6. c4and c5 are attached by a causal relation triggered by parce que. Together, they form acomplex constituent c7, which is attached to c6 by a temporal relation. To ease understanding,one may imagine an example like Paul est arrivé (c6) [Marie venait de partir (c4) parcequ’elle était pressée (c5)] (c7) (‘Paul arrived (c6) [Mary had just left (c4) because she was ina hurry (c5)] (c7)’). The facts are given in (15).(15) F1 : atomic_const(c4). atomic_const(c5). atomic_const(c6). const_of(c7,c4). const_of(c7,c5).d_time(c6,4). d_time(c4,5). d_time(c5,6). final_rise(c6). sub_conj(c4,parce_que).prop_comp(cause,p4,p5). prop_comp(temp,p6,p7). prop(p4). prop(p5). prop(p6). prop(p7).illocf_dcr_comp(assertion). illocf_dcr_comp(question). illocf_dcr_comp(command).illocf_dcr_comp(exclamation).illocf_syntax(c4,assertion). illocf_syntax(c4,question). illocf_syntax(c4,exclamation).Idem for c5, c6, c7illocf_prosody(c4,assertion). illocf_prosody(c5,assertion). illocf_prosody(c6,question).illocf_prosody(c6,exclamation). illocf_prosody(c7,assertion).express_prop(c4,p4). express_prop(c5,p5). express_prop(c6,p6). express_prop(c7,p7).________________________________________________________________________Best model: {illocf_chosen(c4,assertion), illocf_chosen(c5,assertion), illocf_chosen(c7,assertion),illocf_chosen(c6,assertion), possattach_fr(c6,c7,temp,assertion), possattach(c4,c5,cause),possattach(c1,c2,justification), possattach(c6,c7,temp)}Cost ([Weight:Level]): Running the program gives a result partially shown in (15-Best model). The c6 constituenthas been interpreted as an assertion in spite of the fact that it bears a final rise. This isbecause, although (14-R2) is satisfiable and c6 can be analysed as an exclamation in a modelwhere all rules are on a par, this is no longer the case with weighted and levelled rules. First,all things being equal, the question interpretation would dominate because of (14-C4).Second, the assertion interpretation will ultimately win because (14-R4) is satisfiable and (14-C1) prevents the question interpretation to win the competition. DLV counts three units forthe best model. One comes from not satisfying (14-C6) the other two from not satisfying (14-C4).235


Proceedings of IDP 09In this short presentation, we have focused on the non-monotonic interactions, ignoringseveral issues, such as the treatment of the propositional structure, the systematic use of setsand lists instead of explicit enumerations (a feature available only in DLV-complex), or thenon-monotonic treatment of constituency. However, the simulation demonstrates thepossibility of dealing with DCR’s in a flexible way. The facility of weak constraints allowsone to order the satisfaction of rules and keep a trace of the preferences in the execution of theprogram. It is possible to parameterise the execution further by using the –costbound=…option. Instead of outputting only best models, DLV will construct and describe every modelthat satisfies the constraints on weights and levels indicated in the option.4. ConclusionThis paper has addressed the general issue of associating ‘meanings’ with intonationalcontours. An influential perspective on this topic is that of intonational meaning, that is, theview that contours may be interpreted as conveying abstract semantic information, giving riseto specific interpretations in specific contexts (Ladd 2008:41). Evaluating the appropriatenessof this perspective is difficult for several reasons. First, as we have seen for ‘rises’ in general,it is perhaps not feasible to define objective acoustic properties that would constitute a formaland stable counterpart of (elements of) contours. In that respect, the more or less implicitassimilation of contours to intonational ‘morphemes’ might be misleading and reflect a (moreor less unconscious) structuralist bias (see Pierrehumbert 2001 for related issues in the contextof exemplar-based categorisation). Second, the basic interpretations assigned to contoursvary, a fact which might reflect the non-propositional character of intonational meaning,making it less amenable to an intuitively grounded study than phenomena such as speech actsor propositional modulations of propositional content (e.g. presuppositions). After all, similardifficulties are found in the study of discourse markers, information structure, and, perhapsmost tellingly, interjections (Wharton 2003). Third, taking into account continuationphenomena leads one to adopt a more nuanced perspective in at least two respects. In contrastwith meanings defined in terms of speech act or epistemic stance, continuative ‘meaning’belongs in the domain of discourse structuring, and might accordingly be denied the status of‘meaning’ in a more restricted sense (propositional or modal meaning), see Delais-Roussarie(2005:104) for a similar suggestion. Moreover, if discourse interpretation consists inassembling default interpretation pieces that compete or converge, it is not sufficient to use amodel of underspecification where ‘vague’ constraints wait for the context to provideadditional information. In fact, the existence of defeasible preferences requires that anyreasonable simulation build some form of hierarchy between constraints, in order to keep tothe distinction between cumulative and cancellable information.ReferencesAsher, N. (1993). Reference to Abstract Objects in Discourse. Kluwer Academic Press, Dordrecht.Asher, N. & A. Lascarides. (2003). Logics of Conversation, Cambridge University Press, Cambridge.Bates, D. (2009). Mixed models in R using the lme4 package. Part 5: Generalized linear mixed models. Handoutwritten for UseR!2009, Rennes, July 7, 2009. Available at http://lme4.r-forge.r-project.org/slides/2009-07-07-Rennes/5GLMM-4.pdfChen, A. (2007). Language-specificity in the perception of continuation intonation. Gussenhoven, C. & T. Riad(eds.), Tones and Tunes II, Mouton de Gruyter, Berlin, pp. 107-142.Dargnat, M. (2008). Constructionnalité des parataxes conditionnelles. Durand J., Habert B. & Laks B. (eds.),<strong>Actes</strong> du Congrès Mondial de Linguistique Française (CMLF 08), Paris, Institut de Linguistique Française,pp. 2467-2482.236


<strong>Actes</strong> d’IDP 09Dargnat, M. & J. Jayez (2009). La cohésion parataxique : une approche constructionnelle. Béguelin, M.-J. et al.(eds.), La parataxe, à paraître chez Peter Lang. Available at http://mathilde.dargnat.free.fr/index_fichiers/DARGNAT-JAYEZ-NEUCHATEL09-corr.pdf.Delais-Roussarie, E. (2005). Phonologie et grammaire, Études et modélisation des interfaces prosodiques,mémoire de synthèse d’HDR, Université de Toulouse Le Mirail.Delattre, P. (1966). Les dix intonations de base du français. French Review 40, pp. 1-14.D’imperio, M. P., Bertrand, R., Di Cristo, A. & C. Portes (2007). Investigating phrasing levels in French: is therea difference between nuclear and prenuclear accents? Camacho, J., Flores-Ferrán, N., Sánchez, L., Déprez,V. & M. J. Cabrera (eds.), Selected Papers from the 36 th Linguistic Symposium on Romance Languages,Benjamins, Amsterdam, pp. 97-110.Frazier, L., Carlson, K. & C. Clifton. (2006). Prosodic phrasing is central to language comprehension. Trends inCognitive Sciences 10/6, pp. 244-249.Gunlogson, C. (2003). True to Form: Rising and Falling Declaratives as Questions in English. OutstandingDissertations in Linguistics, Routledge, NewYork.Di Cristo, A. (1998). Intonation in French. Hirst, D. & A. Di Cristo (eds.), Intonation Systems, A Survey ofTwenty Languages, Cambridge, Cambridge University Press, pp. 195-218.Di Cristo, A. (1999). Le cadre accentuel du français contemporain: essai de modélisation. Langues 2/3, pp.184-205 et 2/4, pp. 258-267.Jasinskaja, K. (2006). Pragmatics and Prosody of Implicit Discourse Relations. The Case of Restatement. [Ph.D.diss], Université de Tübingen.Jayez, J. & M. Dargnat (2008a). One more step and you’ll get pseudo-imperatives right. Riester, A. & T. Solstad(eds.), Proceedings of Sinn und Bedeutung 13, University of Stuttgart, pp. 247-260. Available athttp://www.ilg.uni-stuttgart.de/SuB13/<strong>proceedings</strong>.htmlJayez, J. & M. Dargnat (2008b). The interpretation of continuative cues in SDRT. Benz, A., Kühnlein, P & M.Stede (eds.), Proceedings of the Workshop Constraints in Discourse (CID 3), University of Potsdam, July30th-August 1st 2008, pp. 53-60. Available at http://www.constraints-in-discourse.org/cid08/CIDIII/cid<strong>proceedings</strong>.pdfJun, S.A. (2003). Prosodic phrasing and attachment preferences. Journal of Psycholinguistic Research 32/2, pp.219-249.Jun, S.A. & C. Fougeron (1995). The accentual phrase and the prosodic structure of French. Proceedings of the13th International Congress of Phonetic Sciences, Stockholm, vol. 2, pp. 722-725.Jun, S.A. & C. Fougeron (2000). A phonological model of French intonation. Botinis, A (ed.), Intonation:Analysis, Modeling and Technology, Kluwer Academic Press, Dordrecht, pp. 209-242.Jun, S.A. & C. Fougeron (2002). The realizations of the accentual phrase in French intonation. Probus 14, pp.147-172.Ladd, D.R. (2008). Intonational Phonology. Second edition. Cambridge University Press, Cambridge.Leone, N., Pfeifer, G., Faber, W., Eiter, T., Gottlob, G., Perri, S. & F. Scarcello (2006). The DLV system forknowledge representation and reasoning. ACM Transactions on Computational Logic 7/3, pp. 499-562.Millotte, S., René, A., Wales, R. & A. Christophe (2008). Phonological phrase boundaries constrain the onlinesyntactic analysis of spoken sentences. Journal of Experimental Psychology: Learning, Memory, andCognition 34/4, pp. 874-885.Pierrehumbert, J. (1980). The Phonology and Phonetics of English Intonation [Ph.D. diss], MIT.Pierrehumbert, J. (2001). Exemplar dynamics: Word frequency, lenition, and contrast. Bybee, J. and Hopper, P.(eds.) Frequency effects and the emergence of lexical structure, Amsterdam, John Benjamins, pp. 137-157.Pike, K.L. (1945). The Intonation of American English, University of Michigan Press, Ann Arbor.Post, B. (2000). Tonal and Phrasal Structures in French Intonation [Ph.D. diss], Thesus, The Hague.R Development Core Team (2009). R: A language and environment for statistical computing. R Foundation forStatistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.orgRett, J. (2008). A degree account of exclamatives. Rett, J., Friedman, T. & S. Ito (eds.), SALT XVIII, CornellUniversity, Ithaca NY, pp. 601-618. Available at http://hdl.handle.net/1813/13058Roméas, P. (1992). L'organisation prosodique des énoncés en situation de dialogue homme-machine [Ph.D.Dissertation], Université de Provence.Rossi, M. (1981). Vers une théorie de l’intonation. Rossi, M., Di Cristo, A., Hirst, D. & Y. Nishinuma (eds.),L’intonation, de l’acoustique à la sémantique. Klincksieck, Paris, pp. 179-183.Trager, G. L. & Smith, H. L. (1951). An Outline of English Structure, Norman (UK), Battenburg Press.Vion, M. & A. Colas (2006). Pitch cues for the recognition of yes-no questions in French. Journal ofPsycholinguistic Research 35/5, pp. 427-445.237


Proceedings of IDP 09Wharton, T. (2003). Interjections, language, and the `showing/saying' continuum. Pragmatics and Cognition 11,39-91.Yee, T. W. (2006). VGAM family functions for categorical data. Department of Statistics, University ofAuckland. Available at http://www.stat.auckland.ac.nz/~yee/VGAM/doc/Categorical.pdf238


<strong>Actes</strong> d’IDP 09The used and the possible.The use of elicited conversations in the study of Prosody.*Fréderic Laurens, *Jean-Marie Marandin, **Cedric Patin & ***Hiyon Yoofrederic_laurens@yahoo.com ; marandin@linguist.jussieu.frcedric.patin@gmail.com ; yoo@linguist.jussieu.fr*UMR 7110/ Laboratoire de linguistique formelle (CNRS & Université Paris Diderot)** STL / Université Lille 3 et UMR 7110/ LLF, Université Paris Diderot*** Université Paris Diderot, UMR 7110/ Laboratoire de linguistique formelleAbstractThe paper addresses the differences between ecological data and laboratory elicited data for the study of thesemantics/pragmatics of prosody. A new experiment design –Rep Task– is presented. It is based on areduplication task: subjects are asked to reenact a conversation that has been recorded beforehand and turnedinto a script. Thus, the data consist in several renditions of the same conversation: one (the original) has beenproduced in a natural setting while the other(s) are read off the script of the original conversation. Thoserenditions may be compared in order to discover the extent to which and how they differ or match. A pilot studyis reported: it is based on a 12 minutes’ extract of a dialogue taken from the CID corpus (Bertrand et al. 2008).Two case studies are developed to illustrate the type of evidence Rep Task may contribute. One is the use of aparticular pitch contour identified by Portes et al. 2007 under the label “rising of list”. The other is the restrictionon pitch range and pitch contour associated with the use of reprise declaratives in the interactive management oftopic flow. We conclude that subject’s choices in the lab converge with speakers’ choices in everydayinteractions. This conclusion about prosodic choices is in line with Bresnan’s 2007 conclusions about lexicosyntacticchoices.1. IntroductionExperiments are the primary source of data for Intonational Phonology. If there is consensuson the reliability of elicited data through experiments for detailed phonetic analysis, there ismore concern when it comes to Semantics or Pragmatics. Recently, Ito & Speer 2006 havestressed the fact that there are differences in the occurring of prosodic patterns across scriptedvs. non-scripted speech, and across speech elicited in the lab vs. free speech in everydaysituations. This paper addresses the methodological issue of whether elicited speech in the labprovides valid evidence for the study of the meaning and the usage of intonational categories.In this paper, we investigate how replication may be used in the design of experiments. Wepropose a new eliciting technique based on replication we call Rep Task. Subjects are askedto perform a task, which in fact is the replication of a linguistic event that occurred once inanother setting and that has been recorded. We report a pilot experiment (which we call SmallTalk) in which subjects are given the script of a dialogue and instructed to behave as if theywere the dialogue participants. Thus, the behavior of speakers in an unscripted dialogue (thatoccurred in a semi-natural setting in the case in point) can be compared to the behavior ofspeakers replicating it in the setting of an experiment. When we launched Small Talk, ourprimary concern was the feasibility of the experiment. When we concluded it was feasible,empirical work began to determine what type of arguments could be drawn from the239


Proceedings of IDP 09comparison of the attested and the elicited. In the current study, we focus on Prosody andtarget semantic/pragmatic aspect of Intonation.In section 2, we briefly review the two main methodologies used in language productionexperiments for the study of the relationships between intonation and its meaning in context.Then, we give the motivations for Rep Task and describe the particular experiment – SmallTalk – we put up to test its feasibility and empirical fruitfulness. Sections 3 and 4 present twocase studies in order to illustrate the type of evidence Rep Task may contribute. The former isthe use of a particular pitch contour identified by Portes, Bertrand & Espesser 2007a,b underthe label “rising of list”. The latter is the restriction on pitch range and pitch contourassociated with the use of reprise declaratives in the interactive management of topic flow. Insection 5, we put the results in a broader perspective by discussing Bresnan’s 2007 use ofreplication in her study of dative alternation in English.2. Replication and experiment2.1 Eliciting techniquesTwo types of eliciting techniques are currently used in production experiments:– Reading/performing lines presented in written form. Subjects are asked to behave as ifthey were participating in the language game described in the protocol of the experiment;– Performing a cooperative task through a dialogue. Subjects are asked to cooperate withanother subject or an experimenter to achieve a practical goal. Map Tasks are typical ofsuch approaches.The reading-based tasks are text-based, scripted; they provide for a precise control of thephonetic making of utterances and enable one to target sharp phonological orsemantic/pragmatic contrasts. The interactive speech tasks allow for more spontaneous formsof speech, which prima facie are more representative of conversational speech.The reading-based tasks have been challenged essentially on three grounds:– Reading is different from talking: read prosody is significantly different from spokenprosody;– Speaker’s awareness of the contrast that is tested in the experiment (because they havebeen instructed about it, or because the repetition of the task make them aware of it) biastheir prosodic rendition towards the use of marked forms;– Finally, pretending is not doing: subjects may project more or less consciously what theythink is the appropriate prosody, rather than perform as they perform in real worldsituations.The interactive speech tasks have been challenged on two grounds:– They do not provide for the control of expressions and contrast to be tested: they yielddiscourses as diverse as recorded discourses in everyday situations;– Results of their description are hard to interpret when context comes into play, as long aswe have no idea of the relations between context and the choice of forms for theexpressions.Hence, the recurrent criticism is that the impact of the experimental conditions on prosodyflaws the claims based on elicited speech, because experimental conditions are not real worldconditions. Experimental conditions are artificial, real world situations are real and because of240


<strong>Actes</strong> d’IDP 09that, the only ones to be taken into account for analyzing linguistic usage. Here, there issomething that goes undemonstrated. It is taken for granted that what’s going on in the lab iscompletely different from what is going on in real world situations. These are two separateworlds and speakers behave differently in both of them. Surely, experimental conditionsimpact the prosody of subjects in the lab, but nothing proves that artificial settings yieldartificial prosody. The impact of experimental settings has to be investigated and evaluatedagainst the impact of real world situations.2.2. Rep TaskThe general idea is to compare the linguistic choices operated by the subjects in experimentalsettings and those that are operated in naturally occurring situations. To make it operational,we resort to a replication task: subjects are asked to reenact a language game that has beenrecorded. Hence, we get two renditions of a discourse: one when it occurs naturally and theother when it is replicated in the lab. The first object of the experiment we report here was itsown feasibility, which explains why we did not focus on any precise phenomenon in the firstplace.2.3 Small TalkWe selected a dialogue whose audio and video recording is of good quality and available forprecise phonetic investigations. We transcribed it. We asked two subjects to read it as if theywere actually participating in the dialogue. We recorded three renditions of the dialogue: thefirst one without prior reading, the second and third ones after having discussed freely aboutthe dialogue (the experimenters were not in the room). We then compared the four renditions.A feature of the dialogue is important: it is small talk. Making small talk does not requiremuch situational knowledge; the dialogue constructs its own context as it proceeds. This is ahighly favorable feature for making possible the reenacting by subjects who have no access tothe original situation at all.More precisely:– The original dialogue belongs to the CID corpus (Bertrand et al. 2008). It lasts about 1 hour;we extracted a 12 minutes’ segment, which occurs after a break towards the end of theinteraction. In fact, this dialogue is semi-natural as the two original speakers were asked tochat about their life during one hour; they knew their dialogue would become part of a corpusfor studying French. 1 The main impact of this setting is that the two speakers could not closethe conversation at will: there is a pressure for continuing the conversation which is feltthroughout the dialogue. 2– The dialogue was edited by removing disfluencies, truncated expressions or overlappings.We added some punctuation marks, when their absence would have impeded readability.– The two subjects – Parisian, male, postdoc and undergrad in linguistics– were instructed toread as if they were actually participating in the conversation and to be easy about their ownpossible disfluencies. They were alone in a quiet room (an office) and sat in front of eachother. The quality of the recording has been monitored for allowing phonetic analysis. Theyaccommodated easily to the task and experimental setting and produced evidentlyunselfconscious and fluent speech.1 This did not prevent them from discussing quite intimate events and feelings. Obviously, we would havepreferred a dialogue in a natural setting, but for obvious ethical reasons, this is almost impossible to obtain.2 By the way, this makes this dialogue quite relevant for studying the interactive management of discoursetopics.241


Proceedings of IDP 092.4 OutcomeWe concluded that the experiment was feasible and potentially fruitful after having carefullychecked the renditions and observed that the subjects had made the same choice of prosodicpatterns for a great number of turns or parts of turn across renditions. Hence, speakers in thelab in an artificial setting may replicate choices of speakers in another setting. We will comeback to the significance of the replication of linguistic choices in section 5, when we discussBresnan’s 2007 approach to dative alternation.We have selected two items to evaluate the fruitfulness of the experiment:– A contour that Portes, Bertrand & Espesser (PBE henceforth) identified under the label:rising of list (RL). Here, we do not address the phonetic or phonological characterization ofthe contour, although the experiment does provide the material to do so. We focus on itssemantics as it is striking that such a contour – which is never compulsory and rare enough tohave escaped notice until PBE’s paper – is replicated in the contexts where it was used by theoriginal speakers in the first place.– A type of turn instrumental in the interactional management of topic flow. The turn is adeclarative clause whose content is not informative (i. e. it does not add to the content of theCommon Ground). It operates as the middle turn in a sequence of three, which enables aspeaker to interactionally display her orientation towards the elaboration of a topic by theother DP. Here, we focus on the prosody associated with such a turn.3. Rising of list (RL)PBE describe the rising of list (RL) as a kind of rising pattern that is perceptually distinctfrom the Rising of Major Continuation (RMC). It is also perceptually distinct from otherrising patterns, such as the rising nuclear contour described in Beyssade et al. 2007. Weextend PBE’s formal characterization with a semantic characterization. The two participantsof Small Talk replicated RLs in a significantly high number of cases, which drew ourattention in the first place. The analysis of the contexts triggering the replication of RLenables us to characterize the factors that prime the production of RL in the replications. Weshow that these factors support the characterization of the semantic contribution of RL wepropose.3.1. Construction of the dataFirst, we annotated the data collected via Small Talk. We annotated the original dialogue forRLs using our intuition. Then, we checked whether the participants replicated RL where theyoccurred in the original. Finally, we searched the three replications for instances of RL inutterances where no RL had been produced in the original.Annotation has been performed by the four authors, and then compared with the annotation ofone author of PBE. The annotators used a four-value scale: 4 was to be assigned to clearinstances of RL and 1 to clear instances of not being a RL. The two intermediary values wereto be assigned to less clear instances or to register a lesser degree of confidence: 3 was to beassigned to less clear instances of being a RL, and 2 to less clear instances of not being a RL.Then, scores 3 and 4 were merged, as well as 1 and 2. In table 1, we note “+” the fact of beingan instance of RL, “–” the fact of not being an instance of RL and finally, “?” the cases wherethe annotators did not reach agreement. The numbers in the column refer to the turns showingat least one instance of RL. They are listed in Annex I.242


<strong>Actes</strong> d’IDP 09Number of the turn 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17Renditionof the dialogueOriginal + + - ? + - + + + + + + + + + + -Replication 1 - - ? + - + + + - - - ? - + + - ?Replication 2 - - - ? - + + - - - + ? - + + + +Replication 3 + - + - - + + + - - + + - + + + +Table 1. Instances of RL in the renditions3.2. Characteristics of RL3.2.1. DistributionRLs occur on the right edge of Intermediate Phrases or Intonation Phrases. They correspondto constituents of any syntactic category: clause and below the clause. They are quite frequenton conjuncts in coordinated structures (both syndetic and asyndetic). PBE observed manyinstances in reported discourse.3.2.2.Prosodic propertiesThe phenomenology of RLs is characterized by four features. First, the syllable that anchorsthe peak of F0 shows an important lengthening. This lengthening turned out to be the mostsalient feature used by the annotators. Secondly, the pitch tends to remain constant during therealization of the lengthened syllable, resulting in plateau patterns most of the time (see Fig.1below). Thirdly, the pitch is situated in the mid or upper range or the speaker’s register.Fourth, the vocal quality remains constant and corresponds to the quality used in normalspeech by the speaker (usually modal voice). This last feature distinguishes RLs from otherpatterns involving lengthening, in particular lengthenings accompanying disfluenciestriggered by dis-planning or self-repair, which are often characterized by a shift to creakyvoice. The overall contour is either flat or slightly rising (Fig. 1 and 2 below). 3Properties of the nuclear syllableDuration lengthenedPitch register mid ~ highPitch variation low ~ none (plateau)Vocal register stable (modal voice)Table 2. Properties of the nuclear syllable3 Note that the authors often disagreed about contours showing lengthening, modal voice, but a perceptuallyrising pitch.243


Proceedings of IDP 09180180Pitch (Hz)160140120110JE SAIS PAS SI J’VAIS TOURNER D’L’OEILPitch (Hz)16014012010080POURQUOI IL A PAS PRIS L’ MIEN0 1.4379Time (s)Fig. 1. Plateau RL0 1.1441Time (s)Fig. 2. Rising RLPBE show that the cluster of the 4 properties that makes RLs perceptually distinct fromrisings of Major Continuation, is statistically correlated to a value of a slope. The slope ratiois defined in (1), where ln is the natural logarithm function, H(Hz) the highest pitch value (inHz) at the very end of the RL, L(Hz) the lowest pitch value (in Hz) at the very beginning ofthe RL and LH the total duration of the RL (in ms).(1) Slope Ratio Formula:& H ( Hz) / L(Hz)#ln$!% LH ( ms)"PBE demonstrate that patterns, perceptually categorized as instances of RL, are characterizedby a lower slope ratio than those classified as instances of Rising of Major Continuation. 4Notice that the value of (1) crucially depends on the duration of the last syllable, whichaccounts for the salience of the feature in the recognition of the contour.3.2.3 Semantic importThe Rising of List signals that a linguistic expression E stands for a description E’ that ismore general and/or abstract than E. For example in (2), un chat (‘a cat’) and un chien (‘adog’) stand for a more general description such as un animal domestique (‘a pet’). Theintended denotation is introduced extensionally (i. e. through instances), rather thanintensionally (i.e. through properties). From a rhetoric perspective, the semantic of RL isreminiscent of that of synecdoches where an expression referring to a concrete object standsfor an expression referring to an abstract one.(2) a. Je cherche une boutique où on peut acheter [un chat] RL [un chien] RL .I’m looking for a shop where you can buy a cat, a dogb. Je cherche une boutique où on peut acheter [un animal domestique].I’m looking for a shop where you can buy a petRL is not restricted to individual denotations: it also operates on any type of denotation suchas that of clauses. For example, in (3.a) below, “elle envoie des mails, elle laisse desmessages” describe situations that are concrete manifestations of her inquisitive behavior. In4 The two populations constituted by instances of RL and instances of Rising of Major Continuation showdifferent slope ration values. The probability that the differences between the slope ratio values of the twopopulation is due to chance is significantly very low (p


<strong>Actes</strong> d’IDP 09the same way, in (3b), the interrogatives are examples of the sort of questions she keepsasking.(3) a. Elle n’arrête pas de le harceler de questions. Elle envoie des mails, elle laisse desmessages.She keeps asking him questions. She sends emails, she leaves messagesb. Elle n’arrête pas de le harceler de questions au téléphone. Où tu vas? Avec qui tu es?She keeps asking him questions on the phone. Where do you go? Who are you with?Expressions bearing RL, and coordinations thereof, are never interpreted as exhaustive, i. e.being the complete set of valid expressions that stand for the intended description. In (2), catsand dogs exemplify the sorts of animals for sale in the shop the speaker refers to. In (3), thesituations or the questions do not exhaust the description of her behavior. In other words, thedenotations of conjuncts in coordinations tend to not making up a plural entity: they stand forseveral formulations of the same content. This explains why disjunctive coordinations withRLs do not make good alternative questions. In (4) below, « on le fait chez toi » and « chezmoi » (i.e. « have dinner at your place, at my place ») make up a sample of possible answers,rather than the alternatives among which the addressee has to choose.(4) Qu’est-ce que tu décides ? [On le fait chez toi] RL [ou chez moi] RL ?What do you decide? Do we do it at you place, do we do it at my place?Moreover, we have observed in corpus –which is corroborated by the four authors’ intuition –that the semantic import of RL interferes with the illocutionary value, when it operates onroot clauses (RC). When used with interrogative or imperative RCs, the clauses are notinterpreted as questions or commands to the addressee, but rather as instances of question orcommand, thus as quoted questions or commands. This was illustrated in (3) above or (5)below.(5) J’ai quelques questions pour toi. [Où je dois aller] RL [A qui je dois parler] RL .I have a few questions for you. Where do I need to go. Who do I need to speak to.In contexts where an exhaustive answer is possible, as in (6), using a RL implicates that,although the answer resolves the question, there are other reasons as well that could motivateLoc2 not to come. Note though that RLs are not strongly implicative in Büring’s 1997 sense:they do not call for elaborating on the other instances.(6) Loc1: Pourquoi tu viens pas? A- How come you don’t come?Loc2: [Parce qu’il pleut] RL B- Because it is raining.Because of its semantic contribution, we expect RL to be most natural in segments ofdiscourse in which speakers elaborate upon a content they have introduced explicitly or theyare seeking to introduce. In terms of Discourse Relation, we expect RLs to be most natural inclauses entertaining an Elaboration relation with a preceding context. This is illustrated in theforged examples (3) and (5) above. Thus, the conjecture to be checked is that the contextstriggering the highest replication rate are contexts that involve an Elaboration relation holdingbetween an expression having a general or abstract content and another with a more concreteone.245


Proceedings of IDP 093.3. Priming factors for the production of RLs in replicationsIn the four renditions of the dialogue, RLs have been observed in 17 segments. Among them,11 are conjuncts: 5 belong to a syndetic coordination and 6 to an asyndetic coordination (i. e.juxtapositions). Among the 5 other segments, 2 are instances of reported speech. This issummarized in table 3 below.RL in theoriginaldialogueConjunct in syndetic coordination 4 (#1, 2, 11, 12) 1 (#4)Conjunct in asyndetic coordination 4 (#7, 8, 9, 16) 2 (#6, 17)Reported speech 2 (#14, 15)Others 3 (#5, 10, 13) 1 (#3)Table 3. Distribution of RL across the renditionsRL only in areplicationAs shown in Table 4 below, two types of context favor the production of RLs in thereplication task: asyndetic coordination and reported speech.Number of repli- never once twice thricecationsContextAsyndetic coordination 1 (# 9) _ 3 (# 8, 16, 17) 2 (# 6, 7)Reported speech 2 (# 14, 15)Syndetic coordination 1 (# 2) 3 (# 1, 4, 12) 1 (# 11) _Others 3 (# 5, 10, 13) 1 (# 3) _ _Table 4. Replication rate with respect to the contextThe strongest factor that triggers the replication of RL is the shift from a general or abstractdescription to a more concrete one. Turns (6-7) or (14) are prototypical cases. For example in(14) – repeated in (7) below –, G states that the choice of the first name of the mother or thefather by the grown-up child may cause a shock to the parents. M gives a more precisecontent to the potential shock by freely quoting a question the parents might ask why he didnot choose my [name]?(7) et puis tu vois pour les parents ça peut être un choc si tu veux.And you see to the parents it may come as a shock you know. Ouais ouais c’est ça. Pourquoi il a pas pris le mien.Yeah that’s it. Why didn’t he choose mine?The distribution is summarized in Table 5 below. 55 Because of space limitations, we leave aside the analysis of the instances added by thesubjects during Small Talk: indeed, they appear in discourse configurations that resemblethose in which RLs occur in the original.246


<strong>Actes</strong> d’IDP 09Number of replications never once twice thriceContextPreceding segment introduces an abstract 2 (# 9, 13) 1 (# 1, 3, 3 (# 8, 16,description4) 17)No abstract description in the preceding 3 (# 2, 5, 3 (#12) 1 (# 11) _segment10)Table 5. Replication rate with respect to left context.3.4. Conclusion4 (# 6, 7, 14,15),-.!#/0/&1!$2!3/04!/0!5!"#$0$6/7!"544.#&!4-54!-50!&$4!#.7./8.6!%97-!544.&4/$&!0$!25#:!.8.&!4-$91-! /4! /0! 7$&0/04.&43;! #.7$1&/".5?.#0@! A.! "#$"$0.! 4$! 0.%5&4/7533;!7-5#574.#/


Proceedings of IDP 094.1. Characteristics4.1.1. ContentReprise declaratives are declaratives whose content is the same as that of the preceding turn.(8) Nan. J’ai pas voulu. No, I didn’t want it" T’as pas voulu You didn’t want itWe extend the definition to declaratives whose content is a reformulation of that of theprevious turn involving an entailment (9) or an implicature (10).(9) On a fait les cours de préparation à l’accouchement làWe took the training sessions for the delivery" Ouais. Tu y es allé, toi ? You attended, you ?(10) L’appréhension s’est transformée en… Tu vois, j’arrêtais pas de bailler.The apprehension turned into …You see, I couldn’t help yawning" Ouais, ça t’a assommé, quoi It knocked you outThe implicature may involve more or less contextual information. For example, in (11)below, Speaker M infers the whole content of G’s turn: the coats of paint are overlaid overlayers of paper and should be removed (in order to paint the wall).(11) En fait c’est long parce que tu dois… Tu sais C’était tapissé, peint alors c’estl’enfer quoi. Right, it takes time, because you have to... You know, it was papered,painted, so it was like hell" Ah ouais t’enlèves les couches, putain Yeah, you remove the bloody coatsThere are 9 reprise declaratives in the conversation: 3 show the same content as the previousturn (e. g. (8)), 2 are based on entailment (e. g. (9)) and, 4 are based on implicature (e. g. (10),(11)). The feature shared by all three sorts is that they do not add new information to theCommon Ground. Thus, from an information point of view, they are redundant. Beinginformationally redundant does not imply that they are not instrumental in the making of thedialogue though. To uncover their relevance, we need to describe them in their dialogicalenvironment.4.1.2. Sequential placement and roleThe Topic Reprise Declaratives take place in a sequence that involves three turns. 6 The firstturn is a news-report turn: a dialogue participant, say A, tells some news. TRDs occur as thesecond turn: they reprise part or whole content of the news conveyed in turn 1. By using aTRD, another participant, say B, turns the content making up her turn into topicalizablematerial. TRDs operate in two manners: they upgrade the news-worthiness of the contentfrom B’s perspective 7 and displays B’s orientation towards more elaboration upon the6 In the literature, only the use of reprise declaratives to signal a problem – either in the Grounding process (inidentifying a reference or an understanding problem) or in the uptake of a previous declarative turn (RDsexpressing surprise, indignation, etc.) – has been considered so far.7 Which is correlated with the use of prefixes such as ah, ah bon (...).248


<strong>Actes</strong> d’IDP 09content. In turn 3, A has a choice: either she takes up the topicalizable material and elaborateit (topicalizing turn) or she curtails continuation of the topic. Both cases are illustrated in theconversation: in (9)-(11), G talks further on-topic, while in (8), repeated in (12) below, Mdidn’t seize the opportunity of elaborating on his refusal to attend child delivery. Only the useof the explicit topic initial elicitor c’était quoi? (TIE, Button & Casey 1984) prevents theconversation from coming to an end.(12) Tu avais assisté à l’accouchement, toi, de… Nan. J’ai pas voulu" TRD Tu as pas voulu Nan nan[–]" TIE T’avais eu… C’était quoi T’avaisTRDs are different from acknowledgment turns, which merely display the speaker’sacceptation of the previous turn, or continuation turns which display a positive orientation totopic pursuit as ah ouais in (13) for example.(13) Ouais mais moi je pensais que ça durait je sais pas au moins 20 minutes quoi, unecésarienne. C’est super rapide.Yeah I thought it last I don’t know at least 20 minutes a Ceasarean delivery. It’svery quick" Ah ouais Ah yeah Parce que moi quand elle est rentrée, je me suis dit bon moi je vais fumer uneclope, quoi. Et en fait, il est venu me chercher, quoi.Because me when she entered I thought well me I’m gonna smoke a cig. But hecame to fetch meBy using a TRD, the recipient of a news report transforms a piece of news into a potentialtopic for further talk; s/he does so interactionally and mutually. S/he displays her activeparticipation in the generation of a topic by giving the news-teller ground to talk to the topicshe has extracted from the initial news-report. We stress this last aspect as it may be a crucialfactor for the prosodic realization: the speaker provides for her interlocutor to talk further onthe topic she shows interest in.4.2. Prosody of TRDs4.2.1. In the original conversationTRDs are associated with two prosodic patterns (prosody for short below) involving pitchrange and pitch contour.- P1: recto tono until the last syllable which is slightly rising or falling in an overallcompressed register. TRDs in P1 are produced with overlapping, interruption or truncation ofthe very end of the turn. P1 is illustrated in Fig. 4 (see also Fig. 9A below).249


Proceedings of IDP 09300200Pitch (Hz)1000C’ETAIT PEINTSUR LA TAPISSERIE0 1.2019Time (s)Fig.4. Prosody P1- P2. : low plateau until the last syllable which is rising (more or less sharply), the span of theregister is the normal span of the speaker (Fig. 5, 6).200320300Pitch (Hz)15010070T’AS PAS VOU LUPitch (Hz)25020015010080ELLE AACCOUCHE AVEC UNE CESARIENNE MYRIAM0 0.43776Time (s)Fig. 5. Prosody P20 1.0444Time (s)Fig 6. Prosody P24.2.2. In the replicationsWe obtained 24 replications (8 & 3) after we have excluded a TRD we mistakenly transcribedas a relative clause in the script given to the subjects of Small Talk.On the whole, the prosodic realization of TRDs is as restricted as in the original conversation.The distribution is as follows:– 11 show the P2 realization.– 7 show the same gestalt as P1. Recto tono, but the register is less compressed than in theoriginal. It is not accompanied by overlapping phenomena, which is certainly due to the factthat subjects were given a script in which all overlappings had been edited out. The realizationis illustrated in Fig. 7 below.250


<strong>Actes</strong> d’IDP 09200150Pitch (Hz)100500AH OUAIS T’ENLEVES LES COUCHES QUOI0 0.96714Time (s)Fig. 7. Prosody P1 in replicationsIn addition to P1 and P2, five replications show a prosody that is absent from the original. Itcan be described as P3.– P3: high plateau until the last syllable which is falling. P3 is illustrated in Fig 8 (see alsoFig. 9C below).160140Pitch (Hz)12010080T’AS PAS VOU LU0 0.46882Time (s)Fig. 8. Prosody P3 in replications onlyFinally, one replication shows a rising-falling contour. The complete distribution of prosodiesis given in Annex III.4.2.3. DescriptionP2 has a questioning feel about it. Indeed, it has been described in relation with questioningmoves, in particular confirmation questions. In the original, all TRDs with P2 trigger ananswering token (nan, ouais, ..) in the next turn. To our knowledge, P1 and P3 have not beenmuch discussed in the literature. P3 as an attitudinal feel about it: it conveys some sort ofsurprise, unexpectedness about the content conveyed in the previous turn. Finally, P1 bearssome resemblance to the prosody observed with postfocal sequences in declaratives(traditionally, referred to as ‘intonation d’appendice’ in the literature on French). It showspitch range compression, base-line in the low part of the speaker’s register, de-accentuationwithout de-phrasing and finally falling or rising pitch movement at the very end of theutterance.To the exception of TRD1 and TRD3 – always associated to P2– and TRD8 –alwaysassociated to P1in the original as well as in the three replications–, the subjects chose among251


Proceedings of IDP 09the three patterns to realize the TRDs. TRD7 (repeated in (14)) is prototypical, as it has beenassociated with all three prosodies.(14) donc t’avais si tu veux le samedi pour savoir qui jouait donc t’avaisl’entraînement la semaine et le samedi dans le journal dans la Provence enfin àl’époque c’était Bormes Matin à Bormes-Mimosa tu avais la convocation des joueur,tu vois. Donc sont convoqués à telle heure pour jouer contre telle équipe" Ah ça paraissait dans le journal]>G> [Ca paraissait dans le journal [ [ Tu savais quand tu. Non, toi tu le savais d’avance ouais Non tu savais pas450400450400450400300300300Pitch (Hz)200Pitch (Hz)200Pitch (Hz)20010050ahça paraissaitdans l’jour...10050ah çaparaissaitdans l’journal?10050ah ça paraissaitdans l’journal?0 0.7657Time (s)Fig.9. A: P1(Original) B: P2. (Take 2) C. P3. (Take 3)The subjects have not replicated the original prosody of each TRD, but they have chosen onein a restricted repertory. In other words, TRDs are not rigidly associated with one prosody,but they seem to be associated with one restricted set of prosodies. The intuition we have isthat this is not due to chance or merely dependant on the number of replications. Indeed, therestriction we observe –and the subjects have observed in their replicating– corresponds to anessential feature of TRDs.4.3. Hypothesis and further work0 1.07Time (s)0 0.9605Time (s)We conclude that TRDs are associated with a restricted set of prosodies. As we saw, thespeaker extracts some topicalizable content from the previous turn and gives the addressee theground to topicalize it effectively or not. In other words, he paves the way for the addressee toaddress it in the coming turn(s). The speaker is not the source of the content: crucially, it isthe addressee and the addressee is the one who is endowed with the role of elaborating thetopic. We may speculate that this dialogical role constrains the choice of prosody: the speakershould not present herself as the source of the content. This may explain why the fallingcontour regularly associated with asserting moves is not appropriate in the stead of P1.Likewise, following Beyssade et al. 2007, a questioning contour with a rise on thepenultimate and a final fall – although frequent with confirmation questions – is notappropriate in the stead of P2. Indeed, such a contour presents the speaker as the source of thecontent. This will be the object of further work.252


<strong>Actes</strong> d’IDP 095. DiscussionBresnan 2007 proposes that Speakers’ linguistic knowledge includes the conditions of usageof constructions making up their language. The claim is grounded on results obtained througha method which is close to Rep Task. In two ways:– Speakers’ choices in the spontaneous use of speech in natural settings are compared to thosemade in an artificial controlled setting;– The comparison bears on the sameness of choices in a paradigm of constructions given acontext. Although participants in Bresnan’s experiments do not actually produce utterances,they score sentences and their scores reflect the choices Speakers make in the same context.Her case study is the dative alternation in English, illustrated in (15).(15) a. Mary gave a toy to Paulb. Mary gave Paul a toyThe choice between (15a) and (15b) results from multiple formal, semantic or contextualconstraints. Eventually, she proposes a probabilistic model of the choices. Then, she puts upan experimental setting: given an attested utterance showing one of the constructions in (15),an alternative paraphrase was constructed that showed the other, and both were presented tothe subjects in the original dialogue context, which was edited for readability. They wereasked to rate the naturalness of the two alternatives in the given context. Results are clear:subjects made ratings of alternative dative constructions in contexts that correspond to thecorpus probabilities. This suggests that speakers’ implicit knowledge of the dative alternationin context reflects the usage probabilities of the construction. In a nutshell, speakers whenthey speak emulate other speakers: in order to emulate, they have to know the fine-grainedconditions of usage of the constructions.Our experiment suggests the same conclusion for constructions that belong to Intonation. Itdoes so in a coarse way, as we do not have a formal model of usage of the two constructionsunder study. Most probably, we will never have one. Nevertheless, the observation remains.Speakers recognize the contextual cues that motivate the use of the Rising of List as theyrecognize those that motivate the use of one expression of the Dative over the other. In thesame way, they recognize the conversational role of turns and know how to adapt theintonational rendition to such roles. In the first case, it provides support to the semanticanalysis we propose. In the latter, it gives support to the idea that TRDs may be analyzed ashigh-level constructions associating a clause type, a constraint on the semantic content and aconstraint on the intonation.6. ConclusionWe have presented a new technique of eliciting data conceived as a replication task. 8 Thepilot experiment “Small Talk” suggests two conclusions. The first one is methodological:speakers’ choices in the lab provide reliable data when they are compared to the same choices8 It is certainly limited in terms of genre of discourse/monologue: it requires that the making of conversationdoes not require much contextual information or involves activities.253


Proceedings of IDP 09in other settings. The second one is foundational: speakers’ knowledge of constructionsincludes usage conditions.ReferencesBeyssade Claire & Jean-Marie Marandin, 2007. French Intonation and Attitude Attribution, Proceedings of the2004 Texas Linguistics Society Conference: Issues at the Semantics-Pragmatics Interface, ed. by PascalDenis, Eric McCready, Alexis Palmer, and Brian Reese, pp. 1 -12.Button Graham & Neil Casey, 1984. Generating topic: the use of topic initial elicitors. [Atkinson M. & JohnHeritage, eds] Structures of social actions, pp. 167-190.Button Graham & Neil Casey, 1985, Topic nomination and topic pursuit, Human Studies 8:3 pp. 3-55.Bertrand Roxane et al., 2008. Le CID - Corpus of Interactional Data - Annotation et Exploitation Multimodalede Parole Conversationnelle. TAL 49-3, pp. 1-30.Bresnan Joan, 2007. Is syntactic knowledge probabilistic? Experiments with the English dative alternation. [SamFeatherston and Wolfgang Sternefeld, eds] Roots: Linguistics in search of its evidential base, Series: Studiesin Generative Grammar. Berlin and New York: Mouton de Gruyter, pp. 75–96.Büring Daneil, 1997. The meaning of topic and focus. London, New York : Routledge.Jefferson G. 1984. On stepwise transition from talk about a trouble to inappropriately next-positioned matters.[Atkinson M. & John Heritage, eds] Structures of social actions. Cambridge: Cambridge University Press,pp.191-222.Ito Kiwako & Shari R. Speer, 2006, Using interactive tasks to elicit natural dialogue. [Sudhoff Stefan et al., eds]Methods in empirical prosdy research. Berlin: W. de Gruyter, pp.229-258.Portes Cristel, Roxane Bertrand & Robert Espesser, 2007a. Contribution to a grammar of intonation in French.Form and function of three rising patterns. Hand-out IDP 07. Available at http://pro-gram.linguist.univ-parisdiderot.fr/recherche.php?nav=structure.Portes Cristel, Roxane Bertrand & Robert Espesser, 2007b. Contribution to a grammar of intonation in French.Form and function of three rising patterns in French, Nouveaux cahiers de linguistique française 28, pp. 155-162.Selting M. 2007. Lists as embedded structures and the prosody of list construction as an interactional resource.Journal of Pragmatics 39- 3, pp. 483-526Annex I. Turns showing RLNB.: The lengthened syllable is underlined for convenience. The phrase affected by thecontour is between angle brackets.RL1 C’est vrai ? Si tout va bien je vais essayé de le faire mais j’en sais rien 'si je vais pas tournerde l’œil( ou j’en sais rien ouais tu vois ?RL2 Si tout va bien je vais essayé de le faire mais j’en sais rien si je vais pas tourner del’œil ou j’en sais rien ouais tu vois ? Ouais. 'Ou ce que tu vas garder comme image(.RL3 Ouais. Ou ce que tu vas garder comme image. Ouais voilà. Parce que j’ai vu. 'On a fait les cours de préparation àl’accouchement(.254


<strong>Actes</strong> d’IDP 09RL4-5RL6-7 Ouais. Tu fais autre chose et tu passes à autre chose et du coup t’es pas. Onverra. Moi, c’est un peu tout. C’est pas tellement le sang tout ça. Enfin ouais si.Disons que ça me disait rien du tout, quoi. Mais c’est aussi le côté hystérique, un peude… Enfin c’est normal. Elle est souffre et machin mais j’ai du mal avec 'l’hystérie(ou les trucs comme ça et ça fait que je me suis dit c’est plutôt quelque chose qui vame gonfler quoi, 'm’énerver( enfin pas m’énerver mais je sais pas comment direquoi. Et du coup, bon tu vois si tu prends aucun plaisir à ça, je pense c’est. Enmême temps, je pense Myriam voulais quoi. Donc la césarienne, c’était nickel. Pasde problème. Ah ouais. Et là, c’est bonnard quoi quand tu l’as. T’as une meuf 'qui le prend(, 'qui luilave le nez(…RL8-9 Ah ouais ? Tu sais j’ai toujours pas fini ouais. En fait c’est long parce que tu dois… Tusais C’était 'tapissé(, 'peint( alors c’est l’enfer quoi.RL10RL14RL15RL11-12RL13RL16-17 Ouais Tu vois là 'tout à la raclette(. Il faut que t’en prenne qu’un. Alors voilà justement Je sais pas si il peut choisir 'lequel des deux( 'ou si il prend le premier(. Ben justement. Moi j’ai lu un truc sur ça. Ils disaient que ça pouvait avoir desconséquences parce que à la limite pour le moment bon c’est comme ça tu as le nomdu père basta et tu choisis pas c’est fait, tu vois Ouais. Là c’est 'préférence(. et puis tu vois pour les parents ça peut être un choc si tu veux. Ouais ouais c’est ça. 'Pourquoi il a pas pris le mien(. Ouais ouais c’est ça. Pourquoi il a pas pris le mien. Ben ouais alors ça crée peut-être des merdes. Bon enfin, j’en sais rien. Je saispas encore. Et puis non par contre c’est vrai Isabelle me disait par exemple « Taint’emmerde pas avec deux noms ça va être. 'tu vas voir après quand tu vas avoir lespapiers(. Ouais je me rappelle ouais. où chaque fois tu devais bien marquer ton nom 'un centimètre( 'un millimètre(.Annex II. The 8 TRDs in their environments in the originalTRD1 Nan. J’ai pas voulu." T’as pas voulu Nan nan255


Proceedings of IDP 09TRD2TRD3TRD4TRD5TRD6TRD7(Journal)TRD8. C’était quoi ? T’avais] [Bah en plus c’était une césarienne donc euh" Ah bon, elle a accouché avec une césarienne, Myriam ] [Ouais Ah d’accord. Alors c’est clair [..] Parce que (–) j’ai vu. T’sais On a fait les cours de préparation àl’accouchement là" Ouais. Tu y es allé, toi ? Ouais. J’y suis allé. (–) Et c’est vrai que tu vois les explications de lasage-femme au moment de l’accouchement, je me sentais pas très très bien, tuvois ? Tu sais j’ai toujours pas fini ouais. En fait c’est long parce que tu dois…Tu sais C’était tapissé, peint alors [c’est l’enfer quoi" [Ah ouais t’enlèves les couches [putain [J’ai mis un mois quoi. Enfin bon c’est un mois en faisant que le weekend,si tu veux. Ouais Tu vois là tout à la raclette" C’était peint sur la tapisserie, truc comme ça Ouais alors des produits si tu veux qui enlèvent les tapisseries ça marchebien sur de la tapisserie, tu vois ? Ca s’enlève comme rien. Jean Jackie donc il s’appelle Paul Maé Jackie Jean" Ah ouais tu peux avoir 4 [ euh [ Tu peux en avoir 50 [si tu veux. [ah d’accord donc t’avais si tu veux le samedi pour savoir qui jouait donc t’avaisl’entraînement la semaine et le samedi dans le journal dans la Provence enfin àl’époque c’était Bormes Matin à Borne Mimosa tu avais la convocation desjoueur, tu vois. Donc sont convoqués à tel heure pour jouer contre telle équipe" A ça paraissait dans le journal]>G> [Ca paraissait dans le journal [ [ Tu savais quand tu. Non, toi tu le savais d’avance ouais Non tu savais pas() Bon. C’est marrant parce l’appréhension s’est transformée en… Tu vois,j’arrêtais pas de bailler." Ouais, ça t’a] [t’a assommé] quoi. [Tain] [ça me … J’ai failli sortir à un moment donné. Mais je crois que tous les mecs jeme suis dit le jour de l’accouchement ça va donnerAnnex III. Prosodies of TRDsCode for the takes: TRD-O: original. TRD-1 (first take without prior reading), TRD-2 andTRD-3 (2 nd and 3 rd take after discussion).256


<strong>Actes</strong> d’IDP 09TRD Take P1 P2 P3 OtherTRD1 TRD1-O +TRD1-1 +TRD1-2 +TRD1-3 ?+TRD2 TRD2-O +TRD2-1 +RD2-2 +RD2-3 +TRD3 RD3-O +RD3-1 +RD3-2 +RD3-3 +TRD4 RD4-O +couchesRD4-1 +RD4-2 +RD4-3 +TRD5 RD5-O +RD5-1 +RD5-2 +RD5-3 +TRD6 RD6-O +RD6-1 +RD6-2 ??+RD6-3 ??+TRD7 RD7-O +RD7-1 +RD7-2 +RD7-3 +TRD8 TRD8-O +TRD8-1 +TRD8-2 +TRD8-3 +257


<strong>Actes</strong> d’IDP 09Les primitives intonatives du français: une propositionDavid Le Gac+, Hiyon Yoo*david.legac@univ-rouen.fr, yoo@linguist.jussieu.fr+Université de Rouen – Laboratoire LiDiFra*Université Denis Diderot Paris 7 – Laboratoire de Linguistique Formelle, UMR 7110AbstractIn this paper, we propose a model for French Intonation using two tonal primitives, which share the properties ofdependency theories of phonology. We will argue that these two tonal primitives and the phonological model wepropose can account for four different phonological intonational levels and give a simple explanation to theprocesses of downstep and upstep, as well as many tonal patterns in French, such as declarative and interrogativeutterances (with or without emphasis), parentheticals, internal themes etc.1. IntroductionLa construction d’une théorie de l’intonation requiert avant tout d’en poser clairement lesprimitives phonologiques, i.e. les éléments ultimes gérés par les règles, les principes ou lescontraintes de la composante intonative. Or si la notion de primitives est moins contestée dansle domaine de la phonologie segmentale, on est loin d’un consensus dans le domaine del’intonation.Ainsi, Rossi (1999) propose une théorie de l’intonation décrite en termes de morphèmesintonatifs associant étroitement un sens/fonction à un intonème, facette sonore desmorphèmes. Les intonèmes sont définis en termes de traits unaire (sans attribut ± ou scalaire,référant à des catégories sonores absolues de f 0 , durée, sonie, accent, pause). Dans cettethéorie, la mélodie est essentiellement décrite sous forme de contours, atteignant des niveauxintonatifs (suraigu, haut, bas, grave…). Rossi admet aussi des tons ponctuels pour certains deces intonèmes (par exemple le ton haut du morphème de focalisation /AF/). Rossi poseégalement des opérateurs, notamment l’opérateur de réduction et d’abaissement !, ainsi quetout un ensemble de règles contextuelles, qui ajustent la réalisation des intonèmes.Chez Martin (1981; 1999), l’intonation est décrite en termes de traits binaires, référantessentiellement à des contours de f 0 associés aux syllabes accentuées des mots (la dernièresyllabe sans schwa). La forme de ces contours est établie via une structure intonative dedépendance : un seul contour est vraiment sélectionné par le locuteur, le contour terminal(C 0 ), lequel porte un sens ; les autres contours – i.e. les traits qui les composent – sontcalculés en fonction des relations de dépendance vers la droite dans la structure intonative.Pour Mertens (2008), l’intonation est constituée non plus de contours mais de plusieurs tons.Ces derniers sont organisées selon une échelle de dominance avec quatre niveaux de hauteur :les niveaux infra-bas (B–) et suraigu (H+) qui correspondent au plancher et au plafond de latessiture du locuteur, et les niveaux bas (B) et haut (H) établis de façon relative à la suive d’unintervalle mélodique majeur (en général, 5 demi-tons). Enfin, l’intervalle mineur permet decaractériser des niveaux rehaussés ou abaissés de H et B, notés /B, /H, \B, \H.259


Proceedings of IDP 09Quant à la phonologie métrique et autosegmentale de l’intonation, dorénavant « MA » (cf.entre autres Pierrehumbert & Beckman (1988), Beckman & Pierrehumbert (1986), Grice(1995), Ladd (1996; 2008), Jun et Fougeron (2000), Post (2000), et Di Cristo (1998)), ellesreposent sur les deux tons, B et H, dont la réalisation phonétique dépend de plusieursparamètres :i. du contexte tonal immédiat (normalement à gauche) ;ii.de leur association aux syllabes accentuées ou à l’accent nucléaire de la phrase(« Nuclear Pitch Accent »), i.e. aux différents éléments de la grille métrique ;iii. de leur association à un constituant prosodique (Accentual Phrase « AP »,Intermediate Phrase « ip », Intonational Phrase « IP ») ;iv. de traits supplémentaires, comme celui de downstep par exemple, cf. Ladd (1996;2008)On peut considérer les catégories manipulées par la grille métrique et la structure prosodique,ainsi que les traits supplémentaires comme autant de primitives phonologiques au même titreque les tons B et H ; ces catégories constituent autant d’informations pour implémentercorrectement sur le plan phonétique les deux tons B et H.L’aperçu rapide de ces quelques théories montrent que ces dernières diffèrent en ce quiconcerne :• le nombre des primitives, qui peut être très restreint, de deux seulement (théories MA) àun nombre indéfini (Rossi, Martin) ;• leur nature : il peut s’agir de contours ou de tons, décrits en termes de traits binaires ouunaires ;• l’ajout ou non de traits non tonals ou de composantes supplémentaires.La question que l’on peut se poser est de savoir quels choix théoriques permettent de rendrecompte de manière à la fois la plus économique et la plus contrainte possible de l’intonationdu français.Dans cet article, nous proposons que les tons phonétiques constituant l’intonation du françaisne reposent que sur deux primitives phonologiques, et seulement deux, régies par un nombreminimal de règles et de principes aussi généraux que possibles, issus des phonologiessegmentales de la dépendance (Durand 1986; Durand 1990; Durand & Katamba 1995).Cette analyse permet de rendre compte de façon simple des configurations mélodiques desquestions et des déclaratives, sans avoir à passer par plusieurs niveaux ou tons, ou, si on seplace dans le cadre de la phonologie MA, sans avoir recours à des constituants prosodiques ouà des traits supplémentaires non tonals.Dans la section suivante, nous discutons de certaines données qui motivent cette analyse.Puis, en section trois, nous présentons le dispositif phonologique que nous proposons pour lefrançais, afin de terminer en section 4 avec des arguments supplémentaires qui viennentappuyer notre proposition.2. Données et problèmeConsidérons les tracés de f 0 idéalisés de la Figure 1 ci-dessous. Il s’agit des tracés des phrases(1) à (4), dont la structure syntaxique est similaire. Les phrases numérotées (2), (3) et (4) sont260


<strong>Actes</strong> d’IDP 09constituées de la même séquence de mots ; seules les configurations mélodiques varient. Dansla phrase (1), le morphème interrogatif « comment » est remplacé par le substantif « voiture ».Notons que les mots terminaux « comment » et « voiture » sont des focus.(1) Il y est allé voiture.(2) Il y est allé comment ?(3) Il y est allé comment ??(4) Il y est allé comment ??Figure 1 : tracés idéalisés de f 0 des phrases (1) à (4).En (1), la syllabe accentuée finale –ture est prononcée avec une chute mélodique, qui atteintles fréquences basses. En (2), (3) et (4), la syllabe finale –ment est réalisée avec une montée.Toutefois, la hauteur atteinte par cette montée est différente : une cible moyenne ou haute en(2), une cible dans les suraigus en (3) et une cible encore plus haute en (4). Par commodité, onfera référence à ces cibles par les chiffres [1], [2], [3] et [4], [1] désignant la cible basse.La question qui vient immédiatement à l’esprit est la suivante : les cibles [2], [3] et [4] sontellesles variantes phonétiques d’une même cible phonologique ? A-t-on affaire à de lavariation scalaire d’un même phonème intonatif ? Trois arguments peuvent être avancés pourmontrer que [2], [3] et [4], et partant également [1], sont en fait les réalisations de quatrehauteurs phonologiques.Tout d’abord, la différence en hertz entre chaque cible est importante, ce qui suggère plutôtune différence catégorielle.Ensuite, le deuxième argument repose sur ce qui se passe dans les syntagmes disloqués àdroite. Observons dans la Figure ci-dessous les configurations mélodiques des deuxsyntagmes disloqués (SDIS) que l’on a ajoutés aux phrases (1) à (4). Dans la suite, nous261


Proceedings of IDP 09appellerons ton terminal (T TERM ), les cibles [1] à [4] portées par l’élément focalisé. Quand onajoute des SDIS à la phrase (1), la Figure 2 montre une cible basse à la fin de chaque SDIS ;dans les autres phrases, à l’inverse, les SDIS portent une cible haute finale, réalisée dans uneplage similaire de fréquences que le T TERM (comparez les hauteurs des cibles qui suivent leT TERM [2] et celles qui suivent les T TERM [3] par exemple). Bref, on observe une copieitérative du T TERM des phrases (1) à (4) sur les SDIS comme l’ont rapporté déjà d’autresauteurs (cf. Ladd 2008; Dell 1984; Di Cristo 1998; Rossi 1999; Di Cristo 1999).(a)(b)262


<strong>Actes</strong> d’IDP 09(c)(d)263


Proceedings of IDP 09(e)Figure 2 : (a) à (d) : tracés de f 0 et (e) tracés de f 0 idéalisée des phrases (1) à (4) suivisde deux syntagmes disloques “ton ami” et “en Roumanie”.Cependant, on remarque aussi que les tons des SDIS qui suivent les T TERM [1] ou [2] sontitérativement abaissés, tandis que ceux qui suivent les T TERM [3] ou [4] sont itérativementrehaussés. Autrement dit, bien que [2] se réalise par une montée comme [3] et [4], il partageune propriété commune avec [1], celle d’abaisser ou d’être abaissé, quand il est copié. Celamontre qu’on a bien affaire à un autre ton que [3] et [4], qui, eux, ont la propriété derehausser ou d’être rehaussés.Enfin, le troisième argument montrant que les cibles [1], [2], [3] et [4] sont phonologiquesconcerne le sens qu’elles induisent. Typiquement : T TERM réalisé [1] et associé à une phrasesans morphème interrogatif indique l’assertion, mais [1] peut aussi être associé au morphèmeinterrogatif d’une question ; [2] marque la question « neutre », i.e. une demanded’information ; [3] marque la question en « écho » et correspond à la montée typique dequestion que l’on trouve dans la littérature ; enfin, [4] manifeste clairement une réelle attituded’étonnement et/ou d’emphase.Ces trois arguments montrent que les quatre cibles mélodiques sont phonologiques. Unmodèle adéquat doit en rendre compte ; mais il doit aussi expliquer la corrélation entre lescibles [1]/[2] et downstep d’une part, et entre [3]/[4] et upstep d’autre part ; en d’autre termes,quelle est la propriété intrinsèque à ces différents tons qui déclenche un processus et pasl’autre ? Dans la section suivante, nous proposons un dispositif phonologique qui répond à cesquestions et que nous pensons également assez puissant pour rendre compte d’autres donnéesdu français.3. Présentation du modèle3.1 Cadre généralNous nous placerons dans le cadre général des théories phonologiques de la dépendance(dorénavant « DP ») (Durand 1986; Durand 1990; Durand & Katamba 1995), et nous suivronsle principe général suivant :264


<strong>Actes</strong> d’IDP 09(5) Principe d’asymétrie (P ASYM ) : toute relation phonologique (entre 2 éléments) estasymétrique : il y a un élément tête et un élément dépendant.D’un point de vue logique, l’élément tête est la condition nécessaire pour la présence del’élément dépendant. A ce titre, un élément tête peut apparaître seul.P ASYM ne reconnaît qu’un seul type de relation de dépendance ; nous excluons les relations dedépendance mutuelles, dans lesquelles deux éléments ont une même prépondérance, commecela a pu être proposé par ailleurs.3.2 Les primitives tonales et les niveaux intonatifsNous proposons que l’ensemble des hauteurs observées en français peut être décrit au moyendes deux seuls éléments tonals H et B. Ces deux tons ont les propriétés des primitivesphonologiques des DP, à savoir :• ils s’agit de traits unaires : ils n’ont pas de spécification +/–, contrairement au cadregénératif classique, et ne sont pas non plus scalaires ;• ces deux tons peuvent être réalisés seuls ou se combiner.Dans une combinaison tonale, en vertu de P ASYM , on pose une relation de dépendance entreles deux éléments d’une combinaison tonale dans les combinaisons tonales : il y a un ton"tête" (qu’on notera en majuscule "T/H/B") et un ton "dépendant" (noté en minuscules"t/h/b").L'interprétation phonétique des éléments dépend directement de leur statut de tête ou dedépendant. Pour les tons têtes – qu’ils soient seuls ou en combinaison –, nous posons que :• H est réalisé au niveau [4] observé à la section 0 ;• B est réalisé au niveau [1].Quand ils sont dépendants, les tons ont l'interprétation phonétique suivante :• b abaisse le ton tête T ;• h rehausse le ton tête T.La possibilité de combiner les éléments tonals permet ainsi d’obtenir quatre niveauxphonologiques, i.e. H Hb Bh B (« » plus haut que), lesquels correspondent respectivementaux quatre niveaux phonétiques [4], [3], [2] et [1] du ton terminal observés section 0.3.3 Downstep et upstepDans la section 2, nous avons vu que les constituants disloqués à droite SDIS étaient soumisaux processus de downstep et upstep, et qu’en même temps, ces deux processus étaientcorrélés au niveau du ton terminal T TERM : les tons [1] et [2] déclenchent le downstep, tandisque les tons [3] et [4] déclenchent le upstep.Pour rendre compte des processus d’abaissement/rehaussement, et de leur dépendance auniveau tonal du T TERM , nous posons une règle itérative de « projection » tonale, selon laquelleun élément tonal tête peut être itérativement projeté (ou copié sur un « axe orthogonal »), oùl’élément projeté sera conventionnellement symbolisé par un caractère en exposant :(6) Règle itérative de projection tonale (« R PROJT ») : T " T t265


Proceedings of IDP 09On peut donc avoir les combinaisons suivantes, avec leur réalisation tonale phonétiquerespective :(7) a. B " B b b. Bh " B b h c. H " H h d. Hb " H h bb. [1] & [1 , ] b. [2] & [2 , ] c. [4] & [4 ( ] d. [3] & [3 ( ]Par contre, sont exclues les combinaisons suivantes, car ce sont les tons dépendants qui sontprojetés :(8) a. *Hb " Hb b b. *Bh " Bh hSelon ces règles, le downstep et le upstep sont interprétés comme les projections itératives duton tête. Comme ces tons projetés dépendent de la tête tonale, leur interprétation phonétiqueest celle des tons dépendants : h projeté rehausse, b abaisse. On capte ici à la fois laréalisation des niveaux mélodiques supplémentaires nécessaires pour décrire ce qui se passeen français sur les SDIS, ainsi que la corrélation entre niveaux tonals et type de processus : onremarque en effet que les tons [1] et [2] ne peuvent qu’être abaissés, alors que les tons [3] et[4] que rehaussés.Enfin, pour rendre compte totalement des configurations mélodiques des SDIS, nous posonsque l’application de R PROJT est conditionnée à la fois par (i) un mécanisme de copie tonale et(ii) par une contrainte générale sous-tendant toute relation de dépendance syntagmatiquesentre les tons.Rappelons tout d’abord qu’en vertu de P ASYM , les tons sur l’axe syntagmatique doivent rentreren relation tête-dépendant. Nous poserons les relations suivantes dans le cas des SDIS, où« > » représentent la dépendance vers la gauche :(9) a. Il est allé en voiture en Roumanie Jean-Marieb. T TERM > T SDIS > T SDISNous proposons que les relations de dépendance syntagmatiques vers la gauche s’exprimentpar la copie tonale du ton tête. Nous ne faisons en réalité que reformuler en termes derelations de dépendance le mécanisme de copie tonale proposée par d’autres auteurs dans cemême contexte, expliquant ainsi de la similitude entre T TERM et les tons des SDIS (T SDIS ).Mais cette structure permet aussi de rendre compte des processus de downstep et upstep.En effet, nous stipulons que toute relation de dépendance syntagmatique doit se conformer àune contrainte générale selon laquelle un ton dépendant doit être plus « lourd » que le tondont il dépend, i.e. comporter plus d’éléments dans sa représentation phonologique que le tontête. Nous nommerons cette contrainte « C LOURD » :(10) Contrainte de « lourdeur » (C LOURD ) : un ton dépendant sur l’axe syntagmatique doitêtre plus lourd que le ton dont il dépend, i.e. comporter plus d’éléments dans sareprésentation phonologique.En (9), du fait que les tons des SDIS doivent être plus lourds que le T TERM ou que le tonprécédant dont il dépend, la règle R PROJT s’applique, générant ainsi les éléments nécessairespour se conformer à C LOURD . Nous verrons dans la section 0 d’autres exemples où la pression266


<strong>Actes</strong> d’IDP 09de C LOURD déclenche R PROJT . Dans la sous-section suivante, nous verrons comment cedispositif permet de dériver les exemples présentés dans la section 2.3.4 Dérivation des exemplesLe dispositif formel que nous venons de proposer permet de dériver très simplement lesconfigurations tonales présentées plus haut. Nous donnons de (11) à (14) ci-dessous lesdérivations tonales des énoncés (1) à (4), avec en b. les représentations phonologiques destons, et en c. leur corrélats phonétiques. Les flèches « > » en b. représentent les relations dedépendances syntagmatiques.(11) a. Il est allé en voiture en Roumanie Jean-Marieb. B TERM > B b > B bbc. [1] [1 , ] [1 ,, ] (downstep du T TERM [1])(12) a. Il est allé en voiture en Roumanie Jean-Marieb. Bh TERM > B b h > B bb hc. [2] [2 , ] [2 ,, ] (downstep du T TERM [2])(13) a. Il est allé en voiture en Roumanie Jean-Marieb. Hb TERM > H h b > H hh bc. [3] [3 ( ] [3 (( ] (upstep du T TERM [3])(14) a. Il est allé en voiture en Roumanie Jean-Marieb. H TERM > H h > H hhc. [4] [4 ( ] [4 (( ] (upstep du T TERM [4])!Par exemple en (12), T TERM est un ton Bh. Ce ton est copié sur les SDIS dépendantssubséquents. En raison de la contrainte C LOURD , les combinaisons Bh sur les SDIS doiventêtre plus lourdes que leur ton tête ; la règle R PROJT s’applique et le ton tête B est ainsi projetéde façon itérative, générant des cibles mélodiques de niveau [2] abaissées au niveauphonétique. La même structure de dépendance et les mêmes mécanismes sont en œuvre en(13) et (14), mais comme le ton tête est H, la règle R PROJT projette des h, donnant des tons Hrehaussés sur le plan phonétique.4. Discussion et évaluation du modèle4.1 Comparaison aux autres modèlesDeux observations et une contrainte ont motivé notre proposition : d’une part, l’observationde quatre niveaux tonals phonologiques et celle de la corrélation entre certains de ces niveauxavec un type particulier de processus ; d’autre part, il fallait rendre compte de ces deux faitsde la façon la plus contrainte possible.Nous pensons y être parvenus : (i) l’ensemble du dispositif ne repose que sur deux élémentstonals ; (ii) ces éléments tonals sont gérés par des propriétés et des principes très généraux,eux-mêmes en nombre très restreint ; enfin (iii), la corrélation entre niveaux tonals etprocessus découle nécessairement des primitives et des principes posés, il n’a pas éténécessaire de recourir à des objets ou à des règles supplémentaires pour y parvenir.267


Proceedings of IDP 09On aura remarqué par ailleurs que notre dispositif permet de n'avoir qu’une seule et mêmestructure intonative avec un choix tonal unique pour toutes les phrases étudiées ici : seulT TERM , qui s’associe au focus, est sélectionné par le locuteur, les tons subséquents et leurréalisation phonétique sont dérivés automatiquement par les règles et principes proposés.Concernant les processus de downstep et upstep, ils sont décrits en respectant une certaine« naturalité » et « homogénéité » : le downstep repose toujours sur la présence d’un élémentB, conformément à ce qu’on observe souvent dans les langues à tons (Yip 2002), et le upstepsur celle d’un élément H. En même temps, le modèle fait une prédiction forte : dans desconditions structurelles similaires à celles présentées plus haut, on ne doit pas observer dudownstep après un élément haut, et réciproquement pour le upstep.De ce point de vue, notre proposition nous semble plus avantageuse que d’autres approches.Dans des théories comme celles de Martin (1981; 1982; 1999) ou Rossi (1999), où lescontours intonatifs sont décrits en termes de traits, il suffirait de rajouter des traits pourdécrire les quatre niveaux. Cette souplesse, qui semble a priori un avantage par rapport àd’autres théories plus contraintes quant au nombre de primitives manipulées (cf. les théoriesMA), n’est en réalité pas souhaitable : comme rien ne contraint l’ajout de traits, la théorieperd de facto son pouvoir prédictif. En outre, ni l’une ni l’autre théorie n’explique lacorrélation entre niveaux tonals et processus : chez Martin, les processus de downstep et deupstep ne sont pas prévus ; Rossi, quant à lui, ne rend compte que du seul phénomèned’abaissement, provoqué par « l’opérateur ! », marqueur de « thématisation » (i.e. entreautres, les SDIS dans notre approche).Dans les approches MA, il n’existe que les deux primitives tonales H et B (cf. section 0). Afind’obtenir davantage de niveaux mélodiques, il est donc nécessaire d’ajouter des traits et/oudes composants supplémentaires. Par exemple, Ladd (cf. entre autres travaux Ladd (1996;2008) introduit un trait [±downstep] – symbolisé par un « ! » –, ce qui lui permet d’avoir troisniveaux B*, H* et !H* pour le ton correspondant à notre T TERM . Cependant, Ladd ne prévoitpas de rehaussement. Pourtant, son approche est assez souple pour qu’il soit possibled’ajouter un trait de upstep ; mais dans ce cas, des contraintes supplémentaires seraientnécessaires pour exclure des combinaisons logiquement possibles mais non observées, àsavoir les niveaux [1] et [2] rehaussés ([+upstep]) et les niveaux [3] et [4] abaissés. Demanière plus générale, l’approche de Ladd, qui autorise a priori l’ajout de traits, risquetoujours d’être confrontée au même problème que les théories de Rossi et Martin, à savoir, lerisque de surgénération et de l’affaiblissement explicatif, problème qui a été explicitementpointé par Grice (1995).Dans le modèle de Jun et Fougeron (2000), seuls les deux tons de frontière H% et B% – tonsassociés à un « Intonational Phrase (IP) » – sont possibles, ce qui ne rend compte que de deuxniveaux mélodiques sur les quatre observés. Bien que les processus d’abaissement et derehaussement soient déclenchés dans des conditions structurales similaires, les auteuresexpliquent ceux-ci en introduisant un constituant supplémentaire dans la structureprosodique : le upstep est ainsi causé par un ton H associé au très controversé « IntermediatePhrase (ip) », tandis que le downstep semble être contrôlé au niveau du IP par un B% – oudéclenché par un accent mélodique bitonal dans d’autres contextes. On remarquera en outreque : (i) si les auteures n’utilisent pas de traits phonologiques supplémentaires pour décrireles faits, le cadre dans lequel elles se placent (celui de la théorie « standard » de268


<strong>Actes</strong> d’IDP 09Pierrehumbert et Beckman (1986; 1988) autorise tout de même l’ajout de constituantsde façon non contrainte ; (ii) le choix entre H ip et B ip sur les SDIS après le focus est libre, rienn’explique le fait pourtant bien accepté que les tons post-focaux sont similaires au ton duT TERM ; et (iii), leur modèle ne semble pas non plus pouvoir rendre compte du caractèreitératif du downstep et du upstep.Quant à Post (2000), son modèle ne lui permet d’obtenir que trois niveaux mélodiques : lafrontière droite d’un IP peut être marquée par les tons H% et B%, mais aussi rester nonspécifiée tonalement (# IP ) ; dans ce cas, un ton accentuel H* final est réalisé seul, à unehauteur intermédiaire entre H% et B%. De plus, le downstep et le upstep sont égalementanalysés de deux manières différentes : le downstep est considéré comme un processus pardéfaut opérant de façon automatique d’un H* à l’autre, tandis que le upstep des H* est dû àH% final ; celui-ci a donc la propriété particulière de bloquer le downstep et d’agir à« rebours » et à distance – il agit sur tous les tons H* d’un IP –, ce qui va à l’encontre desapproches MA standard.4.2 Autres exemples en françaisNotre modèle permet aussi de rendre compte de façon simple d’autres phénomènes intonatifsdu français.Tout d’abord, notre proposition permet de décrire non seulement les configurations situées àdroite de T TERM (i.e. sur les SDIS), mais celles situées à gauche de ce dernier. La contrainteC LOURD permet de dériver une hiérarchie tonale : H/B >> Hb/Bh >> H h b/B b h >>…Rappelons que la dépendance au T TERM des éléments situés à sa droite se traduit par lacontrainte C LOURD et le mécanisme de copie. Nous proposons que les relations dedépendance des éléments situés à gauche de T TERM reposent seulement sur la contrainteC LOURD , autrement dit, sur la sélection d’un ton immédiatement plus bas dans la hiérarchietonale citée plus haut.En français, il est reconnu de longue date que, dans un groupe prosodique donné, c’est ledernier contour continuatif qui domine les autres continuatifs situés à sa gauche (cf. lescatégories traditionnelles de continuatifs « majeurs » et « mineurs). Par ailleurs, le continuatifdominant peut sélectionner à sa gauche un continuatif avec un contour inversé par rapport àlui (cf. la règle du « contraste de pente » de Martin (1981; 1982; 1999). La hiérarchie tonalerend compte à la fois des niveaux relatifs des différents continuatifs et de la possibilité d’avoirun effet d’inversion : par exemple, un « continuatif majeur » Bh tête de fin de groupe, peutsélectionner à sa gauche, soit un ton B b h (montant mineur) soit un ton B bb (descendant).Dans la même ligne d’idée, la hiérarchie tonale explique les différentes réalisations destopiques en français. Dans les déclaratives, il existe deux types de topiques (cf. Di Cristo1998, et Rossi 1999) qui se distinguent par leur hauteur et leur signification : (i) les topiquescaractérisés par une montée dans les suraigus similaire à celle de la question atteignant leniveau [3], que nous analyserons donc comme la combinaison Hb ; et (ii) les topiquesmarqués par un simple continuatif majeur, que nous représenterons par Bh. Or, si l’on poseque T Term gouverne directement le ton des topiques et qu’il est réalisé par le simple B desdéclaratives, alors la possibilité d’avoir Hb ou Bh sur les topiques découle naturellement de lahiérarchie tonale : Hb et Bh sont plus lourds et immédiatement plus bas dans cette hiérarchieque le T TERM B. Dans une approche MA, il serait certainement nécessaire de postuler un269


Proceedings of IDP 09constituant prosodique supplémentaire pour rendre compte de la hauteur différente destopiques ; ce n’est pas nécessaire ici.Nous trouvons une confirmation indépendante pour une représentation en Hb ou Bh destopiques, qui corrobore en même temps notre hypothèse sur les processus de downstep etupstep. Rossi (1999, pp.77-79) rapporte que certaines séquences des topiques que nous avonsanalysés comme Bh peuvent être soumises au downstep. Par contre, cet auteur exclut toutdownstep dans les séquences de topiques Hb, mais rapporte un phénomène de « parenthèsehaute » similaire à ce qui se passe après le T TERM dans les questions. Or, cela est prédit parnotre modèle : si on fait l’hypothèse que, dans ce type de séquences, le premier topiquedomine, les topiques subséquents entrant en relation de dépendance avec lui vers la gauche –nous suivons en cela la propre analyse de Rossi –, alors on dérive tout naturellement ledownstep pour les topiques avec la représentation Bh (cf. (15)a.) et le upstep pour les topiquesHb (cf. (15)b.) :(15) Topique 1 Topique 2 Topique 3…a. Bh > B b h > B bb h …b. Hb > H h b > H hh b…Un autre argument en faveur de notre proposition réside dans la réalisation intonative des« thèmes internes » de Rossi (1999, pp.99-103), lesquels correspondent aux relativesappositives et aux parenthétiques. Rossi signale que les thèmes internes en français sontcaractérisés par deux configurations possibles : ils peuvent être marqués, sur leur syllabefinale, soit par une copie abaissée du continuatif majeur montant /CT/ de l’antécédent, soit parun contour de type conclusif (i.e. un ton bas). Par exemple, la phrase en (16), où le thèmeinterne est souligné, aura les deux représentations possibles suivantes :(16) Jean-Pierre CT , qui est un charmant garçon CT,~B ,…La copie abaissée – via l’opérateur d’abaissement ! – est la marque de toute « thématisation »en français selon Rossi. Du point de vue de la structure informationnelle, les SDIS sont, dansle cadre de cet auteur, des « thèmes externes ». Aussi, pour préserver cette généralisation,Rossi est obligé d’incorporer un ton bas dans la représentation phonologique du continuatif/CT/, à côté du ton haut caractéristique de ce dernier. Mais, mis à part le cas précis du thèmeinterne, ce ton B semble inactif partout ailleurs.De par sa hauteur et sa position avant le T TERM , nous analysons le continuatif majeur /CT/comme un amalgame Bh. Les thèmes internes sont alors marqués soit la copie entière de Bh,ce qui donne un ton abaissé B b h, soit la copie du seul ton tête B, lequel est déjà présent dansla représentation de départ, ce qui donne simplement B b . La généralisation du marquage detout ‘thème’ par une copie – i.e. dépendance intonative à gauche – est ainsi maintenue, sansavoir à postuler de façon ad hoc un ton bas dans la représentation du continuatif ; etl’abaissement est dérivé d’emblée sans avoir recours à un opérateur spécifique. De ce point devue, le cas du thème interne constitue également un argument en faveur du caractèrecompositionnel des tons.Enfin, nous proposons une analyse du cliché mélodique décrit par Dell (1984) et Ladd (1996;2008). Ladd en donne la représentation sous (17)a. Nous proposons que le ton tête de270


<strong>Actes</strong> d’IDP 09l’énoncé est en fait non pas !H* associé à la syllabe accentuée –gent comme l’avance Ladd,mais le ton Bh sur ar- (notre proposition est donnée en (17) b.). L’abaissement itératif destons suivants s’ensuit. Nous supposons par là que c’est le recul sur l’avant dernière syllabe dumot qui confère le statut de « cliché » à cette configuration, plus que la mélodie elle-même.(17) Parce qu’il n’avait plus d’argent, M e r c i e ra. B H !H* !H*b. B Bh B b h B bb h4.3 Application sur une autre langue : le cas du chinois standardBien qu’il s’agisse ici de faire une proposition sur l’intonation du français, nous termineronscet article en confrontant notre proposition aux chinois standard, afin de montrer que notremodèle est susceptible de s’appliquer à la prosodie d’une langue à tons. Nous nous baseronssur les données de l’article de Chen et Gussenhoven (2008), dans lequel les auteurs étudient laréalisation des quatre tons lexicaux sous trois conditions d’« emphase » : (i) pas d’emphase,(ii) emphase et (iii) plus d’emphase. La première condition correspond en fait à la répétitiond’un mot sans focalisation, déjà donné par le contexte ; les deux autres sont des réalisationssous focus correctif avec deux degrés d’emphase 1 .Leurs résultats montrent un effet significatif de la focalisation corrective sur la f 0 (conditions(ii) et (iii)), mais la différence entre les conditions (ii) et (iii) est marginale : le focus semanifeste par un accroissement de 102% entre les conditions (i) et (ii), mais seulement de18% entre (ii) et (iii) (ibid. 2008, p.734). Dans le détail, l’extension de l’empan mélodiquesous emphase diffère selon les tons. Les résultats quantitatifs et les diagrammes de la figure 3page 733 montrent en effet que :• les cibles hautes des tons 1 (ton haut), 2 (ton montant), 3 (ton bas suivi d’un ton haut danscertains contextes) et 4 (ton descendant) s’étendent vers le haut de façon significative ;• la hauteur similaire du maximum du ton 4 à celle des tons 1 et 2 dans toutes lesconditions ;• la cible basse du ton 2 fait un « saut » vers le bas sous emphase ;• par contre, la cible basse des tons 3 et 4 reste stable.Pour rendre compte de l’effet de l’emphase sur les cibles tonales, les modèles standards seservent d’un dispositif d’implémentation phonétique supplémentaire, dont le nom peut varierd’un auteur à l’autre (« tonal grid », « (phrasal) reference line », « register (line) », « tonalspace », « pitch range »,…) : sous emphase, cette grille s’étend, et modifie ainsi la hauteurphonétique des tons.Notre approche permet de faire l’économie de ce dispositif supplémentaire. Sur la base desdonnées de Chen et Gussenhoven, nous poserons les représentations lexicales suivantes pourles quatre tons du chinois standard :1 Pour que les choses soient plus claires, voici le type de corpus que les auteurs ont utilisé : condition (i) A: Howdid John say the word ‘tree’? B: John said the word ‘tree’ slowly. (ii) A: John said the word ‘flower’ slowly. B:No, John said the word ‘tree’ slowly. (iii) A: Did John say the word ‘flower’ slowly? B: No, John said the word‘tree’ slowly (Chen & Gussenhoven 2008, p.275).271


Proceedings of IDP 09(18) ton 1 : Hbton 2 : Bh+Hbton 3 : B(+Hb)ton 4 : Hb+BSous emphase, les règles suivantes opèrent :(19) ton 1 : Hb " Hton 2 : Bh+Hb " B+Hton 3 : B(+Hb) " B(+H)ton 4 : Hb+B " H+BAutrement dit, sous emphase (conditions (ii) et (iii)), tout ton dépendant est perdu, selon larègle suivante :(20) R EMPH : t " ØOutre l’économie d’un objet supplémentaire d’implémentation phonétique, notre approchepermet de dériver la hauteur des tons sous emphase directement et très simplement. R EMPHrend compte du saut catégoriel unique entre l’absence d’emphase et les deux autres conditionsd’emphase, ainsi que de la différence de réalisation entre le ton 2 (abaissement da la ciblebasse sous emphase) et les tons 3 et 4 (la cible basse est stable).5. ConclusionDans cet article, nous sommes partis de différentes données du français, dont des énoncésdéclaratifs et interrogatifs avec ou sans « emphase », qui ont permis de montrer l’existence dequatre niveaux de hauteurs phonologiques bien distincts. Par ailleurs, quand on étend à droiteces phrases avec des constituants disloqués, nous avons pu observer une copie du ton terminalet surtout une corrélation entre la hauteur de celui-ci et les processus d’abaissement(downstep) et de rehaussement (upstep).Nous avons montré que le modèle que nous proposons rend compte de façon simple et unifiéede ces configurations mélodiques, mais aussi, de manière plus générale, d’autres phénomènesintonatifs du français décrits dans la littérature comme les séquences de topiques, lesconfigurations mélodiques des « thèmes internes » de Rossi (1999), les niveaux relatifs desfrontières majeures et mineures, certains clichés mélodiques etc. Il permet également derendre compte de manière homogène et naturelle d’autres processus d’abaissement et derehaussement rencontrés en français.Ce dispositif phonologique est à la fois simple et contraignant puisqu’il ne repose que surdeux primitives tonales et quelques règles et principes très généraux, que l’on retrouve parailleurs dans les phonologies segmentales de la dépendance. Il permet ainsi de fairel’économie d’un nombre important de primitives, ou de constituants prosodiques ou de traitssupplémentaires comme c’est le cas dans le cadre de la phonologie métrique autosegmentale.Bien que notre but principal fût de développer un modèle pour le français, nous avons montréqu’il peut être également appliqué à certaines données du chinois standard. Il semblerait donc272


<strong>Actes</strong> d’IDP 09que les primitives tonales et les principes généraux qui les sous-tendent dépassent le cadre deslangues à intonation comme le français et soient également à l’œuvre dans les langues a prioritrès différentes comme les langues à tons.RéférencesBeckman, M.E. & Pierrehumbert, J., 1986. Intonational structure in Japanese and English. Phonology Yearbook,3, 255-309.Chen, Y. & Gussenhoven, C., 2008. Emphasis and tonal implementation in Standard Chinese. Journal ofPhonetics, 36(4), 724-746.Dell, F., 1984. L'accentuation dans les phrases en français. Dans Forme sonore du langage. Paris: Dell F., HirstD., Vergnaud J.-R., pp. 65-122.Di Cristo, A., 1998. Intonation in French. Dans Intonation Systems: A Survey of Twenty Languages. Cambridge,U.K: Hirst Daniel, Di Cristo Albert, pp. 195-218.Di Cristo, A., 1999. Le cadre accentuel du français contemporain: essai de modélisation. Première partie.Langues, 2 n°3, 184-204.Durand, J. éd., 1986. Dependency and non-linear phonology, Croom Helm.Durand, J., 1990. Generative and Non-Linear Phonology Reprint., Longman.Durand, J. & Katamba, F. éd., 1995. Frontiers of Phonology: Atoms, Structures, Derivations, Longman.Grice, M., 1995. Leading tones and downstep in English. Phonology, 12(2), 183-233.Jun, S. & Fougeron, C., 2000. A Phonological model of French intonation. Dans A. Botinis, éd. Intonation:Analysis, Modeling and Technology. Text, speech, and language technology. Dordrecht [Netherlands]:Kluwer Academic Publishers.Ladd, D.R., 1996. Intonational Phonology 1er éd., Cambridge University Press.Ladd, D.R., 2008. Intonational Phonology 2 éd., Cambridge University Press.Martin, P., 1999. L'intonation du français et du portugais: phonétique et phonologie. Revista da Anpoll, (06/07),255-296.Martin, P., 1982. Phonetic realisations of prosodic contours in French. Dans North-Holland PublishingCompany, pp. 283-294.Martin, P., 1981. Pour une théorie de l'intonation. Dans L'intonation : de l'acoustique à la sémantique. Paris:Rossi M., Di Cristo A., Hirst D., Martin Ph., Yukihiro N., pp. 234-271.Mertens, P., 2008. Syntaxe, prosodie et structure informationnelle : une approche prédictive pour l’analyse del’intonation dans le discours. Travaux de linguistique, 1(56), 97-124.Pierrehumbert, J.B. & Beckman, M.E., 1988. Japanese Tone Structure, Cambridge, Mass: MIT Press.Post, B., 2000. Tonal and phrasal structures in French intonation, Nijmegen: The Hague: Holland AcademicGraphics.Rossi, M., 1999. L'intonation, le système du français. Description et modélisation, Ophrys.Yip, M., 2002. Tone, Cambridge University Press.273


<strong>Actes</strong> d’IDP 09Traits nécessaires et suffisant pour l’indication de la structure prosodiquePhilippe Martinphilippe.martin@linguist.jussieu.frCLILLAC-ARP EA 3967, UFR Linguistique, Université Paris DiderotAbstract:The prosodic structure in its classical conception, is supposed to be indicated by melodic contours or melodictargets, which are described as static prosodic morphemes. Spontaneous speech analysis shows however thatspeakers use only for each prosodic structure the necessary and sufficient acoustic features to ensure thenecessary contrasts between prosodic markers belonging to different levels.1. IntroductionLe concept de structure prosodique, pierre angulaire de l’analyse phonologique de l’intonationde l’énoncé, trouve, chez la plupart des auteurs, son origine au sein des propriétés de lastructure syntaxique de surface ainsi que dans les propriétés contrastives des unitésphonologiques (phonèmes) des systèmes linguistiques étudiés.Ainsi, dans la période 1970-1980, la structure prosodique, définie comme hiérarchie degroupes accentuels, est directement dérivée de l’organisation syntaxique, et les manifestationsacoustiques (essentiellement des variations de hauteur mélodique) censées constituer desmarques indicatrices de la structure prosodique sont présentées comme des morphèmesintonatifs. Les continuations majeure et mineure établies par Delattre (1966) apparaissentcomme autant de morphèmes intonatifs (ou « prosodèmes »), renforçant encore leparallélisme avec la structure syntaxique dont l’organisation est (partiellement) indiquée enfrançais par des relations de dépendance indiquées par des morphèmes de flexion nominale(genre, nombre) et verbale (personne, temps, mode). De même, les contours C0, C1, C2,…,Cn définis par Martin (1975) apparaissent sont traités à l’origine comme des morphèmesintonatifs indiquant la structure prosodique. Plus tard, Lonchamp (1998) préconise pour ladescription des séquences prosodiques l’emploi des morphèmes de continuation majeure forte(CMF), de continuation majeure (CM), de continuation mineure (Cm), de contour de finalité(CF) et de parenthèse basse (PB). On retrouve chez Mertens (2001, 2006) une conceptionsemblable qui implique la présence obligatoire d’une frontière prosodique majeure, donc d’unmorphème intonatif, dans des énoncés avec dislocations à gauche, pour lesquelles l’élémentdisloqué apparaît le premier.Plus récemment, l’analyse de corpus de parole spontanée (i.e. non préparée) a quelque peuébranlé ces certitudes. Avanzi (2005) par exemple a remarqué que beaucoup de réalisations dedislocations à gauche ou à droite ne présentaient pas de frontière prosodique, contrairement àce que beaucoup d’auteurs avaient prédit, se basant sans doute sur la seule parole delaboratoire. De même, l’examen des réalisations prosodiques de certains professionnels de laparole politique (ex.: S. Royal) montre que les manifestions des contours dits de continuationmajeure ne sont pas du tout ceux attendus (Avanzi et Martin, 2007).275


Proceedings of IDP 09Pour tenter d’élaborer un principe explicatif rendant compte de ces observations, onconsidère ici que si structure prosodique il y a, elle est nécessairement non pas indiquée pardes morphèmes intonatifs qui, de par leur nature fonctionneraient aussi comme des phonèmes,mais par un réseau de contrastes prosodiques, manifestés par des traits de variationmélodique, de durée, d’intensité, etc. contrastant entre eux à l’endroit des syllabesproéminentes. Ces contrastes portent donc sur les différences d’un contour prosodique parrapport à un autre contour situé ailleurs dans le même énoncé ; les oppositions portent ellessur les différences d’un contour par rapport à tous ceux qui pourraient apparaître à la mêmeplace.Ces principes ne font que généraliser, pour rendre compte de l’intonation de l’énoncé, lecas particulier du contour de modalité terminal (du noyau), qui dans l’indication de lamodalité déclarative ou interrogative (et de ses variantes) n’est pas nécessairement réaliséavec une mélodie descendante (cas déclaratif) ou montante (cas interrogatif) si un élémentnon prosodique assure par ailleurs l’indication de la modalité. Ainsi la présence d’unponctuant (hein, voila,…) neutralise le contour final déclaratif final (du noyau) qui pourra dèslors être réalisé plat ou même montant. D’autre part, l’emploi d’une marquemorphosyntaxique indiquant l’interrogation (inversion sujet verbe, emploi de est-ce-que,…)pourra entraîner la présence d’une descente mélodique terminant un énoncé interrogatif.Partant de ces considérations, on peut entreprendre le calcul des traits nécessaires etsuffisants que doivent présenter les contours prosodiques dans les axes syntagmatiques etparadigmatiques pour assurer l’indication de la structure prosodique déterminée, y comprisdans la perspective d’une extension macrosyntaxique en séquence de préfixes, noyau,parenthèse, postfixes et suffixes. Par ailleurs, on se limitera ici au calcul des traits nécessaireset suffisants dans l’indication d’une structure prosodique supposée non soumise à ladominance de marques d’autres natures, syntaxiques, morphologiques ou sémantiques. Cecalcul sera validé par des exemples extraits de corpus de français parlé, analysésacoustiquement.2. Structures prosodiquesLe concept de structure prosodique est apparu dès les années 70 (Martin, 1975), mais quoiqueutilisé par de nombreuses approches théoriques. a rapidement pris des acceptions variées.Dans la théorie Autosegmentale-Métrique (AM) par exemple, les unités prosodiquesorganisées dans la structure prosodique sont de nature différente à chaque niveau. Le premierniveau de la structure est constitué d'une séquence de syntagmes intonationels (IP, IntonationPhrase en anglais), eux-mêmes regroupant en un seul niveau des syntagmes accentuels (AP,Accent phrase), qui à leur tour rassemblent des mots fonctionnels (mots de classes fermées,comme les pronoms, prépositions, conjonctions, etc.) et des mots lexicaux (de classe ouverte,c'est-à-dire les adjectifs, adverbes, noms et verbes). Chacun de ces mots fonctionnels (Wf,functional word) ou lexicaux (Wc, content word) est constitué d'une séquence de syllabes %.La structure prosodique AM est donc non récursive, puisque un niveau de constituant de lastructure prosodique est formé d'unités de nature différente. Cette propriété est formalisée parla règle dite Strict Layer Hypothesis (SLH), énoncée par L. Selkirk (1978).276


<strong>Actes</strong> d’IDP 09Fig. 1 Structure prosodique non récursive selon la théorie autosegmentale-métriqueDans l'approche présentée ici et appelée Fonctionnelle-Cognitive (FC), (Martin 2009), lacondition de non récursivité n'existe pas, chaque niveau de la structure prosodique étantconstitué d'unités de même nature, les groupes prosodiques (appelés aussi groupesaccentuels). Une structure prosodique de ce type est alors représentée par une arborescence àbranches orthogonales, permettant de la différentier de la structure syntaxique relative aumême énoncé.Fig. 2 Structure prosodique récursive selon la théorie fonctionnelle cognitiveLa fig. 2 représente une structure dont les relations entre éléments ne sont pas spécifiées.Pour une langue comme le français, et en limitant la catégorisation des relations entre groupesprosodiques à des relations de dépendance à droite, la représentation de la structureprosodique se trouve modifiée de manière à visualiser cette caractéristique propre au français(Martin, 1975, 2009).Fig. 3 Structure prosodique à dépendance à droite pour le français277


Proceedings of IDP 093. Souveraineté-AssociationDans l'approche AM, un lien fort avec la syntaxe s'établit par l'intermédiaire de l'alignement(possible) des IP avec les frontières syntaxiques. Au contraire, dans la perspective FC, lastructure prosodique est a priori indépendante des autres structures présentes dans l'énoncé, eten particulier la structure syntaxique. La coexistence des structures syntaxique et prosodiquerésulte alors d'un processus d'association dans lequel chacune des structures est soumise à sesrègles propres, quitte dans certaines configurations à réaliser des regroupements différentsd'unités syntaxiques et prosodiques qui se correspondraient. Parmi les règles, ou contraintes,qui régissent la structure prosodique, on peut citer :a. La règle dite des 7 syllabes, voulant que dans une séquence de 7 syllabes, au moins unesoit proéminente (par la présence d'un accent lexical ou d'un accent secondaire) ;b. La règle de collision d'accent, empêchant l'accentuation de deux voyelles successives sielles ne sont pas séparées par un intervalle de durée suffisante instancié par une pause ou ungroupe consonantique ;c. La règle de collision syntaxique, prévenant le regroupement de deux unités prosodiques(groupes accentuels) dont les unités syntaxiques correspondantes (les unités lexicales) sontdominées immédiatement par des nœuds distincts dans la structure syntaxique ;d. L'eurythmie, privilégiant, parmi toutes les structures prosodiques satisfaisant aux règlesprécédentes, celles qui tendent à équilibrer le nombre de syllabes des groupes de mêmeniveau dans la structure. Une réalisation non eurythmique, qui réaliserait une congruenceenvers la structure syntaxique alors que la structure syntaxique n'est pas ou peu eurythmique,implique alors de variations de débit de manière à compenser par le rythme les différences decomposition syllabique dans les groupes de même niveau.e. La planarité, interdisant les branches de l'arborescence représentant la structureprosodique de se croiser.Fig. 4 Structure prosodiques et structures syntaxiques sont associées en satisfaisant à leurscontraintes propres278


<strong>Actes</strong> d’IDP 094. Interprétation cognitiveLe décodage du message linguistique par l'auditeur implique nécessairement un processusd'assemblage d'unités linguistiques, et en particulier en premier lieu un assemblage desyllabes. On peut imaginer que la conversion des séquences syllabiques en unités d'ordresupérieur (mots, groupes accentuels,…) peut se faire selon différents mécanismes, parmilesquels l'identification d'une unité lexicale par pattern matching (équivalente à la lecture d'untexte qui serait dépourvu d'espaces entre les mots) mais aussi et surtout par l'apparitiond'évènements prosodiques (EP) localisés sur certaines syllabes. On retrouve dans ce derniercas ce qui s'apparente à la fonction démarcative attribuée depuis longtemps à l'accent, qu'ilsoit lexical ou de groupe.Mais le processus d'identification de séquences de syllabes ne se limite pas à uneconversion en une séquence d’unités lexicales toutes concaténées au même niveau. Ladiversité des réalisations des évènements prosodiques conduit à imaginer que le processusd'assemblage procède à plusieurs niveaux, permettant à l'auditeur de reconstituer unehiérarchie, celle indiquée par la structure prosodique, impliquant un mécanisme de stockage(les unités lexicales, ou, dans le cas du français, des groupes accentuels minimaux pouvantcontenir des mots de classe ouverte ainsi que des unités de classe fermée), et de concaténationassemblant en plusieurs niveaux distincts les unités stockées.Fig. 5 Schéma du processus de stockage-concaténation des séquences syllabiques % 1 % 2 …% n déclenché par les événements prosodiques EP3, EP2, EP1 et EP0.Cet éclairage cognitif permet de mieux comprendre et justifier les contraintes qui régissentla structure prosodique. En premier lieu, la production des séquences syllabiques estcontrainte et rythmée par la capacité respiratoire du locuteur (Gilbert et al., 2007). Ensuite, larègle des 7 syllabes rend compte des limitations de mémorisation immédiate par l'auditeurd'objets de même classe, dont le nombre est de l'ordre de 7. L'eurythmie, révélée par unerestructuration prosodique éventuellement non congruente avec la syntaxe ou par desvariations de débit syllabique, permet à l'auditeur de mieux réguler le processus d'assemblagedes syllabes dans le temps (ceci est corroboré par les expériences de perception de Gilbert et279


Proceedings of IDP 09al., 2010). Enfin, la non-collision syntaxique évite l'assemblage de groupes accentuels quiappartiennent à des unités syntaxiques distinctes, et empêche donc d’induire en erreurl'auditeur dans l'élaboration de la structure syntaxique, et ce dès le début du processus.Il est important de souligner que dans cette conception, la structure prosodique résultant dumécanisme de stockage-concaténation est indépendante, aux contraintes de collisionsyntaxique près, des autres structures (par exemple syntaxique ou sémantique) de l'énoncé.Elle apparaît non comme une béquille remédiant aux défaillances éventuelles de la syntaxe(béquilles artificiellement mises en avant par des jeux de mots ou des exemples soi-disantambigus), mais plutôt comme la dernière structuration des unités diverses, morphologiques,syntaxiques, sémantiques, avant l'énonciation effectuée par le locuteur.L'approche cognitive permet d'autre part de mettre en lumière l'aspect temporel dynamiquedu processus, par opposition à la vision statique que suggère une structure prosodique plane,dont on connaîtrait tous les événements prosodiques futur jusqu'à la fin de l'énoncé. Ellesouligne le caractère sériel du processus de décodage des unités linguistiques composantl'énoncé, par opposition au caractère parallèle de la lecture d'un texte, et a fortiori, de celui dulinguiste devant une arborescence représentant une structure prosodique ou syntaxique.La clé du mécanisme de stockage-concaténation réside dans la possibilité pour l'auditeurde différentier les événements prosodiques correspondant à différents niveaux d'assemblagedes séquences syllabiques. S'il n'en était pas ainsi, toutes les syllabes proéminentesmarqueraient (en français) la fin de groupes accentuels qui ne pourraient être assemblés qu'àun seul niveau, telle une énumération d'énoncés, puisque dans ce cas rien ne différentierait cesgroupes entre eux. Au contraire, les évènements prosodiques constituent un ensemble d'unitésphonologiques de type prosodique dont les différentes classes présentent des caractéristiquesphonétiques variables pourvu évidemment que ces classes puissent être différentiées parl'auditeur. En reprenant un principe de base de la phonologie, on dira que chaque événementprosodique doit suffisamment se différentier de tous les événements appartenant à une autreclasse qui pourraient apparaître à sa place, donc dans le même contexte. Ainsi, un EPconclusif (déclaratif), typiquement instancié par un contour mélodique descendant, marqueurde fin d'énoncé, doit se différentier de tout événement prosodique qui n'indiquerait pas une find'énoncé.Il est important de noter, que cette opposition syntagmatique peut se concrétiser dediverses manières, dont certaines peuvent être prototypiques sans exclure d'autres possibilités.Ainsi l'analyse instrumentale a révélé depuis longtemps que le contour conclusif, doncterminant l'énoncé (en dehors des constructions avec postfixe et dislocation à droite du type ilest fêlé Julien) est porté par la syllabe et la voyelle la plus longue parmi les syllabesaccentuées. Or c'est tout le contraire que présentent souvent des réalisations des "jeunes debanlieue" dans lesquelles les contours conclusifs sont en réalité les plus courts parmi lescontours portés par les syllabes accentuées, la proéminence syllabique étant due à unevariation mélodique descendante très importante pendant une brève durée (Lehka & Le Gac,2004).5. Traits nécessaires et suffisantsSi on désigne par C0, C1, C2, C3 et C4 les contours phonologiques « classiques » indiquant lastructure prosodique d’un énoncé (Martin, 1975), les différents mécanismes impliqués dans leprocessus de stockage-concaténation peuvent être décrits à partir d’une hiérarchie implicitesdes contours phonologiques : C4 < C3 < C2 < C1 < C0.On a vu que les contours prosodiques ne doivent se différentier que de tous les autrescontours (tous les autres EP) qui pourraient apparaître à sa place dans un même contexte.280


<strong>Actes</strong> d’IDP 09Ainsi, le contour terminal conclusif C0 situé au sommet de la hiérarchie prosodique (racine del’arbre de la structure prosodique) doit se différentier des contours corrélatifs d’autresmodalités qui pourraient apparaître à sa place. Si ce contour, noté Cd, est corrélatif d’unemodalité déclarative de la structure prosodique (qui du reste n’est pas nécessairementidentique à celle indiquée dans le texte de l’énoncé), il doit être différent dans soninstanciation du contour interrogatif Ci, mais aussi de toutes les variantes envisagées dans ladescription phonologique, soit par exemple Cdi déclaratif implicatif, Cdc implicatif decommandement, Ci interrogatif, Cid interrogatif implicatif de doute et Cis, interrogatif desurprise (Martin, 2009). La description phonologique du contour utilisera des traits quireflètent les traits acoustiques et/ou perceptifs des réalisations de ces unités. Ainsi Cd sera–Montant, -Ample, -Convexe, Ci +Montant, +Ample, -Convexe, Cid –Montant, -Ample,+Convexe, etc., mais d’autres traits peuvent être choisis pour rendre compte de ladifférentiation entre contours.Pour un énoncé comprenant deux groupes accentuels, donc deux contours dont le dernierest par exemple déclaratif Cd, le premier contour C1 ne doit se différentier que de tous lescontours qui pourraient apparaître à sa place, c'est-à-dire C0 et ses variantes. La structureprosodique est alors [C1 C0].L’analyse des données confirme ce processus d’utilisation d’un nombre nécessaire etsuffisant pour assurer le contraste entre les contours : lorsque la structure prosodique, donc lahiérarchie des regroupements de groupes accentuels se complexifie, un plus grand nombre decontrastes doit être assuré par l’emploi d’un plus grand nombre de traits permettant dedifférentier les contours de classes différentes dans leurs réalisations phonétiques. Ceciapparaît clairement dans les figures 6, 7 et 8.La fig. 6 comporte deux syllabes accentuées, dont les contours mélodiques C1 et C0 sontdifférentiées par un trait de hauteur, nécessaire et suffisant : C1 : +Haut ; C0 : -Haut.Fig. 6 Structure prosodique déclarative à 2 groupes prosodiques [La campagne][accélérée] :la différentiation entre les 2 événements prosodiques est ici assurée essentiellement par uncontraste de hauteur mélodique, plus basse pour le contour conclusif : C1 : +Haut ; C0 : -Haut.La fig. 7 présente une structure prosodique un peu plus complexe et congruente avec lasyntaxe [C1 [C3 C0]]281


Proceedings of IDP 09Fig. 7 Structure prosodique déclarative à 3 groupes prosodiques [À vrai dire] [[ça l’étaitdéjà] [depuis longtemps]] : 2 traits sont nécessaires pour assurer le contraste entre les 3événements prosodiques hiérarchisés en 2 niveaux: la hauteur et la pente mélodique. Placéssur les syllabes accentuées, les contours C1, C3 et C0 sont décrits par les traits C1 : +Haut,+Montant ; C3 : +Haut, -Montant ; Co : -Haut, -Montant.La fig. 8 est un exemple encore plus complexe. Pour différentier les contours de lastructure [[C2 C2 C2 C1] [[C4 C3] C3 C0]], 3 traits sont nécessaires : Hauteur, pentemélodique, amplitude de variation mélodique. on a donc C2 : +Haut, -Montant, -Ample ; C4 :-haut, -Montant, -Ample ; C3 : -Haut, +Montant, -Ample et C0 : -Haut, -Montant, -Ample.Fig. 8. et comme y ajouter un symbole ne gâte rien il a annoncé sa candidature une foisencore depuis la province. La séquence phonologique de contours est cette fois C2 C2 C2 C1C4 C3 C3 C0.Dans la fig. 7, C3 et C2 sont de pente mélodique inverse (+Montant et –Montant), ce quicorrespond à un autre mécanisme destiné à préparer l’auditeur à l’apparition du contourconclusif C0 : le principe du contraste de pente propre au français détermine, s’il n’y a pasneutralisation de cette caractéristique, donc si le locuteur est particulièrement coopératif avecl’auditeur, par exemple en lecture d’énoncés) un sens de variation mélodique inverse à celui282


<strong>Actes</strong> d’IDP 09dont il dépend à droite, donc descendant pour tous les groupes accentuels dont le dernier porteun contour montant, et montant pour la dernière séquence terminée par le contour conclusif(déclaratif, donc –Haut et –Montant).Le principe de différentiation nécessaire et suffisant a une autre conséquence importantedécoulant de la dynamique temporelle des occurrences successives de contours dansl’énoncé : un contour dominé par un contour Cn ne doit pas se différentier d’autres contoursde même niveau qui seraient dominés par un même contour Cn dans une autre section del’énoncé. Ceci explique que le locuteur puisse réaliser des contours mélodiques différents àdivers endroits de l’énoncé, et en particulier dans la séquence dépendant du contour terminal.La fig. 9 en montre un exemple, avec une séquence de contours C2 (Voltaire), C2 (loin),C1(pied), C2 (moi), C2 (conditionne), C2 (appartement), C1 (pied),…, avec des réalisationsphonétiques différentes des contours C2 dans la deux séquences syllabiques terminées par lecontour montant C1.Fig. 9. bon ben là tu vas boulevard Voltaire c'est pas loin euh tu tu j'y vais à pied je suischez moi je m'conditionne dans mon appartement en me disant j'y vais à pied. La séquence decontours est C2 (Voltaire), C2 (loin), C1(pied), C2 (moi), C2 (conditionne), C2(appartement), C1 (pied),…, avec des réalisations phonétiques différentes dans la deuxséquences syllabiques terminées par pied. (corpus CFPP 2000)283


Proceedings of IDP 09Fig. 10. je suis chez moi je m'conditionne dans mon appartement en me disant "j'y vais àpieds" (Speaker AM). The stress groups inside the period (je suis chez moi) (je m'conditionne)(dans mon appartement) (me disant) are marked by a flat melodic contour.La fig. 11 illustre ce principe de différences nécessaires et suffisantes : nécessaires pourassurer la distinction entre les deux événements prosodiques, et suffisantes pour minimiserl’effort articulatoire du locuteur, qui correspondrait à une montée mélodique mieuxdifférentiée de la variation mélodique descendante du contour conclusif, mais plus coûteusedu point de vue de la pression sous-glottique déterminant (partiellement) la fréquencelaryngée.Fig. 11. Configuration de la structure prosodique illustrant les différences de réalisation decontraste prosodique entre les contours C2a (dépendance à droite envers le premier C1) et lescontours C2b (dépendance à droite envers le deuxième contour C1)6. Utilisation d'autres traits acoustiquesIndépendamment de leurs origines sociogéographiques, certains locuteurs privilégientl’emploi de certains traits acoustiques plutôt que d'autres. Au lieu d'instancier les marquesprosodiques indiquant une dépendance à droite par un contraste de pente comme c’est souventle cas en français, ils utilisent par exemple des traits de hauteur de contour mélodique, ou desformes particulières de variations mélodiques. Ces réalisations se rencontrent par exempleparmi les femmes et les hommes politiques, et trouvent leur origine dans leur recherche d’unstyle oral qui leur permettrait d’être plus facilement identifiés parmi d’autres orateurs. Les fig.284


<strong>Actes</strong> d’IDP 0912 et 13 en donnent deux exemples : Nicolas Sarkozy et Ségolène Royal.Fig. 12. Je veux bien Claire Chazal faire un débat mais pour cela il faudrait que MadameRoyal avance des idées or elle n’en avance aucune. Pour ce locuteur (Nicolas Sarkoay), lescontrastes entres contours de premier niveau C1 de la structure prosodique contrastent avec lecontour conclusif par un trait de convexité présent sur les deux premiers contours.Fig.13 …[sur la scène internationale] [si je suis élue] [seront simples] [et fidèles] [à notrevocation] [la plus haute]. La locutrice Ségolène Royal réalise des continuations majeures pardes contours uniquement descendants, contrastant avec le contour conclusif et lescontinuations mineures pas l’amplitude de variation mélodique et la hauteur moyenne.RéférencesAvanzi, M. (2005). Quelques hypothèses à propos de la structuration interne des périodes Proceedings of theIDP05 International Symposium on Discourse-Prosody Interfaces, C. Auran, R. Bertrand, C. Chanet, A.Colas, A. Di Cristo, C. Portes, A. Reynier & M. Vion (éds). CD-ROM.Avanzi, M.et Ph. Martin (2007). Phénomènes de désaccentuation en français contemporain Colloque PFC Descorpus oraux aux théories phonologiques : le cas du français, 12-14 juillet 2007, Université WesternOntario, London, Ontario.Delattre, P. (1966). Les dix intonations de base du français French Review 40, 1: 1-14.Jun Sun-Ah & C. Fougeron (2002). The Realizations of the Accentual Phrase in French Intonation, Probus 14,147-172.285


Proceedings of IDP 09Gilbert, Annie C. / Boucher, Victor J. (2007): "What do listeners attend to in hearing prosodic structures?investigating the human speech-parser using short-term recall", In INTERSPEECH-2007, 430-433.Gilbert, A. C., Boucher, V. J., Jemel, B. & Lalonde, B. (2010). Segmentation de la parole : des groupesrythmiques et des énoncés, pas des mots et des phrases. Présenté au 78e Congrès de l’ACFAS, Montréal,Québec.Lehka Irina. & David Le Gac (2004) Etude d’un marqueur prosodique de l’accent de banlieue, <strong>Actes</strong>des XXIIIème Journées d’Etudes sur la Parole, avril 2004, Fèz, MarocLonchamp, F. (1998). Prédire l’intonation des phrases affirmatives : Facteurs rythmiques et syntaxiques, Verbum17/1, 37-45.Martin, Ph. (1975). "Analyse phonologique de la phrase française", Linguistics, 146 (Fév. 1975), 35-68.Martin, Ph. (2009) « Intonation du français », Armand Colin, Paris/Mertens, P., J-Ph. Goldman, E. Wehrli et A. Gaudinat (2001). La synthèse de l'intonation à partir de structuressyntaxiques riches. TAL,42 (1), 145-192.Mertens, P. (2006) A Predictive Approach to the Analysis of Intonation in Discourse in French in Prosody andSyntax, Kawaguchi, Yuji, Ivan Fónagy and Tsunekazu Moriguchi (eds.), 1-65.Selkirk, Elisabeth O. (1978) On prosodic structure and its relation to syntactic structure. In T. Fretheim, ed.,Nordic Prosody II. Trondheim: TAPIR, 111-140.286


<strong>Actes</strong> d’IDP 09Le commentaire sportif en direct : une combinatoire de différentesfonctions de la prosodieCatherine Mathon, Georges Boulakiacatherine.mathon@u-bordeaux3.fr, georges.boulakia@linguist.jussieu.frEA4195 TELEM (TELANCO), UFR Lettres, Université Michel de Montaigne Bordeaux 3,33607 Pessac CedexEA3967 CLILLAC-ARP, Université Paris Diderot, UFRL case 7003, 30 rue du Château desrentiers, 75205 Paris CEDEX 13Abstract :This paper reports a study on interaction between prosody and different levels of discourse: pragmatic, semantic,syntax. We conducted our study on a corpus of French sport commentaries, recorded from broadcasted eventsduring the Rugby World Cup 2007. Our aim is to show that sport commentary represents a prosodic type ofdiscourse and to determine which prosodic features are relevant for the description of sport commentary as aspeech style. Furthermore, we aim to show how different functions of prosody can be concomitant in the samediscourse, each function related to one or few distinct prosodic features. We conducted a multimodal analysisincluding pragmatic, syntactic, semantic and prosodic levels in order to characterize on a linguistic level ourcorpus and then to determine more specifically the interaction between prosodic features and linguistic andpragmatic phenomena.1. IntroductionPour entrer en matière, nous demanderons au lecteur de se représenter la situation suivante :dans une pièce adjacente, quelqu'un allume la télévision sur une chaîne sportive au momentde la retransmission d'un match d'un sport collectif, comme le rugby par exemple. L'auditeurest trop éloigné pour saisir le contenu du message, mais il peut facilement reconnaître le typede discours : le reportage sportif. Ce qui nous amène tout naturellement à penser queprosodiquement on a bien affaire ici à un type de discours particulier.Cette particularité prosodique du commentaire sportif tient à ce que ce type de discours estun terrain privilégié d'expressions attitudinales, de variations stylistiques à la fois d'ordrepersonnel et sociologique. Ces différents aspects purement stylistiques de la prosodie dans lecommentaire sportif s'articulent avec un rôle plus organisationnel. Le commentaire sportif adonc ceci de particulier qu'il va présenter une concomitance de différentes utilisations de lavariation prosodique, motivée par la situation d'énonciation propre à ce discours, qui alterneentre phases de commentaires et phases de description.C’est cette dernière période qui va plus particulièrement nous intéresser en cela qu'elleprésente d'abord une structure syntaxique particulière, puisqu'on y trouve une fréquenceremarquable de constructions averbales (Deulofeu, 1998), ce qui certainement amène àconsidérer une organisation prosodique adaptée à cette structure. On entend par constructionsaverbales (Lefeuvre, 1999) des énoncés qui n’ont pas la forme canonique avec un verbeconjugué. On les appelle également constructions nominales, à tort parfois puisque leur noyaun’est pas nécessairement nominal ; il peut s’agir en fait de groupes prépositionnels,d’adverbes, de relatives, etc. On trouve ainsi dans le commentaire sportif et plusparticulièrement dans la partie descriptive un grand nombre de ces constructions, non pas287


Proceedings of IDP 09qu’elles soient propres au genre, mais elles sont particulièrement présentes. Ces constructionsont l’avantage de s’adapter facilement aux aléas du discours qui suit les aléas de l’action. Parailleurs, dans cette partie descriptive, le locuteur doit fournir une part d’informations autéléspectateur, pour qu’il puisse suivre l’action, y compris dans sa compréhension destechniques de jeu. L’énumération du nom des joueurs qui prennent part à l’action, celle desactions ou des stratégies qui sont mises en place sur le terrain, etc. augmente la fréquence deces constructions averbales.Par ailleurs, c'est dans la description des actions que vont apparaître les attitudes, négativesou positives, du locuteur selon la phase de jeu et d'autant plus s'il est impliqué d'une façonpartisane. C'est également dans cet exercice de description que le locuteur va déployer unstyle prosodique adapté à la situation d'énonciation : il doit à la fois décrire-mimer l'action quise déroule sous ses yeux et retenir l'attention de son audience.2. Protocole expérimental2.1. HypothèsesConsidérant que la prosodie a différentes fonctions, organisationnelle, stylistique, expressive,etc. nous allons chercher à voir comment ces fonctions peuvent s’articuler les unes avec lesautres dans un même discours, le commentaire sportif, qui est un terrain privilégiéd'expressions attitudinales, de variations stylistiques à la fois d'ordre personnel etsociologique. Ces différents aspects stylistiques et expressifs de la prosodie dans lecommentaire sportif s'articulent avec l'aspect organisationnel de la prosodie par rapport audiscours.Nous considérons que les phénomènes prosodiques reflètent différents aspects du discours:la syntaxe, l'organisation de ce discours, le style et le type de discours, l'expression del'attitude du locuteur, le contexte pragmatique dans lequel est construit le discours. Nousconsidérons également que ces différents aspects peuvent être concomitants dans le discourset qu'ils sont pris en charge par des phénomènes prosodiques distincts et identifiables.2.2. CorpusNous travaillons sur le commentaire télévisé d’un match de rugby, enregistré lors de ladernière Coupe du Monde de Rugby en septembre 2007, et qui fait partie d'un corpusbeaucoup plus important, composé d’une part de commentaires sportifs télévisés récoltés lorsde cette compétition en français principalement, et d'autre part d’enregistrements desupporters en train d’assister à ces rencontres (Lortal, G., Mathon, C., 2008). Un premiersous-corpus est constitué d’enregistrements vidéos de différentes rencontres de la compétition(certains sous forme numérique, d’autres sous forme analogique). Ces enregistrements ont faitl’objet soit d’une numérisation (pour les enregistrements analogiques) de manière à stocker etexploiter ensuite le fichier sonore (dans ce cas, les enregistrements ont été numérisés avec unefréquence d’échantillonnage de 22050 Hz, en mono), soit d’une extraction de la bande son(dans ce second cas, nous avons dû souvent modifier la fréquence d’échantillonnage etconvertir en mono le fichier sonore). Toutes ces opérations ont été effectuées avec SoundForge 9.0. Nos formats de sortie sont des fichiers .wav. La plupart des rencontres sontcommentées en français mais nous avons quelques matches commentés en anglais et enjaponais.288


<strong>Actes</strong> d’IDP 09Langue du commentaire Nombre de rencontres Durée d’enregistrement (heures)Français 19 36Japonais 3 5,6Anglais 2 3,3Tableau 1 : Évaluation des enregistrements disponibles selon les langues, le nombre derencontres et la durée totale (en heures).Notre second sous-corpus se différencie du premier par le type d’enregistrements et delocuteurs. Nous avons enregistré sur un enregistreur numérique Edirol (auquel nous avonsadjoint des micros-cravates) les commentaires de supporters en train de regarder lesrencontres, soit devant leur poste de télévision soit devant un écran en plein air. Nous avonsenregistré au total 18 locuteurs francophones (14 hommes et 4 femmes) lors de la projectionde 7 rencontres. Ce second sous-corpus représente environ 10,55 heures d’enregistrement.Pour cette étude, nous nous sommes intéressés au commentaire journalistique uniquementet nous nous sommes concentrés sur la rencontre France-Argentine, qui a inauguré cettecompétition, commentée en français. Cet enregistrement a fait l’objet d’une transcriptionorthographique effectuée à l’aide du logiciel Transcriber ; le fichier sonore et la transcriptionont été ensuite alignés avec le logiciel WinPitch Pro (Martin, 2000). Cet enregistrement estd’une durée totale de 1 heure et 48 minutes et se présente sous la forme d’un fichier .wav(22050 Hz, 16 bits, mono). Trois locuteurs se partagent de manière inégale le temps de paroleau cours de cet enregistrement. Le tableau ci-dessous montre la répartition du temps de paroleentre ces trois locuteurs.Temps de parole locuteur 140 mnTemps de parole locuteur 2Temps de parole locuteur 3Temps de parole total13 mn2 mn55 mnDurée d’enregistrement108 mnTableau 2 : Répartition des temps de parole des locuteurs en minutesC’est le locuteur 1 qui intervient le plus longuement dans cet enregistrement et c’est sur lediscours de ce locuteur que porteront plus particulièrement nos analyses.2.3. Analyse multimodaleNotre analyse est menée à plusieurs niveaux puisque nous cherchons à envisager lesspécificités prosodiques du discours sportif dans son ensemble et en considérant lesinteractions entre phénomènes prosodiques, contenu référentiel du message (lexique,syntaxe) et situation d’énonciation. En ce sens, les phénomènes prosodiques ne sont jamaisanalysés sans être reliés soit au message soit à la situation d’énonciation.Nous menons donc une triple analyse :289


Proceedings of IDP 091/ Une analyse pragmatique qui permet de préciser les conditions dans lesquelles lediscours a été produit et les répercussions sur la production orale aussi bien au niveau ducontenu linguistique, que des phénomènes suprasegmentaux. Cette analyse pragmatique nouspermet notamment de mettre à jour les stratégies mises en place par le locuteur pourcommuniquer avec son véritable interlocuteur, le téléspectateur, et garder son attention.2/ Une analyse du contenu référentiel qui va nous permettre d’envisager les spécificitéslinguistiques de ce type de discours et de les mettre en relation avec des spécificitésprosodiques. Nous nous intéresserons plus particulièrement ici aux constructions syntaxiques,et notamment à la fréquence remarquable de constructions nominales, en montrant commentune analyse prosodique couplée avec une démarche macrosyntaxique, permet de décrire etparfois de désambiguïser ces constructions.Au-delà de l’analyse syntaxique proprement dite, le corpus a fait l’objet d’un étiquetageautomatique en catégories avec le logiciel Cordial. Cet étiquetage permet une assistance àl’analyse syntaxique mais surtout il permet d’extraire des résultats statistiques intéressants parrapport au lexique employé, à la fréquence de certaines constructions… Dans une étude plusaxée sur les aspects lexicaux, une telle analyse permettrait des comparaisons intéressantes.3/ L’analyse prosodique a été menée avec le logiciel WinPitch Pro. Il s’agit d’une part d’uneanalyse prosodique très globale, basée sur des calculs statistiques élémentaires obtenus àpartir des valeurs de F0 extraites automatiquement avec WinPitch Pro. D’autre part, à unniveau beaucoup plus local, nous menons, sur des exemples choisis d’énoncés ou desyntagmes, une analyse phonosyntaxique incluant principalement les variations et lemouvement de la courbe de F0, le débit de parole, les pauses.3. Cadre pragmatique3.1. Description de la situation d'énonciationLe commentaire sportif en direct offre une situation d’énonciation tout à fait intéressante etinédite, dont nous allons décrire les composantes.C’est un discours mené par un locuteur principal, journaliste sportif, qui va décrire etcommenter le match, nous reviendrons un peu plus loin sur ces deux fonctions. Ce premierlocuteur partage de manière plus ou moins calculée son temps de parole avec un secondlocuteur, l’expert, qui a comme principale fonction de commenter les stratégies de jeu etéventuellement expliquer certaines actions spécifiques. Le temps de parole du commentaireest donc partagé entre ces deux locuteurs et offre une alternance de phases de monologue oùle journaliste sportif est le seul locuteur - nous verrons plus loin que ce monologue correspondà un type de discours particulier - et des phases de dialogue où le journaliste sportif va donnerla parole à l’expert. Par ailleurs, intervient pour des temps de parole très courts un troisièmelocuteur, qu’on étiquettera comme étant le « journaliste de terrain ». Il s’agit d’un journalistesportif, qui est situé à proximité immédiate du terrain de jeu et qui va intervenir de façon trèsponctuelle pour signaler des changements de joueurs, ou pour commenter une ambiance,l’humeur des joueurs… Ce troisième locuteur est à peine pris en compte étant donné le peud’importance, en termes quantitatifs, de ces interventions.Ces phases de monologue et de dialogue rappellent la terminologie théâtrale et ce àdessein : comme dans une pièce de théâtre les rôles de chacun des locuteurs qui construisentce commentaire sportif sont soigneusement distribués. Ainsi, les phases de dialogue sontrigoureusement orchestrées de manière à donner un caractère interactif et convivial aucommentaire sportif. Le journaliste sportif et l’expert jouent le rôle d’une paire de290


<strong>Actes</strong> d’IDP 09compagnons réunis pour passer un bon moment devant un beau match. Pour autant, cedialogue n’a rien de spontané ; il n’obéit pas à proprement parler à un scénario strictementétabli, puisque le déroulement du discours est en construction en parallèle de l’évolution dumatch, mais les temps de parole du locuteur-expert sont soigneusement définis et distribuéspar le locuteur-journaliste.Ces phases de pseudo-dialogue alternent avec des phases de monologue qui sont conduitespar le journaliste sportif principalement (même si on peut considérer certaines interventionsde l’expert particulièrement longues également comme des monologues). Ces monologuesinterviennent lorsque, sur le terrain, des actions de jeu nécessitent une description. Cemonologue a donc le plus souvent la structure d’un discours de type descriptif. On peut eneffet considérer que, au cours d’un match, des phases de jeu tour à tour actives ou plus lentesse succèdent. Lorsque des phases de jeu actives se présentent, le journaliste va toutnaturellement passer d’une phase de dialogue, qui consistait en fait à « remplir les blancs », àune phase de monologue qui va se concentrer sur la description en cours. De ce point de vue,ces phases de monologue descriptif sont motivées par l’action qui se déroule sous les yeux dulocuteur. Pour finir sur cette phase de monologue, nous dirons qu’il s’agit en fait d’un pseudomonologueau sens où, comme au théâtre, le locuteur ne prononce pas ce monologue pour luimême,ni même pour son interlocuteur le plus direct, au moins dans l’espace, le locuteurexpert.Ce dernier n’en a d’ailleurs nul besoin puisqu’il a le même angle de vue sur le matchen cours que le journaliste sportif. Au théâtre, les phases de monologue sont là pour instruirele spectateur sur des événements passés ou à venir, ou encore pour préciser des points restésobscurs de l’intrigue ou des états d’âme du personnage. Dans les phases de monologue dudiscours sportif, le journaliste s’adresse en fait au téléspectateur pour décrire l’action encours.C’est peut-être une des particularités les plus remarquables de cette situationd’énonciation : le véritable interlocuteur, celui à qui s’adresse tout le discours produit par lejournaliste sportif est en fait un interlocuteur virtuel, au sens où il n’est pas présentconcrètement dans l’espace et le temps de l’énonciation. Il ne s’agit même pas d’uninterlocuteur clairement défini, puisqu’il s’agit du public téléspectateur, soit une sorte d’entitécomposée de milliers d’individus indéterminés, qui n’apparaissent aux yeux du locuteur quesous la forme de parts d’audience. Malgré cet aspect informe du téléspectateur, c’est autour delui presque uniquement que se concentre tout le discours du journaliste, qui pour autant ne faitqu’assez peu référence à lui : tout au plus s’adresse-t-il de temps en temps directement autéléspectateur, principalement à l’introduction du match. L’interlocuteur s’il n’est pasmentionné (ou très peu) dans le message est pourtant à tout moment pris en compte par lelocuteur. On est donc dans une situation de trope communicationnel (Kerbrat, 1990) qui estun phénomène assez courant dans les situations d’énonciation incluant des médias ou encoredans des situations de jeu d’acteurs (au théâtre notamment). Cette prise en compte apparaît auniveau non plus lexical mais prosodique.3.2. Impact de la situation d'énonciation sur la gestion de la voix du locuteurNous avons cherché à caractériser de manière très globale la voix du journaliste sportif dansla rencontre France-Argentine, qu’il commentait donc en français. Cet enregistrement a ététranscrit avec le logiciel Transcriber, aligné et analysé avec WinPitch Pro (Martin, 2000). Celogiciel permet l’extraction automatique de valeurs de F0, valeurs qui sont intégrées dans unfichier Excel. Nous avons donc demandé l’extraction des valeurs de F0 sur les tours deparoles du locuteur principal toutes les 50ms. Nous avons ensuite repéré les valeursminimales et maximales de F0, valeurs que nous avons vérifiées manuellement. Ayant ainsiobtenu l’étendue de la voix du locuteur, nous l’avons divisée en quatre registres égaux : les291


Proceedings of IDP 09registres haut, moyen-haut, moyen-bas et bas. La figure 1 donne les valeurs frontières (valeursde F0 en Hertz) de chacun de ces registres pour le journaliste sportif de la rencontre France-Argentine.HAUT450 Hz365 HzMOYEN-HAUT280 HzMOYEN-BAS195 HzBAS110 HzFigure 1 : Registres de voix du locuteur principal de la rencontre France-ArgentineCes registres définis sur des valeurs extraites sur un temps de parole relativement long nousont permis par la suite d’interpréter des valeurs plus locales de F0, sur des énoncés ou dessyntagmes en les comparant aux performances vocales du locuteur.Mais de manière plus globale, on peut déjà noter que le locuteur a une étendue de voix plutôtimportante, d’un peu plus de 300 Hz. Par ailleurs, pour un locuteur adulte de sexe masculin savaleur maximale de F0 est élevée, même s’il s’agit d’une valeur extrême, qui n’est pasforcément représentative du reste du discours.4. Constructions phonostylistiquesLe discours du journaliste sportif est marqué d'un point de vue phonostylistique par un accentà l'initiale du groupe rythmique (Fónagy, 1980 ; Lucci, 1980, 1983). Cet accent propre audiscours journalistique en général s'explique par la nécessité, impliquée par la situationd'énonciation, de garder maintenue en permanence l'attention de l'audience. Nous nedonnerons ici qu’un exemple de ce phénomène mais à un moment intéressant du discourspuisqu’il s’agit de l’introduction de la rencontre. Le match proprement dit n’a pas encoredébuté, les équipes ne sont pas encore présentes sur le terrain, mais le journaliste, en attendantque la rencontre commence, présente les deux équipes en compétition et les joueurs clefs.C’est une phase intéressante du discours, en ce sens qu’elle nous permet d’examiner lescaractéristiques prosodiques du locuteur quand il est dans un contexte « neutre » c’est-à-direnon motivé encore par l’action et sans trace d’émotion ou d’excitation provoquée par le jeu.Seule la présence invisible mais prise en compte du téléspectateur peut influer sur sondiscours. C’est d’ailleurs le cas, puisqu’on peut observer sur la figure 2 que le locuteur sesitue déjà dans un registre de voix Moyen-Haut pour une bonne partie de l’énoncé. Cettefigure représente la courbe mélodique de l’énoncé Raphaël Ibanez joue ce soir sa troisièmedemi-finale il en a gagné une en mille neuf cent quatre-vingt dix-neuf contre les Blacks il en aperdu une il y a quatre ans contre les Anglais et il veut gagner ce soir.292


<strong>Actes</strong> d’IDP 09Figure 2 : Représentation de la courbe mélodique de l’énoncé « Raphaël Ibanez joue ce soir satroisième demi-finale il en a gagné une en mille neuf cent quatre-vingt dix-neuf contre lesBlacks il en a perdu une il y a quatre ans contre les Anglais et il veut gagner ce soir »Les éléments soulignés dans la transcription correspondent aux éléments lexicaux marquésprosodiquement par un accent. D’un point de vue prosodique cet accent est principalementréalisé par un pic de la F0. En dehors des éléments marqués d’un accent d’insistance commetroisième, on peut donc observer la présence d’un accent sur le pronom il en initiale de grouperythmique. Comme observés par les études antérieures (Fónagy, 1980 ; Lucci, 1980, 1983), lediscours du journaliste sportif est bien caractérisé par un accent en initiale de groupe. C’estsans doute cette caractéristique qui en fait un discours si facilement repérable par lesauditeurs.5. Constructions phonosyntaxiquesLe commentaire sportif, du moins dans sa phase descriptive, présente un nombrestatistiquement significatif d’énoncés qui n’ont pas la structure canonique de la phrase, maisqui sont principalement des constructions nominales. Non pas que ces constructionsnominales soient inconnues d’autres types de discours ou de textes, mais elles sontremarquablement fréquentes dans le commentaire sportif (Deulofeu, 1998).Nous allons nous attacher dans cette partie à décrire les différentes constructions‘averbales’ que nous avons pu rencontrer dans le commentaire sportif et à montrer commentla prosodie permet de les identifier plus finement. Nous nous plaçons pour la description deces constructions nominales dans la théorie macrosyntaxique développée par le GARS(Blanche-Benveniste et alii, 1990) couplée à la théorie de contraste de pentes développée parPhilippe Martin (Martin, 1981 ; Boulakia et alii, 2003), pour ce qui est de la descriptionprosodique. En ce qui concerne les constructions nominales et les différentes structures quipeuvent être répertoriées dans ce type de discours, nous nous reportons à Deulofeu (1998).Ces constructions nominales possèdent différentes structures. On différenciera d’abord lesénoncés dont le noyau ne comporte pas d’élément verbal, des énoncés dont le noyau possède293


Proceedings of IDP 09une structure verbale introduite par un pronom relatif ou sous la forme d’un participe. Parmiles noyaux ne comportant pas d’élément verbal, on trouvera :- des noms propres (noms de joueurs) : Mario Ledesma / super Mario pour cette remise enjeu- des noms communs sans article : concentration de David Skrela / et trois partout- des groupes nominaux : un petit coup de pied par-dessus- des groupes nominaux prépositionnels : au point de chute Imanol HarinordoquyLe noyau est marqué par une intonation qui lui donne sa modalité. Ici le noyau seraprincipalement porteur d'une modalité assertive et sera donc signalé par une courbedescendante en fin de groupe.L'exemple ci-dessous montre une succession de deux noyaux.Figure 3 : Représentation de la courbe mélodique de l’énoncé « Mario Ledesma super Mariopour cette remise en jeu »Le premier noyau Mario Ledesma est composé de deux noms propres (prénom et nom dujoueur), tandis que le second noyau construit autour d'une préposition est un groupe nominalprépositionnel pour cette remise en jeu précédé d'un préfixe qui reprend sous la forme d'unsurnom super Mario une partie de l'intitulé du noyau précédent. Les deux noyaux sontmarqués par une pente descendante en finale de groupe.Le noyau de la construction ‘averbale’ peut également comporter un élément verbal. Ils’agit en général soit d’une construction verbale introduite par qui (dans une relative) soitd’une construction au participe passé. Dans les deux cas, on peut proposer pour cesconstructions verbales plusieurs analyses possibles. On peut d’abord considérer que laconstruction verbale fait partie du noyau et est dépendante d’un élément qui précède. Cetteanalyse correspond à une construction classique d’une relative ou d’un participe passé,précédé d’un nom.- et ballon récupéré par les Pumas- de Villiers qui insiste294


<strong>Actes</strong> d’IDP 09La figure ci-dessous montre la courbe mélodique du noyau et ballon récupéré par les Pumas.Le noyau est très clairement marqué par une pente descendante sur la dernière syllabe dugroupe. La forme verbale participiale est totalement intégrée et dépendante du nom communqui la précède ballon. Aucune pause d’ailleurs ne vient séparer le nom du participe passé.C’est le groupe nominal étendu qui est ici considéré dans sa totalité comme un seul noyau.et ballon récupéré par les PumasFigure 4 : Représentation de la courbe mélodique de l’énoncé « et ballon récupéré par lesPumas »Il arrive aussi que la construction verbale introduite par qui ou la participiale se révèleindépendante prosodiquement. Dans ce cas, elle est considérée comme un suffixe. Le suffixeest un élément qui prosodiquement est indépendant du noyau et est donc porteur d’unemodalité intonative, mais au niveau syntaxique et du sens il est dépendant du noyau quiprécède.Skrela / oh et bien plaqué bien chassé par la troisième ligne argentine David Skrelaet ballon récupéré par les Pumas / ah et qui vont venir jouer sur le petit côté avec Contepomi295


Proceedings of IDP 09Skrela{1,025s}oh et bien plaqué bien chassé par la troisième ligne argentine David SkrelaFigure 5 : Représentation de la courbe mélodique de l’énoncé « Skrela oh et bien plaqué bienchassé par la troisième ligne argentine David Skrela »La figure ci-dessus représente la courbe mélodique de l’énoncé Skrela / oh et bien plaqué bienchassé par la troisième ligne argentine David Skrela. On voit très nettement sur cette figurel’intonation fortement descendante sur l’élément du noyau Skrela qui est par ailleurs séparéde son suffixe par une pause d’un peu plus de 1 seconde. La deuxième partie de l’énoncé ohet bien plaqué bien chassé par la troisième ligne argentine David Skrela est interprété commeun suffixe indépendant du point de vue prosodique mais dépendant du noyau par le sens.À travers ces deux derniers exemples on remarque que la courbe mélodique va permettred'interpréter d'une manière (noyau avec élément verbal) ou d'une autre (noyau nominal +suffixe contenant un élément verbal) la construction nominale comportant un élément verbal.La prosodie ici a donc bien une fonction organisationnelle au sens où elle permet d’interprétersyntaxiquement les énoncés produits et d’expliciter certains liens entre les syntagmes. Parailleurs cette fonction organisationnelle de la prosodie semble se manifester plusparticulièrement à travers d’une part les variations de l’enveloppe mélodique et d’autre part ladistribution des pauses. Ces manifestations prosodiques fonctionnent indépendammentd’autres phénomènes.L’exemple ci-dessous est une illustration de concomitance de différentes fonctionsprosodiques. La figure 6 représente la courbe mélodique de l’énoncé de Villiers / qui insiste /dans ce jeu de pilonnage qui va peut-être libérer / des espaces / avec Skrela / qui est passé /qui a passé les bras / pour servir Heymans.296


<strong>Actes</strong> d’IDP 09de Villiers / qui insiste / dans ce jeu de pilonnage qui va peut-être libérer / des espaces / avecSkrela / qui est passé / qui a passé les bras pour servir HeymansFigure 6 : Représentation de la courbe mélodique de l’énoncé « de Villiers qui insiste dans cejeu de pilonnage qui va peut-être libérer des espaces avec Skrela qui est passé qui a passé lesbras pour servir Heymans »Cet énoncé est construit comme une suite de noyaux nominaux, comportant ou non uneconstruction verbale et que l’on peut analyser dans le cadre de la macrosyntaxe et ens’appuyant sur la représentation mélodique comme ceci :Noyau 1 : Nom propre + Constituant verbal introduit par quide Villiers qui insiste {1,154 s}Noyau 2 : GN prépositionnel +dans ce jeu de pilonnageSuffixe 1 (N2) : Constituant verbal introduit par quiqui va peut-être libérer {0,257s} des espacesNoyau 3 : GN prépositionnelAvec Skrela {0,270s}Suffixe 1 (N3) : Constituant verbal introduit par quiqui est passé {0,356s}Suffixe 2 (N3): Constituant verbal introduit par quiqui a passé les bras pour servir HeymansLes noyaux et les suffixes, en tant qu’éléments prosodiquement indépendants, sont séparés lesuns des autres par des pauses plus ou moins longues et/ou par un allongement de syllabe enfin de groupe qui marque l’accent en français. Par ailleurs, la courbe mélodique à la fin dechacun de ces éléments noyaux et suffixes présente une pente descendante. Ces noyaux etsuffixes portent une modalité assertive marquée par une intonation descendante.Indépendamment de ces considérations phonosyntaxiques, l'excitation provoquée chez lelocuteur par une phase de jeu qui favorise l'équipe qu'il soutient plus particulièrement(l'équipe de France ici), amène à une augmentation brutale du registre de F0. On passe eneffet d’un registre Moyen-Bas (qui flirte avec le registre Bas) au début de l’énoncé à unregistre Moyen-Haut dès la finale du second noyau. Le suffixe 1 du noyau 3 qui est passéprésente par ailleurs un pic de F0 dans le registre Haut (environ 400 Hz).Dans le même temps on constate une augmentation perceptible du débit de parole dulocuteur. La figure ci-dessous présente les variations du débit de parole (calculé en syllabespar seconde) pour les différents constituants de l’énoncé de Villiers qui insiste (N1) / dans ce297


Proceedings of IDP 09jeu de pilonnage (N2) / qui va peut-être libérer des espaces (S1N2) / avec Skrela (N3) / qui estpassé (S1N3) / qui a passé les bras pour servir Heymans (S2N3).Figure 7 : Évolution du débit de parole du locuteur selon les différents constituants del’énoncé « de Villiers qui insiste (N1) / dans ce jeu de pilonnage (N2) / qui va peut-être libérerdes espaces (S1N2) / avec Skrela (N3) / qui est passé (S1N3) / qui a passé les bras pour servirHeymans (S2N3) »On observe une augmentation du débit de parole du Noyau 1 au Suffixe 1 du Noyau 2 quicorrespond avec la progression de la F0 moyenne du locuteur. Cette montée dans un registrede voix plus élevé, associée à des variations mélodiques brutales, et à l’accélération du débitde parole est le signe de l’excitation ressentie par le locuteur.Les trois phénomènes prosodiques se superposent ici, et ont une fonction propre : lemouvement mélodique participe à l'organisation syntaxique et sémantique de l'énoncé, tandisque le registre de F0 et le débit de parole marquent l'attitude du locuteur par rapport à sonpropos.6. Constructions iconiquesLe commentaire sportif présente au-delà des caractéristiques phonostylistiques etphonosyntaxiques que nous avons abordées plus haut une autre particularité intéressante quiva se refléter directement au niveau prosodique : puisqu’une partie du commentaire consisteen la description en direct d’une action qui se déroule sous les yeux du locuteur, le discoursdu commentateur sportif est motivé par l’action sur le terrain. Le discours se construit enmême temps que l’action. Il y a une sorte de synchronicité entre le temps de l’énonciation etle temps de l’action de jeu. Ce lien synchronique entre le discours descriptif et l’action de jeuva se répercuter sur la prosodie du locuteur. Il apparaît notamment à travers la synchronicitédu rythme de parole du locuteur avec celui de l’action sur le terrain de jeu. On observe ainside nombreuses récurrences d’accélération de débit de parole en lien avec une accélération del’action sur le terrain.Par ailleurs, on sait que le signe linguistique est arbitraire et il n’est pas question deremettre en cause ce fondement de la linguistique descriptive depuis Saussure. Toutefois, onne peut s’empêcher de noter au niveau prosodique certains phénomènes qui semblent refléter298


<strong>Actes</strong> d’IDP 09l’action de jeu. Et finalement, quoi de plus normal, dans la mesure où le locuteur cherche parson discours descriptif à « coller » le plus possible à l’action qui se déroule sous ses yeux demanière à ce que son auditoire se représente au mieux la scène décrite et partage son émotion.Il faut que l’auditoire ait l’impression d’assister au match comme s’il était dans une tribune dustade. Par ces sortes de métaphores vocales (comme la chute brutale de la courbe mélodiquecorrespondant à la chute non moins brutale du ballon en-dehors des buts), le locuteur necherche qu’à faire partager au plus près le spectacle auquel il assiste, et à le rendre plusprésent et plus vivant pour le téléspectateur.Les deux figures ci-dessous représentent la courbe mélodique de l’énoncé suivant : Hernandezle drop avec le pied gauche ::: /{1,282s} qui va mourir sous ::: les poteaux où se trouve CédricHeymans.Hernandez le drop avec le pied gauche :::Figure 8 : Représentation de la courbe mélodique de l’énoncé « Hernandez le drop avec lepied gauche »299


Proceedings of IDP 09qui va mourir sous ::: les poteaux où se trouve Cédric HeymansFigure 9 : Représentation de la courbe mélodique de l’énoncé « qui va mourir sous lespoteaux où se trouve Cédric Heymans »Cet énoncé est de type descriptif et relate un drop c’est-à-dire un lancer de ballon avec le piedaprès un premier rebond. Si le ballon passe au-dessus de la barre transversale et entre lespoteaux de l’équipe adverse, il permet de marquer trois points. Le drop est donc ici une actiond’importance, qui est donc relatée précisément par le journaliste sportif qui indique le nom dujoueur qui tire le drop et évidemment le résultat de ce drop.La figure 8 montre la courbe mélodique de cette première partie de l’énoncé Hernandez ledrop avec le pied gauche ::: où le locuteur mentionne dans l’ordre le joueur qui va fairel’action, le type d’action et le comment de cette action. La durée de cette première partie del’énoncé correspond au temps qu’a mis le joueur pour prendre son élan, courir vers le ballonet tirer. En énonçant la dernière syllabe de ce groupe, le locuteur ne sait pas encore quel est lerésultat de l’action menée par le joueur et il est en attente de ce résultat, d’où un allongementde la dernière syllabe et un maintien de la F0 sur cette syllabe aux alentours de 350 Hz. Cettepremière partie est suivie d’une pause d’une durée de 1,286 seconde durant laquelle l’actionsur le terrain continue. Ce temps de pause va permettre au locuteur d’ajuster son discours àl’action en cours et de proclamer ensuite le résultat du drop.La figure 9 montre la courbe mélodique de la deuxième partie de l’énoncé où le résultat dudrop est indiqué par le locuteur avec un léger décalage par rapport au temps de l’action. Pourconfirmer le résultat négatif de cette action (le drop a échoué, l’équipe n’a pas marqué depoints) le locuteur va détailler la trajectoire du ballon en précisant qu’il passe en dessous despoteaux adverses et en marquant une insistance prosodique sur la préposition sous. Cetteinsistance se traduit par un allongement de la syllabe et une mélodie montante avec un pic à400 Hz. La suite de l’énoncé est réalisée dans une pente progressivement descendante, quifigure la retombée du ballon en dessous de la barre transversale des poteaux adverses, et dumême coup la retombée de l’excitation provoquée par l’essai infructueux engagé par l’équipede France pour marquer des points.On peut donc voir dans cette symétrie de la courbe mélodique et de la trajectoire du ballonun effet prosodique de cette iconicité présente dans le discours descriptif du commentateursportif.7. Discussion et conclusionNous avons montré au travers des résultats de notre étude comment le discours sportif recélaitdes particularités linguistiques, énonciatives et prosodiques tout à fait intéressantes, etprésentait un excellent exemple de concomitance des différentes fonctions attribuéesusuellement à la prosodie. Il est apparu très clairement qu’au-delà d’une simple fonctionorganisationnelle qui permettait d’expliciter et d’interpréter des constructions syntaxiquesnominales remarquablement fréquentes, la prosodie permettait également l’identification et laconstruction d’un style de discours, la reconnaissance et l’expression d’émotions etd’attitudes, la création de métaphores vocales appuyant le discours descriptif. Nous avons eul’occasion de montrer comment chacune des fonctions attribuée à la prosodie dépendait dephénomènes différents et comment ces phénomènes pouvaient être interprétés conjointement.Ainsi, nous avons mis en évidence que la hauteur de la voix du journaliste sportif, safréquence fondamentale moyenne étant relativement élevée tout au long du discours, étaitreliée à la situation d’énonciation et au besoin du locuteur de conserver en permanencel’attention du téléspectateur.300


<strong>Actes</strong> d’IDP 09On a vu également, que, en reprenant la théorie macrosyntaxique couplée à la théorie deMartin, on pouvait produire une interprétation phonosyntaxique des courbes mélodiques desénoncés nominaux du discours descriptif : pour ce faire ce sont principalement les pauses etles mouvements mélodiques sur les syllabes accentuées qui ont servi à l’interprétation.Nous avons également montré que les aspects expressifs et notamment, l’excitationproduite par un événement survenu sur le terrain, étaient pris en charge par des variationsmélodiques importantes et notamment de brusques montées mélodiques, ainsi que par uneaccélération du débit de parole. Ces critères rappellent ceux que nous pourrions observer dansdes réalisations expressives de type colère ou joie, c’est-à-dire dans des formes d’émotionsactives.Nous avons mis à jour également des formes d’iconicité prosodique, où le locuteur enjouant sur des variations mélodiques et de tempo, construit dans le discours descriptif desformes d’images vocales qui permettent une illustration plus « parlante » de son propos.On a mis enfin en évidence le fait que le discours du journaliste sportif était émaillé d’accentssecondaires à l’initiale de groupe, confirmant les observations de Lucci (Lucci, 1980, 1983).C’est peut-être ce dernier point qui est le plus caractéristique du style journalistique, etpourtant on est en droit de se demander si ce seul phénomène prosodique suffit à faire de cetype prosodique un phonostyle, de même que Deulofeu pose la question de savoir si unefréquence remarquable de constructions nominales dans le discours sportif suffit à en faire ungenre discursif distinct.Il nous semble difficile de répondre à cette question dans l’état actuel de notre travail, maiscelle-ci ouvre de nombreuses pistes de recherches, notamment au niveau perceptif. En effet,nous avons commencé cette étude en partant de l’hypothèse qu’un auditeur percevant lecommentaire d’une rencontre sportive, sans même savoir de quoi il s’agit, est en mesure dereconnaître le discours sportif. Cette hypothèse-ci reste à vérifier encore ; de même qu’ilserait intéressant de déterminer, en faisant varier les paramètres prosodiques que nous avonsmis à jour, quels sont ceux qui peut-être sont les plus déterminants pour la constitution ducommentaire sportif comme phonostyle.RemerciementsMerci à José Deulofeu pour ses patientes relectures et ses critiques constructives.Merci à Gaëlle Lortal qui a fortement contribué à l’élaboration de ce corpus.RéférencesBoulakia, G., Delofeu, J., Martin, Ph. (2003), Sans contraste, pas d’interface, in (Mettouchi, A. & Ferré G., éds.),<strong>Actes</strong> du Colloque Interfaces Prosodiques, IP03, Nantes, 2003.Deulofeu, J. (1998), Les commentaires sportifs constituent-ils un “genre”, au sens linguistique du terme ?, <strong>Actes</strong>du Colloque Questions de méthode dans la linguistique sur corpus , Perpignan, 9-11 Mai 98. Champion,Paris.Fónagy, I. (1980), L'accent français: accent probabilitaire (dynamique d'un changement prosodique), in (Fónagy,I. et Léon, P. eds) L’accent en français contemporain, Studia Phonetica, vol. 15, Didier : pp. 123-233.Lortal, G., Mathon, C. (2008), Motion and Emotion or how to align emotional cues with game actions, inProceedings of EMOT Workshop, LREC 2008, Marrakech.Lefeuvre, F. (1999), La phrase averbale en français, Paris : L’Harmattan.Lucci, V. (1980), L’accent didactique, in (Fónagy, I. et Léon, P. eds) L’accent en français contemporain, StudiaPhonetica, vol. 15, Didier : pp. 107-122.Lucci, V. (1983), Étude phonétique du français contemporain à travers la variation situationnelle, Grenoble,ULL.Martin, P. (1981), Pour une théorie de l’intonation, in (Rossi & al.,éds.) L’intonation, Klincksieck.301


<strong>Actes</strong> d’IDP 09De la prosodie en discours à la prosodie en langue : lexicalisation de laforme prosodique des emplois-typesFrançois Nemo & Mélanie Petitfrancois.nemo@univ-orleans.fr; melanie.petit@univ-orleans.frUniversité d’OrléansAbstractOne of the main issues in Linguistic Semantics is to account for the diversity of uses of linguistic signs. The aimof this paper is to show the interest of taking into account prosodic form in such a perspective, using authenticoral data not only to show the role of prosody in the interpretation of signs in discourse, but also to show thelexicalisation of such interpretations, and, consequently, of prosodic forms.Based mainly on a corpus based study of French enfin, it shows the way prosody interacts with semanticinterpretation, and allows the definition of « use-types ». A distinction between morphemic signification, profiles(i.e. interpretation-types), and use-types is proposed. A formal representation of use-types is also proposed, withboth a dual representation of phonological form that combines phonematic and prosodic form and a dualrepresentation of semantic interpretation.1. Cadre de travail et problématique de rechercheEtudier la diversité des emplois d'une unité sémantique fait partie du travail de base de toutesémantique linguistique (Benveniste 1954, 1966 ; Ducrot 1980, 1987 ; Pustejovsky 1995 ;Bouchard 1995 ; Cadiot & Nemo 1997 ; Nemo 1999), par opposition aux sémantiques nonlinguistiques (Chierchia & Mac Connell-Ginet 2000).C'est dans ce type de travail que plusieurs des notions-clefs de la sémantique linguistiqueont été développées depuis 50 ans, notamment la distinction signification/sens, les notionsd'instruction sémantique, d'indexicalité de la signification, etc.Du point de vue sémantique, il repose donc sur la distinction entre les inputs du processusinterprétatifs, qui le déclenchent et le contraignent, et les outputs (résultats) de ce processus,en particulier quand la lexicalisation de ces derniers produit par mémorisation ce que l'onnomme habituellement le lexique.Le travail qui va être présenté se situe dans la continuité de ce type de démarche et s'appuiepour l'essentiel sur les notions sus-mentionnées.La spécificité de ce travail tient en revanche à ce qu'il complète cette démarche classiquepar un questionnement sur la forme prosodique associée aux emplois concernés, etempiriquement par le recours à des corpus oraux pour la constitution de banque d'emploispouvant atteindre plusieurs centaines d'occurrences.2. MéthodologieCe qui revient à dire que la question de départ de ce travail était la suivante : est-il possible ounon sur corpus de discriminer prosodiquement les emplois entre eux ?Comme nous allons le voir, d'un point de vue sémantique, la réponse à cette question asupposé une navette continuelle entre caractérisation sémantique et caractérisation prosodiquedes emplois.303


Proceedings of IDP 09Autrement dit, il a fallu affiner les descriptions sémantiques pour rendre compte de lavariation prosodique constatée et identifier les ressorts de cette variation.S'agissant de la caractérisation prosodique des emplois, il n'a été fait aucune hypothèse apriori sur la taille de la séquence qui serait pertinente, et ont donc été prises en considérationaussi bien la forme prosodique des items eux-mêmes que la séquence formée par les contextesgauche et droit ou l'existence d'une rupture prosodique, de pauses. etc.Lorsque des caractérisations ont pu être faites, nous n'avons pour l'instant pas encorecherché à les expliquer.3. Discrimination prosodique : études de cas et généralisation3.1 « Enfin »La majorité des descriptions sémantico-pragmatiques des mots de discours ne prennent pas encompte la prosodie (Approaches to Discourse Particles, Fischer Ed. 2006) mais il fautnéanmoins signaler quelques travaux récents, tels que ceux de Bertrand & Chanet (2005) surle lien prosodie des connecteurs/rôles dans le discours, ceux de Dostie (2004) également, quipropose un traitement des marqueurs discursifs en lien avec la sémantique et la lexicographieet enfin les recherches de Vincent & Demers (1994) sur le cas du là ponctuant.Empiriquement, les quelques résultats qui vont être présentés ici sont extraits de la thèse dePetit (2009), travail qui porte sur la discrimination prosodique des emplois et qui repose surl'analyse de centaines d'emplois de différentes unités sémantiques.Comme indiqué précédemment, la démarche adoptée dans le travail en question est celled'une navette entre description sémantique et description prosodique du corpus, i.e. entre testssémantiques et caractérisation des formes prosodiques.Il porte principalement sur des mots de discours, même si l'analyse a été étendue à d'autrestypes d'unités sémantiques.3.1.1 Quelques emplois de enfinUn ensemble bien fourni de travaux en sémantique (Cadiot & al. 1985 ; Luscher&Moeschler1990 ; Rossari 1994, 1997 ; Nemo 2000 ; Beeching 2000 ; Barnes 1995 ; Hansen 2005 ;Paillard 2003 ; Buchi & Städtler 2008…) ou prosodie (Fónagy 1983 ; Bertrand & Chanet2005) permettent de lister (non limitativement) différents emplois de enfin, parmi lesquels :! le soulagement! la résignation! l'irritation! la reformulation! la complétude discursive! la synthèse3.1.2 Signification de enfinPour rendre compte de l'ensemble des emplois de enfin, (Nemo 1999, 2000) a proposé commeinput du processus interprétatif la signification et instruction/indication suivante : lemorphème enfin indique qu'un problème se pose à un moment t et que ce problème estrésolu en t+1 .304


<strong>Actes</strong> d’IDP 093.1.3 Profilage de enfinLe passage de cette indication à l'interprétation en contexte impose à l'interprétant d'identifierla nature du problème posé (discursif dans la reformulation, mondain dans l'irritation ou lesoulagement) mais surtout d'identifier à quel moment (relativement au moment del'énonciation t0) le problème se pose. Selon Nemo (1999, 2000), la réponse à cette questiondéfinit en somme la façon dont l'indication est profilée, au sens de Cadiot & Visetti (2001).On a par exemple soit :-le problème se posait en t-2 et a été résolu en t-1 (cas du enfin de soulagement, lectureconstative);-le problème se pose en t0 et doit être résolu en t+1 (cas du enfin d'irritation, lectureconstative-directive);-le problème se pose en t-1 et est déclaré résolu en t0 (cas du enfin de résignation, lectureconstative-perfomative).L'intérêt de ce type de description, outre évidemment de rendre compte de la diversité desemplois, est de fournir des tests sémantiques permettant de caractériser sur corpus n'importequel emploi de enfin.3.1.4 Discrimination prosodique des profils de enfinSi l'on considère trois de ces profils, associés à l'expression :! de l’irritation! du soulagement! de la résignationl'existence d'une discrimination prosodique des emplois peut sembler évidente, ainsi que lefait que l’auditeur puisse accéder directement à la bonne interprétation, mais il reste à leconfirmer et à identifier les formes prosodiques concernées.3.1.5 Caractérisation prosodiquePour ce faire, et après être arrivés à la conclusion que la forme prosodique de enfin n’était pasprédictible à partir de l’étude de la configuration prosodique de son contexte, nous avonsobservé et caractérisé pour chaque occurrence de enfin les paramètres prosodiques suivants :! forme de Fo sur [enfin]! forme de Fo sur [en]! forme de Fo sur [fin]! localisation du maxima de Fo! observation d’une rupture ou d’une intégration prosodique par rapport au contexte! longueur de [enfin]! longueur de [en]! longueur de [fin]! ratio de la longueur de [en] sur longueur de [fin]! observation de la courbe d’intensité3.1.6 Discrimination prosodique de enfin : des profils aux emplois-typesCette étude nous à conduits à observer que si la discrimination prosodique était bienpertinente, elle l’était à un niveau plus fin que celui du « profil » (ou interprétation-type). Eneffet, les configurations prosodiques ne sont le plus souvent pas identiques pour un profil ouun type d'emploi donné.305


Proceedings of IDP 09Il s’est avéré que la prosodie permettait de discriminer non pas des profils mais desemplois-types, qui se caractérisent comme étant un niveau de sens inférieur au profil. Ainsi, ilest possible de profiler une même interprétation-type en différents emplois-types. Il est doncindispensable pour caractériser prosodiquement les emplois d'affiner la description et dereconnaître indépendamment des profils l'existence d'emplois-types correspondant à descontextes-types, et ce à l'intérieur des profils.Affiner la description de enfin sur ce principe ne remet toutefois pas en cause la validitéde la signification morphémique ainsi que la pertinence des tests sémantiques qui ont permisd’aboutir à un classement en interprétations-types.3.1.6.1 Discrimination des emplois-types de profil « Pb résolu » (ex soulagement)On observe (Petit 2009) par exemple pour pas moins de 10% des données sur corpus oral, unemploi de enfin, que l'on peut gloser par « c'est pas trop tôt » et qui présente commecaractéristiques de combiner :- un profil identique à l'emploi de soulagement, puisque le problème est bien résolu aumoment de l'énonciation;- l'expression, y compris prosodiquement, d'une irritation.- un profil différent du profil jusque-là associé à l'irritation, puisque celui-ci était défini parl'actualité du problème au moment de l'énonciation.Nous verrons que l'identification sur corpus de nouveaux types d'emploi ouvrent unequestion-clef qui est celle de la lexicalisation ou non de ceux-ci.Le profil « problème résolu en t0 » de enfin correspond donc en fait à deux emplois-types :! un emploi de soulagement masqué ou encore d'irritation résiduelle (« C’est pas troptôt ») à Fo descendante qui correspond à un contexte-type d'expression d'uneinsatisfaction du fait que le problème se soit posé ou ait mis tant de temps à être résolu! un emploi de soulagement manifeste à Fo montante qui correspond à un contexte-typed'expression d'une satisfaction du fait que le problème soit résolu3.1.6.2 Discrimination des emplois-types de « dissolution du problème » (ex résignation)Les emplois correspondant au profil de dissolution du problème (glosable en « oublions ça »ou « tournons la page ») sont discriminables et expriment alternativement :! une résignation négative avec une Fo montante, dans un contexte-type où le locuteurmanifeste sa mauvaise grâce à tourner la page! une « résignation » positive avec une Fo descendante, dans un contexte-type où lelocuteur manifeste sa bonne grâce à tourner la page3.1.6.3 Discrimination des emplois-types de correction argumentativeLes emplois de correction argumentative (test de « mais enfin ») se distinguent quant à euxselon que :! le second argument présente une grande force par rapport au premier avec une Fomontante ainsi qu’une rupture prosodique par rapport au contexte! le second argument ne présente pas une grande force par rapport au premier avecune Fo montante sans rupture prosodique par rapport au contexte306


<strong>Actes</strong> d’IDP 093.2 Discrimination prosodiques d'autres items : profils et emplois-typesLes résultats obtenus sur enfin méritant d'être testés sur d'autres unités sémantiques,notamment en ce qui concerne la distinction entre profils et emplois-types, l'étude a étéétendue à d'autres signes.3.2.1 Discrimination d’emplois-types de quelquesS'agissant de l’adjectif quelques par exemple, qui selon l'emploi peut notamment présenter :! une lecture minorante comme dans « j’ai vraiment quelques minutes à te consacrer »,la quantité étant présentée comme faible.! une lecture majorante comme dans « il y a quelques objets très intéressants », laquantité étant présentée comme significative.l’étude prosodique a permis d’observer que selon la saillance prosodique de quelques parrapport à son contexte, il est possible, non pas de discriminer les deux lectures en question,mais de préciser pour chacun d’entre eux si la quantité exprimée mérite de l'attention ou non,autrement dit si la quantité est modalisée ou non. Autrement dit deux emplois-types distinctspour chaque lecture.3.2.2 Discrimination d'emplois de ouiL’analyse de l’adverbe oui a pour sa part permis de mettre au jour le fait que le locuteurpouvait, par la réalisation prosodique de oui, exprimer un ensemble de nuances, et parexemple différents degrés d’acceptation pouvant aller de l’accord plein et sincère àl’expression d’une réticence forte, marquée par une cloche mélodique sur le oui.3.3. Généralisations3.3.1 Aspects sémantiques et pragmatiquesCe dédoublement quasi-systématique des emplois de chaque catégorie tend à prouver que cesobservations traduisent en réalité un fait très général, dès lors qu'à chaque fois on constate quel'interprétation concerne deux niveaux distincts :! ce que l’on dit (et qui correspond aux profils)! ce que l’on en dit (et qui correspond à un “commentaire” sur ce qui est dit,commentaire marqué prosodiquement)Les limites des classements sémantiques existants tiennent en effet à ce que ceux-cidécrivent exclusivement le premier niveau et négligent ou présupposent le second : ainsi a-tontendance à considérer que puisque un problème est résolu, alors on ne peut pas ne pas enêtre satisfait, ce qui conduit à transformer indûment un emploi-type en profil.Plus généralement, l'existence de ce commentaire sur ce qui est dit apparaît surtoutabsolument obligatoire.Encore plus généralement, il faut signaler que les « commentaires » en questionconcernent indifféremment la relation aux choses elles-mêmes (Cadiot & Nemo 1997) ou larelation au discours lui-même et à sa progression, qui au bout du compte concerne la relationaux choses de l'interlocuteur.Nos résultats confirment donc l'idée très générale selon laquelle, si parler c'est attirerl'attention sur quelque chose en demandant à l'autre de le prendre en compte (Nemo 1999),alors il n'est effectivement pas possible de le faire de façon neutre, qu'il s'agisse d'exprimer larelation à ce dont on parle où la relation au fait d'en parler.3.3.2 Rapport-typeDeux types de rapports aux choses peuvent être exprimés par le locuteur :307


Proceedings of IDP 09- un rapport de nature axiologique : les emplois-types sont sémantiquement discrétisables etprosodiquement discriminables par la configuration montante ou descendante de la Fo surl’unité en question.- un rapport de nature attentionnelle : les emplois-types ne sont pas discrétisables etcorrespondent aux extrémités d’un rapport graduel. Dan ce cas, les emplois se discriminentprosodiquement par l’importance de la rupture prosodique de l’unité concernée par rapport àson contexte.Ces deux types de rapport ne sont pas exclusifs l'un de l'autre.4. La question de la lexicalisation : débat général4.1 Emplois-types, contextes-types et lexicalisationA partir de là, c'est-à-dire de l'association de différentes formes prosodiques à un même profil(interprétation-type) dans chaque emploi-type, se pose la question de la lexicalisation ou nonde ces associations et de leur interprétation, autrement dit de leur statut uniquement discursifou lexical. Ce qui revient à se demander si et dans quelles conditions les réalités discursivesmises à jour peuvent se lexicaliser.Dans le cadre d'une sémantique de corpus, cette dernière question revient avant tout àdemander s'il y a récurrence des emplois, et si on peut définir des contextes-typescorrespondants aux emplois-types en question, la répétition des uns entraînant lalexicalisation des autres. Et donc à essayer de définir de façon générale la notion delexicalisation.4.2 Etre ou ne pas être dans le lexique, telle est la questionPour certains linguistes, la terre est de ce point de vue plate : il y a un lexique et la grammaireconsiste à former des phrases à partir du lexique.Pour le sémanticien en revanche, définir ce qui est ou ce qui n'est pas dans le lexique estnettement plus complexe : les dictionnaires ne décrivent manifestement qu'une partie desemplois mais du point de vue théorique, surtout en admettant que « nihil est in lingua quodnon prius fuerit in oratione », il importe de préciser la notion de lexicalisation.Pour le sémanticien « explicativiste », le processus d'interprétation a des inputs, quifonctionnent comme des contraintes à respecter, et des outputs qui en constituent le résultat.La distinction entre signification et sens s'inscrit dans ce cadre. La signification (l'instruction)est un input alors que le sens est le résultat obtenu dans l'interprétation (Ducrot 1987). Soitformellement (Gasiglia, Nemo & Cadiot 2000) :f(morphème, construction, contexte) = interprétation(" sens)Pour qu'une interprétation se lexicalise en sens, il faut avant tout qu'un emploi se répèteet devienne un usage, autrement dit qu'il ne soit plus nécessaire de relancer le processusinterprétatif. On appelle alors « sens lexical » la mémoire de cet emploi et de soninterprétation dont on admet qu'elle est « stockée » et qu'elle devient disponible à toutmoment.Il faut donc en quelque sorte qu'un contexte-type se répète pour qu'il y ait stockagelexical :f(morphème, construction, contexte-type) = sens lexical308


<strong>Actes</strong> d’IDP 09Il importe donc de bien distinguer entre cette langue-mémoire (qui est un stock d'outputssémantiques) et la langue-code (qui est un stock d'inputs sémantiques).Mais il importe également de bien préciser ce qu'il y a exactement dans cette languemémoire.Et pour cela de revisiter le couple signifiant-signifié non au niveau des morphèmes(forme phonématique, signification) mais bien au niveau du lexique comme mémoire dessens.Il importe de noter que la notion de lexicalisation des emplois renvoie à celle deconventionnalisation, et que ce qu'il s'agit de décrire, c'est bien la stabilisation linguistique desens lexicaux.S'agissant de la prosodie, la distinction entre C-Lexique (langue-code) et M-Lexique (languemémoire)permet de ne pas confondre cette question avec celle d'une lexicalisation de laprosodie analogue à ce que l'on peut observer dans les langues à ton, où il s'agit dediscriminer des individus lexicaux distincts et non des sens lexicalisés.4.3. Lexique comme mémoire des emploisLexicalisation rimant donc avec conventionnalisation et conventionnalisation lui avecmémorisation des interprétations associées aux emplois, il s'ensuit que l'on peut considérer leslexèmes comme résultant de la mémorisation de l'interprétation de l'insertion d'un morphèmedans une construction et un contexte-type donné, mémorisation qui résulte elle-même de larécurrence de l'emploi, qui se transforme en usage.Ce qui schématiquement donne :signe linguistique(morphème) construction récurrenced'un contexte-typeemploi lexicalisé5. Lexicalisation des emplois-types5.1. Arbre des emplois d’un morphèmeSur la base de ces observations générales, il devient possible de proposer une présentationschématique, sous la forme d’un arbre des emplois, des différents emplois-types d’unmorphème :Tronc : signification morphémiqueBranches : interprétations-types (profils)Feuilles : emplois-types (contextes-types)Il est enfin possible de représenter cette même hiérarchie comme suit :309


Proceedings of IDP 09Indication :Interprétation-type1 :Emploi-type 1/1Emploi-type 1/2Emploi-type 1/3Interprétation-type2 :Emploi-type 2/1Emploi-type 2/2Emploi-type 2/3Interprétation-type 3 etc.5.2. Lexicalisation de la forme prosodique des emplois-typesDécrire les sens dans le lexique sur la base des observations faites précédemment - sansaborder ici tous les aspects de cette question - implique également de s’intéresser à la façondont les emplois lexicalisés doivent être décrits, et ce aussi bien du point de vue de ladescription de leur forme sonore (signifiant) que du point de vue de leur interprétation(signifié).5.2.1 Revisiter les “signifiants” lexicauxLa forme sonore % doit être décrite (Petit 2009) comme un couple %(-,.), où % est la formesonore, - la forme phonématique, et où . est la forme prosodique.5.2.2 Revisiter les “signifiés” lexicauxLe sens s d'un emploi-type doit pour a part être décrit comme un couple s(/,0), où s est lesens associé à la forme %, où / est l'interprétation-type (le profil) et où 0 est la relation quicaractérise le contexte-type.5.2.3 Représentation des emplois lexicalisésCes précisions terminologiques nous amène à proposer, pour description d’un emploi-type, lastructure suivante :Emploi-type :Forme phonologique : % - : valeur. : valeurForme sémantique : s / : valeur0 : valeurStatut constructionnel 1 : valeurdans laquelle le trait « statut constructionnel » décrit le résultat de l'insertion du morphèmedans des constructions particulières, et plus spécifiquement la place qu'il y occupe, qu'ils'agisse de construction micro-syntaxique ou macro-syntaxique.Si l’on applique ce format de représentation à l’emploi-type de enfin qui correspond àl’expression d’un soulagement manifeste, on obtient la description suivante :Emploi-type : soulagement manifeste310


<strong>Actes</strong> d’IDP 09Forme phonologique : %Forme sémantique: sStatut constructionnel 1 :- : enfin (API). : Fo montante/ : un problème de nature situationnelle s'est posé. Leproblème a été résolu. Le locuteur réalise ensuite uneoccurrence de enfin.0 : satisfaction que le problème soit résolumodifieur de prédicat5.2.4 Relation d'héritagesCe qu'il convient de noter dans ce schéma, par-delà le dédoublement du signifié et dusignifiant, ce sont les relations d'héritage, qui sont claires pour certains traits :- la forme phonématique - est héritée du morphème;- l'interprétation-type / est un profilage du morphème,et qui restent en grande partie à préciser pour les autres traits :- la forme prosodique ., dont on ne peut exclure qu'elle soit héritée de constructionsprosodiques;- le statut constructionnel 1, qui semble ici être largement associé au niveau del'interprétation-type.6. ConclusionLa prosodie est un phénomène discursif et métadiscursif. Il n'y a là rien de nouveau. Ce quipeut l'être en revanche, c'est de s'interroger sur ce en quoi elle peut contribuer àl'interprétation de morphèmes individuels.Notre réponse à cette dernière question a été qu'elle contribue à associer à toute interprétationdu morphème un « commentaire » portant soit sur le rapport axiologique à la situation quecelle-ci décrit, soit un rapport métacommunicationnel/méta-attentionnel sur son proprediscours.Étant donnée la distribution des morphèmes étudiés, qui modifient soit des prédicats,soit des énoncés, soit des contributions, ou qui sont encore des holophrases, il n’y a là rien detrès étonnant : la forme prosodique pèse sur l’interprétation d’unités qui jouent un rôle clédans l’interprétation de l’ensemble de l’énoncé ou du discours. Ce qui est en revanche plusimportant pour le sémanticien, c’était le sens de notre titre, c’est le fait que le nombre derapports à la situation (que décrit l’indication) étant limité, on constate une lexicalisation dece rapport forme/interprétation et des sens lexicaux correspondants.RéférencesBarnes, B. (1995). Discourse particles in french conversation : (eh) ben, bon and enfin. The French Review, 68,5, pp. 813-821.Beeching, K. (2000). La fonction de la particule pragmatique enfin dans le discours des hommes et des femmes.Femmes et français, Paris, L'Harmattan.Benveniste, E. (1954). Problèmes de reconstruction en sémantique. Problèmes de linguistique générale, 2.Benveniste, E. (1966). Problèmes de linguistique générale. Gallimard, Paris.Bertrand, R. & C. Chanet (2005). Fonctions pragmatiques et prosodie de enfin en français spontané. Revue deSémantique et Pragmatique, 17, pp. 41-68.Bouchard, D. (1995). The semantics of syntax. Chicago University Press, Chicago.Buchi, E. & T. Städtler (2008). La pragmaticalisation de l'adverbe enfin du point de vue des romanistes (« Enfin,de celui des francisants qui conçoivent leur recherche dans le cadre de la linguistique romane »). CMLF(Paris, 9-12 juillet 2008). Recueil des résumés, CD-ROM des actes, pp. 159-171.Cadiot, A. et al. (1985). Enfin, marqueur métalinguistique. Journal of pragmatics, 9, pp. 199-239.311


Proceedings of IDP 09Cadiot, P. & F. Nemo (1997). Pour une sémiogénèse du nom. Langue Française, 113, pp. 24-34.Cadiot, P. & Y.M. Visetti (2001). Motifs, profils, thèmes : une approche globale de la polysémie. Cahiers delexicologie, 79, pp. 5-46.Chierchia, G & S. Mc-Connell-Ginet (2000). Meaning and grammar : an introduction to semantics. Cambridge,MIT Press.Dostie, G. (2004). Pragmaticalisation et marqueurs discursifs, analyse sémantique et traitementlexicographique. Duculot, Bruxelles.Ducrot, O. (1980). Analyses pragmatiques. Communications, 32, pp. 11-60.Ducrot, O. (1987). L'interprétation comme point de départ imaginaire de la sémantique. Dire et ne pas dire([1972], 1991. Hermann, Paris.Fischer, K. (éd.) (2006). Approaches to discourse particles. Elsevier, Oxford.Fónagy, I. (1983). La vive voix: essai de psychophonétique. Payot, Paris.Gasiglia, N., F. Nemo, & P. Cadiot (2001). Meaning and the generation of reference. Generative approaches tothe lexicon (Bouillon, Pierette, ed.), Université de Genève, Genève.Hansen, M-B Mosegaard (2005). From prepositional phrase to hesitation marker: The semantic and pragmaticevolution of French enfin. Journal of historical pragmatics, 6,pp. 37-68.Luscher, J.M. & J. Moeschler, (1990). Approches dérivationnelles et procédurales des opérateurs et connecteurstemporels : les exemples de et et de enfin. Cahiers de Linguistique Française, 11, pp. 77-104.Nemo, F. (1999). The pragmatics of signs, the semantics of relevance, and the semantic/pragmatic interface. Thesemantics-pragmatics interface from different points of view, CRiSPI Series, Elsevier Science, Amsterdam,pp. 343-417.Nemo, F. (2000). Enfin, encore, toujours entre indexicalité et emplois. Englebert A. et al (éd.), <strong>Actes</strong> du XXIIeCongrès international de linguistique et de philologie romanes, (Bruxelles, juillet 1998), Tübingen, MaxNiemeyer Verlag, vol. 7, pp. 499-511.Paillard, D. (2003). À propos de enfin. Ordre et distinction dans la langue et le discours. <strong>Actes</strong> du Colloqueinternational de Metz (18, 19, 20 mars 1999), Paris, Champion, pp.387-408.Petit, M. (2009). Discrimination prosodique et représentation du lexique : application aux emplois desconnecteurs. Thèse, Université d’Orléans.Pustejovsky, J. (1995). The generative lexicon. Cambridge: MIT Press, Boston.Rossari, C. (1994). Les opérations de reformulation. Peter Lang, Berne.Rossari, C. (1997). Les opérations de reformulation : analyse du processus et des marqueurs dans uneperspective français-Italien. Bern, Lang.Vincent, D. & Demers, M. (1994). Les problèmes d'arrimage entre les études discursives et prosodiques : le casdu « là » ponctuant . Langues et linguistique, 20, pp. 201-212.312


<strong>Actes</strong> d’IDP 09Discourse Context, Semantic Markers, and Prosodic Cues of Taiwan MinNarrow Focus and Second Occurrence FocusHo-hsien Pan / Yi-chu Kehhpan@cc.nctu.edu.tw, keychu13@gmail.comDepartment of Foreign Languages and Literatures, National Chiao Tung University,TAIWANAbstractThis study compared the acoustic realization of broad focus, narrow focus, and second occurrence focus inTaiwan Min. Spontaneous interactive conversations describing pictures displayed on a computer screen wereanalyzed to measure the duration and f0 of words produced with different levels of focus. Results showed thatsyntagmatically, the normalized duration, but not the f0 range, of target words with narrow and secondoccurrence focus tended to be greater than pre-focus and post-focus words in the same sentences.Paradigmatically, duration was greater and f0 range wider in medial and final target words with secondoccurrence focus than in the same targets with narrow focus.1. IntroductionGenerally speaking, new information placed within the domain of focus sensitive operators,such as “even”, “only” and “always,” receives Narrow Focus (NF). However, the focus statusof Second Occurrence Focus (SOF) with old information placed within the domain of focussensitive operators is less understood. From a discourse perspective, old information shouldnot be focused. However, from a semantic perspective, targets within the domain of focussensitive operators are focused, even if these targets carry old information. Observe thefollowing example in (1) B of second occurrence focus.(1) A: Everyone already knew that Mary only eats [vegetables]NFB: If even [Paul]NF knew that Mary only eats [vegetables]SOF, then he should havesuggested a different restaurant (Beaver, Clark, & Flemming., 2007).In sentence (1) B, narrow focus falls on the word “Paul” which carries new information and isplaced within the domain of a focus sensitive operator. The word “vegetable” with oldinformation placed within the domain of a focus sensitive operator receives secondoccurrence focus (Partee, 1999).To resolve the debate among discourse, syntactic, and semantic perspectives; acousticanalysis was used to determine whether second occurrence foci carrying nuclear pitch accentsare commonly observed among English foci (Ladd, 1996). As use of a pitch accent was notobserved in English second occurrence foci in post-nuclear positions, English secondoccurrence focus was claimed to be ‘phonologically invisible’ (Partee, 1999). To challengethe notion that second occurrence focus was ‘phonologically invisible,’ both acoustic andperceptual studies were conducted to explore additional acoustic cues for English secondoccurrence focus in post-nuclear positions. Acoustic data revealed that English secondoccurrence foci were marked by syllable lengthening (Beaver et al., 2007). Moreover,perceptually, English listeners were able to perceive second occurrence focus at aperformance level of 63% above chance (Beaver et al., 2007). Although English second313


Proceedings of IDP 09occurrence foci in post-nuclear position were not marked by pitch accent, this did not meanthat English second occurrence foci in pre-nuclear positions were not marked by pitchaccents. In fact, an acoustic study of German revealed that second occurrence focus in prenuclearposition was marked by both pitch accent and lengthening (Fery & Ishihara, 2009).In sum, second occurrence focus in these intonational languages, was marked by both pitchaccent and duration in pre-nuclear position, and marked only by duration in post-nuclearposition.Another study that compared the same targets modified by the focus sensitive operator“only” and other adverbs, revealed that the targets with second occurrence focus and modifiedby “only” were not necessarily longer than the same targets modified by other adverbs. Inother words, in Howell’s (2008) study, targets after adverbs, including the focus sensitiveoperator “only,” were all lengthened. Longer duration was not a cue solely for secondoccurrence focus (Howell, 2008).Previous studies on focus in tone languages such as Beijing Mandarin revealed that narrowfocus was marked by both longer duration and f0 range expansion (Jin, 1996, Xu, 1999). Itwas found that the duration of narrow focus syllables are longer than broad focus syllables,which in turn are longer than post-focus syllables (Jin, 1996; Xu, 1999). Pan (2007)compared the acoustic cues for broad and narrow focus in Taiwan Min SVO sentences whichcontained disyllabic subjects and objects, and monosyllabic verbs. It was found that durationof narrow focused syllables was longer than broad focused and defocused syllables. As for thef0 data, paradigmatically, there were significantly effects of focus conditions on the f0 rangeand the mean f0. That is, the f0 range and mean f0 of the narrow focused subjects tended tobe larger than broad focused and pre-focused subjects. Similarly, the f0 range and mean f0 ofnarrow focused verb/object tended to be larger than the broad focus, pre- or post-focus verb/object. Comparison between duration and f0 revealed that duration may be a more consistentcue than f0 range expansion and mean f0 increase to mark narrow focus in Taiwan Min(Taiwanese).So far, there have been no studies on second occurrence focus in tone languages. Thisstudy expands the previous study on Taiwan Min narrow and broad foci to second occurrencefocus. If duration is the major cue signaling narrow focus, then what kind of acoustic cuecan be used to mark second occurrence focus in Taiwan Min? It is hypothesized that insteadof using a new acoustic cue to mark second occurrence focus, both duration lengthening andf0 worked together to distinguish narrow focus from second occurrence focus.2. Methods2.1. SpeakersThree males, CCW, LYC, and LHH, and one female, LYW, native Taiwan Min speakersparticipated in the experiments. They were students at the National Chiao Tung University atthe time of recording. Speaker LHH did not participate in the recording of sentences witheither broad focus or second occurrence focus on the phrase. In addition to Taiwan Min,speakers spoke Mandarin and English.314


<strong>Actes</strong> d’IDP 092.2. CorpusThe structure of target sentences was “(at) N1’s X side, there is an N2.” The focus sensitiveoperator “only” was placed in four positions, before either N1 (“at only N1’s X side, there isan N2.”); X side (“at N1’s ONLY X side, there is an N2.”), N2 (“at N1’s X side, there isONLY an N2.”) or the phrase “(at) N1’s X side, there is an N2” (ONLY at N1’s X side, thereis an N2).The five targets for N1 were disyllabic words with 53 + 33, 53+ 53, 31 + 13, 53 +13, and55 + 55 tonal combinations. The four targets for X side were “top”, “bottom”, “left”, and“right” in Taiwan Min. The seven targets for N2 were monosyllabic words carrying each ofthe seven Taiwan Min lexical tones, 55, 13, 33, 31, 53, 5, and 3.Target sentences produced with second occurrence focus were elicited through interactiveconversations between an experimenter and each speaker. Within the conversation, theexperimenter asked the first question to elicit a first answer with narrow focus located oneither N1, X side, or N2, or the phrase “at N1’s X side, there is a N2.” After the first answer,the experimenter asked a second question to elicit a second answer using the Taiwan Minequivalent of “only” (chi-u, !") before second occurrence focused N1, X side, and N2targets, or entire phrase. The following are some examples of interactive conversationseliciting narrow focus, broad focus, and second occurrence focus on target words and phrases.(2) English translation of conversations with narrow focus and second occurrence focus onN1, “pickle.” The corresponding screen display is shown in Figure 1:Question 1 Experimenter:# # $%&'()"*+Romanization: ti siaN mih e to peng u tangGloss: at what left side have worm“At which object’s left side is there a worm?”Answer 1 Speaker:# # $,-./0'()"*+Romanization: (chi u) ti chiuN chhai kah chhiu na e to peng u tangGloss: (only) at pickle and forest left side have worm“There are worms (Only) at [pickle’s and the forest’s]NF left side.”Question 2 Experimenter:# # $1)'234 %&'()"*+Romanization: ti si peng e to lai te siaN mih e to peng u tangGloss: at four side picture inside what left side have worm“Among the peripheral pictures, at what object’s left side is there a worm?”Answer 2 Speaker:# # $()56)'234!"/0'()"*+Romanization: ti to peng kah chiaN peng e to lai te chi u chhiu na e to peng u tangGloss: at left side and right side picture inside only forest left side have worm“Among the [left and right]NF pictures, there are worms at ONLY the [pickle’s]SOFleft side.”315


Proceedings of IDP 09By matching the five N1 targets with the four X side targets, and the eight N2 targets, therewere 140 target sentences (5 N1 target & 4 X side targets & 7 N2 targets). The 140 sentenceswere produced with either narrow or second occurrence focus on N1, X side, N2, or entirephrase; broad focus on the phrase, N1+ X side + N2; or second occurrence focus on thephrase. Thus there were altogether eight focus conditions, namely narrow focus on N1, Xside, N2, broad focus on phrase, second occurrence on N1, X side, N2, and phrase. Alltogether there were 1120 sentences (140 target sentences & 8 focus conditions). Each of thesentences was repeated three times, whereas sentences carrying second occurrence focus onthe entire phrase were repeated four times (Figure 1).Figure 1: Examples of pictures eliciting narrow and second occurrence focus on N1.2.3. ProcedureThe experiment took place in a sound treated room at the phonetics lab of the National ChiaoTung University. During the experiment, both the experimenter and the speaker were presentin the lab. The experimenter first hit a key on the keyboard to display the center picture.Then the experimenter asked the first question regarding the center picture. After the speakerreplied with the first answer containing narrow focus on target words, the experimenter hit thekey again to display an additional four pictures in the corners of the screen (Figure 1). Afterthe display of these pictures, the experimenter asked the second question to elicit a secondresponse with second occurrence focus on targets.2.4. InstrumentationA program was designed to display pictures at the center and in four corners of the screen andto elicit the above mentioned sentences. Speakers’ productions were picked up by an AKGHSD 200 head-mounted microphone then recorded by a SONY CD deck. The acousticsignals were saved to wave format. The duration data were obtained with Praat, whereas thef0 data were obtained with EMU.2.5. Data analysisThe times at the onset and offset of the target N1, X side, and N2 were taken, as were the f0peaks and valleys. As the current experiment used semi-spontaneous speech which allow thespeaker to rephrase their utterances as long a the word order of “at N1’s X side, there is N2”is maintained, data variation caused by variations in number of syllables, instrinsic syllable316


<strong>Actes</strong> d’IDP 09duration, speech rate must be taken into consideration. For example, the N1 and X sidetargets were of two syllables and the N2 targets were monosyllabic, the durations of targetswere normalized so that syntagmatic comparisons could be made.To eliminate duration differences caused by differences in number of syllables between N1,X side, and N2 targets, function (3) was used to calculate the percentile of individual N1duration within the entire duration range for N1. For each speaker, first the duration range forN1 was calculated first (MAXspeakerX_n1 - MINspeakerX_n1). Using the minimal durationof N1 as the reference point, the relative duration of each N1 target words with reference tothe minimal N1 duration (XspeakerX_n1 - MINspeakerX_n1 ) was then calculated. Bydividing the duration of each N1 relative to the minimal N1 target, the entire range for N1duration, the percentile of each N1 duration within the entire N1 duration range was derived.In other words, the AdjstXspeakerX_n1 is the percentile of individual N1 duration within theentire range of N1 duration produced by the same speaker.Similarly function (4) was used to derive the percentile of each X side target duration withinthe entire range of duration for X side target. There were all together eight functions foradjusting N1 and X side durations into percentile (1 N1 target & 4 speakers + 1 Xside target &4 speakers)(3) AdjstXspeakerX_n1 = (XspeakerX_n1 - MINspeakerX_n1 ) / (MAXspeakerX_n1 -MINspeakerX_n1)(4) AdjstX speakerX_side = (X speakerX_side - MINspeakerX _side) /(MAXspeakerX_side - MINspeakerX_side)As for the percentile of N2 duraiton, since the monosyllabic N2 targets carried unchecked, 55,13, 53, 31, 33, and check tones, 5 and 3 which were shorter than unchecked tones, theduration normalization process should take the intrinsic duration difference between checkedand unchecked tones into consideration. Thus, in stead of calculating one duration range forall N2 targets, N2 duration ranges were calculated individually for each of the seven N2targets carrying seven different tones (MAXspeakerX_n2_toneX - MINspeakerX_n2_toneX).After calculating the seven duration ranges for N2, the duration of individual N2 relative tothe minimal N2 target carrying the same tone (X speakerX_n2_toneX -MINspeakerX_n2_toneX ) were then divided with the duration range of N2 with the sametone to arrive at the percentile for individual N2 target. In other words, the adjusted duration(AdjsdtX speakerX_n2_toneX) was the percentile of individual N2 target duration relative tothe N2 duration range carrying the same tone produced by the same.(5) AdjsdtX speakerX_n2_toneX = (X speakerX_n2_toneX - MINspeakerX_n2_toneX ) /(MAXspeakerX_n2_toneX - MINspeakerX_n2_toneX)Besdies adjusting the duration according to number of syllables, the speech rate must be takeninto consideration as well. To normalize for speech rate, for each utterance, the individualpercentile for N1, X side, and N2 targets within the utterance were added up(AdjstXspeakerX_n1 + AdjstX speakerX_side + AdjsdtX speakerX_n2_toneX). Then the N1duration percentile for that utterance was divided by the added up duration percentiles toderive the portion of N1 duration within the “ at N1’s Xide, there is N2.” For each speaker,function (6) was used to calculate the portion of N1 duration within the phrase. Function (7)was used to calculate the portion of X side duration within the phrase, whereas function (8)317


Proceedings of IDP 09was used to calculate the portion of N2 duration within the phrase. As the speech rate goes upor slow down the duration of all targets within the same utterance shortened or lengthened alltogether, thus the normalized duration NormlXn1, NormlXxside, and NormlXn2 were theduration ratios of each target within a phrase. The normalized duration ratio fall between 0and 1.(6) NormlXn1 = AdjstXspeakerX_n1 / (AdjstXspeakerX_n1 + AdjstX speakerX_side +AdjsdtX speakerX_n2_toneX)(7) NormlXside = AdjstX speakerX_side / (AdjstXspeakerX_n1 + AdjstX speakerX_side +AdjsdtX speakerX_n2_toneX)(8) NormlXn2 = AdjsdtX speakerX_n2_toneX / (AdjstXspeakerX_n1 + AdjstXspeakerX_side + AdjsdtX speakerX_n2_toneX)After duration normalization, eight one-way ANOVA’s (targets) were used to analyze thenormalized duration ratio of three targets, N1, Xside, and N2 under each of the eight focusconditions (nf on N1, nf on Xside, nf on N2, bf on phrase, sof on N1, sof on X side, sof onN2, sof on phrase).3. Results3.1. DurationFigure 2 includes the syntagmatically normalized mean duration of targets from sentenceswith either broad focus or narrow focus on either N1, X side, and N2. There was a significanteffect of target word on durations in sentences with narrow focus on N1, X side, N2 targets,or broad focus on the entire phrase (N1: F (2, 5031) = 144.82, P< .01; X side: F (2, 5037) =526.96, p< .01; N2: F (2, 5037) = 389.53, p< .01; phrase: F (2, 5004) = 36.30, p< .01) . PosthocDuncan test showed that in sentences with narrow focus on N1, the durations of N1 targetwords were significantly longer than N2 target words, which in turn was significantly longerthan X side targets. For sentences with narrow focus on X side target, post-hoc Duncan testshowed that the duration of the X side target words were significantly longer than N1 targetwords, but were significantly shorter than the N2 target words. For sentences with narrowfocus on N2 targets, post-hoc Duncan test showed that the duration of the N2 target wordswere significantly longer than the duration of X side target words which in turn wassignificantly longer than the N1 target words from the same sentences. For sentences withbroad focus on the entire phrase “ at N1’s X side, there is a N2,” post-hoc Duncan testshowed that the duration of the X side target words was significantly longer than the durationof the N2 target words which in turn was significantly longer than the N2 target words.In sum, beside sentences with narrow focus son the X side target, the durations of narrowfocused N1 and N2 target words were longer than pre-focused or post-focused words from thesame sentences.Figure 2 also shows syntagmatic comparisons of normalized mean durations for targets fromsentences with second occurrence focus on either N1, X side, or N2 targets. When the secondoccurrence focus was on N1 target words, there was a significant effect of target word onduration for sentences with second occurrence focus on N1, X side, N2, and phrase (N1: F (2,5031) = 86.45, p< .01; X side: F (2, 5034) = 812. 81, p< .01; N2: F (2, 5031) = 2040. 68, p


<strong>Actes</strong> d’IDP 09second occurrence focus was on the N1 target, the duration of N2 target was significantlylonger than the duration of X side targets, which in turn was significantly longer than theduration of N1 targets. When the second occurrence focus was on X side, post-hoc Duncantests showed that the duration of X side targets was significantly longer than the duration ofN2 targets, which in turn was significantly longer than the N1 targets. When the secondoccurrence focus was on the N2 targets, Duncan tests showed that the duration of N2 targetwords was significantly longer than the duration of X side target words, which in turn werelonger than the duration of N1 target words. When the second occurrence focus was on theentire “N1 + X side + N2” phrase, post-hoc Duncan tests indicated that the duration of X sidetargets was longer than the duration of N1 and N2 targets. However, the duration of N1 andN2 target words in sentences with second occurrence focus on the entire phrase did notsignificantly differ.In sum, beside in sentences with second occurrence focus on the N1 target, the duration ofsecond occurrence focused X side and N2 target words were longest in sentences. When thesecond occurrence focus was on the entire phrase, the durations of the X side target wordswere longer than the N1 or N2 target words.Figure 3 shows the results of paradigmatic comparisons among the normalized meandurations of N1, X side, and N2 targets with broad focus, narrow focus, and secondoccurrence focus averaged across all sentences. The durations of Xside and N2 targets undersecond occurrence focus tended to be longest compared with the same target words underother focus conditions.319


Proceedings of IDP 093.2. F0 rangeFigure 4 and 5 show syntagmatic comparisons of speaker LYW’s mean f0 range of targetsproduced with narrow focus and second occurrence focus on target words and phrases. Inthese productions, the mean f0 range of X side targets was always greater than the mean f0range of preceding N1 targets, and the following N2 targets which had the smallest range. Inother words, the f0 range did not vary according to the locations of the narrow focus orsecond occurrence focus.As shown in Figure 6, paradigmatically, the average f0 range of narrow focused N1 or Xside targets was larger than those same targets under second occurrence focus. However, themean f0 range of N2 targets under narrow focus and second occurrence focus did not differ.This is most likely due to the final lowering and declination of f0. Thus, the f0 range ofnarrow focused N2 was similar to that of second occurrence focused N2.320


<strong>Actes</strong> d’IDP 094. DiscussionSyntagmatically, there was a trend for the durations of the lexical items under narrow focus orsecond occurrence focus to be longer than pre-focused or post-focused words in the samesentences. However, the f0 range did not vary according to location of narrow focus orsecond occurrence focus. Paradigmatically, only in X side and N2 targets was there a trendfor the second occurrence focused targets to be longer then X side and N2 target under narrowand broad focus. However, the f0 range of the narrow focused N1 and X side targets wasgreater than second occurrence focused N1 and X side targets. In sum, duration and f0 rangeacted in a complementary manner to mark second occurrence focus and narrow focus.Syntagmatically, duration was used to distinguish narrow focused and second occurrencefocused targets from pre-focused and post-focused targets. Paradigmatically, f0 range wasused to distinguish second occurrence from narrow focus.A previous acoustic study on narrow focus in Taiwan Min showed that duration was amore consistent cue than f0 in distinguishing narrow focus from broad focus (Pan, 2007).The present study again replicated these results by showing that duration is syntagmaticallyan acoustic cue that marks both narrow focus and second occurrence focus from defocused321


Proceedings of IDP 09targets. Furthermore, beside duration, the present study discovered that in non-final positions,f0 range is used to distinguish narrow focus from second occurrence focus.In English post-nuclear position, duration marks second occurrence focus (Beaver et al.,2007) and in German, duration and pitch changes marks pre-nuclear second occurrence focus(Fery and Ishihara, 2009). The current study on Taiwan Min, a tone language, indicates thatboth duration and f0 ranges are effective cues for marking second occurrence focus insyntagmatic and paradigmatic manner respectively. Further studies are necessary to explorehow second occurrence focus is acoustically realized in pre-narrow-focus positions.AcknowledgmentsThis project was supported by the National Science Foundation (NSC – 95 – 2411 – 11 – 009– 012 - MY2).ReferencesBeaver, D., Clark, B. Z. & E. Flemming, (2007). When semantics meets phonetics: Acoustical studies of SecondOccurrence Focus, Language 83: 2, pp. 245-275.Fery, C. & S. Ishihara, (2009). Interpreting Second Occurrence Focus, Journal of Linguistics 45:2, pp. 285-313.Howell, J. (2008). Second Occurrence focus and the acoustics of prominence, Proceedings of the 26 th WestCoast conference on formal Linguistics pp. 252-260.Jin, S. (1996) An Acoustic Study of Sentence Stress in Mandarin Chinese. Ph.D. dissertation, The Ohio StateUniversity.Ladd, D. R.(1996). Intonational phonology. Cambridge.Pan, H.-H. (2007). Focus and Taiwanese unchecked tones, In Topic and Focus: Intonational and Meaning froma cross-linguistic perspective, C. Lee, M. Gordon, and D. Buring (eds.), Springer Publisher / Netherland,pp.195-213,Partee, B. H. (1999). Focus, quantification, and semantics-pragmatics issues, in P. Bosch, and R. V. Sandt (eds.),Cambridge University Press / Cambridge, pp. 213-231.Xu, Y. (1999). Effects of Tone and Focus on the Formation and Alignment of f0 Contours. Journal of Phonetics27, pp. 55-107.322


<strong>Actes</strong> d’IDP 09Prosodie et dysarthrie parkinsonienne : l'intérêt d'INTSINT pourl'annotation de la parole pathologiqueKarine Rigaldie, Jean Luc Nespoulous, Nadine Vigourouxkarine.rigaldie@voila.fr, jean-luc.nespoulous@univ-tlse2.fr; vigourou@irit.frLaboratoire Jacques Lordat Octogone (Université Toulouse II Le Mirail Pavillon de laRecherche)IRIT (CNRS, UMR, Université Paul Sabatier) Route de Narbonne F-31062 Toulouse cedex 9Abstract :La plupart des recherches en parole ont étudié la prosodie d’un point de vue acoustique, phonologique,syntaxique, sémantique ou psycholinguistique. A notre connaissance, peu d’études ont abordé la prosodie chezles sujets parkinsoniens en considérant au même niveau et en même temps les trois niveaux d’analyse suivants :phonétique, phonologique et linguistique.Cet article décrit notre utilisation du codage INTSINT (Hirst 1993) et de l’algorithme MOMEL (Espesser 1996)dans le but d’évaluer les productions des sujets parkinsoniens entre l’état OFF et ON de prise médicamenteuse.Le codage INTSINT a été appliqué à de nombreux langages. Le but ici est de relever la pertinence de cetalphabet pour la parole pathologique.Keywords :Maladie de Parkinson, dysprosodie, dysarthrie, analyses acoustiques, schémas intonatifsIntroductionLes recherches relatives aux handicaps langagiers gagnent à être abordées dans le cadre detravaux pluridisciplinaires, elles contribuent en effet en une meilleure compréhension de laproduction normale du langage. Tel est le cas de la présente recherche portant sur certainsaspects de la dysprosodie dans la dysarthrie parkinsonienne.La prosodie relève de nombreux domaines parmi lesquels figurent : la phonation, laphonétique et la phonologie. Elle repose sur l’étude de divers paramètres physiques des sonstels que la durée, l’intensité et la mélodie (variation de la fréquence fondamentale).Depuis les années 80, bon nombre d'études ont été menées sur la prosodie avec desobjectifs différents mais ces recherches portent essentiellement sur de la parole normale. Or,nous pensons qu'il y a maints intérêts à travailler sur la parole pathologique et notamment surcelle des patients parkinsoniens.Ces intérêts concernent aussi bien le phonéticien, le clinicien, que le patient. Lephonéticien peut ainsi disposer de bases de données, actuellement inexistantes en français, surles troubles de la parole engendrés par le syndrome parkinsonien et/ou consécutifs auvieillissement « normal » de l’être humain. Le clinicien dispose d’une meilleure appréciation(à la fois aux plans moteur et articulatoire) des effets de la maladie sur la parole et donc desmoyens d’y remédier. Le patient, quant à lui, peut espérer, à terme, de nouvelles perspectivesde traitement et de rééducation de sa production orale. En effet, bien qu’elle entraîne un323


Proceedings of IDP 09handicap considérable pour la communication parlée, la dysarthrie des sujets parkinsoniens atrop souvent été considérée comme faisant partie des troubles « secondaires » de la maladie(Rascol, 1998) alors qu’elle vient perturber une des fonctions cruciales de l’être humain : lelangage et la communication inter-individuelle.Il existe deux hypothèses majeures susceptibles d’expliquer l’origine de la dysarthrieparkinsonienne :• Darley, Aronson & Brown (1975) affirment qu’il s’agit d’une limitation dans l’exécutiondes mouvements respiratoires et phonatoires, liée à une carence de tonicité musculaire.• Scott, Caird & Williams (1984) ainsi que Lagrue, Mignard, Viallet & Gantcheva (1998)estiment que la principale cause réside dans une atteinte cognitive plus « centrale » c'està-diredans une altération du traitement des paramètres intonatifs et, plus largement,prosodiques.L’objet de la recherche décrite dans cet article est double : a) elle vise à mieuxcomprendre les dysfonctionnements prosodiques de la dysarthrie parkinsonienne (variationsde la fréquence fondamentale (F0) ; b) et elle se propose également d’étudier l’effet destraitements pharmacologiques à base de dopamine sur la production de parole. Plusprécisément, nous nous attacherons à étudier le comportement prosodique des sujetsparkinsoniens dans la production d’un schéma de type interrogatif dans deux états detraitement pharmacologique : l’état ON (prise de dopamine) vs l’état OFF (sevrage endopamine). Les analyses retenues visent non seulement à l’identification des caractéristiquesdes courbes mélodiques réalisées par les sujets pathologiques, mais également à capterl’éventuelle apparition de stratégies palliatives lors de la réalisation des stimuli (Cf. infra).Dans une première partie, nous décrirons la dysarthrie parkinsonienne et présenterons unrapide état de l’art concernant les études sur cette pathologie. Une deuxième partie portera surla méthodologie que nous avons adoptée : population étudiée, protocole expérimental, etnature des stimuli. Enfin, nous exposerons et commenterons les premiers résultats que nousavons obtenus au terme de notre analyse perceptuelle ainsi qu’au terme de notre étude desdivers paramètres acoustiques (F0, principalement)1. Les troubles de la parole dans la maladie de Parkinson. Physiopathologie des troublesde la parole chez les sujets parkinsoniensLes symptômes de la maladie de Parkinson, au plan de la parole, se manifestent par une« perte de la mélodie kinétique » dans les termes du neuropsychologue russe Alexandre Luria(Luria, 1976), c'est-à -dire par des difficultés dans l’initiation et la gestion dynamique desmouvements requis pour la production orale. Diverses manifestations motrices peuvent êtreassociées à cette maladie. On les regroupe classiquement sous l’appellation générique de« syndrome parkinsonien ». Celles-ci conduisent à l’identification de la triadesymptomatologique fondamentale de la maladie de Parkinson : l’akinésie, le tremblement derepos et la rigidité musculaire. A ces symptômes, affectant la motricité des membressupérieurs et inférieurs, viennent souvent s’ajouter les troubles de la parole, dont ceux quinous intéressent au premier chef dans la présente étude.Le sujet parkinsonien, classiquement, présente une dysarthrie de type hypokinétique.Celle-ci est la conséquence d’une lésion du système nerveux central ou périphérique. Les troisfonctions principales de la phonation sont touchées : (a) la respiration (= difficulté dansl’initialisation de l’acte respiratoire et phonatoire : expiration, résonance, nasalisation), (b) la324


vibration des cordes vocales et (c) l'articulation. En effet, les troubles de la communicationparlée communément observés dans cette dysarthrie sont : (a) la diminution de l'intensité de lavoix (qui semble être la manifestation la plus fréquente ; Ramig, Bonitati, Lemke & Horii,1994), (b) l'altération du timbre (qui peut être rauque 1 , sombre 2 ou sourd 3 ) et (c) ladysprosodie ou atténuation des paramètres prosodiques : fréquence fondamentale, durée,intensité, débit.Ainsi, selon Chevrie-Muller (p 225, 1998), les troubles d'origine motrice auraient uneincidence sur la production de la parole : « le handicap qui perturbe la communication oraledans la maladie de Parkinson est un trouble de la réalisation motrice de la parole. Lesdifférents mécanismes les plus souvent impliqués dans cette maladie peuvent être atteints auniveau laryngo-respiratoire de la voix parlée (et chantée) et au niveau articulatoire (motricitédes lèvres, de la langue, des muscles de la mâchoire et des muscles vélo- pharyngés) ».Chevrie-Muller, se référant aux travaux de Longman, Fisher & Boshes (1981) et dePawlas, Ramig & Countryman (1996), souligne que « chronologiquement, les troubles lesplus précoces sont ceux qui atteignent la production de la voix. Ils seraient quasi-constantsdans la période qui couvre les cinq premières années d'évolution de la maladie alors quel'atteinte de l'articulation est plus tardive, n'apparaissant qu'après plusieurs années ».D’un point de vue physiopathologique, toujours selon le même auteur, les troubles de lacommunication parlée pourraient être rattachés :• A la rigidité consécutive aux insuffisances laryngo-respiratoires et articulatoires, uneobservation déjà effectuée par Ramig et al. (1994),• A un dysfonctionnement de diverses activités motrices, habituellement automatiques, àl'origine (a) de la tachylalie (débit de parole accéléré), (b) de la festination, ou véritablepiétinement de la parole prenant la forme d'un marmonnement, avec démarrage hésitant etfréquente répétition d'une syllabe, suivie parfois d'un blocage et (c) de la palilalie (=répétitions d’un même segment avec baisse progressive de l’intensité de la voix).2. Etat de l’art des études sur les troubles de parole dans la maladie de Parkinson2.1 Les études perceptuelles et acoustiques sur les troubles de la parole des sujetsparkinsoniensa) Les études perceptuelles et articulatoires ont compté parmi les premières descriptions deces troubles.L'articulation et l'émission sonore seraient entravées par l'akinésie due à la rigidité et à lamauvaise coordination des lèvres et de la langue Au niveau de la mâchoire, l'articulation estréduite et la différenciation entre voyelles et consonnes se fait mal. Plusieurs auteurs, à lasuite des travaux de Lehiste (1965) et de Darley et al. (1975), insistent sur l’existence d’unmanque de coordination entre la mise en vibration des cordes vocales et les mouvements desarticulateurs, conduisant, en particulier, à une imprécision dans la réalisation orale des1Voix dont le timbre est lié à un mécanisme de serrage qui se manifeste par une diminution de l’étendue vocaleet des bruits non périodiques qui donnent un effet de feulement, extrait du dictionnaire (Campolini, Van Hovell& Vandsteeland, pp. 83, 1997).2 Voix dont le timbre comporte trop d’harmoniques graves et qui résulterait d’une insuffisance de tonicité de lamusculature impliquée dans la parole, entraînant une position basse du larynx et un relâchement des cavités derésonance (Campolini et al., p 84, 1997,).3 La voix sourde est caractérisée par une altération du timbre de la voix donnant l’impression d’une voixrésonnant à l’intérieur et donc de faible puissance (Campolini et al., p. 84, 1997).325


Proceedings of IDP 09consonnes. Le patient aurait tendance à sonoriser les consonnes sourdes (transformation de [t]en [d]), et à assourdir les consonnes sonores (transformation de [z] en [s]). Ce phénomèneserait lié à l’occlusion incomplète du conduit vocal, aboutissant à un échappement continu duflux aérien, avec bruit de friction (Gentil, Pollack & Perret, 1995). Les fricatives seraientégalement moins sifflantes en raison de cette déperdition constante au niveau du fluxexpiratoire Longeman et al. (1981). D’une façon générale, le dysfonctionnement articulatoiredébuterait par les consonnes ayant un point d’articulation postérieur, tels le [k] et le [g] ets’étendrait, par la suite, aux consonnes labiales correspondant au [p] et au [b] (Longeman etal. 1981).b) Les études acoustiquesLes études acoustiques ont permis de préciser la nature des problèmes d'articulation grâceà une analyse et une interprétation minutieuse de spectrogrammes. Les premières observationsmenées dans ce domaine indiquent un manque de respect du mode et du point d’articulation :(a) fermeture incomplète des occlusives, ainsi transformées en fricatives, (b) voisement decertaines consonnes sourdes, et en particulier des occlusives, (c) réduction des transitionsformantiques, (Connor, Ludlow & Schulz, 1989 ; Ackermann & Ziegler, 1991 ; Lieberman,Kako, Friedman, Tajchman, Feldman & Jimenez, 1992).Les troubles de la voix se manifestent au niveau des quatre caractéristiques acoustiquesprimordiales : hauteur, intensité, durée et timbre. La hauteur de la voix est perturbée ; ellepeut être soit monotone, soit plus aiguë, une caractéristique qui serait induite par l'hypertoniede certains muscles (thyro-aryténoïdiens). La durée des silences entre les mots se raccourcit;le mouvement des organes de la phonation est réduit par l'akinésie et le voile du palais, peumobile, provoque souvent un nasonnement.Pour caractériser la voix des malades de Parkinson les termes de « monotonie de la voix »ou « voix faible » sont souvent utilisés (Dejong, 1967 ; Cumming et al. 1988 ; Gentil et al.1995). Ramig et al. (1994), ainsi que Seguier, Spira, Dordain, Lazar & Chevrier Muller(1974) évoquent l’existence d’un tremblement de la voix. Une altération du timbre, la« raucité » de la voix sont également mentionnés par certains auteurs (Dejerine, 1914; Darleyet al. 1969 ; Seguier et al. 1974).2.2 Prosodie/Dysprosodie/AprosodieL’étude prosodique consiste à analyser la variation des paramètres de hauteur, d’intensité etde durée ainsi que les stratégies pausales de la production de parole, autant de paramètres qui,par leurs variations, véhiculent des informations linguistiques ou émotionnelles. Ladysprosodie constitue souvent le premier signe de la dysarthrie parkinsonienne. Bérubé ladéfinit ainsi : « la dysprosodie est un trouble de l'élocution qui se manifeste par une parolelente, syllabique et monotone avec atténuation de la mélodie » (Bérubé, 1991, p.176).La dysprosodie consiste ainsi en l'atténuation des faits prosodiques, le terme d’aprosodieétant réservé aux cas de disparition complète de ces mêmes faits prosodiques. Ces troublesprosodiques se manifestent, sur le plan acoustique, au travers des quatre paramètres de la voixdéjà cités.L'intensité est le paramètre le plus difficile à identifier, ce qui est certainement dû auxcorrélations avec le F0 (Rossi, 1981).La présence ou l’absence de variabilité d'intensitédépend, selon Ludlow & Bassich (1984), du degré de sévérité de la maladie de Parkinson.L’affaiblissement de l'intensité peut aller jusqu'au chuchotement. Il peut s'installer d'emblée326


ou seulement en fin de production et il peut être accompagné d’un ralentissement de la vitessed’articulation (Ackermann et al. 1997). Concernant le F0, les résultats des études sontcontradictoires. Les travaux de Ludlow et al. (1984) montrent que le F0 augmente avec lasévérité du trouble. En revanche, il diminuerait selon Canter et al. (1963). D'une manièregénérale, Weismer (1984) observe une carence dans la variation du F0, ainsi responsable de lamonotonie de la parole de ces patients.Lagrue, Mignard, Viallet & Gantcheva (1999) observent que les caractéristiques tonalesde la voix diffèrent entre sujets parkinsoniens traités et non traités. Ils concluent que cesrésultats contradictoires, en perception et en production, confirment l’hypothèse de Darley etal.(1969) selon laquelle la dysprosodie parkinsonienne proviendrait bien d’undysfonctionnement neuro-moteur périphérique affectant l’activité motrice du larynx. Plusrécemment, une série de travaux, initiés par Viallet, Teston, Jankowski, Purson, Peragut,Régis & Witjas (2002), ont eu pour objectif de comparer les effets d’un traitementpharmacologique par rapport à ceux susceptibles de résulter de l’implantation d’électrodesdans le noyau subthalamique (NST). Les résultats de l’étude montrent clairement uneamélioration de la fréquence fondamentale dans les deux cas. Aucun changement significatifn’a cependant été obtenu sur l’intensité et la durée.3. Protocole expérimental3.1 Outils cliniques d’évaluationLes échelles d'évaluation cliniques recensées ci-après sont des tests élaborés par lesneurologues afin de définir le degré de sévérité de la maladie de Parkinson. Celui-ci esthabituellement défini au moyen de l’échelle d’évaluation globale de Hoehn et Yahr (1967),laquelle permet de classer les patients en différents stades (de 1 à 5) selon la sévérité de leursatteintes. L’échelle UPDRS (Unified Parkinson's Disease Rating Scale) est une échelle multidimensionnelledivisée en plusieurs sections : état mental, comportemental et thymique,activités de la vie quotidienne (ON/OFF), examen moteur (ON/OFF), complications dutraitement (dyskinésies, fluctuations, dysautonomie, etc.). L’UPDRS est également utile ausuivi des patients et à l’évaluation de l’effet des interventions thérapeutiques. La comparaisondes états OFF et ON permet d'évaluer la réponse éventuelle à la L-Dopa (les scores de laparole et du tremblement sont compris entre 1 et 4 ; cf. tableau 1). La dernière échelle (MiniMental State) est non spécifique à la maladie de Parkinson (démences de type Alzheimer,syndromes confusionnels…). Elle vient combler les lacunes de l'UPDRS dans certainssecteurs (cognitifs, thymiques, dyskinésies, fluctuations et évaluation motrice).3.2 Tableau clinique des patientsLes patients parkinsoniens retenus pour la présente étude sont des sujets dénués de toute autremaladie neurologique et ils présentent tous des troubles dysarthriques identifiables au moyend’une étude perceptuelle. Ils sont tous d’origine française ; ils ont tous entre 60 et 75 ans etprésentent, d’un point de vue perceptuel, une altération de la parole aisément repérée parl’équipe médicale selon l’échelle de la maladie de Hoehn et Yhar (1967) : stade III et IV auniveau de cette échelle. A ce jour, 10 sujets parkinsoniens (états ON et OFF) et 10 sujets decontrôle ont passé nos protocoles expérimentaux.Les principales données cliniques sont présentées dans le tableau 1, ci-dessous.327


Proceedings of IDP 09SujetsParkinsoniensFemmesDuréed’évolution(en nombred’année)EchelleHoehn EtYahrExamenMoteur ScoreUPDRS étatOFFExamenMoteur ScoreUPDRS étatONEchelleMMSParoleTremblementS 1, 79 ans 6 2.5 21 9 30 2 2S 8, 77 ans 10 3 20 25 28 2 1HommesS 2, 75 ans 7 3 19 10 30 1 1S 3, 53 ans 6 2.5 19 14 30 1 1S 4, 74 ans 12 4 49 55 28 2 2S 5, 67 ans 7 3 33 21 30 2 1S 6, 73 ans 12 2.5 12 3 30 1 1S 7, 72 ans 15 4 22 25 24 2 1S 9, 75 ans 18 4 40 30 26 2 2S 10, 80ans 15 3 49 55 24 1 1Figure 14. ObjectifsL’un des objectifs relatif à l’étude d’un schéma intonatif de type interrogatif répliqué troisfois, au début, au milieu et en fin de protocole, est notamment d’observer les variations de lafréquence fondamentale et de l’énergie, ceci en état ON et OFF de la prise médicamenteusedes sujets. L’un des objectifs relatif à l’étude d’un schéma intonatif de type interrogatifrépliqué trois fois, au début, au milieu et en fin de protocole, est notamment d’observer lesvariations de la fréquence fondamentale et de l’énergie, ceci en état ON et OFF de la prisemédicamenteuse des sujets.En 1998, Le Dorze [6] observe les variations du F0 sur des schémas intonatifs de typequestion-affirmation.Chez les sujets parkinsoniens, les troubles de la voix se manifestent donc au niveau des quatrecaractéristiques acoustiques primordiales : hauteur, intensité, durée et timbre. La hauteur de lavoix est perturbée ; elle peut être soit monotone, soit plus aiguë, une caractéristique qui seraitinduite par l'hypertonie de certains muscles (thyro-aryténoïdiens). La durée des silences entreles mots se raccourcit; le mouvement des organes de la phonation est réduit par l'akinésie et levoile du palais, peu mobile, provoque souvent un nasonnement. Pour caractériser la voix desmalades de Parkinson les termes de « monotonie de la voix » ou « voix faible » sont souventutilisés (Gentil et al. 1995). Ramig et al. (1994) évoquent l’existence d’un tremblement de lavoix. Une altération du timbre, la « raucité » de la voix sont également mentionnés parcertains auteurs ( Seguier et al. 1974).L’intonation est la variation de la hauteur du son laryngé. Elle peut prendre des formesdifférentes selon le type de discours. L’analyse des différents schémas intonatifs permet devérifier si les sujets sont oui ou non capables de faire varier la fréquence fondamentale, doncde moduler la hauteur de leur voix. Les patrons intonatifs jouent un rôle linguistiquedéterminant dans la communication. Les formes des courbes mélodiques peuvent présenter de328


nombreuses variantes selon les caractéristiques intra et inter individuelles du locuteur et deseffets phonostylistiques. Pike (1945), Delattre (1966) et Rossi (1981), ont proposé des règlesprosodiques et acoustiques à associer aux modèles théoriques des schémas intonatifs. Cettemanière de formaliser les contours mélodiques à l’avantage de rendre compte des traitsgénéraux et d’éliminer les caractéristiques individuelles.L’objet de cette étude est d’observer les troubles prosodiques des sujets parkinsoniens auniveau phonétique et phonologique. Il s’agit précisément de rendre compte des variations dela fréquence fondamentale sur des stimuli de schémas intonatifs de type interrogatif en étatOFF et ON de prise médicamenteuse.Notre travail s’appuie sur la phonologie tonale (Hirst 1993) qui a pour cadre : la définition dedeux tons “haut” et “bas”, les segments phonématiques, les segments d’unités intonatives(groupes accentuels) et les unités intonatives (groupes intonatifs).Cette approche a retenu notre attention car elle offre a priori un bon cadre de représentativitéformelle de la structure prosodique : cette dernière y étant représentée sous la forme degabarits tonals (Hirst 1993).INTSINT est un système de transcription de la courbe intonative. Les patrons prosodiquesdérivés de la représentation formelle sont décrits par un nombre limité de symboles, chaquesymbole étant associé à une variation pertinente de la courbe de fréquence fondamentaledétectée par l’algorithme MOMEL.Ces symboles relèvent de deux catégories : les symboles absolus représentent les limitesHaut, Bas, Medium de la tessiture du locuteur, respectivement T (Top = haut) ; B (Bottom =bas) ; M (Mid = moyen) ; les tons relatifs indiquent les changements de hauteur par rapport ausymbole précédent : H (Higher point plus haut), L (Lower point plus bas), S ( Same = mêmehauteur), D (Downstep = déclinaison ou abaissement), U (Upset = rehaussement intonatif).MES (Motif Environment Speech) est un éditeur de parole qui permet la représentation de lacourbe après détection des points cibles par l’algorithme MOMEL (pour Modélisation deMélodie). Cet algorithme proposé par Hirst et Espesser (1993) se situe dans le courant dereprésentation et stylisation mélodique de Delattre mentionnée plus haut.Par un traitement entièrement automatique du signal, de type lissage mathématique, la courbedu F0 est réduite en un ensemble de points représentant les changements significatifs (pointscibles), qui sont ensuite interpolés par une courbe lisse représentant la seule informationmacro-prosodique.Nous pouvons ainsi extraire pour chaque point cibles les valeurs de F0 ainsi que le momentprécis ou cette valeur est mesurée (échelle du temps). Il permet également de découper lesignal selon les symboles de INTSINT (International System for Intonation).Dans le cadre de cette recherche, le but est d’étudier la pertinence de cet alphabet pour laprosodie de la parole dysarthrique. L’objectif visé est d’analyser la représentationphonologique de surface de l’intonation de l’énoncé, prononcé en état ON versus OFF deprise médicamenteuse et de répondre à nos hypothèses : le traitement à base de L-Dopaaméliore-t-il les productions des sujets parkinsoniens et d’autre part, les sujets présentent-ilsdes difficultés à réaliser correctement les schémas intonatifs selon la modalité donnée.329


Proceedings of IDP 095. MéthodologieLe schéma interrogatif correspond à une question de type syntaxique déclaratif, “Vous avezappris la nouvelle?”. La phrase interrogative devrait être marquée par une montée importantede la voix à la fin de la phrase surtout quand la structure de la phrase est de type énonciatif,comme c’est le cas dans notre étude.La forme de la pente mélodique est déterminante. Plus l’angle se rapproche de 90°, plus lacourbe est perçue comme une question, Léon [9]. Il faut souligner que les formes des courbespeuvent présenter de nombreuses variantes selon les caractéristiques intra et interindividuelles du locuteur et des effets phonostylistiques comme par exemple un niveaud’attaque plus ou moins haut pour une question, une montée plus ou moins ample pour unecontinuation, une descente plus ou moins brusque pour une finalité.Le stimulus « vous avez appris la nouvelle ? » a donc été produit trois fois par l’ensemble dessujets femmes et hommes, ceci en début du protocole N1 (première production de nouvelle),au milieu du protocole : N2 et à la fin du protocole : N3. Nous avons posé l’hypothèse selonlaquelle les valeurs de fréquence, d’intensité et de durée de la dernière occurrence N3 seraientplus basses comparées à celles de la première N1 et de la deuxième N2. Cela traduirait selonnous un effet de fatigue.6. Interprétation des points cibles (T, M, B)La figure 2 représente de bas en haut, la fréquence fondamentale brute et l’étiquetage dessymboles INTSINT déterminant les points cibles de l’onde. Cette sortie est produite parl’éditeur de signal SIGNAIX (Espesser, 1996). Dans le cadre de cette recherche, le but estd’étudier la pertinence de cet alphabet pour la prosodie de la parole dysarthrique. L’objectifvisé est l’analyse de la représentation phonologique de surface de l’intonation de l’énoncé,prononcé en état ON versus OFF de prise médicamenteuse. A ce jour, nous avons observéhuit patients parkinsoniens en état OFF et ON (deux femmes et six hommes). Nous avonsvoulu vérifier si les valeurs du F0 décroissent entre la première, la deuxième et la dernièreréalisation et ceci au niveau de la répartition des points cibles. Le nombre de points cibles etleur répartition correspond soit à une augmentation ou à une baisse des valeurs de fréquencefondamentale. Cela nous permet d’observer la stratégie prosodique de chaque locuteur.330


EnveloppeCodage INTSINTAnnotation orthographiquePoints ciblesMOMELFigure 2Si nous comparons les valeurs de fréquence liée à T, M, B, entre le OFF et le ON et ce, entreles trois productions, les variations de la fréquence fondamentale est plus significative cheztrois patients (P1, P7 et P9). La seconde constatation est qu’en état OFF, les valeurs defréquence fondamentale sur la troisième production sont plus élevées pour trois patients (P7,P9, P10 et P12). En état ON, les mêmes augmentations des valeurs de la fréquence sontobservées chez deux patients (P9). Si nous observons la moyenne du F0 sur la dernièreréalisation de la phrase interrogative, la dernière réalisation est la meilleure chez un seulpatient (P12) et cela en état ON. Nous avons comparé la première réalisation avec ladeuxième. En état OFF la seconde réalisation est meilleure pour la moitié des patients.Toujours en état OFF, la dernière réalisation est meilleure pour la moitié des patients. En étatON la dernière réalisation est meilleure par rapport aux deux premières chez seulement unpatient (P10).Selon INTSINT, les premiers éléments de codage devraient commencer au niveau de la valeurmoyenne du locuteur (M) et finir au niveau le plus haut (T). Il y a cependant en réalité unetrop importante variabilité dans l’interprétation des points cibles. Nous étudions entre autre,les variations entre les plus hautes et les plus basses valeurs de la fréquence fondamentale.Ainsi ces valeurs peuvent tomber sur une voyelle, sur un noyau vocalique ou sur un mot.Certains problèmes dus à la génération automatique de la labellisation permis grâce à celogiciel, n’est pas facilement applicable à de la parole dysarthrique et précisément à certainstypes de stimuli. Voilà pourquoi nous avons poursuivit notre étude des schémas intonatifsavec Winsnoori. Toutefois, nous avons rapporté l’intérêt et la complémentarité de certainséditeurs de signal. Nous n’excluons donc pas d’utiliser à nouveau MES pour des corpus orauxplus long, tels que la parole spontanée ou la lecture de texte.ReferencesAckerman, H., Ziegler W (1991) Articulatory deficits in parkinsonian dysarthria : an acoustic analysis, J NeurolNeurosurg Psychiatry, 54, pp. 1093-1098.Auzou, P (1998) Evaluation clinique et acoustique des dysarthries neurologiques, Thèse de doctorat, Universitéde Caen.331


Proceedings of IDP 09Berube, L (1991) Terminologie de neuropsychologie et de neurologie du comportement,. Montréal. Éditions dela Chenelière.Campolini, C., Van Hovell, V., Vandsteeland, A (1997) Dictionnaire de logopédie, le développement du langageet sa pathologie, Peeters, Louvain La neuve, 1997.Canter, G.- J (1963) Speech characteristics of patients with Parkinson’s disease: Intensity, pitch and duration,Journal of Speech and Hearing Disorders, 28, n°3, pp. 221-229.Chevrié-Muller, C (1998) Intervention rééducative sur la voix et la parole dans la maladie de Parkinson, In: A.Rascol (Ed.), La maladie de Parkinson, Acanthe - Masson, Paris, pp. 223-237, 1998.Connor, N.-P., Ludlow, C.-L., Schulz, G.-M (1989) Stop consonant production in isolated and repeated syllablesin Parkinson's disease, Neuropsychologia, 27(6), pp. 829-838.Cummings, J.-L., Darkins, A., Mendez, M., Hill, M.-A., Benson, D.-F (1988) Alzheirmers’ disease andParkinson’s disease: comparison of speech and language alteration, Neurology, 38, pp. 680-684.Darkins, A.-W., Fromkin, V.-A., Benson, D.-F (1988) A characterization of the prosodic loss in Parkinson’sdisease, Brain and Language, 34, pp. 315-327.Darley, F.-L., Aronsnon, A.-E., Brown, J.-R (1969) Differential diagnostic patterns of dysarthria Journal ofSpeech and Hearing Research, 12, pp. 249-269.Darley, F.-L., Aronsnon, A.-E., Brown, J.-R R (1975) Motor speech disorders, Saunders W.-B, Philadelphia, pp.171-1975.Dejerine, J. (1914) Sémiologie des affections du système nerveux, Masson, Paris.Dejong, R.-N (1967) The neurologic examination, incorporating the fundamentals of neuroanatomy andneurophysiology, Hoeber Medical Division, Harper & Row, New York.Delattre P (1966) Les dix intonations de base du français. In French Review, 40, American Association ofteachers of French, Illinois, 1-14.Espesser, R (1996) MES Un environnement de traitement du signal. <strong>Actes</strong>, XXIe Journées d'Etude sur la Parole,p.447.Gentill, M., Pollack, P., Perret, J (1995) La dysarthrie parkinsonienne, Revue Neurologique, 151, n° 2, pp. 105-112.Hirst DJ.et Espesser R (1993) Automatic modelling of fundamental frequency using a quadratic spline function”,travaux de l'institut de phonétique d'Aix, 15, 71-8.Hoen, M.-M., Yarh, M.-D (1967) Parkinsonism : onset progression and mortality, Neurology, 17, pp. 472-442.Lagrue, B., Meynadier, Y., Mignard, P (1998) Voix et maladie de Parkinson : Etude de la hauteur, de l'étendue etde la dynamique tonale, In: S. Santi, I. Guaitella, C. Cavé, G. Konopczynski (Eds), Oralité et gestualité.Communication multimodale, interaction. <strong>Actes</strong> du colloque Orange 98, L'Harmattan, Paris, pp. 235-240.Lagrue, B., Mignard, P., Viallet, F., Gantcheva, R (1999) Voice in Parkinson disease: A study of pitch, tonalrange and fundamental frequency variations, ICPhs San Fransisco, Vol. 9, pp. 1811-1814.Laur, D., Vigouroux, N., Nespoulous, J. L (1996): Les altérations de la parole dans la maladie de Parkinson :bilan et perspectives de recherche, dans Cahiers du Centre Interdisciplinaire des Sciences du Langage n° 11,1995 1996, Université Toulouse-Le Mirail, pp 49-61.Le Dorze, G., Ryalls, J., Brassard, C., Boulanger, N., etRatte, D (1998) A comparison of the prosodiccharacteristics of the speech of people with Parkinson’s disease and Friedrich’s ataxia with neurologicallynormal speakers. Folia Phoniatrica e Logopaedica, 50, 1-9.Leon P.R (1992) Phonétisme et prononciations du français. Edition, Nathan ParisLehiste, I (1965) Some acoustic characteristics of dysarthric speech, Bibliotheca Phonetica, New York,.Lieberman, P., Kako., E.-T., Friedman, J., Tajchman, G., Feldman, L.-S., Jimenez, E.-B (1992) Speechproduction, syntax comprehension, and cognitive deficits in Parkinson's disease, Brain and Language, 43, pp.169-189.Logman, J.-A., Fisher H.-B., Boshes, B (1981) Frequency and occurrence of vocal tract dysfunction in thespeech of a large sample of parkinson patients, Journal of Speech and Hearing Disorders, 3, pp. 47–57.Ludlow, C.-L., Bassich, C.-J. (1984) Relationship between perceptual rating and acoustic measures ofhypokinetic speech, McNeil, Mr, Rosenbek, J.-C., Aroson, A.-E. (eds), The dysarthrias: physiology,acoustic, perception, management. College Hill Press, San Diego pp. 163-196.Luria, AR., (1976) The working Brain. An Introduction to Neuropsychology, Basic Books, New YorkPawlas, A.-A., Ramig, L.-O., Countryman, S (1996) Perceptual voice and speech characteristics in patients withidiopathic Parkinson, National Center of Voice and Speech Status and Progress Report, 10, pp. 79-87.Pike K (1945)The intonation of American English, Ann Arbor, University of Michigan.Ramig, L.-O., Bonitati, C.-M., Lemke, J.-H., & Horri, Y (1994) Voice treatment for patients with Parkinsondisease: Development of an approach and preliminary efficacy data. Journal of Medical Speech-LanguagePathology, 2(3), pp. 191-209.332


Rascol A (1998) La maladie de Parkinson. Paris, Acanthe. Masson.Rossi, M., Di Cristo, A., Hirst, D., Martin, P. et Nishinuma, Y(1981) L'intonation: de l'acoustique à lasémantique, Paris: Klincksieck. 1981.Scott, S., Caird, F.-I., Williams B.-O (1984) Evidence for an apparent sensory speech disorder in Parkinson’sdisease, Journal of Neurology, Neurosurgery, and Psychiatry, 447, pp. 302-304.Seguier, N., Spira, A., Dordain, M., Lazar, P., Chevier Muller, C., (1974) Etude des relations entre les troublesde la parole et les autres manifestations cliniques de la maladie de Parkinson, folia Phoniatrica, 26, pp. 108-126.Teston, B (2001) Evaluation acoustique des dysarthries : méthodes acoustiques et aérodynamiques, in AUZOU,P., OZÇANCACK, C., BRUN, V., (Eds.), Les dysarthries, (Problèmes en médecine de rééducation, 41),Masson, Paris, pp. 90-108.Teston, B., Ghiao, A., Viallet, F (2000) Evaluation objective de la dysprosodie des pathologies neurologiques :critères de différentiation diagnostique et suivi longitudinal des prises en charge thérapeutiques, 23èmesJournées d’Etude Sur la Parole (JEP), Aussois, pp 441-444.Viallet, F., Teston, B., Jankowski, L., Purson, A., Peragut, J.-C., Régis, J., Witjas, T (2002) Effects ofPharmacological versus Electrophysiological Treatments on Parkinsonian Dysprosody, Speech Prosody, Aixen-Provence,pp. 679-682Vigouroux, N., Laur, D., Nespoulous, J.-L (1999) Etude phonétique de la dysarthrie dans la maladie deParkinson, Rapport d’avancement.Weismer, G (1984) Acoustic description of dysarthric speech: perceptual correlates and pysiological inferences,Rosnebeck, JC., (ed.) Seminars in speech and language, New York, Stratton.333


<strong>Actes</strong> d’IDP 09Naïve listeners’ perceptions of French prosody compared to the predictionsof theoretical modelsCaroline L. Smithcaroline@unm.eduUniversity of New MexicoAbstract :In this study, naïve French listeners’ perceptions of prosody are compared to descriptions of prosodic structure inthe literature, and to the results obtained in a similar experiment with American listeners (Cole et al. submitted).Untrained participants listened to recorded spontaneous speech, while following along on an unpunctuatedtranscript. The listeners were assigned to one of two groups: one group was asked to underline all the“important” (prominent) words, the other to mark locations where they perceived a break between two groups ofwords (phrasing). The French listeners demonstrated a strong tendency to mark as prominent those wordsimmediately preceding locations perceived as phrase boundaries. This tendency agrees with descriptions ofFrench accentual groups as ending with a prominence. However, the listeners marked boundaries on averageapproximately every ten words, implying phrasal groupings far longer than accentual groups. A possibleexplanation is that the listeners were actually marking Intonational Phrases.1. Background1.1. Prominences and boundaries in French prosodyFrench prosody has been analyzed by numerous researchers whose models, at least for themost part, share certain proposals in common. (A survey of several of these is given inLacheret-Dujour and Beaugendre 1999.) At least two levels of prosodic structure areidentified between the syllable and the utterance; here I will refer to the smaller of these as an‘accent group’ and the larger as an ‘Intonational Phrase’. (For a helpful diagram comparingterminology used by different authors see Di Cristo 2005:152.) Two potential locations forprominence are identified within the accent group. These are often referred to as initial andfinal accents. In some cases, these (particularly the initial accent) are further classifiedaccording to different roles that they may fulfill (Di Cristo & Hirst 1997, Di Cristo 1999).The study reported here investigates the connection between two aspects of prosody,prominence and phrasing. Descriptions of French prosodic structure take for granted thatprominence and phrasal boundaries are related, with a prominence falling immediately beforea prosodic boundary. “L’accent final peut être considéré principalement comme un attracteurde frontière” (Di Cristo 2000:40) is a typical statement. An even stronger claim is that “finalstress [ = accent final in French] entails a right hand boundary of the intonation unit.”(Mertens 2006:70) Writers seem to differ as to whether the occurrence of prominence derivesfrom the boundary, or vice versa. Jun and Fougeron’s (2002:147) description suggests that theprominence derives from the existence of a boundary: “the final full syllable of a word isrealized with longer duration and higher intensity [that is, as more prominent] only if it is thelast full syllable of a phrase.” Di Cristo (2000:39), on the other hand, seems to imply that thefinal accent “generates” a boundary: “il existe une dissymétrie fonctionnelle potentielle entrel’accent initial et l’accent final, dans la mesure où le premier est, en règle générale, générateur335


Proceedings of IDP 09d’emphase et le second de frontière.” In any case, the models predict, or assume, that thelocations of prominent syllables and the locations of prosodic boundaries are linked. Note thatthis is in sharp contrast to English, in which there are no particular predictions about thelocations of prominences relative to boundaries, except that in a neutral declarative utterancethe word with nuclear accent is often the last content word. For example, in ToBI annotationof English prosody (Beckman and Ayers Elam 1997), the marking of pitch accents(prominences) and break indices (boundaries) are treated as two separate tasks.“Prominence” is being used here without reference to any specific theory, to refer to anyword or syllable that stands out from its neighbors by virtue of some combination of acousticproperties making it more salient. Referring to a syllable as prominent is perhaps a less clearcutnotion in French than it is in English. According to Vaissière (2002:151), “when askedwhich syllable is most prominent in an isolated French word, a naive Frenchman is likely tobe puzzled.” Models of accentuation in French predict prominence for individual syllables,but the specific syllable that is accented (prominent) will vary depending on structural,rhythmic and pragmatic factors (discussed by numerous authors, including Di Cristo 2000,Pasdeloup 1990, Post 2000). Thus a syllable can only be defined as prominent within aspecific context. Above the syllable, the next larger unit relevant for accentuation is what I amreferring to as the accent group. Apart from these prosodic influences, a lexical word mayacquire prominence due to emphasis motivated by pragmatic or discourse factors.Recent studies of French prosodic structure have generally been based on the analysis of acorpus of recordings. In most cases the detection of prominence or phrase boundaries is basedon the perception of the researcher, and theoretical proposals are based on these individualperceptions. Researchers agree that speakers vary as to which potential accents they mayrealize in an individual production, but do not seem to have studied listeners in order todetermine whether, and how, they vary as to which accents they perceive. Likewise, thenotion that words can be grouped into functional units (prosodic phrases of some kind) seemsto be easily accessible to untrained French speakers, but relatively few studies haveinvestigated what groupings are perceived by listeners who lack specialized knowledge ofposited prosodic structure. It is this gap that the present paper seeks to fill, by examiningwhether naive, untrained French listeners perceive prominences and phrasal boundaries aspredicted by theoretical models, and in particular whether they perceive the correlationbetween the locations of prominences and boundaries that is a part of virtually every model.1.2. Testing naive listenersPrevious studies have shown that it is possible to gain insight to the perceptions of prosody bylanguage users who are not trained linguists. This expands the data on prosodic structurebeyond prosodic transcriptions produced by a small number of experts. One study of Dutch(Streefkerk et al. 1997) tested the perceptions of listeners who had no special training. Thespeech material used in this study were phonetically rich sentences read aloud, which arelikely to be less varied prosodically than spontaneous speech. Buhmann et al. (2002) alsoasked naive Dutch listeners to do prosodic annotation, but after 16 hours of training. Thatuntrained listeners use linguistic knowledge in perceiving prosodic boundaries was shown byMettouchi et al. (2007). They asked both native speakers and non-speakers of Kabyle andHebrew to mark boundaries in samples of speech (the native speakers only worked with theirown language). Native speakers listened to speech that had been filtered to render segmentalinformation unintelligible, in order to ensure they responded purely on the basis of prosodicinformation. Their responses were closer to an expert transcription than were the nonspeaker’stranscriptions, which were presumably also based on gross prosodic patterning.336


A recent study undertaken in English (Cole et al. to appear a, b; Mo et al. 2008) included alarger number of listeners, 97 in four groups. This study served as the model for theexperiment reported in this paper. Cole et al. asked untrained listeners, native speakers ofAmerican English, to mark prominence or boundaries while listening to a sample ofspontaneous, conversational speech (extracted from the Buckeye Corpus, Pitt et al. 2005). Asthey listened, they followed along on a printed, orthographic but unpunctuated transcription.Half the listeners marked prominence first for one set of materials, then boundaries on adifferent set, while the other half performed the tasks in the reverse order. The listenersindicated their responses by underlining a word they perceived as prominent, or by marking aslash between two words where they perceived a boundary between two “chunks” of speech.Cole et al. obtained high rates of agreement among their listeners, higher for the marking ofboundaries than for prominence.Similar methodologies have been used in some previous studies of French prosody inwhich naive listeners labeled accents and/or boundaries in a recorded speech passage. Pagel etal. (1995) and Obin et al. (2008) do not report in detail the responses of their listeners, as theirinterest was in developing automated methods for prosodic labeling. Portes (2000) provides adetailed analysis of the responses of 12 naive listeners and 5 experts. Her naive listeners werefirst given a brief explanation of their task but no feedback or training. They were allowed tolisten to the recording being analyzed as many times as they wished while labelingboundaries, accented syllables and emphasized words or expressions. A boundary, accent oremphasis was considered to be present at each location that was marked as such by a majorityof the listeners. Portes found that the syllable preceding a boundary was marked as accentedat 84% of the identified boundaries. She concludes that this supports the view that the end ofan accent group is the best location for a boundary. Portes notes that it is impossible to claimthat the boundary locations identified by listeners correspond to a specific linguistic unit: thelabeled boundaries demarcate chunks that vary greatly in length and syntactic content. Shenotes this particularly for the non-terminal (comma) boundaries identified by the expertlabelers, but the concern applies to those labeled by the naive listeners as well, and to a lesserextent, to the boundaries identified as terminal (in punctuation, corresponding to a period).Portes suggests that in many cases the unit demarcated by non-terminal boundaries is aclause, or a clause plus additional constituents. This issue will be raised again with respect tothe results of the present study in section 3.5 below.Portes’s study raises many interesting issues, but is somewhat limited in that only onespeech sample was analyzed and relatively few listeners participated. The study reported hereuses a methodology similar to that of Portes and Cole et al., with more listeners than Portes.Most notably, by comparing two types of speech materials, it aims to uncover additionalfactors contributing to listeners’ perceptions of the structure of spoken French.2. Method2.1. Speech MaterialsTwo types of speech materials were used. One set of ten extracts was prepared fromrecordings of a map task experiment that had been previously recorded at a Paris university(Smith 2007). The speakers are ten female undergraduates from the Paris region. They wererecorded individually in a task which required them to give directions over the telephone as tohow to use the Paris métro system to travel to various destinations around the city. They werespeaking to an interlocutor who they could not see, but who posed questions and provokeddiscussion. These extracts thus consist of fairly informal, spontaneous task-directed speech.337


Proceedings of IDP 09The extracts were selected from portions of the conversations during which the one speakerhad a relatively long conversational turn, and there was no overlap with the interlocutor.These extracts varied from 13 to 24 seconds in length, and are identified by speaker number(Extract1 – Extract10).The second set of ten extracts was taken from a discussion/debate that was broadcast inDecember 2008 on a current affairs program on the France Info radio station. The subject istelevision advertising. These extracts also consist of single-speaker passages of spontaneousconversational speech, but the speakers are journalists and public figures. Their conversationwas recorded for broadcast and thus illustrates a more formal register. The selected samplesinclude two extracts from each of the five speakers who participated in the discussion. Theduration of these extracts is from 26 to 53 seconds. These extracts are identified by a letterindicating the speaker (A – E, in the order that the listeners heard them) and a digit 1 or 2,indicating the first or second extract from that speaker that was presented to the listeners. Forexample, Extract D-2 was the second one presented from the fourth speaker.Orthographic transcriptions of the extracts were prepared by the experimenter (a fluentnon-native speaker of French), then edited by a phonetically-trained native speaker. Thesetranscriptions were prepared for use in the listening test by removing punctuation and linebreaks except as necessary to fit on the page, in order to avoid providing any hints as to thestructure. Disfluencies such as repeated or partial words were included in the transcripts butfilled pauses (“euh…”) were not indicated. Three additional extracts (two from map taskconversations, one from a radio program similar to the one used for testing) were alsoprepared to serve as practice samples.2.2. Participants and testing procedureFifty-one listeners without advanced training in phonetics or prosody were recruited at highereducation institutions in France. Most were undergraduate students in linguistics. In order totest listeners in groups for efficiency reasons, they were not screened for native language, andthus, a few were included who are non-native speakers of French. This was consideredunlikely to be a problem because: (i) All participants are sufficiently fluent to participate inhigher education (and informal conversation with the experimenter suggests all are verycomfortable in French); and (ii) It is estimated that no more than four of the 51 listeners testedare non-native users of French, so their influence on the overall results will be minimal. Thevast majority of listeners were female. Different listeners participated in the experiment indifferent settings at the Université Paris 3, Université Lyon 2 and the École NormaleSupérieure – Lettres et Sciences Humaines in Lyon: some were tested in groups of 5-17 in aclassroom, others individually or in groups of two or three in a sound-attenuated room. Eachlistener was presented with a packet containing instructions and the printed transcriptions ofthe practice and test extracts. They marked all their responses on these print-outs.Each listener performed one of two tasks. 25 of the listeners were instructed to underlinewords that were important or highlighted (“mis en relief”); 26 others were asked to mark avertical line between words at locations where they perceived a boundary between twophrasal units (“syntagmes”, defined as groups of words that form a single unit for bothmeaning and function). All listeners heard the extracts in the same order, with brief pausesbetween extracts, controlled by the experimenter depending on the listener(s)’ wishes. Theypracticed their task first on two map task extracts, then responded to ten map task extracts,then did a practice with an extract from a radio broadcast, then responded to the ten extractsfrom the radio broadcast. The ten extracts from the map task were presented in the (random)order in which the speakers had been recorded. The radio broadcast extracts were presented inrandom order, not in the order in which they occurred originally in the program. No two338


extracts with the same speaker were presented consecutively.One listener in the boundary-marking group failed to follow directions, so that individual’sresponses were excluded from analysis, leaving a total of 50 listeners. All other responses tothe experimental samples were retained, and coded in Excel spreadsheets. Listeners in theprominence-marking group were instructed to underline entire words, even if they onlyperceived a part of the word as prominent. In fact, many of them occasionally underlinedparts of words. The difficulty was that the listeners had to be respond very rapidly (at thespeed of the speech), and therefore listeners’ markings were often rather imprecise. Becauseof this difficulty, it was judged infeasible to associate prominence with any unit smaller than acomplete word. Thus, if a listener underlined any part of a word, the response was tallied as aprominence marking on the entire word. This ignores the fact (discussed in section 1.1) thatFrench is described as having prominence associated with a syllable, rather than a word.2.3. Statistical analysesThe data were tabulated in Microsoft Excel, and most of the results reported here are countsand proportions that were calculated using Excel. Agreement among listeners was assessedusing a modified form of Cohen’s Kappa. Kappa is a statistic that takes into account theamount of agreement that can be expected by chance. Kappa values can vary between 0 and 1.The particular form of Kappa used here is based on Brennan and Predinger (1981); it issuitable for tasks with multiple raters in which the raters are not constrained as to how manyitems they assign to each category (“free marginals”). Calculations were made using theOnline Kappa Calculator (Randolph 2008). Kappa values were determined for each extract,pooling across all the listeners in each of the two groups.A second type of analysis involved the calculation of a prominence score and a boundaryscore for each word. These were equal to the proportion of listeners who marked that word ashaving prominence, or as being followed by a boundary. A ‘word’ is definedorthographically, as any letter/number sequence separated by spaces from adjacent text.Those words marked by two-thirds or more of listeners (17 or more out of the 25 in eachgroup) were considered to have “consensus” agreement. This criterion was arbitrary butindicates a substantial consensus.The prominence and boundary scores were used to test the hypothesis of a correlationbetween the locations of prominences and boundaries. The large number of words receivingno marking (and hence scores of 0) would tend to inflate the correlation between these two, soall words that received two scores of 0 were excluded from calculation of the correlation,which was done using Analysis Tools in Microsoft Excel. The correlation values reportedhere are thus conservative estimates of any connection between the two variables.3. ResultsAs a first step in evaluating the results of the experiment, the rates of agreement among thelisteners were examined, in order to demonstrate the validity of the methodology.3.1. Rates of agreement among listenersPercentage rates of agreement are shown in Figure 1, as they provide a readily understandablerepresentation of the distribution of listeners’ responses. However, rate of agreement does nottake chance agreement into account, and therefore the statistical analyses used the kappastatistic, as described above, rather than the raw rates of agreement.339


Proceedings of IDP 09100%90%% agreement80%70%60%map tasksbroadcast50%prominenceboundariesLabeling taskFigure 1. Percentage rates of agreement among listeners for the two sets of extracts and thetwo labeling tasks. The error bars show the range for the different extracts.The values of the kappa statistic used to assess agreement ranged from .53 to .80 for markingof prominence, with a mean of .69 across the 20 extracts. For boundary marking, kapparanged from .75 to .88 with a mean of .83. Randolph (2008) suggests that for this form ofkappa, .7 or above is “adequate”, which means that the agreement for prominence marking isborderline, but the rate for boundaries is well above this proposed cut-off. Because of thedifferent calculation methods, kappa values reported here are not directly comparable to thosein Cole et al. (to appear) for English or Buhmann et al. (2002) for Dutch. Lower rates ofagreement might be expected in the present study, because these listeners were untrained andheard each passage only once, while Buhmann et al.’s listeners received training, and Cole etal.’s listeners heard the passages twice. Nonetheless, it is striking that in the present study, asin the earlier ones cited here, higher rates of agreement were obtained for marking ofboundaries rather than for marking prominence. Again, small differences in experimentalmethodology could be a factor: Cole et al.’s listeners marked prominence in one set ofextracts, then boundaries in another (or vice versa), so comparison of the two tasks iscomparing the same participants. In contrast, the listeners in the present experiment wereassigned to groups that marked either prominence or boundaries. Comparison of the two tasksis thus comparing the behavior of different listeners, who were, however, drawn from thesame populations. The notably higher agreement for boundary-marking is especiallysurprising given the frequent assumption that in French, prominence derives from theoccurrence of a boundary. This difference suggests that listeners’ perceptions of the twoaspects of prosody may not in fact be derived from the same information.Perhaps the most striking examples of agreement among listeners are the thirteen locationswhere every listener in the boundary-marking group marked a boundary at the same place.Three of these locations occurred in three different map task extracts, and ten in four of thebroadcast extracts. The extract with the largest number of boundaries marked by all listenersis given here. The four boundaries that were marked by all listeners are indicated by doublevertical lines; three others marked by 67-99% of listeners have a single vertical line.(1) alors je je crois d’abord que le l’objectif de Nicolas Sarkozy n’est certainementpas de faire une bonne télé publique || mais une plutôt une télé aux ordres || le lefait qu’il nomme désormais le le directeur de de de de ces médias publiques | veutbien dire qu’il est dans une logique de soumission au pouvoir exécutif || ensuiteles promesses de Nicolas Sarkozy n’engagent que ceux qui les croient || il peutpromettre mondes et merveilles au secteur public | comme Xavier Darcos promet340


à l’école de mieux fonctionner avec moins de profs et moins de moyens | cesformules magiques elles ne elles ne bernent personne [Extract E-1]3.2. Connecting boundaries and prominence3.2.1. Prominence of words adjacent to boundariesAs described in the methods section, “consensus” markings were identified as those locationswhere at least 67% of the participants had marked a boundary or prominence. The number oflocations so identified is given in Table 1, together with the total number of words.Mean Minimum MaximumMap task extractsNumber of words in extract 55.9 23 92Number consensus prominent words 2.2 1 3Number consensus boundary locations 3.5 2 5Broadcast extractsNumber of words in extract 134.8 87 206Number consensus prominent words 4.3 1 7Number consensus boundary locations 8.5 5 12Table 1. Number of words in each extract that were marked as prominent, or locationsmarked as boundaries, by two-thirds or more of listeners.1.00Words before bndries Words after bndries Average of all words0.80Prominence score0.600.400.200.001 2 3 4 5 6 7 8 9 10Map task extractsFigure 2a. Prominence scores for words before and after locations identified as boundariesby at least two-thirds of listeners, and average prominence score for all words in that extract.341


Proceedings of IDP 09Words before bndries Words after bndries Average of all words1.00Prominence score0.800.600.400.200.00A-1 B-1 C-1 D-1 B-2 D-2 E-1 A-2 C-2 E-2Broadcast extractsFigure 2b. Prominence scores for words before and after locations identified as boundariesby at least two-thirds of listeners, and average prominence score for all words in that extract.8Prominence scores of the words before and after the consensus boundaries were examined inorder to determine whether the words in these positions have prominence scores that divergefrom the average for the extract. Figures 2 shows that, as expected, words before boundariesreceived much higher prominence scores than average. Words after boundaries received muchlower prominence scores, in fifteen cases lower than the average for all words in thatparticular extract. (The figure shows the extracts in the order the listeners heard them.)3.2.2. Correlation between words marked as prominent and locations of boundariesIn order to further investigate the relation between the participants’ marking of boundariesand of prominent words, the correlation was calculated between the prominence scores andboundary scores of the words in each extract. This analysis did not examine specific boundarylocations; rather, it looked at the overall relation between locations marked as boundaries andthe prominence of words before or after them. Because prominences were marked morefrequently than boundaries, there cannot be a perfect correlation between them. In addition,the correlations will be reduced if the marked prominences are in some cases at the end of anaccent group (where the prominence would precede the boundary) and in other cases at thebeginning of an accent group (where the prominence would follow).Between word prominence and a following boundary, the correlations averaged .68 with astandard deviation of .08 across the ten map task extracts. All of these are significant atp


3.3. Listeners’ patterns of marking prominence and boundariesListeners marked boundaries less often than prominences. The global median was oneboundary marked every 9.7 words, and one prominence every 8.6 words. The tendency formore frequent marking of prominence than boundaries held true for 13 of the extracts. Morefrequent marking of prominence means that in some cases, a listener marked more than oneword as prominent within the span delimited by two boundary-markings.The overall rate of marking obtained here is somewhat lower than the means of one boundaryper 7.4 words and one prominence per 7.5 words reported by Mo et al. (2008) for English.This difference may be due to the fact that the French listeners heard each extract only once,while Mo et al.’s American listeners heard their extracts twice, and thus could add additionalmarkings as well as changing those they had marked on the first repetition.3.3.1. Intervals between marked prominencesCombining all listener responses, the median interval between words marked as prominentwas 8.6, and the mean 10.5. For the map tasks, the mean for each extract, averaging across alllisteners, ranged from 4.3 to 18.4 words. For the broadcast extracts, the means varied from 9.2to 16.0 words. Recall that for the map tasks, each extract is from a different speaker, and forthe broadcast extracts, there are two extracts per speaker, so most of the variation amongextracts could also be interpreted as variation among speakers.Listeners varied in their behavior, also. Averaging across all extracts, the mean intervalbetween marked prominences ranged for individual listeners from 3.1 to 27.3 for the map taskextracts, and 3.6 to 23.5 for the broadcast extracts. As can be seen in Table 2, the greatmajority of listeners tended to mark prominences at intervals ranging from every four totwelve words. The other clear tendency is for prominences to be marked less frequently in thebroadcast extracts. This seems slightly surprising, as the journalists participating in thebroadcast discussion were arguing and emphasizing specific points, which might have led tomore words being perceived as unusually prominent.Number of words between markedprominencesNumber of listeners marking prominences at differentfrequencies for extracts from343Map tasksBroadcast0-4 1 14-8 12 48-12 8 1212-16 0 516-20 2 220-24 1 124-28 1 0Table 2. Frequency count of number of listeners who marked prominences at differentfrequencies (intervals in numbers of words)3.3.2. Intervals between marked boundariesThe intervals between locations marked as boundaries might be expected to delimit chunks ofspeech that correspond to a phrasal unit. Investigating the size of these chunks should shedlight on the type of unit(s) that listeners are perceiving. The locations of boundary-markingwill be discussed both in terms of the responses of individual listeners, and in terms ofconsensus marking, that is, those locations identified by at least two-thirds of listeners.Looking at all listener responses, the median interval between boundary markings was 9.7words, and the mean 11.5 words, combining all 20 extracts and 25 listeners who markedboundaries. The range of variation was greater among different listeners (averaging across all


Proceedings of IDP 09extracts) than among different extracts (averaging across all listeners). For the map tasks, themean for each extract (averaging across all listeners) ranged from 5.8 to 13.1 words. For thebroadcast extracts, the mean ranged from 8.8 to 11.4 words. The range of variation among thedifferent listeners (averaging across all extracts) was from 5.4 to 25.1 for the map tasks, andfrom 5.4 to 27.4 for the broadcast ones. Although the overall ranges were fairly similar for thetwo sets of extracts, as can be seen in Table 3, the two sets differed in that listeners tended tomark boundaries more often when listening to the map tasks than they did for the broadcastextracts. The mean interval at which boundaries were marked in the map task extracts was10.7 words, for the broadcast extracts, 12.3 words. This difference suggests that listenersperceived slightly longer chunks in the speech of the journalists, which is plausible given themore formal speech and complex syntactic structures that they employed.Number of words between markedboundariesNumber of listeners marking boundaries at differentfrequencies for extracts from344Map tasksBroadcast4-8 11 38-12 8 1312-16 1 216-20 4 520-24 0 124-28 1 1Table 3. Frequency count of number of listeners who marked boundaries at differentfrequencies (intervals in numbers of words)The number of boundaries within an extract that were agreed on by at least two-thirds of thelisteners (“consensus boundaries”) varied from two to twelve. This closely correlates with thenumber of words in the extract (r = 0.90). The broadcast extract with the greatest density ofconsensus boundaries, indicated by a single vertical line, is shown here. These boundarieswere agreed on by 72-96% of listeners.(2) il y a une contradiction dans ce que vous dites | sur le la disparition de la publicitésur le service public | grosso modo la la la publicité disparaît | et la le servicepublic perd en indépendance | présenter ju- juste je voudrais revenir là-dessus |parce que c’est un discours que notamment les patrons de presse | quand je dis lespatrons de presse c’est les directeurs de rédaction | tiennent à toutes leurs équipes |je suis bien placé pour le savoir je pense que tu t’es un peu au courant aussi | c’està dire que la garantie de l’indépendance d’un journal | c’est sa bonne santééconomique | elle passe par la publicité aujourd’hui c’est à peu près cinquantecinquante entre les ventes d’un journal [Extract B-2]3.4. Acoustic properties of locations marked as boundariesThe consensus locations where at least two-thirds of listeners agreed on the presence of aboundary were examined to see if they shared any salient acoustic properties that might havestimulated the listeners to agree on the boundary. The first property investigated was whetherboundaries were marked at the location of pauses. All pauses with duration greater than 150ms were identified. These included silent pauses, filled pauses, breathing, or a combination ofthese. The duration of 150 ms was chosen as it is longer than a silence due to, for instance, theinsertion of a glottal stop. Of the locations where pauses occurred, 59% in the map taskextracts and 57% in the broadcast extracts were identified as consensus boundaries. The


average boundary score at the locations of pauses was 0.69 for the map tasks and 0.62 for thebroadcast, compared to average boundary scores of 0.12 and 0.10, respectively, over allwords. Thus, locations where pauses occur are definitely favored as locations for boundariesbut are not a reliable indicator.An attempt was then made to divide the extracts into Intonational Phrases (Nespor andVogel 2007). This analysis is somewhat speculative, as definitions of Intonational Phrases(IPs) are far from explicit. D’Imperio et al. (2007:2) comment that they are defined in “arather fuzzy way as a unit showing … ‘melodic cohesion’.” This notion of “melodiccohesion”, coupled with what might be called “rhythmic cohesion”, were the main criteriaused for delimiting IPs in these speech samples. A clear break and re-start in the intonation orperceived rhythm of the speech was taken as the boundary of an IP. Since the speechexamined here is spontaneous, a relatively small proportion of it consists of grammaticallycomplete sentences. When there was a complete sentence, it was taken as coinciding with theend of an IP only if there was also some phonetic evidence of finality at the same location,such as a pause, lengthening, glottalization or an abrupt break in F0. In order to determinedwhether the end of the speech extract should be identified as an IP boundary, reference wasmade to the longer recordings from which these extracts were taken. In fact, all but one of theextracts did end at an IP boundary. The one extract was cut off at a point where anotherspeaker interrupted, but the speaker in the extract continued talking simultaneously. Data onthe relation between locations marked as IP boundaries and the locations that listenersperceived as pauses are given in Table 4.map tasksBroadcasttotal labeled as IP boundary by experimenter 82 175total marked as boundary by at least 2 / 3 of listeners 35 85total labeled as IP boundary by experimenter and marked asboundary by at least 2 / 3 of listenerstotal labeled as IP boundary by experimenter but not marked asboundary by at least 2 / 3 of listeners35 7847 97total marked as boundary by at least 2 / 3 of listeners but not labeled asIP boundary0 7Table 4. Number of locations marked as boundaries by more than two-thirds of listeners andlocations identified as an IP boundary by the experimenter.From the table it can be seen that far more IP boundaries were marked by the experimenterthan there were consensus boundaries identified by the listeners. To a large extent (except forseven cases in the broadcast extracts), the consensus boundaries are a subset of the IPboundaries. Even though many IP boundaries were not marked by a consensus of thelisteners, the average boundary score for IP boundaries (0.58) was far above the score for therest of the extracts (0.03). A working hypothesis is that the locations marked as IP boundariesare potential sites for listeners to mark boundaries; those marked by a consensus of listenersare the most salient of these.Looking just at the locations identified as IP boundaries, what acoustic patterns might havecontributed to certain of these being perceived as more salient by the listeners? As discussedabove, the presence of a pause globally tended to favor listeners marking a boundary. Whenthe analysis is restricted to locations identified as IP boundaries, this becomes even clearer.(Recall that pauses were not a necessary or sufficient condition for marking an IP boundary;11 locations where pauses occur were not marked as IP boundaries). Nonetheless, 92% (forthe map tasks) and 79% (for the broadcast) of the IP boundaries that a consensus of listeners345


Proceedings of IDP 09marked as boundaries, did coincide with pauses. Since many IP boundaries that coincidedwith pauses were not marked as boundaries by the listeners, it seems that pauses are highlydesirable but not sufficient cues for a boundary.Another acoustic characteristic that was examined at IP boundaries is the presence of asalient high pitch during the last word immediately preceding the boundary. Pitch rises arecommonly found at the end of an accent group that is non-final in the utterance, with the finalhigh anchored to the last full syllable in the phrase (Welby 2006). In the present study,analysis was limited to the word level (not the syllable level), so the analysis tested for thepresence of a high during the last word (which necessarily includes the last syllable of thephrase). Testing to see if the presence of an H favors the marking of a boundary has the majordisadvantage of ignoring the fact that utterance-final boundaries would typically be producedwith a pitch fall, and if the fall began before the last word, the analysis used here would notcapture the presence of a H tone. However, the extracts being analyzed were all taken from asingle conversational turn. Within a turn, speakers may end an utterance with a H tone tosignal that they are holding the floor. Thus in these data, most phrases end with a H tone onthe phrase-final word. In the map task extracts, there was a H tone during 73% of IP-finalwords that listeners identified as preceding a boundary, but H tones occurred during only 34%of IP-final words that were not marked as preceding a boundary. In the broadcast extracts, Htones were found during 65% of IP-final words identified as pre-boundary, but only 32% ofthose not marked as pre-boundary. Thus, like pauses, the presence of a H tone seems to favorboundary identification by listeners, but is in no way a necessary or sufficient condition.There were seven locations where a consensus of listeners marked a boundary, but theexperimenter did not mark an IP boundary. These occurred at the end of a clause or majorsyntactic phrase, but with a continuous intonation contour and no pause, lengthening,glottalization or other interruption to the rhythm. In all but one of these, there was asubstantial pitch rise just before the location marked as a boundary. Impressionistically, theseoccurred when the speaker was trying hard not to lose the floor. (All of these cases occurredin the broadcast extracts; in this discussion the speakers frequently interrupted each other.)Presumably listeners marked a boundary because they noticed the syntactic boundary, but noIP boundary was marked by the investigator because of the absence of prosodic indicators.These cases, along with other evidence summarized below, suggest that syntactic structurewas a significant influence on listeners’ boundary marking.3.5. The role of syntax in listeners’ response patternsAn account of the influence of syntactic structure on the listeners’ responses is beyond thescope of this paper. Nonetheless, it clearly is an important factor. As suggested in theprevious section, listeners sometimes marked boundaries at locations where there was noobvious prosodic cue to a boundary, but where there was a syntactic boundary. An example ofsyntax possibly dominating phonetic cues in listeners’ responses occurs in the followingsample from one of the broadcast extracts. The values in parentheses are the boundary scoresfor those locations. The square brackets mark locations identified as IP boundaries.(3) je veux bien le croire (0.24) ][ je veux bien en être un représentant (0.84) mais (0.28) ][ vous êtes certain (0.56) que les sujets sont (0.32) ][ sont fermés (0.72) ][ et …346


Figure 3. Acoustic waveform and F0 trace for part of the utterance shown in (3). The figureshows the breath but not the filled pause that followed “mais”.Note that far more listeners marked a boundary after “représentant”, which ends a majorclause, than after “mais”, which was followed by a breath and filled pause that in total lasted1.403 seconds (entire duration not shown in the figure). This distribution of responsessuggests that listeners were marking structural (in this case, syntactic) boundaries, rather thanjust attending to interruptions in the flow of speech. No IP boundary was marked after“représentant” because the absence of lengthening and lack of any pause suggests that F0 riseis marking only an accent group boundary. The listeners who marked a boundary after “mais”were presumably attending to the pause. Overall, it seems likely that both syntactic structureand phonetic factors influenced listeners’ responses in this experiment, as would be expected,since prosodic structure is considered to derive from both syntactic structure and properties ofthe actual production (pauses, intonation contour, speech rate, lengthening, etc.), as well asother factors such as pragmatics (Shattuck-Hufnagel and Turk 1996).4. DiscussionThe results for French obtained in this experiment resemble those for English obtained byCole et al. (to appear) more closely than was expected. The most striking similarity is thehigher rates of agreement for the marking of boundaries than for the marking of prominencesthat were obtained not only in the current experiment, and in Cole et al.’s work, but also byBuhmann et al. (2002) for Dutch. The rates of marking boundaries and prominences werevery similar to each other in Cole et al.’s study, whereas the listeners in the presentexperiment marked boundaries less often. One important consideration is that in Cole et al.'sstudy, each listener marked both boundaries and prominences, but for different samples ofspeech drawn from the same corpus. In the present experiment, different groups of listenersmarked prominences and boundaries, so conceivably the different rates of agreement anddifferent frequencies of labeling could reflect individual differences among participants.Although possible, this explanation seems somewhat unlikely because the listeners weredrawn from the same population, and assigned to the two different groups randomly.There is good support in the results presented here for the argument that the prominencesmarked by the listeners must correspond to final accents, rather than initial ones. The highprominence scores for words before boundaries, and the high correlations between prominentwords and following boundaries, agree in supporting theoretical accounts in which the finalposition before a boundary is a favored location for prominence in French. Cole et al. (2008)347


Proceedings of IDP 09did not investigate whether there was a correlation in their data between the locations ofboundaries and of prominences, so we cannot directly compare the results for French withtheir results for English. But the fact that this question did not seem worth investigatingsuggests that there was no obvious relation between the two, as expected for English.A more detailed analysis of the syntax of these extracts could help to determine theimportance of syntax in conditioning listener responses. Spontaneous speech includes manysyntactically incomplete fragments, so it may be difficult to determine how listeners interpretits structure. Listeners’ perceptions most likely reflect a combination of syntactic andphonetic factors: the acoustic analyses suggest that pauses and strong F0 rises contributed tolisteners perceiving boundaries. Further research will be necessary to disentangle the differentfactors that contribute to listener perceptions.Although simple, this experiment demonstrates that untrained listeners can make theirperceptions of prosody explicit in performing a meta-linguistic task with sufficientconsistency to provide a useful confirmation of the connection between the two aspects ofprosody, prominence and phrasing.AcknowledgmentsMerci à tous les auditeurs qui ont participé (sans récompense !) à cette expérience, et surtout, merci beaucoup àFrédérique Bénard pour son aide avec la transcription des extraits.ReferencesBeckman, M. & G. Ayers Elam (1997). Guidelines for ToBI labelling. Ms, Ohio State University.http://www.ling.ohio-state.edu/~tobi/ame_tobi/.Brennan, R. & D. Prediger (1981). Coefficient Kappa: Some uses, misuses and alternatives. Educational andPsychological Measurement 41, pp. 687-699.Buhmann, J., J. Caspers, V. van Heuven, H. Hoekstra, J.-P. Martens & M. Swerts (2002). Annotation ofprominent words, prosodic boundaries and segmental lengthening by non-expert transcribers in the SpokenDutch Corpus. Proceedings of LREC 2002 (Las Palmas), pp. 779-785.Cole, J., Y. Mo & M. Hasegawa-Johnson (to appear a). Signal-based and expectation-based factors in theperception of prosodic prominence. To appear, Laboratory Phonology 1.Cole, J., Y. Mo & S. Baek (to appear b). The role of syntactic structure in guiding prosody perception withordinary listeners and everyday speech. To appear, Language and Cognitive Processes.Di Cristo, A. (1999). Vers une modélisation de l’accentuation en français : première partie. Journal of FrenchLanguage Studies 9, pp. 143-179.Di Cristo, A. (2000). Vers une modélisation de l’accentuation en français (seconde partie). Journal of FrenchLanguage Studies 10, pp. 27-44.Di Cristo, A. (2005). Éléments de prosodie. Nguyen, N., S. Wauquier-Gravelines & J. Durand (eds.), Phonologieet phonétique : forme et substance. Hermès Science Publications. Lavoisier, Paris, pp. 117-157.Di Cristo, A. & D. Hirst (1997). L’accentuation non-emphatique en français : stratégies et paramètres. Perrot, J.(ed.), Polyphonie pour Ivan Fónagy. L’Harmattan, Paris, pp. 71-101.D’Imperio, M., R. Bertrand, A. Di Cristo & C. Portes (2007). Investigating phrasing levels in French: Is there adifference between nuclear and prenuclear accents? Camacho, J., V. Deprez, N. Flores & L. Sanchez,Selected Papers from the 36th Linguistic Symposium on Romance Languages (LSRL). John Benjamins, NewBrunswick, p. 97-110.Jun, S.-A. & C. Fougeron (2002). Realizations of accentual phrase in French intonation. Probus 14, pp. 147-172.Lacheret-Dujour, A. & F. Beaugendre (1999). La prosodie du français. CNRS Editions, Paris.Mertens, P. (2006). A predictive approach to the analysis of intonation in discourse in French. Kawaguchi, Y., I.Fonagy & T. Moriguchi (eds.), Prosody and Syntax. Usage-Based Linguistic Informatics 3. John Benjamins,Amsterdam, pp. 64-101.Mettouchi, A., A. Lacheret-Dujour, V. Silber-Varod & S. Izre’el (2007). Only prosody? Perception of speechsegmentation in Kabyle and Hebrew. Nouveaux cahiers de linguistique française 28, pp. 207-218.Mo, Y., J. Cole & E. Lee (2008). Naive listeners’ prominence and boundary perception. Proceedings of SpeechProsody 2008 (Campinas). http://prosody.beckman.illinois.edu/publications.html.348


Nespor, M. & I. Vogel (2007). Prosodic phonology: with a new foreword. Walter de Gruyter, Berlin.Obin, N., X. Rodet & A. Lacheret-Dujour (2008). French prominence: a probabilistic framework. Proceedings ofICASSP 2008 (Las Vegas), pp. 3993-3996.Pagel, V., N. Carbonell, Y. Laprie & J. Vaissière (1995). Spotting prosodic boundaries in continuous speech inFrench. Elenius, K. & P. Branderud (eds.), Proceedings of the XIIIth ICPhS, Stockholm, Vol. 4, pp. 308-311.Pasdeloup, V. (1990). Modèle de règles rythmiques du français appliqué à la synthèse de la parole. Diss,Université de Provence.Pitt, M., K. Johnson, E. Hume, S. Kiesling & W. Raymond (2005). The Buckeye corpus of conversationalspeech: labeling conventions and a test of transcriber reliability. Speech Communication 45, pp. 89-95.Portes, C. (2000). Approche du rôle de la prosodie dans la structuration du discours oral en français. DEAthesis, Université de Provence.Post, B. (2000). Tonal and phrasal structures in French intonation. Diss, Katholieke Universiteit Nijmegen.Randolph, J.J. (2008). Online Kappa Calculator. http://justus.randolph.name/kappa.Shattuck-Hufnagel, S. & A. Turk (1996). A prosody tutorial for investigators of auditory sentence processing.Journal of Psycholinguistic Research 25, pp. 193-247.Smith, C. (2007). Prosodic Accommodation by French speakers to a non-native interlocutor. Trouvain, J. & W.J.Barry (eds.), Proceedings of the 16th ICPhS, Saarbrücken, Germany, pp. 1081-1084.Streefkerk, B., L. Pols & L. ten Bosch (1997). Prominence in read aloud sentences, as marked by listeners andclassified automatically. IFA Proceedings 21, Institute of Phonetic Sciences, University of Amsterdam, pp.101-116.Vaissière, J. (2002). Cross-linguistic prosodic transcription: French versus English. Volslkaya, N.B., N.D.Svetozarova & P.A. Skrelin (eds.), Problems and methods in Experimental Phonetics. In honour of the 70 thanniversary of Prof. L.V. Bondarko. St. Petersburg State University, St. Petersburg, pp. 147-164.Welby, P. (2006). French intonational structure: Evidence from tonal alignment. Journal of Phonetics 34, pp.343-371.349


<strong>Actes</strong> d’IDP 09Units of interaction: ‘Intonation phrases’ or ‘turn constructional phrases’?Beatrice Szczepek Reedbeatrice.szczepek.reed@nottingham.ac.ukCentre for English Language EducationUniversity of Nottingham, UKAbstractThis paper tests the usefulness of the category ‘intonation phrase’ for the analysis of natural conversation. It askswhether the intonation phrase is a relevant unit for participants, and if so, whether it is a prosodic, or indeed aninteractional category. The data show that while participants do divide their speech into intonation phrase-likechunks, these chunks are not defined by intonation alone. Instead, participants draw on a variety of interactionalmodes in their production of speech chunks, which are defined here as building blocks for turns and TCUs.Chunks are shown to be employed as interactional units below the turn, and potentially below the TurnConstructional Unit; therefore the term ‘Turn Constructional Phrase’ is suggested.1. IntroductionResearch on intonation traditionally draws on the notion of a phonological unit that is definedby a coherent pitch movement and/or accentual pattern. This unit has been referred to as toneunit (Crystal 1969; Brazil 1997), tone group (Halliday 1967), intonation-group (Cruttenden1997), intonation phrase (Wells 2006), intonation unit (Du Bois 1991), rhythm unit (Pike1945), and breath group (Liebermann 1967). All terms refer to the basic notion of a linguisticunit defined by supra-segmental aspects of speech. To give a general idea of the intonationphrase we could say that it is a spate of talk delivered as one recognisable overall pitchmovement. In a standard textbook scenario this pitch movement would contain a pitch accentnear the beginning, and another, typically more prominent pitch accent on the final stressedsyllable; it would start with a comparatively high pitch onset, which would be followed bygradual declination in overall pitch register and loudness; the last syllable would belengthened; and the whole phrase would be followed by a brief pause (for a more detaileddiscussion of intonation phrase structure see section 2). This chapter represents an attempt totest the usefulness of the category of the intonation phrase for the analysis of naturalconversation. Before this issue is addressed the phenomenon itself is introduced below withreference to some previous literature.2. The intonation phrase: An introductionAmong the distinctions that can be made between different definitions of the intonationphrase, one is that between the notion of a holistic intonational phenomenon, and that of acollection of smaller phonological events, such as pitch accents. The first is the perspectiveadopted by the so-called British school of intonation; the second is that employed in the fieldof autosegmental-metrical phonology. In this chapter we are mainly interested in the firstapproach, although our main conclusions hold for both. For reviews of the intonation phrasein autosegmental-metrical phonology see, for example, Ladd (1996:235-251) and Grice(2006).351


Proceedings of IDP 09As many publications in the British school of intonation are aimed not only at linguists, butalso at learners of English, a rather prescriptive approach is prevalent in the majority of them(cf. Wells 2006). One of several exceptions is the work of Cruttenden (1997), whosedefinition of the “intonation-group” is therefore a good example. His internal criteria fordefining a stretch of speech as an intonation-group include firstly the existence of at least onestressed syllable; and secondly pitch movement on, to, or from that stressed syllable. Thus,minimally, an intonation-group could consist of a monosyllabic word which is delivered, forexample, as a fall from a high pitch onset. External criteria for identifying intonation-groupsare those that define potential boundaries. According to Cruttenden, one such criterion is apotential pause following an intonation-group; however, according to Cruttenden, pauses arenot obligatory boundary markers and may also occur within a group. Other external criteriainclude anacrusis, that is, fast delivery of unstressed syllables before the first pitch accent;lengthening of the final syllable; and a potential change in the pitch direction of anyunstressed syllables from one intonation-group to the next. Cruttenden concedes, however,that cases remain in which it is difficult to decide where one intonation-group ends, andanother one begins, particularly in the analysis of natural conversation (1997:29). Similardefinitions of the intonation phrase are formulated by other phonologists of the British school,such as Crystal (1969), Halliday (1967, 1970) and Wells (2006). 1Students of naturally occurring conversation have been concerned with intonation phrasesprimarily from a perspective of transcription, rather than from one of phonological structure.Du Bois (1991) and Du Bois et al. (1993) put forward the transcript notation known asDiscourse Transcription (DT), with the “intonation unit” as one of its central categories. DuBois et al. (1993:47) define it as “a stretch of speech uttered under a single coherentintonation contour”, with potential initial cues of pausing and an upward shift in overall pitch,and a potential final cue of syllable lengthening. Similar to the phonological literature, whereform and placement of the main accent – the nucleus – take centre stage, researchers ofnatural talk have focused primarily on the pitch movement at the end of the intonation phrase.However, discourse analysts who directly address the intonation phrase typically have aninterest in discourse function, rather than phonological form. The final pitch movement of anintonation phrase is interpreted in terms of whether it projects completion or continuation (ofa sentence, an idea, or a turn-at-talk). Du Bois et al. (1993:52-53) call this “transitionalcontinuity”. It is marked by transcript notations that refer to functional categories such as“continuing”, “final”, and “appeal”. No prosodic characteristics are specified for thesecategories. While the authors go on to say that “each category is more or less consistentlyrealized by a specific form” (Du Bois et al. 1993:53), they give preference to a purelyfunctional approach in order to be able to generalise across languages.Chafe (1980, 1987, 1988, 1993), too, is interested in intonation phrases from a functionalperspective. He makes a universalist claim for the function of intonation contours, vaguelydefined as falling or non-falling, as signaling sentence completion or incompletion. 2Similarly, Gumperz (1993) favours a “basically functional perspective” on transcription. Hisprosodically defined “informational phrases” are delimitated by boundary markers such aspauses and certain unit-final pitch movements, all of which are characterized from the outsetas fulfilling certain pragmatic functions, such as signaling definiteness, or uncertainty.1 Reviews of the British school of intonation can be found in Gibbon (1976), Crystal (1969) and Couper-Kuhlen(1986).2 In contrast, Szczepek Reed (2004) shows that almost any pitch contour which is part of the overall intonationalrepertoire of English may co-occur with turn-finality, depending on interactional context.352


In their outline of a transcription system for conversation analysis (GesprächsanalytischesTranskriptionssystem, GAT), Selting et al. (1998) employ the notion of “phrasing units”(“Phrasierungseinheiten”), the boundaries of which are defined by prosodic, syntactic andsemantic closure (1998: 101); however, the main criterion is a prosodic one. As in the aboveapproaches, phrase-final punctuation marks are used which, in contrast to the approachesdescribed above, refer to pitch movements, rather than functional categories.All discourse related approaches have in common a primary interest in how intonationphrases end. This interest is due to the role ascribed to prosody for turn-taking 3 and narrativestructure 4 . Investigations of these relationships routinely link the prosodic form of phraseendings to notions of continuation and closure. 5 It is therefore possible to argue that for most,if not all discourse related approaches, an interest in intonation phrases as a holistic category,while expressed, takes second place behind a primary interest in phrase boundaries, and theirprosodic form.This priority is also present in the most recent investigation into intonation phrases froman interactional linguistic perspective, and the only one not motivated primarily by an interestin transcription. Barth-Weingarten (2007a) asks, much like this chapter does, whether“intonation units” are an aspect of everyday interaction. Barth-Weingarten starts from theassumption that if intonation units exist in natural talk, then the way in which participantsdesign intonation unit endings prosodically is likely to bear similarities to the prosodic designof turn endings. She finds that prosodic strategies that mark turn endings, such as final pitchpeaks or valleys, final syllable lengthening and final diminuendo, also occur at the end ofpotential turn-internal intonation units, albeit in a reduced form. This significant finding ispotential first evidence that participants do indeed structure their talk by orienting to a speechunit of intonation phrase-like length and design.As this section has shown, research from two very different fields of language studyemploys the notion of a prosodically defined unit. While phonological definitions of theintonation phrase go into extensive detail regarding its phonological structure, discourseoriented definitions are more interested in the forms and functions of its boundaries, and itsadvantages for transcription. In both approaches, the intonation phrase is very much ananalyst’s category. With the exception of Barth-Weingarten 2007a, no attempts have beenmade so far to verify that it is also a relevant category for conversational participants. Thefollowing sections represent one step in the direction of such an attempt. The questions raisedand the potential answers suggested are in no way intended to provide final solutions for theproblematic interface between prosodic and sequential boundaries, and/or units. Instead, byattempting to present natural language from within a purely descriptive and observationalframework they are intended simply to raise awareness of the issues arising from applying atheoretically defined category to talk-in-interaction with its continuously unfolding clusters ofinter-reliant features.With this in mind, the sections below address the following questions: Is the intonationphrase a relevant category for conversational participants themselves; that is, can we findempirical evidence of participant orientation to intonation phrases, both in terms of turnproduction and turn reception? If so, is it useful from a conversation analytic perspective toregard intonation phrases as an independently prosodic unit? Or are they part of a broader3 Cf. Local et al., 1985; Local et al., 1986; Selting, 1996; Wells and Peppè, 1996; Schegloff (1998), Wells &Macfarlane, 1998; Fox, 2001; Caspers, 2003; Szczepek Reed, 2004.4 Cf. Chafe (1980, 1987, 1988, 1993).5 Cf. Schegloff (1998), Fox (2001), Wells & Macfarlane (1998).353


Proceedings of IDP 09chunking mechanism that delimitates not only prosodic units, but also, among others,interactional, sequential and syntactic ones?3. Participant orientation to intonation phrasesThe vast majority of research on intonation phrases to date involves linguistic introspection,or, if spoken data are used, is based on read-aloud sentences such as those presented in extract(1). It is therefore legitimate to ask whether intonation phrases actually exist in spontaneoustalk. However, while participants in naturally-occurring talk may well deliver their speech inintonation phrase-like bursts of speech, it cannot be assumed from the outset that those burstsa) comply with phonological rules of intonation phrase structure, and b) are best described interms of intonation at all. For these reasons we initially refer to any short bursts of talk belowas ‘chunks’, thus avoiding their immediate classification in terms of prosody (by using theterm ‘intonation phrase’) or indeed syntax (by using the terms ‘clause’ or ‘sentence’).In the analyses of extracts from naturally-occurring talk below we first look for evidencethat participants orient to speech chunks as holistic entities, and subsequently ask whetherthose chunks are indeed oriented to as intonation phrases. In approaching this issue we mustkeep in mind two participant perspectives: that of production, i.e. currently speakingparticipants’ use of chunks and intonation phrases as elements of their turns; and that ofreception, that is, next speakers’ treatment of previous stretches of talk as chunks andintonation phrases. In the following we will look at these two perspectives in turn.3.1 Orientation to speech chunks by currently speaking participantsThe first perspective involves a close look at how utterances in naturally-occurring talk arestructured by currently speaking participants. Listening to spontaneous speech soon revealsthat speakers produce talk on a chunk-by-chunk basis, even if determining where thesechunks begin and end is not always straightforward. See, for example, extract (1) below. Theexample is taken from the Santa Barbara Corpus of Spoken American English. All data forthis study have been transcribed according to an adapted version of the GAT transcriptionsystem devised by Selting et al. (1998); the conversation is a face-to-face interaction betweenLajuan and Cam. 6 Each line in the transcript refers to one holistic chunk.(1) SBC044 He Knows1 Lajuan: i lIstened to my sIster when my nEphew;2 (0.3)3 .h started COLLege how she was sAY:ing;4 .hh SHE filled out all o’ his applicAtions for where he wasgO:ing: an’;5 .hh SHE did All of these THINGS when hE applied for aSCHOlarship or whatEver -6 .hh SHE filled out Everything and I'm lI:ke;7 (0.39)8 hh. I did it by my(SE:LF;9 (0.34)6 The lack of video recordings restricts our analysis to the verbal and prosodic domains. Hence this paper cannotexplore the visual cues for participants’ phrasing of discourse, which remain a significant topic for futureresearch.354


10 .hh you READ the fOrm;11 (0.14)12 And you fIll it OUT.13 (0.41)14 Cam: [well -15 Lajuan: [N:O one dId it for ME:,16 (0.51)17 .hh you knOw an’ I was vEry,18 (0.47)19 mUch –20 (0.39)21 whatEver i NEEDed;22 (0.53)23 .hh i i gOt my mOney from my FA:ther,24 (0.12)25 he paid for (SCHOO:L,26 (0.47)27 .hh but –28 (0.13)29 I did everything on my (OWN.In this extract Lajuan can be observed to deliver one chunk of speech at a time. Speechchunks are divided either by pauses (lines 11, 13, 18, 20, 24, 28), in-breaths (lines 4, 5, 6) orboth (lines 2-3, 7-10, 16-17, 22-23, 26-27). In some cases, boundaries between chunks maynot be what our expectations of individual interactional modes would suggest. For example,the chunk at line 3, started college how she was saying is not a syntactic construction; indeed,it spans the end of one construction, my nephew started college, and the beginning of another,how she was saying she filled out all of his applications.More interestingly for us, not all chunks comply with established phonological rules forintonation phrases. In the first chunk i listened to my sister when my nephew (line 1) there isno single pitch accent that stands out as dominant. It is therefore not possible to determine anucleus. Similarly, lines 5, 15 and 17 contain several pitch accents of the same prominence. 7Furthermore, the chunk at line 19, much, separated from the preceding chunk by a pause(lines 17-18), could be heard by a phonologically trained analyst as continuing a previousintonation phrase: you know an’ i was very (0.47) much. The final word of the chunk at line17, very, contains slightly rising pitch, whereas much remains at the pitch level reached bythis rising movement. Thus, much carries no independent pitch movement. With regard tophonological intonation phrase structure it is therefore not a candidate for an independentintonation phrase. It is, however, observably separated from the previous chunk by a pause,which is not defined by glottal closure (see below). This shows that the speaker himself iscontent to implement some degree of separation between the two chunks. 8 While pauses andinbreaths are observable physical actions performed by the speaking participant, theintegration of one pitch level into a previous pitch pattern can only be analysed as such in7 This is inconsistent only with the British school. Most autosegmental-metrical approaches do not stipulate theprimacy of one pitch accent.8 much is of course also syntactically integrated into the previous chunk. However, this is not a valid criterion forintonation phrase boundaries, as individual words can form independent intonation phrases.355


Proceedings of IDP 09terms of a separate phonological theory. It is therefore an interpretation of the data, ratherthan an empirical observation. Keeping in mind the conversation analytic aim of a participantperspective and an empirical description of participant actions it is therefore possible to arguethat activities such as pausing and breathing are more suitable indicators of speech chunkboundaries than theoretical concepts such as integration and non-integration of pitchmovements.However, as the above example shows, the most frequent resource for chunking issimultaneous patterning of co-occurring interactional modes. Most speech chunks are units inmore mode than one: they may be words, clauses, semantico-pragmatic concepts, gestures,gazes, and, of course, intonation phrases, to name only the most obvious. It may be that onlyin cases where one or more of these modes are not clearly recognizable as a single pattern, asin the case of syntactically incomplete clauses, pauses and inbreaths (and possibly otherphysical actions) become predominantly relevant as cues for participants’ chunking practices.In answer to our question regarding speaking participants’ orientation to chunking andintonation phrases we can say that participants appear to regularly divide their talk intoshorter chunks. A phonological definition of those chunks as intonation phrases is not alwayssuccessful.3.2 Orientation to speech chunks by next participantsNext participants’ treatment of previously speaking participants’ chunks as chunks can beexplored by looking for next actions, such as recipient responses, next turn onsets, repairinitiations and non-linguistic activities such as coughs and in-breaths at places of potentialboundaries. Their treatment of chunks as intonation phrases is much more difficult to show,as we will see below.The following extract from a radio program broadcast on KSTP Minneapolis and recordedat the Minnesota State Fair during the 1980-ies, shows next speaker actions placed afterchunks produced by a first speaker. In (2), interviewee Cathy has won the prize for ‘BestPickle’, and is explaining to radio host Joe what makes a winning pickle.(2) KSTP Minnesota state fare1 Cathy: a wInning pIckle is one that is CRI:SP,2 Joe: RIGHT,3 Cathy: VERy flAvourful:,4 Joe: alRIGHT,5 Cathy: .hh and SNAPS when you to-6 (0.28)7 bIte INto it?8 Joe: uHU,9 (0.25)10 Cathy: .hh and is (JU:ST EXcellent.Joe's recipiency displays at lines 2 and 4 occur after chunks from Cathy that show somefeatures of intonation phrases (final lengthening, coherent overall pitch contour), alongsidesyntactic and semantico-pragmatic boundaries. In addition, Cathy’s suspension of turncontinuationafter each chunk shows her to be designing them as separate entities. However,lines 5-8 show that suspension of immediate continuation is not always treated by Joe as alocation for recipiency display: as Cathy aborts her talk at line 5 by breaking off mid-wordand keeping her glottis closed, the resulting pause is treated by both participants as anopportunity for self-repair (Schegloff et al. 1977). Following Local and Kelly (1986), who356


differentiate between pauses with or without glottal closure, one could argue in this case thatthe talk at lines 5-7 is treated by both participants as one chunk, which is being repaired in theproduction process: Cathy’s glottal closure shows ongoing phonetic activity rather than‘pausing’ from speaking, while Joe’s withholding of response tokens during a turn in whichhe regularly produces them shows his possible orientation to the lack of a chunk-boundary.Regarding intonation phrase structure, Cathy’s talk at line 7 could stand alone as anindependent intonation phrase, whereas her talk at line 5 could be classed as an aborted one.However, an interpretation of the whole utterance as one intonation phrase is not possible dueto the presence of nucleus accents in each (snaps, line 5; in-, line 7).While an observation of next participants’ treatment of chunks as chunks can be relativelystraightforward, their treatment of chunks as intonation phrases is much more difficult toinvestigate. In order to show that a next participant treats a chunk specifically as an intonationphrase we would require examples in which next actions are placed after bursts of talk that arenot characterised by any linguistic or kinesic units and boundaries other than those postulatedfor intonation phrases. Proof of such independence would be notoriously elusive, as kinesicboundary markers such as for example hand or foot gestures may escape the camera, and thusthe analyst’s view. The closest research has come to proving the existence of intonationphrases as an independent prosodic category is in experiments on listeners’ agreement onintonation phrase boundaries in de-lexicalised (i.e. unintelligible) spoken language data (dePijper & Sanderman 1995; Sanderman 1996). Interestingly, this research seems to suggestthat inter-listener agreement is most strongly influenced by the presence and length of pauses;other influences being different kinds of pitch discontinuities. However, in contrast toexperimental methods, research on naturally-occurring talk would find it impossible tocontrol all relevant parameters, and it is unlikely that these results could be verified forlanguage and language perception during spontaneous conversation. 9In answer to our second research question which asked whether intonation phrases shouldbe regarded as independently prosodic categories we can conclude that this is most probablynot useful. Instead, the practice of chunking seems to be oriented to by participants as aninteractional strategy, employed for the structuring and sequencing of turns. This is consistentwith a perspective on the interactional and emergent reality of natural talk in situ. If we takeseriously the notion of talk as a multimodal activity it is unlikely that we will find individualmodes handled by participants independently of others, as interactants continuously produceand receive clusters of interactional practices for their accomplishment of conversationalactions.9 Cf. Hughes & Szczepek Reed (forthcoming, 2010) for an evaluation of experimental methods for research onnaturally-occurring talk.357


Proceedings of IDP 093.4 Chunks, turns and TCUsOrientation by next participants to boundary locations shows in the first instance that somesort of sequential boundary has been reached, rather than a specifically prosodic, syntactic, orpragmatic one. And since that sequential boundary is not always treated as a potential turncompletion point, we can say that in those cases participants orient to boundaries other thantransition relevance places (TRPs). Following on from this, we can ask whether theseboundaries actually delimitate some form of interactional unit. If so, that unit would have tobe described as one below the turn-at-talk, as clearly some of the stretches of talk designedand treated as chunks by participants do not have the potential to be stand-alone turns (e.g. Ilistened to my sister when my nephew, (1), line 1). Furthermore, if chunks are units, they mayeven have to be described as units below the TCU, depending on our definition of TCUs. ForSchegloff (1996), TCUs are potentially turns, and are always followed by a TRP:These units can constitute possibly complete turns; on their possible completion,transition to a next speaker becomes relevant (although not necessarily accomplished).(Schegloff 1996:55, emphasis in the original)In contrast, Selting (2000) argues that only some TCUs make turn transition relevant. Heranalysis of syntactic and prosodic resources for turn construction leads her to distinguishbetween TCUs that are followed by a transition relevance place (TRP), and those that are not.It is not entirely clear whether Selting’s notion of turn-internal TCUs overlaps entirely withthe chunks of speech we encounter in the example above, or whether they are indeed moreglobal units. However, in making this distinction, Selting is able to retain a definition of theTCU as the smallest interactional unit:TCUs must be conceived of as the smallest interactionally relevant complete linguisticunits in their given context. They end in TRPs, unless particular linguistic andinteractional resources are used in order to project and postpone TRPs to the end of largerturns. (Selting 2000:512)Selting’s argument is closely related to the suggestion made by Lerner (1991; 1996), whointroduces the notion of ‘compound turn constructional unit formats’. They are two-foldstructures consisting of a preliminary and a final component, as in the case of an if X then Yformat. TRPs are located only at the completion of final components, while preliminarycomponent completions allow recipients to project an upcoming final component, and thus anupcoming TRP. Thus, Lerner’s preliminary TCU components are interactional units belowthe turn, which are not delimitated by TRPs.Data such as those above show that the boundaries which participants design through theuse of various interactional resources, and which next participants may orient to throughrecipient responses are clearly boundaries other than TRPs. Whether they delimitate somekind of ‘unit’; and whether those units are TCUs, or smaller units, is open to discussion.However, what is most relevant from a conversation analytic perspective is participants’chunking of talk, rather than their phrasing in the phonological domain. Rather than using aterm such as ‘intonation phrase’, it is therefore more appropriate to use a term such as‘chunk’, ‘spate’, or, given the possibility that chunks may be used as building blocks for turnsand potentially even TCUs, a term such as ‘turn constructional phrase’ (TCP).358


4. ConclusionAs talk-in-interaction unfolds on a moment-by-moment basis, participants routinely dividetheir own speech into chunks, and orient to others’ chunks as entities with beginnings andends. As a result, emerging turns-at-talk are produced step by step, chunk by chunk. However,defining chunks in terms of any single linguistic category is not straightforward. Firstly,chunks may well be intonation phrases, as well as syntactic clauses, as well as sequentialincrements, etc. Secondly, the data frequently show instances of unconventional chunking inseparate modes (incomplete or ill-formed syntactic constructions; aborted intonation phrases;intonation phrases with more than one primary pitch accent). Thus, the thought processpresented here leads us to conclude that it is not helpful to define speech chunks as intonationphrases, if one is interested in the analysis of talk-in-interaction. While from a phonologicalperspective it may be appropriate to analyse isolated stretches of spoken language, andidentify patterns along the lines of tonality, tonicity and tone, in naturally-occurringconversation these patterns interact with such a wide variety of other interactional modes thata separate analysis of them as intonation phrases does not reflect the reality of languageproduced for talk-in-interaction. 10Furthermore, a transcription practice which divides talk into ‘intonation phrases’ isproblematic, because the kinds of chunks that are oriented to by participants are not definedpurely on intonational, or even prosodic grounds; and because established definitions of theintonation phrase may stand in the way of a conversation analytic investigation into theirdefining features in naturally-occurring talk. Instead, participants produce and treat chunks asmulti-layered interactional events.This concept of chunks as interactional, rather than intonational units is in line with thosediscourse analysts who have used intonation phrases as functional categories in theirtranscript notations. Their primary interest in discourse functions, particularly their focus onwhat the end of an intonation phrase signifies in terms of speaker continuity, is at the heart oftalk-in-interaction, and prosody-in-interaction research. Furthermore, an approach to chunksas interactional, rather than purely phonological phenomena allows analysts to focus on theprosodic design of chunks without having to reconcile them with a pre-supposed intonationphrase structure.Based on the above suggestions that a) participants divide their talk into chunks smallerthan turns, and possibly smaller than TCUs; and b) intonation is not the only feature orientedto in the production of these chunks, we suggest the term ‘turn constructional phrase’ (TCP)as one that denotes the nature of speech chunks as an interactional, rather than a purelyprosodic category. A tentative definition of a TCP could be as a ‘building block’ for turns andTCUs, if we agree that the TCU is defined as a potential turn. The main interactional featureof a TCP is that it is designed by its speaker, and treated by other participants as a separate,but potentially turn-internal entity. From a perspective of speech production, the most typicalway of designing TCPs as separate entities is simultaneous patterning of interactional modesin combination with released pauses, that is, pauses that are not the result of glottal closure(Local and Kelly, 1986), and/or in-breaths. From a recipient perspective, the most obvious10 From a phonological perspective, the fact that an intonation phrase is also characterised by non-prosodicfeatures is not necessarily problematic. Many phonological approaches consider intonation in close relation withother linguistic systems, typically syntax, focus and/or information structure (Halliday 1970; Heusinger 1999;Gussenhoven 1984; Rooth 1992; Selkirk 1984, 1995; Wells 2006). The problem from an empirical perspectivearises from the clearly defined structure of intonation phrases; and the clearly defined form of their alignmentwith non-prosodic features.359


Proceedings of IDP 09ways of treating another participant’s TCP as a separate entity, particularly while a turn is inprogress, is display of recipiency at TCP completion points, including refraining from uptake,placement of minimal response tokens, and non-linguistic actions such as breaths and coughs;and onset of turn-competitive talk or overlap. These are only first suggestions, and are likelyto be more clearly defined by future research.However, the same claim made by Schegloff (1996) for TCUs below possibly holds forthe chunks of talk we refer to here as TCPs:What sorts of entities (described in grammatical or other terms) will be used and treated asturn-constructional units is determined by those who use the language (broadlyunderstood – that is, to include gesture, facial expression, when/where relevant), not thosewho study it academically. Calls for formal definitions of a TCU – beyond their status asunits which can constitute possibly complete turns as above – are therefore bound to bedisappointed, but empirical inquiries to explore such issues should be expected to yieldinteresting results. (Schegloff 1996:115, emphasis in the original)An interaction-based definition such as the one we propose here avoids the numerousdifficulties analysts have faced over the issue of intonation phrase boundaries: if participantsare not clearly demarcating boundaries, we as analysts should be careful to assume theirexistence. The definition also allows for the wide variety of internal structures of TCPs interms of syntax, information structure, pragmatic concepts, action and prosody. Focusing onwhat participants treat as unproblematic units, rather than on pre-established definitions onwhat those units should be can guard against analytical dangers identified by Ford (2004):And:While working toward a precise account for units, interactionally oriented linguists runthe risk of foregrounding the discreteness of units and backgrounding their constant andfunctionally crucial malleability. (Ford 2004:29-30)The drive to define units may cause us to miss systematic practices that makeconversation work for participants in real contexts of use. (Ford 2004:38)Ford (2004) argues that rigid definitions of units and their boundary features have little usefor an analysis of talk-in-interaction. While a practice of defining the exact characteristics ofunits is the norm in approaches to linguistics where language is studied as a system outsidethe interactional context, analysts of language in conversation “need to hold loosely (their)conceptions of structure, rule, and unit” (Ford, 2004: 48), and keep in mind the flexibility oflanguage as a resource for dealing with constantly emerging contingencies:(Interactants’) skill in the production of (a) turn unit lies not in an ability to unilaterallyplan and execute it, without a hitch, but rather in (their) artful production of a unit on thefly. (Their) skill is in producing a coherent unit through resources and practices that aresystematically adapted for the management of contingencies. (Ford 2004:30).An analytical mindset that identifies boundaries only where participants orient to them mustinclude instances in which the potential for boundaries is made interactionally relevant. Pastresearch has identified a number of practices in which participants exploit the notion of360


oundaries by producing talk that is noticeably designed as suppressing them, such as the‘rush-through’ mentioned in Schegloff (1982; 1998) and the ‘abrupt-join’ described by Localand Walker (2004). The interactional work invested into suppressing these boundaries clearlyshows participant orientation to their potential relevance and occurrence.In the description and analysis of conversation we have so far worked with the turnconstructional unit as the smallest interactional unit. And indeed, TCUs are designed andtreated by participants as separate entities of talk, frequently held together by a completesyntactic structure, an overarching prosodic pattern, a coherent semantico-pragmatic concept,and a clearly identifiable social action. However, in many cases, TCUs are made up of two ormore shorter chunks of talk which in themselves are not potential turns, and which are clearlypart of a larger unfolding pattern. These chunks of talk can be oriented to by participants asentities in their own right. As the term ‘intonation phrase’ neither describes the multi-layerednature of these smaller entities, nor their role for turn construction, one option is to refer tothem as ‘turn constructional phrases’. Defined as building blocks for turns and TCUs, andidentified by participant orientation to their boundaries, they facilitate a deeper understandingof the structure of conversation without imposed restrictions on their nature andcharacteristics. Future research into the structure of turns will show how participants employthese smaller entities, what role they play in the accomplishment of conversational actions,and what they tell us about participants’ perspectives on boundaries and unit-formation ininteraction.AppendixTranscription Conventions (adapted from Selting et al. 1998)Pauses and lengthening(.) micro-pause(2.85) measured pause::: lengtheningAccentsACcent primary pitch accentAccent secondary pitch accentPhrase-final pitch movements? rise-to-high, rise-to-mid- level; fall-to-mid. fall-to-lowPitch step-up/step down) pitch step-up* pitch step-downChange of pitch register low pitch register high pitch register361


Proceedings of IDP 09Volume and tempo changes forte piano allegro lentoBreathing.h, .hh, .hhhin-breathh, hh, hhh out-breathOther conventions[[ overlapping talReferencesBarth-Weingarten, D. (2007a). Intonation units and actions – evidence from everyday interaction. Paperpresented at IPrA, Göteborg, 8.-13. July 2007.Barth-Weingarten, D. (2007b).Prosody, Construction Grammar and Language Change. Volk-Birke, S. & J.Lippert (eds.), Anglistentag 2006 Halle. Proceedings. Wissenschaftlicher Verlag, Trier, pp. 421-433.Brazil, D. (1997). The communicative value of intonation in English. Cambridge University Press, Cambridge.Carter, R. & McCarthy, M. (2006). Cambridge Grammar of English. Cambridge University Press, Cambridge.Caspers, J. (2003). Local speech melody as a limiting factor in the turn-taking system in Dutch. Journal ofPhonetics 31, pp. 251-276.Chafe, W. L. (1980). The deployment of consciousness in the production of a narrative. W. L. Chafe (ed.), Thepear stories. Cognitive, cultural and linguistic aspects of narrative production. Ablex, Norwood, NewJersey, pp. 9 – 50.Chafe, W. L. (1987). Cognitive constraints on information flow. R. S. Tomlin (ed.), Coherence and grounding indiscourse. John Benjamins, Amsterdam, pp. 21 – 55.Chafe, W. L. (1988). Linking intonation units in spoken English. J. Haiman & Thompson, S. (eds.), Clausecombining in grammar and discourse. Benjamins, Amsterdam, pp. 1 – 27.Chafe, W. L. (1993). Prosodic and functional units of language. J. A. Edwards & Lampert, M. D. (eds.), Talkingdata. Transcription and coding in discourse research. Lawrence Erlbaum, Hillsdale, pp. 33-43.Couper-Kuhlen, E. (1986). An introduction to English prosody. Edward /Arnold, London.Couper-Kuhlen, E., (2004). Prosody and sequence organization in English conversation: The case of newbeginnings. E. Couper-Kuhlen & Ford, C. E. (eds.), Sound patterns in interaction. Benjamins, Amsterdam,pp. 335-376.Cruttenden, A. (1997). Intonation. Cambridge University Press, Cambridge.Crystal, D. (1969). Prosodic systems and intonation in English. Cambridge University Press, Cambridge.Du Bois, J. W. (1991). Transcription design principles for spoken discourse research. Pragmatics 1:1, pp. 71-106.Du Bois, J. W., Schuetze-Coburn, S., Cumming, S. & Paolino, D. (1993). Outline of discourse transcription. J.A. Edwards & Lampert, M. D. (eds.), Talking data. Transcription and coding in discourse research.Lawrence Erlbaum, Hillsdale, pp. 45-89.Fox, B. A. (2001). An exploration of prosody and turn projection in English Conversation. M. Selting, &Couper-Kuhlen, E. (eds.), Studies in Interactional Linguistics. Benjamins, Amsterdam, pp. 287—315.Gibbon, D. (1976). Perspectives of intonation analysis. Peter Lang, Frankfurt am Main.Grice, M. (2006). Intonation. K. Brown (ed.), Encyclopedia of Language and Linguistics, 2nd Edition, Vol 5.Elsevier, Oxford, pp. 778-788.Gumperz, J. (1993). Transcribing conversational exchanges. J. A. Edwards & Lampert, M. D. (eds.), Talkingdata. Transcription and coding in discourse research. Lawrence Erlbaum, Hillsdale, pp. 91-121.Gussenhoven, C. (1984). On the Grammar and Semantics of Sentence Accents. Foris, Dordrecht.Halliday, M. A. K. (1967). Intonation and grammar in British English. Mouton, The Hague.Halliday, M. A. K. (1970). A course in spoken English: Intonation. Oxford University Press, London.von Heusinger, K. (1999). Intonation and information structure. University of Konstanz: Habilitationsschrift.362


http://elib.uni-stuttgart.de/opus/volltexte/2003/1396/pdf/heusinger.pdfHughes, R. & Szczepek Reed, B. B. (forthcoming, 2010). Learning about speech by experiment: Issues in theinvestigation of spontaneous talk within the experimental research paradigm. Applied Linguistics.Ladd, D. R. (1996). Intonational phonology. Cambridge University Press, Cambridge.Lerner, G. H. (1991). "On the syntax of sentences in progress." Language in Society 20, p.. 441-458.Lerner, G. H. (1996). On the 'semi-permeable' character of grammatical units in conversation: Conditional entryinto the turn space of another speaker. E. Ochs, Schegloff, E. A. & Thompson, S. A. (eds.), Interaction andGrammar. Cambridge University Press. Cambridge, pp. 238-276.Lieberman, P. (1967). Intonation, perception and language. MIT Press, Cambridge, Mass.Local, J., Wells, B. & Sebba, M. (1985). Phonology for conversation. Phonetic aspects of turn delimitation inLondon Jamaican. Journal of Pragmatics 9, pp. 309-330.Local, J. & Kelly, J. (1986). Projection and ‘silences’: notes on phonetic and conversational structure. HumanStudies 9, pp. 185-204.Local, J., Kelly, J. & Wells, B. (1986). Towards a phonology of conversation: Turn-taking in Tyneside English.Journal of Linguistics 22, pp. 411-437.Local, J. & Walker, G. (2004). Abrupt-joins as a resource for the production of multi-unit, multi-action turns.Journal of Pragmatics 36, pp. 1375-1403.Mulder, J. & Thompson, S. A. (2008). The grammaticization of but as a final particle in English conversation.Ritva Laury (ed.), Crosslinguistic studies of clause combining. Benjamins, Amsterdam, pp. 179–204.De Pijper, J. R. & Sanderman, A. A. (1995). On the perceptual strength of prosodic boundaries and its relation tosuprasegmental cues. Journal of the Acoustical Society of America 96, pp. 2037-47.Pike, K. L. (1945). Intonation of American English. University ofMichigan Press, Ann Arbor.Rooth, M. (1992). A Theory of Focus Interpretation. Natural Language Semantics 1, pp. 75-116.Sanderman, A. A. (1996). Prosodic phrasing. Production, perception, acceptability and comprehension.Technische Universiteit Eindhoven.Sacks, H., Schegloff, E. A. & Jefferson, G. (1974). A simplest systematics for the organization of turn-taking forconversation. Language 50, pp. 696–735.Schegloff, E. A. (1982). Discourse as an interactional achievement: Some uses of‘uh huh’ and other things thatcome between sentences. D. Tannen (ed.), Georgetown University Round Table on Linguistics 1981.Analysing Discourse: Text and Talk. Georgetown University Press, Washington, pp. 71–93.Schegloff, E. A. (1996). Turn organization: One intersection of grammar and interaction. E. Ochs, Schegloff, E.A. & Thompson, S. A. (eds.), Interaction and Grammar. Cambridge University Press. Cambridge, pp. 52-133.Schegloff, E. A. (1998). Reflections on studying prosody in talk-in-interaction. Language and Speech 41:3/4, pp.235-63.Schegloff, E. A., Jefferson, G. & Sacks, H. (1977). The preference for self-correction in the organization ofrepair in conversation. Language 53:2, pp. 361-382.Selkirk, E. (1984). Phonology and syntax. The relation between sound and structure. MIT Press, Cambridge,Mass.Selkirk, E. (1995). Sentence prosody: Intonation, stress, and phrasing. J. A. Goldsmith (ed.), The Handbook ofPhonological Theory., Blackwell, Oxford, pp. 550-569.Selting, M. (1996). On the interplay of syntax and prosody in the constitution of turn-constructional units andturns in conversation. Pragmatics 6:3, pp. 357-388.Selting, M. (2000). The construction of units in conversational talk. Language in Society 29, pp. 477-517.Selting, M., Auer, P., Barden, B., Bergmann, J. R., Couper-Kuhlen, E., Günthner, S., Meier, C., Quasthoff, U.,Schoblinski, P. & Uhmann, S. (1998). Gesprächsanalytisches Transkriptionssystem (GAT). LinguistischeBerichte 173, pp. 91-122.Szczepek Reed, B. B. (2004). Turn-final intonation in English. E. Couper-Kuhlen & Ford, C. E. (eds.), Soundpatterns in interaction. Cross-linguistic studies from conversation. Benjamins, , Amsterdam, pp. 97 – 118.Wells, B. & Peppè, S. (1996). Ending up in Ulster: Prosody and turn-taking in English Dialects. E. Couper-Kuhlen & Selting, M. (eds.), Prosody in conversation. Cambridge University Press, Cambridge, pp. 101-130.Wells, B. & Macfarlane, S. (1998). Prosody as an interactional resource: Turn-projection and overlap. Languageand Speech 41:3/4, pp. 265-294.Wells, J. C. (2006). English intonation. An introduction. Cambridge University Press, Cambridge.363


<strong>Actes</strong> d’IDP 09Prosody of Positive and Negative ConjunctionsHisaoTokizaki and Yasutomo Kuwanatoki@sapporo-u.ac.jp, yasukuwa@gmail.comSapporo UniversityAsahikawa Jitsugyo High SchoolAbstract :In this paper, we discuss how the semantics of conjunctions affects prosody across clauses/sentences. Nesporand Vogel (1986) observe that phonological rules across sentences may apply when there exists a positivesemantic relation (i.e., and, therefore, because) between two sentences.The question is whether a positive semantic relation universally helps to join two prosodic domains. Weconducted experiments to see whether this is the case in English and Japanese. The result shows that in English,a positive semantic relation helps to join two prosodic domains, but a negative semantic relation does not.However, the data show that in Japanese, a positive semantic relation does not help to join two prosodic domainsany more than a negative semantic relation. In fact, in Japanese, two prosodic domains were more detached inthe examples of positive semantic relations than in those of negative semantic relations. We discuss syntacticbrackets, word/morpheme status of conjunctives and the semantic closeness of negative relations.1. IntroductionIn this paper, we discuss how the semantics of conjunctions affects prosody acrossclauses/sentences. Nespor and Vogel (1986) observed that phonological rules acrosssentences may apply when there exists a positive semantic relation (and, therefore, because)between two sentences. For example, Flapping may apply between sentences in (1a), but notin (1b) which has two sentences in a negative semantic relation (but, or).(1) a. [ U It’s late] [ U I’m leaving] ![ U It’s la[!] I’m leaving]b. [ U It’s late] [ U I’m not leaving though] !* [ U It’s la[!] I’m not leaving though]In (1b), the second sentence has a negative though, which expresses its negative semanticrelation to the first sentence. 1 Assuming that phonological rules may apply in the domain of asingle U (Phonological Utterance), Nespor and Vogel argue that a positive semantic relationis a condition on U restructuring joining adjacent Us into a single U. U restructuring occursin (1a) with a positive semantic relation, and not in (1b) with a negative semantic relation.Similarly, Nespor and Vogel (1986) show that linking-r and intrusive-r may appear insentences with a positive semantic relation, as shown in (2a) and (3a), but not in those with anegative semantic relation, as shown in (2b) and (3b).1We could use the term ‘adversative’ instead of ‘negative’ to show the semantic relation between twosentences in examples like (1b). However, we will follow Nespor and Vogel (1986) in using ‘negative’ in orderto avoid using the unfamiliar term ‘unadversative’ for ‘positive’.365


Proceedings of IDP 09(2) a. Where’s Esther? I need her. (Esthe[r])b. Where’s Esther? I’m not in a hurry, though. (*Esthe[r])(3) a. You should call Anna. It’s late. (Anna[r])b. Finish your pasta. I’ll eat it otherwise. (*pasta[r])These examples demonstrate that a positive semantic relation helps to join two prosodicdomains in English. The question is whether this is universally true in any language. Weconducted experiments to see whether this is the case in Japanese as well as in English bymeasuring pause length and pitch difference between clauses/sentences. The result shows thatin English, a positive semantic relation helps to join two prosodic domains, but a negativesemantic relation does not. However, the data show that in Japanese, a positive semanticrelation does not help to join two prosodic domains any more than a negative semanticrelation. In fact, in Japanese, two prosodic domains are more detached in the examples ofpositive semantic relations than in those of negative semantic relations.In Section 2, we describe the procedure of our experiments. Section 3 shows the results ofthe experiments. In Section 4, we discuss the reasons for the prosodic difference betweenEnglish and Japanese. Section 5 concludes with a discussion of some remaining tasks andproblems in researching this area.2. Experiments2.1. ProcedureWe would like to investigate the prosody between two clauses/sentences in Japanese.However, Japanese does not have phonological changes between clauses/sentences, such asFlapping in English. The juncture between two clauses/sentences can appear as a pitch resetin the second clause/sentence in both English and Japanese. The pitch difference is betweenthe last syllable/mora in the first clause/sentence and the first syllable/mora in the secondclause/sentence. The bigger the pitch difference, the more separated are the two clauses/sentences.We conducted experiments as follows. Six English speakers and sixteen Japanese speakerswere asked to read some printed sentences. We analyzed seven pairs of English examples andfour pairs of Japanese examples, each of which consisted of two clauses (C)/sentences (S) in apositive/negative semantic relation, the second clause/sentence starting with an accented/unaccented word in the Japanese examples. In each pair of sentences, (a) has a positivesemantic relation and (b) has a negative semantic relation.(4) Japanese Test Sentences:[J1] a. Atsukatta-node nama-o nonda. (C2: Accented)hot-was-because draft-Acc drank‘As it was hot, I drank draft beer.’b. Samukatta-noni nama-o nonda.cold-was-though draft-Acc drank‘Though it was cold, I drank draft beer.’[J2] a. Yasukatta-node momo-o tabeta. (C2: Unaccented)cheap-was-because peach-Acc ate‘As it was cheap, I ate a peach.’366


. Takakatta-noni momo-o tabeta.expensive-was-though peach-Acc ate‘Though it was expensive, I ate a peach.’[J3] a. Anohito-wa yoku yatta-yo. Misu-shinakatta-ne. (S2: Accented)that person-Top well done-Prt miss-did-not-Prt‘He did well. He made no mistakes.’b. Anohito-wa yoku yatta-yo. Misu-shita-kedo-ne.that person-Top well done-Prt miss-did-though-Prt‘He did well. He made mistakes, though.’[J4] a. Osoku-natta-ne. Nemuku-natta-yo. (S2: Unaccented)late-became-Prt sleepy-got-Prt‘It’s late. I got sleepy.’b. Osoku-natta-ne. Nemuku-nai-kedo.late-became-Prt sleepy-not-though‘It’s late. I’m not sleepy, though.’(5) English Test Sentences:[E1] a. The temperature was high. I drank beer.b. The temperature was low. I drank beer, though.[E2] a. The price was low. I bought a lot.b. The price was high. I bought a lot, though.[E3] a. I did it OK. I made no mistakes.b. I did it OK. I made some mistakes, though.[E4] a. It's almost two. I got sleepy.b. It’s almost two. I’m not sleepy, though.[E5] a. It’s late. I’m leaving. (la[!])b. It’s late. I’m not leaving, though. (*la[!])[E6] a. Where’s Esther? I need her. (Esthe[r])b. Where’s Esther? I’m not in a hurry, though. (*Esthe[r])[E7] a. You should call Anna. It’s late. (Anna[r])b. Finish your pasta. I’ll eat it otherwise. (*pasta[r])Test sentences in English [E1]-[E4] are designed to correspond to Japanese sentences [J1]-[J4] in their meanings, respectively. We also tested the sentences [E5]-[E7] in order to checkthe prosody of the examples (1)-(3) taken from Nespor and Vogel (1986), which are claimedto have a phonological change only in the positive connection of two sentences.We calculated pause duration and the pitch difference between the last mora/syllable of thefirst clause/sentence (C1/S1) and the first mora/syllable of the second clause/sentence(C2/S2). This is schematically shown in (6a) for Japanese and (6b) for English, where thepause duration between µ 1 /+ 1 and µ 2 /+ 2 and the pitches of µ 1 /+ 1 and µ 2 /+ 2 are measured. Thepitch difference between the high µ 3 and the initial low µ 2 is also calculated for the Japanesein (6a).(6) a. [ C1/S1 … µ 1 ] [ C2/S2 µ 2 …]b. [ C1/S1 … + 1 ] [ C2/S2 + 2 …]In (6), the pause length between µ 1 /+ 1 and µ 2 /+ 2 and the difference in pitch between µ 1 /+ 1 andµ 2 /+ 2 (µ 2 /+ 2 minus µ 1 /+ 1 ) are calculated.367


Proceedings of IDP 093. ResultsWe found that in English, the two sentences are more separated from each other if they are ina negative semantic relation (e.g. but, though) than in a positive semantic relation (e.g. and,therefore). The pause duration between + 1 and + 2 is longer in negative relations than inpositive relations in Test Sentences [E1], [E2], [E3], [E6] and [E7], with a statisticalsignificance of p < 0.05. The average pause length is shown in (7), where statisticallyinsignificant data [E4] and [E5] are shown in italics.(7) Average pause length (sec.)[E1] a. 0.42b. 0.52[E2] a. 0.30b. 0.43[E3] a. 0.34b. 0.47[E4] a. 0.43b. 0.49[E5] a. 0.29b. 0.34[E6] a. 0.24b. 0.42[E7] a. 0.19b. 0.36The pitch differences between + 1 and + 2 are also wider in negative relations than in positiverelations in [E6], with p < 0.05, which shows that pitch reset at the beginning of C2/S2 ismore complete in negative relations than in positive relations.(8) Average pitch difference between + 1 and + 2 (Hz): + 2 – + 1 (pitch reset)[E1] a. 12.17b. 33.26[E2] a. 6.13b. 28.94[E3] a. 23.60b. 17.14[E4] a. 24.68b. 14.78[E5] a. 5.68b. 10.88[E6] a. –10.75b. 36.77[E7] a. 18.72b. 39.31Pitch reset is more complete in negative semantic relations (b) than in positive semanticrelations (a), except in [E3] and [E4]. This result, with pause and pitch reset, is what weexpect given the phonological observation by Nespor and Vogel (1986), shown in (1)-(3), i.e.,a negative semantic relation makes two clauses/sentences more separate from each other.368


However, our data showed that the Japanese prosody was the opposite of the English. Inother words, two sentences were more separate from each other if they were in a positivesemantic relation (e.g. and, therefore) than in a negative semantic relation (e.g. but, though).First, the pause duration between µ 1 and µ 2 was longer in a negative relation than in a positiverelation in Test Sentences [J1] and [J4], with statistical significance p < 0.05.(9) Average pause length (sec.)[J1] a. 0.14b. 0.07[J2] a. 0.10b. 0.09[J3] a. 0.35b. 0.32[J4] a. 0.41b. 0.19Although the difference between positive (a) and negative (b) in Test Sentences [J2] and [J3]was not statistically significant, the average pause length was a little longer in positive (a)than in negative (b). Second, the pitch difference between µ 1 and µ 2 was also wider in positiverelations than in negative relations in [J3], with p < 0.05, which shows that pitch reset at thebeginning of C2/S2 is more complete in a positive relation than in a negative relation.(10) Average pitch difference between µ 1 and µ 2 (Hz): µ 2 – µ 1 (pitch reset)[J1] a. 30.50b. 32.26[J2] a. 6.24b. 2.21[J3] a. 43.92b. 19.96[J4] a. –3.19b. –3.83Average pitch differences vary from [J1] to [J4]. However, we take [J3] as the representativeresult in Japanese prosody because this is the only statistically significant data.Thus, Japanese prosody is opposite to English prosody in terms of the pause between twosentences and pitch reset at the beginning of the second sentence. In English, the pausebetween two sentences is longer in negative than in positive semantic relations. In Japanese,the pause is longer in positive semantic relations. Pitch reset in English is more complete innegative relations than in positive. In Japanese, pitch reset is more complete in positive thanin negative semantic relations. These facts seem to show that in Japanese two sentences aremore separated in positive than in negative semantic relations. This is contrary to English,where two sentences are more separated in negative than in positive semantic relations, asNespor and Vogel (1986) argue. We will discuss the implications of these results in the nextsection.4. Discussion4.1. Branching direction369


Proceedings of IDP 09This prosodic difference between English and Japanese is difficult to explain using thesemantics or pragmatics of conjunctions, which seem to be the same universally. TheJapanese test sentences have parallel meanings to the English test sentences, as we haveshown in Section 3. Then, we should try to find the reason for the prosodic difference in anarea of grammar other than semantics. In this section, we discuss some possible explanations:branching direction, negative words separating two sentences and word/morpheme status ofconjunctives.The first possibility is to assume that the difference between English and Japanese comesfrom the difference in the branching direction of phrase structure. It has been argued thatEnglish is a right-branching language while Japanese is a left-branching language. This isschematically shown in (11) and (12).(11) a. [A [B [C]]] right-branching: Englishb. [[[A] B] C] left-branching: Japanese(12)The branching direction stems from the syntactic head-complement orders such as verb-objectand adposition-object. For example,(13) a. [write [long letters]]b. [[[nagai tegami-o] kaku]long letters-Acc write(14) a. [in [your town]]b. [[anata-no machi] de]you-Gen town inIf we assume that discourse is a constituent dominating sentences (S), English and Japanesehave the structures in (15) and (16) for a pair of sentences:(15) a. [[ S1 A [B [C]]] [ S2 D [E [F]]]] right-branching: Englishb. [[ S1 [[A] B] C] [ S2 [[A] B] C]] left-branching: Japanese(16)370


English (15a) has three right brackets and one left bracket between C and D while Japanese(15b) has one right bracket and three left brackets. Tokizaki (2008b) analyzes the occurrenceof phonological change in a number of languages and argues that left brackets are strongerthan right brackets in blocking the application of phonological rules (cf. Wagner (2005)).Then, left-branching languages such as Japanese have more strong boundaries between twosentences than right-branching languages such as English. This is shown in (17), where left(strong) brackets are in bold face.(17) a. [[ S1 A [B [C]]] [ S2 D [E [F]]]] right-branching: Englishb. [[ S1 [[A] B] C] [ S2 [[D] E] F]] left-branching: JapaneseHere, C (the last constituent in S 1 ) is separated from D (the first constituent in S 2 ) by onestrong boundary and three weak boundaries in (17a), and by three strong boundaries and oneweak boundaries in (17b). Thus, we would predict that in terms of the prosody of discourse,two sentences in a positive semantic relation are more separated from each other in Japanesethan in English.However, the data in our experiments do not show this expected difference betweenEnglish and Japanese. The most parallel examples between English and Japanese are[E3]/[J3] and [E4]/[J4], where two sentences are conjoined, repeated here as (18).(18) Average pause length (sec.)[E3] a. 0.34b. 0.47[E4] a. 0.43b. 0.49(19) Average pause length (sec.)[J3] a. 0.35b. 0.32[J4] a. 0.41b. 0.19The pause length between two sentences is almost the same in the positive semantic relation:[E3a] 0.34, [J3a] 0.35; [E4a] 0.43, [J4a] 0.41. Thus, we cannot simply ascribe the prosodicdifference between English and Japanese to the difference in branching direction and thebracket strength. We need to examine more examples of the pause length between twosentences with a positive semantic relation in English and Japanese.371


Proceedings of IDP 094.2. Negative conjunctions and syntactic bracketsThe second possible way to explain the prosodic difference between English and Japanese isto take into account the fact that English needs a conjunctive word in linking two sentenceswhile Japanese uses a conjunctive morpheme. The English example sentences in (5) arerepeated here as (20).(20) English Test Sentences:[E1] a. The temperature was high. I drank beer.b. The temperature was low. I drank beer, though.[E2] a. The price was low. I bought a lot.b. The price was high. I bought a lot, though.[E3] a. I did it OK. I made no mistakes.b. I did it OK. I made some mistakes, though.[E4] a. It's almost two. I got sleepy.b. It’s almost two. I’m not sleepy, though.[E5] a. It’s late. I’m leaving. (la[!])b. It’s late. I’m not leaving, though. (*la[!])[E6] a. Where’s Esther? I need her. (Esthe[r])b. Where’s Esther? I’m not in a hurry, though. (*Esthe[r])[E7] a. You should call Anna. It’s late. (Anna[r])b. Finish your pasta. I’ll eat it otherwise. (*pasta[r])The sentences (b) with negative semantic relations have at the final position the conjunctionthough in [E1]-[E6] and otherwise in [E7]. The positive sentences (a) and negative sentences(b) in [E1] to [E7] can be schematically represented as in (21a) and (21b) (cf. Tokizaki 2007).(21) a. [[ S1 A [B [C]]] [ S2 D [E [F]]]]b. [[ S1 A [B [C]]] [ S2 [D [E [F]]] though]]A negative conjunction at the final position adds another pair of brackets at both ends of thesecond sentence, shown here in italics. Thus, the number of brackets between C and D is fourin (21a) and five in (21b). Tokizaki (2008a, b) argues that the number of brackets correspondsto the length of juncture. For example, the pause between subject and predicate is longer in(22a) than in (22b).(22) a. [They [want [to [go [to France]]]]]b. [[Mary [and Jane]] [want [to [go [to France]]]]]]The difference in pause between (22a) and (22b) can be ascribed to the number of brackets:one bracket between they and want in (22a) and three brackets between Jane and want in(22b). Thus, we can explain the fact that in English, the two sentences with a negativesemantic relation in (21b) are more separated from each other than the two sentences with apositive semantic relation in (21a). As we have seen above, the pause between two sentencesis longer in negative semantic relations than in positive semantic relations in English. Werepeat the statistically significant data here as (23), where (a) sentences are connected with apositive semantic relation and (b) sentences with a negative semantic relation.(23) Average pause length (sec.)372


[E1] a. 0.42b. 0.52[E2] a. 0.30b. 0.43[E3] a. 0.34b. 0.47[E6] a. 0.24b. 0.42[E7] a. 0.19b. 0.36Also, pitch reset from the last syllable in the first sentence to the first syllable in the secondsentence is greater in negative semantic relations than in positive semantic relation, as in (8)above, repeated here as (24).(24) Average pitch difference between + 1 and + 2 (Hz): + 2 – + 1 (pitch reset)[E6] a. –10.75b. 36.77In sum, these differences between positive and negative semantic relations are due to thenumber of brackets between two sentences. A negative relation is expressed by an additionalnegative conjunction, which makes one more boundary between two sentences.4.3. Conjunctives: words vs. morphemesThe next question is why Japanese shows longer juncture in positive semantic relations thanin negative semantic relations. We will try to answer this question in two steps. First,Japanese sentences do not need any independent word to connect them. Japanese conjunctivescan be morphemes attaching to verbs; these conjunctive morphemes do not add anyboundaries between the two sentences. This explains the fact that Japanese does not havelonger juncture in negative semantic relations than in positive semantic relations, as occurs inEnglish. Second, a negative semantic relation connects two sentences more strongly than apositive semantic relation, at least in Japanese. We will argue these two points in turn below.The first point about Japanese connective morphemes can be illustrated with the examplesentences we used in the experiments (4), repeated here as (25).(25)[J1] a. Atsukatta-node nama-o nonda. (C2: Accented)hot-was-because draft-Acc drank‘As it was hot, I drank draft beer.’b. Samukatta-noni nama-o nonda.cold-was-though draft-Acc drank‘Though it was cold, I drank draft beer.’[J2] a. Yasukatta-node momo-o tabeta. (C2: Unaccented)cheap-was-because peach-Acc ate‘As it was cheap, I ate a peach.’b. Takakatta-noni momo-o tabeta.expensive-was-though peach-Acc ate373


Proceedings of IDP 09‘Though it was expensive, I ate a peach.’[J3] a. Anohito-wa yoku yatta-yo. Misu-shinakatta-ne. (S2: Accented)that person-Top well done-Prt miss-did-not-Prt‘He did well. He made no mistake.’b. Anohito-wa yoku yatta-yo. Misu-shita-kedo-ne.that person-Top well done-Prt miss-did-though-Prt‘He did well. He made mistakes, though.’[J4] a. Osoku-natta-ne. Nemuku-natta-yo. (S2: Unaccented)late-became-Prt sleepy-got-Prt‘It’s late. I got sleepy.’b. Osoku-natta-ne. Nemuku-nai-kedo.late-became-Prt sleepy-not-though‘It’s late. I’m not sleepy, though.’The connectives used in these sentences are -noni and -kedo, which are basically boundmorphemes attaching to the preceding verb. 2 We claim that these bound morphemes do notadd any brackets to the sentence they attach to, as shown in (26), which represents thestructure of [J4] in (25).(26) a. [Osoku-natta-ne] [Nemuku-nai]late-became-Prt sleepy-not‘It’s late. I’m not sleepy.’b. [Osoku-natta-ne] [Nemuku-nai-kedo]late-became-Prt sleepy-not-though‘It’s late. I’m not sleepy, though.’Alternatively, we can argue that connective morphemes attach to the immediately precedingmorpheme and add a bracket to its left, as shown in (27).(27) a. [Osoku-[natta-ne]] [Nemuku-nai]late-became-Prt sleepy-not‘It’s late. I’m not sleepy.’b. [Osoku-[natta-ne]] [Nemuku-[nai-kedo]]late-became-Prt sleepy-not-though‘It’s late. I’m not sleepy, though.’In (27b), nai has a bracket to its left because of the conjunctive morpheme -kedo. However,both (26b) and (27b) have an extra bracket between the two clauses, i.e. between –ne andnemuku, when compared with (26a) and (27a), respectively. The addition of negativeconnectives does not increase the number of brackets between two clauses/sentences inJapanese. This word/morpheme difference explains the prosodic difference between Englishand Japanese. Typologically, we can ascribe the word/morpheme difference to themorphological difference between agglutinative and isolating languages. This morphological2 Kedo can be used as an independent word in colloquial expressions. We take kedo to be an abbreviated form ofanother conjunctive word keredomo or dakedo (but).(i) Osoku-natta-ne. Kedo/keredomo/dakedo nemuku-nai-yo.late-became-Prt butsleepy-not-Prt‘It’s late. But I’m not sleepy.’374


difference might also be related to the prosodic difference between left- and right-branchinglanguages (cf. Plank (1998) and Tokizaki (2008b)).Let us move on to the second argument. A negative semantic relation connects twosentences more strongly than a positive semantic relation, at least in Japanese. A possibleargument for this comes from English intonation. It has often been said that falling tonesignals ‘completeness,’ ‘finality’ or ‘independence’ while rising tone signals‘incompleteness,’ ‘infinality’ or ‘dependence’ (Wells 2006, Halliday and Greaves 2008,among others). The first clause/sentence in two-sentence discourses is typically pronouncedwith falling tone in positive semantic relations and with rising tone in negative semanticrelations, as illustrated in (28), where falling tone is represented with a grave accent and risingtone with an acute accent.(28) a. Alice is rìch. She is hàppy.b. Although Alice is póor, she is hàppy.Then, rising tone in a negative semantic relation shows that the two sentences are in adependent relationship. This fact about English intonation also shows that two sentences in anegative semantic relation are more closely connected to each other than those in a positivesemantic relation, not only in Japanese but also in English, contra Nespor and Vogel (1986).This semantic closeness of the negative relation seems to be universal among languages.The closeness of the negative relation shows up in Japanese straightforwardly. As we haveseen, Japanese has the same number of brackets between two clauses/sentences in bothpositive and negative cases, as in (27). In English, the closeness of negative semantics isoverridden by the separating effect of the additional boundary created by a negativeconjunction, as shown in (21), repeated here as (29).(29) a. [[ S1 A [B [C]]] [ S2 D [E [F]]]]b. [[ S1 A [B [C]]] [ S2 [D [E [F]]] though]]We claim that both syntactic brackets and semantic closeness affect the prosody between twosentences in both languages in the same way. The different prosody between English andJapanese is due to the word/morpheme difference of negative conjunctions.5. ConclusionWe started with Nespor and Vogel’s (1986) observation that a negative semantic relationblocks intrasentential phonological change in English. This observation implies that twosentences in a negative semantic relation are more separated from each other than twosentences in a positive semantic relation. We have tested if this is also the case in Japanese,by comparing pause length and the degree of pitch reset in parallel sentences in English andJapanese. The result of the experiments has shown that Japanese prosody is the opposite ofEnglish: in Japanese, two clauses/sentences with a positive semantic relation are moreseparated from each other than those with a negative semantic relation. This result does notconform to the first assumption that two sentences in a negative semantic relation are moreseparated from each other than two sentences in a positive semantic relation in any language.We discussed three possible ways of explaining the prosodic difference between Englishand Japanese: branching direction, syntactic brackets added by negative conjunctions and theword/morpheme distinction of conjunctives. We argued that conjunctive words in English adda bracket between two clauses/sentences while conjunctive morphemes in Japanese do not.375


Proceedings of IDP 09We claimed that a negative semantic relation makes two clauses/sentences closer to eachother in any language. This semantic effect, not as strong as the syntactic effect, can beoverridden by a syntactic bracket inserted by a negative conjunction in English.These arguments explain the difference between English and Japanese: twoclauses/sentences with a negative semantic relation are more separated from each other inEnglish, while they are more closely connected in Japanese.Needless to say, this study needs to be supported by data from languages other thanEnglish and Japanese. However, it reveals an interesting relation between prosody, syntax,and the semantics of discourse.AcknowledgmentsAn earlier version of this paper was presented at Experimental and Theoretical Advances in Prosody held atCornell University, April 11-13 2008. We would like to thank Diane Blakemore, Lisa Selkirk and MichaelWagner for their comments and suggestions. This work has been supported by Grant-in-Aid for ScientificResearch (C18520388) and a grant from Sapporo University.ReferencesHalliday, M. A. K. & W. S. Greaves (2008) Intonation in the grammar of English. Equinox, London.Nespor, M. & I. Vogel (1986) Prosodic phonology. Foris, Dordrecht.Plank, F. (1998) The co-variation of phonology with morphology and syntax: A hopeful history. LinguisticTypology 2, pp. 195-230.Tokizaki, H. (2007). Intrasentential prosody: Conjunction, speech rate and sentence length. Nouveaux cahiers delinguistique française 28, 359-367. The University of Geneva.Tokizaki, H. (2008a). Syntactic structure and silence: A minimalist theory of syntax-phonology interface, HitsujiShobo, Tokyo.Tokizaki, H. (2008b). Symmetry and asymmetry in the syntax-phonology interface. On-in Kenkyu (PhonologicalStudies) 11, pp. 123-130.Wagner, M. (2005) Asymmetries in Prosodic Domain Formation. MIT Working Papers in Linguistics 49, pp.329-367.Wells, J. C. (2006) English intonation: An introduction. Cambridge University Press, Cambridge.376


<strong>Actes</strong> d’IDP 09Fundamental Frequency and Other Prosodic Cues to Topic StructureMargaret Zellers and Brechtje Postmkz21@cam.ac.uk, bmbp2@cam.ac.ukResearch Centre for English and Applied Linguistics, University of CambridgeAbstractStudies of the relationship between prosody and the topic structure of longer discourses have tended to focus onintonational cues, most specifically fundamental frequency (F0). However, this may limit the kinds of topicstructure it is possible to identify. A case study of two speakers shows that including speech rate along with F0factors in an analysis of the prosody of topic structure can be valuable in shaping our understanding of the topicstructure of spoken discourses. Furthermore, it demonstrates that F0 cues can alternate not only with each other,but also with other prosodic cues, to effectively signal topic structure in discourse.I. IntroductionProsodic studies have generally focused on structure and signals at the level of the individualsentence or utterance, yet it is becoming increasingly apparent that prosody also providesvaluable cues for signaling discourse structure in units larger than single utterances. Prosodyis used as a way of helping to maintain coherent discourses by indicating, for example, thenewness of referents in utterances; it can also be used on the level of whole utterances tosignal how those utterances relate to one another in terms of their content, and specificallytheir discourse topic.By discourse topic, we here refer to the shared ‘aboutness’ of a group of utterances; theutterances may be ‘about’ a referent, a proposition, or some other entity. This is related to,but not necessarily the same as, topic as contrasted with the comment or the focus in a givensentence. Büring (1999) describes D(iscourse)-Topic as constraining the directions which aconversation might take; in his analysis, the D-Topic is relevant to but not the same as thepossible values for a S(entence)-Topic, which contrasts with focused or backgroundinformation in an individual utterance. In his analysis, therefore, the discourse topic can beseen as an active element in the semantic structure of the discourse, helping to shape thediscourse by constraining the directions a following utterance may take. All further uses ofthe term ‘topic’ in this paper will refer to something like Büring’s D-Topic: something that isheld in common by multiple utterances within a discourse.A number of prosodic studies on topic have used the notion of a functional discoursetopic, as suggested by Büring, in their analyses. In particular, Nakajima and Allen (1993) andWichmann (2000) have described prosodic, and particularly intonational, variation in theirdata on the basis of four topic structure categories, which have to do with the relative newnessof the information in different utterances and the semantic relationships between them. Intheir theories, the relationship to an existing topic, which is normally presented explicitly inthe discourse, is the key element in the organization of discourse, and thus in the descriptionof prosodic variation cueing that organization.However, this is not the only way of seeing discourse topic, and indeed there are sometheories of discourse structure which discount the existence of topic as a functional elementaltogether. Blakemore (1992, 2002) argues that the idea of topic is nothing more than anartifact of the way in which sentences or utterances are connected to each other, with more377


Proceedings of IDP 09closely related sentences appearing in closer physical proximity, and less closely relatedsentences occurring farther away. From this point of view, discourse might be betterdescribed in terms of a simple hierarchy, as presented by Grosz and Sidner (1986). In ahierarchical theory, the relationships between utterances are dominance and subordinationrelationships. This is not completely in conflict with a categorical view such as that ofNakajima and Allen (1993) or Wichmann (2000), since the categories given by these latterstudies also appear in a hierarchy with one another (that is, new topics always dominate theother categories from a hierarchical standpoint). However, other than the basic requirementof coherence that there be identifiable links (or potentially, identifiable disconnects 1 ) betweensubsequent utterances, the semantic content of the utterances and the way in which theinformational content relates is not relevant in a hierarchical theory in the same way it isrelevant in a categorical theory. In a categorical theory, the relationships are defined on thebasis of the informational content; that is, a given utterance can add separate information to anew topic, or it can add more detail on the content of a previous utterance. Both of theserelationships, however, could be subsumed under a subordination relationship in ahierarchical system. The different ways in which the new information is added, or perhapsthe semantic distance between the two utterances, is less important to the organization of thediscourse than the fact that both of the new utterances are subordinate to the new topic.(1) (New topic) Suddenly there was a huge commotion.Animals flooded the camp.The captain ordered everyone to remain calm.In (1) above, a new topic utterance is followed by two further related utterances. Acategorical approach would likely identify the first following utterance (Animals…) as givingmore detail about the immediately preceding utterance: that is, one specific aspect of thecommotion is the presence of many animals. The second following utterance (Thecaptain…), on the other hand, would be better identified as the addition of more informationabout the situation introduced in the topic, although less specifically tied to it. A categoricalapproach would thus distinguish between these two utterances. A hierarchical approach, onthe other hand, would likely identify both of the following utterances as being immediatelysubordinate to the topic utterance. In other words, they are on the same ‘level’ of thehierarchy, regardless of the way in which they contribute information to the overall topic athand. The category approach would therefore predict that the prosodic signals associatedwith the two following utterances should be different, while a hierarchical approach wouldpredict that the prosodic signalling would be the same (in both cases allowing for aninteraction with the sequential order in which the utterances are presented).Given these two different characterizations of topic structure, the search for prosodic cuesto topic structure is difficult to separate from the search for an appropriate theory of topicstructure. Studies that have looked at this problem have often either simplified it into thedichotomy of new-topic versus non-new-topic, or they have divided their data into categorieswhich, while reflecting their own data well, may be less applicable in other contexts. Thesecategories in turn may reflect not true variations in the topic structure of utterances, but rathersimply variations in one or more prosodic features as evidenced in the data at hand. However,1 It is important to note that while Wichmann (2000) in particular describes her topic structure categories ashaving to do with the relative newness of information contained within the utterances, it has also been suggestedthat topic structure is to do with the amount of disconnect of utterances from the preceding context (cf. Brazil1997).378


y adding multiple prosodic correlates to an analysis, it may become possible to make moreaccurate groupings into categories. This was recognized by, for example, Nakajima and Allen(1993), who used several fundamental frequency characteristics to identify four levels of topicstructure in their spontaneous speech data. In their data, different height ‘settings’ for initialhighs and final lows, as well as the ratio between consecutive peaks in different utterances,combined to create distinct identifying prosodic patterns for the four topic structurecategories. However, no one of these features on its own was sufficient to differentiate allfour groups.In order to gain a better understanding of the prosodic correlates of topic structure, Zellersand colleagues (Zellers 2009; Zellers et al. 2009) conducted a production study on speakers ofStandard Southern British English (SSBE). Participants in the study read aloud a written textwhich had been controlled for segmental factors such as segmental structure of the targetword, presence or absence of anacrusis, and position of the target item in a group ofutterances, as well as having utterances which were in principle easily classified into fourtopic structure categories similar to those posited by Nakajima and Allen (1993) andWichmann (2000). The topic structure categories were used to guide the construction of theoriginal text, and were defined as follows:(2) Topic: the beginning of a new topicAddition: new information on the same topicElaboration: more detail or clarification of a previous utteranceContinuation: completing the speech act begun in the previous utteranceThe design of the text meant that different productions of the same target syllable (or in manycases the complete word) by the same speaker in different segmental and topic-relatedcontexts could be compared, in order to gain a better understanding of which kinds ofprosodic variation were specifically related to the topic structure versus varying incidentallyon the basis of random segmental factors. This was a difficulty encountered by previousstudies, which often used spontaneous or semi-spontaneous texts in which it would have beennearly impossible to compare identical lexical items in similar contexts.Zellers (2009) found that there was a correlation in her data between the size of F0 falls(that is, the distance in semitones between the H peak and a following L valley in a fallingpitch accent) and the topic structure categories used, although it was unclear whether theexact categories used were accurate, since it appeared that two of the middle categories didnot in fact differ significantly from one another, at least in this measure (see Fig. 1 below).379


Proceedings of IDP 09However, height of the peak from the speaker’s baseline, which had previously beenfound to correlate with topic structure (e.g. by Wichmann 2000), did not show such acorrelation in this data, instead patterning only with the position of an utterance in a group ofutterances (beginning, middle, or end). Zellers et al. (2009) found furthermore that F0 peaktiming, which had been previously posited to be a prosodic correlate of topic structure, was anunstable cue at best in this data, since it was highly dependent upon the type of phonologicaltheory chosen to describe the pitch accents in the data. Wichmann (2000) had shown that inher data, the F0 peak was delayed relative to the segmental structure of the utterance when aspeaker was introducing a new topic. However, Wichmann’s study was not able to comparethe F0 peak timing across multiple instances of the same word or phrase (that is, the samesegmental structure), and it also assumed that all the F0 peaks that she measured fell into thesame phonological category. Zellers et al. (2009) found that when the segmental structurewas held constant by comparing different instances of the same word, the peak delay effectdisappeared almost completely, remaining in only one highly specific segmental context:target words without a consonant onset or an anacrusis. However, we found in contrast that ifthe pitch accents were divided into two categories, a fall and a rise-fall (followingGussenhoven 2004), an effect of the distribution of the two pitch accents could be seen acrossthe four topic structure categories proposed. Rising-falling pitch accents were most likely innew Topics, and decreasingly so across the other topic structure categories, in an orderconsistent with the category order in Zellers (2009). We therefore concluded that it is highlylikely that peak timing is a cue to the information status of the accented element, which is afactor related to but not equivalent with topic structure. These two studies thus suggest thatsome of the most popularly recognized intonational cues to topic structure may in fact not besignaling topic structure at all. This leaves us with two possibilities which must beconsidered. First, prosody may not in fact be in use as a signal of the topic structure ofdiscourses. This could be either because some other, currently unknown, signal is in use, orbecause the topic structure of spoken discourses is not necessary or useful for discourseunderstanding. Second, and probably more likely given the studies presented above, it may380


e necessary to look beyond the realm of F0 modulation to find prosodic cues to topicstructure, for example into pausing, rhythm, or voice quality.The current paper addresses the latter possibility by presenting two representative case studiestaken from the SSBE production study mentioned above. The two speakers were chosen asbeing representative of two patterns which emerged in the data. There were sixteen speakersincluded in the analysis. Speaker F05 is representative of nine of these speakers; F04 isrepresentative of five. The two remaining speakers did not seem to fit either pattern, but werethe two speakers with the fewest data points, so it is perhaps not surprising that they did notshow a clear tendency to one or the other of these patterns of behavior. Alternatively, theymay show variation on other parameters which were not included in this study. Section 2compares prosodic variation in F0 fall range on the one hand, and speech rate on the other, intwo speakers from the study. Section 3 discusses some of the implications of this variationfor our understanding of topic structure and its correlates in spoken language.2. Two case studiesAlthough speakers of the same language must by definition be (generally, at least) mutuallyintelligible, this does not translate to a requirement that they speak in an identical fashion.Individual variation among speakers of the same dialect is to be expected, even as we seeclear overall trends among a group of language speakers. Therefore, although the distributionof a prosodic cue, in this case F0 fall range, may appear as in Figure 1 for a whole group ofspeakers, it is not surprising to find within this distribution the two very different patternsfound in Figure 3a and Figure 4a for individual speakers.In Figure 3a, we see F0 fall range data for speaker F05, whose speech production patternbasically matches the overall pattern (see Fig. 1) for this data. New Topics have the largestF0 falls, and Continuations the smallest, while Additions and Elaborations fall somewhere inthe middle and are difficult to distinguish from one another (ANOVA: F(3, 41) = 2.602,p20.05). In Figure 4a (overleaf) the F0 fall range data for speaker F04 is presented. In thiscase we see a very different picture. Instead of the stepping-down pattern in Figure 1, the381


Proceedings of IDP 09Topic, Addition and Elaboration categories appear to all have more or less the same size fallrange, while Continuations are the only category to vary noticeably from the mean of theother groups, having a more compressed fall range (F(3, 31) = 6.988, p


and those not beginning new topics, yet this speaker appears not to make such a distinction.However, the two speakers are speakers of the same dialect of SSBE and read the same text.Even if, as seems likely, there were some small variations in how the individual speakersinterpreted the topic structure of the text, these drastic differences are strikingThis production behavior becomes less odd when we add other prosodic features into theaccount of the data. In figure 3b, we see speech rate data for speaker F05, and in figure 4b forspeaker F04. For speaker F05, who used F0 fall range in the same way as the overall trend inthe data, there is very little meaningful variation in the speech rate, although new Topics arespoken marginally more quickly than the other categories, strengthening this cue (F(3, 43) =2.66, p20.06). Interestingly, for this speaker, Additions and Elaborations may also bedifferentiable on the basis of speech rate, although this pattern did not hold for all speakers.For speaker F04, however, who made relatively little use of the F0 fall range, the speech ratedata are striking. New Topics are spoken at a faster rate than Additions, which in turn arespoken more quickly than Elaborations and Continuations (F(3, 37)=2.84, p20.05). Thedifferences between Topics, Additions and Elaborations/Continuations in the speech ratecombined with the significant differences between Topics/Additions/Elaborations andContinuations in the F0 fall range mean that by using these two cues in combination it ispossible to distinguish between all four categories of topic structure which were posited in thestudy.In summary, we have seen that by using a combination of prosodic cues, it becomespossible to identify topic category structure that would have remained hidden when usingonly a small subset of prosodic signals. These two speakers are generally representative ofthe patterns in the data, and it is possible to divide the other speakers into two groups,although not all speakers showed the exact patterns or had them attain statistical significance.The 9 speakers who produced a similar pattern to speaker F05 (henceforth the “Fall RangeGroup”) varied the size of F0 falls in relation to the topic structure of the discourse but notspeech rate; the 5 speakers showing a similar pattern to speaker F04 (henceforth the “SpeechRate Group”) varied speech rate but not the size of F0 falls. The fact that individual speakers’patterns vary in terms of which distinctions attain statistical significance can in part beattributed to the fact that not all speakers provided an equal number of data points. Since thedata analysis was limited to non-nuclear falling intonational contours, and different speakersphrased their utterances differently, the number of target items which could be included in theanalysis for each speaker varied. Speakers with more data points were more likely to conformto the patterns presented here, and speakers with fewer data points were more likely to deviatefrom them, suggesting that more consistent patterns would be observable if more data wereavailable.383


Proceedings of IDP 09Fall Range Group(like speaker F05)Speech Rate Group(like speaker F04)Topic – fall range (st) 5.564019 * 4.315985Addition – fall range 4.716109 4.175885Elaboration – fall range 4.232264 3.784505Continuation – fall range 3.431596 * 3.30309 .Topic – word length (sec) 0.327549 . 0.329359 *Addition – word length 0.343265 0.378102Elaboration – word length 0.353144 0.381215Continuation – word length 0.363623 0.410123 .Table 1: Mean fall range and word length by category for each group of speakers (shown with ID ofrepresentative speaker). Comparisons were carried out by ANOVA. For fall range, F(3, 492)=16.8; for wordlength, F(3, 544)=9.74. ‘*’ indicates that a category differs significantly from the other categories (within thespeaker group) to the p


would not necessarily lead to the conclusion that varying the F0 fall ranges or the speech ratewould be obligatory in topic structure signalling.One way to implement the idea of prominence variation in topic structure might be tosuggest that there is a baseline neutral level for a variety of cues (Xu 2005), and all variationaway from this baseline level contributes to the impression of prominence. In this case, alarger F0 fall span could contribute to the higher prominence of a given element, but equally,an increase in speech rate could do so in the same context. This kind of description wouldallow cues to alternate but also to combine: one could imagine an ‘additive’ effect of aslightly larger F0 fall range plus a slightly increased speech rate, which could cumulativelybecome equivalent to a larger increase in one cue or the other independently. This isconsistent with what we observe in the data above, where more than one cue is necessary toboth identify topic structure in all of the speakers, and potentially to identify a fourth topicstructure category.One question that still remains is whether or not, despite the combinatory effect of thecues, there is a single cue that is a ‘default’ or majority choice for signalling topic structure.In the current data, F0 fall span was used by more speakers than speech rate variation, but thenumber of speakers is relatively small and therefore it is difficult to draw a useful conclusionfrom this distribution. There may be a meaningful difference in this case, for examplebetween the signals used by more proficient versus less proficient readers; but alternatively itmay simply be representative of variation within the population on the basis of some as yetunknown factor. Such a factor may potentially even be external to the structure of thelanguage, for example a sociolinguistic marker. Perceptual testing as to the relativeprominence of these cues may shed some light on this issue, but for the moment the source ofthese different behavioral patterns remains an open question.AcknowledgementsThe authors would like to thank Mariapaola D’Imperio for valuable discussion on this topic, the threeanonymous reviewers for their helpful comments and suggestions on the original abstract, and attendees of theIDP workshop for their comments on the poster version. This research was supported by the EC Marie CurieResearch Training Network/Sound to Sense/(MRTN-CT-2006-035561), and by the ESRC grant ‘Categories andgradience in intonation’ (RES-061-25-0347) held by the second author.ReferencesBlakemore, D. (1992) Understanding Utterances: An Introduction to Pragmatics. Oxford: Blackwell.Blakemore, D. (2002) Relevance and Linguistic Meaning: The Semantics and Pragmatics of Discourse Markers.Cambridge: Cambridge University Press.Brazil, D. (1997) The Communicative Value of Intonation in English. Cambridge: Cambridge University Press.Büring, D. (1999) Topic. In: Bosch, Peter & Rob van der Sandt (eds.) Focus -- Linguistic, Cognitive, andComputational Perspectives. Cambridge: Cambridge University Press, 142-165.Grosz, B. & Sidner, C. (1986) Attention, intentions, and the structure of discourse. Computational Linguistics12(3):175-204.Gussenhoven, C. (2004) The Phonology of Tone and Intonation. Cambridge: Cambridge University Press.Nakajima, S. & Allen, J.F. (1993) A study on prosody and discourse structure in cooperative dialogues.Phonetica 50:197-210.Ní Chasaide, A. & Gobl, C. (2004) Voice quality and f0 in prosody: towards a holistic account. Proceedings of2 nd International Conference on Speech Prosody, Nara, Japan, 189-196.Post, B., D’Imperio, M. & Gussenhoven, C. (2007) Fine phonetic detail and intonational meaning. Proceedingsof ICPhS XVI, Saarbrücken, Germany, 191-196.Wichmann, A. (2000) Intonation in Text and Discourse. Harlow: Longman.Xu, Y. (2005) Speech melody as articulatorily implemented communicative functions. Speech Communication46:220-251.385


Proceedings of IDP 09Zellers, M. (2009) Fundamental frequency and discourse meaning in SSBE. Presentation given at Phoneticsand Phonology in Iberia, Las Palmas de Gran Canaria, 17-18 June 2009.Zellers, M., Post, B. & D’Imperio, M. (2009) Modelling the intonation of topic structure: two approaches.Proceedings of 10th Interspeech, Brighton, UK, 2463-2466.386

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!