Analisi e sintesi dei gesti comunicativi per gli - Maurizio Mancini

Indice 

Indice________________________________________________________________________1 

Ringraziamenti ________________________________________________________________4 

Introduzione __________________________________________________________________5 

I Gesti comunicativi ___________________________________________________________14 

I.1 La conversazione Faccia-a-Faccia_________________________________________________14 

I.1.1 Proposizione e interazione____________________________________________________________ 15 

I.1.2 Multimodalità _____________________________________________________________________ 16 

I.1.3 Temporizzazione ___________________________________________________________________ 17 

I.2 I gesti nella conversazione _______________________________________________________17 

I.2.1 Gesticolazione e tipi di gesto__________________________________________________________ 20 

I.2.2 Fasi del gesto______________________________________________________________________ 21 

I.3 Contenuto rematico e tematico ___________________________________________________23 

I.4 Sintesi dei gesti comunicativi _____________________________________________________24 

I.4.1 Marcatori delle convinzioni___________________________________________________________ 25 

I.4.2 Marcatori degli obbiettivi ____________________________________________________________ 26 

I.4.3 Marcatori delle emozioni_____________________________________________________________ 27 

II Stato dell’arte ______________________________________________________________28 

II.1 Definizione di agente conversazionale_____________________________________________28 

II.2 GesSyCa (Thierry Lebourque & Sylvie Gibet, 1999) ________________________________29 

II.3 MAX (Stefan Kopp, 2001) ______________________________________________________32 

II.4 REA (Justine Cassell & HaoYan, 2000) ___________________________________________34 

II.5 Cosmo (Lester et al., 1997) ______________________________________________________37 

II.5.1 Implementazione – Internet Advisor Learning Environment_________________________________ 38

Introduzione 

II.6 Confronti con Greta ___________________________________________________________39 

III L’agente Greta ____________________________________________________________41 

III.1 Introduzione_________________________________________________________________41 

III.2 Un esempio di interazione______________________________________________________42 

III.3 Descrizione del sistema ________________________________________________________44 

IV Il sistema dei gesti __________________________________________________________47 

IV.1 Motore gestuale ______________________________________________________________47 

IV.2 Motore gestuale di Greta_______________________________________________________49 

IV.3 Dal motore originario a quello finale _____________________________________________50 

IV.4 Il motore originario ___________________________________________________________52 

IV.4.1 Concretizzatore gesti ______________________________________________________________ 52 

IV.4.2 Pianificatore del movimento_________________________________________________________ 53 

IV.4.3 BAP Player ______________________________________________________________________ 56 

IV.5 Il motore finale_______________________________________________________________57 

IV.5.1 Il linguaggio APML e il parser APML_________________________________________________ 57 

IV.5.2 Festival _________________________________________________________________________ 59 

IV.5.3 Pianificatore dei gesti ______________________________________________________________ 59 

IV.6 Il linguaggio GestureScript_____________________________________________________60 

V Motore gestuale_____________________________________________________________66 

V.1 Pianificazione dei gesti comunicativi ______________________________________________66 

V.2 Un esempio___________________________________________________________________67 

V.3 Implementazione ______________________________________________________________71 

V.4 Selettore dei gesti______________________________________________________________73 

V.5 Gesti deittici per l’agente Greta__________________________________________________75 

V.6 Cinematica diretta e inversa_____________________________________________________75 

V.7 Cinematica inversa: IKAN ______________________________________________________79 

V.8 Dinamica dei gesti e posizioni di riposo multiple ____________________________________82 

VI Tools di supporto ___________________________________________________________85 

VI.1 La dipendenza da Maya _______________________________________________________85 

2

Introduzione 

VI.2 Editor delle pose______________________________________________________________87 

VI.3 Implementazione dell’editor delle pose ___________________________________________91 

VI.3.1 Lo scheletro _____________________________________________________________________ 91 

VI.3.2 Il modello _______________________________________________________________________ 94 

VI.4 BAP player __________________________________________________________________97 

VI.5 La codifica BAP ______________________________________________________________98 

VI.6 Implementazione del BAP player_______________________________________________100 

VI.7 Editor dei gesti ______________________________________________________________103 

VII Conclusioni e sviluppi futuri________________________________________________107 

VII.1 Conclusioni ________________________________________________________________107 

VII.2 Sviluppi futuri______________________________________________________________108 

Appendice A ________________________________________________________________110 

Il metodo Draw della classe Joint ___________________________________________________110 

Il metodo ModelDraw della classe Joint _____________________________________________111 

Appendice B ________________________________________________________________113 

Tabella dei gruppi BAP ___________________________________________________________113 

Elenco dei BAP in ogni gruppo _____________________________________________________114 

Appendice C ________________________________________________________________116 

Il modello H-Anim _______________________________________________________________116 

H-Anim: Gerarchia delle giunture __________________________________________________117 

H-Anim: posizione delle giunture ___________________________________________________118 

Bibliografia_________________________________________________________________121 

3

Introduzione 

Ringraziamenti 

Vorrei ringraziare tutte le persone che mi hanno permesso di arrivare fin qui. 

Ringrazio in primo luogo la professoressa Catherine Pelachaud per avermi seguito 

durante il periodo della tesi con pazienza e professionalità. 

Ringrazio molto la mia famiglia per la lunga resistenza e il supporto morale e finan- 

ziario. 

Ringrazio tutte le persone che conosco per i momenti piacevoli trascorsi insieme. 

Un ringraziamento particolare a molte delle persone che ho conosciuto durante il 

mio servizio civile perché è stato in quel periodo che ho deciso che avrei portato a 

termine gli studi universitari. 

Ringrazio le persone con cui suono da molto tempo per aver condiviso con me la 

passione per la musica. 

Ringrazio la mia Compagnia di tiro con l’arco perché tirando sono riuscito a rilas- 

sarmi anche nei giorni in cui ero molto preso dallo studio. 

Infine saluto e ringrazio Elisabetta Bevacqua, Massimo Bilvi e Bjoern Hartmann che 

si occupano insieme a me di Greta. 

4

Introduzione 

Introduzione 

Gli esseri umani comunicano tra di loro non solo attraverso il linguaggio. Durante 

una conversazione le braccia e le mani delle persone mimano forme e azioni mentre 

l’intonazione della voce sale nel raggiungere la parte importante della frase. Nel frat- 

tempo gli occhi si muovono, le palpebre si chiudono e riaprono varie volte più o 

meno rapidamente e tutto il corpo segue lo svolgersi della conversazione modifi- 

cando la sua postura. 

I comportamenti appena descritti vengono definiti con un unico termine: comunica- 

zione non-verbale. La loro funzione comunicativa si pone come complementare o ri- 

dondante rispetto a quella del linguaggio parlato. 

Prenderemo in esame l’aspetto gestuale della comunicazione non-verbale in quanto 

attinente agli argomenti trattati in questa tesi. 

Si tratta di un vero e proprio “canale” di comunicazione che svolge un ruolo centra- 

le. Basti pensare che una persona che si trova in un paese straniero di cui non cono- 

sce la lingua riesce a comunicare abbastanza agevolmente grazie ai soli gesti. Questi 

rivelano molto dello stato emotivo di una persona (ad esempio spesso i gesti tradi- 

scono chi non sta dicendo la verità). Ricordiamo, ad esempio, che i personaggi poli- 

5

Introduzione 

tici in occasione di interventi pubblici studiano con molta attenzione anche il lato 

gestuale dei loro discorsi. 

Tutto quello che abbiamo detto finora riferendoci all’interazione tra le persone (po- 

tremmo anche dire interazione uomo-uomo, cioè tra esseri umani) potrebbe in 

qualche modo essere trasferito all’interazione uomo-macchina e più precisamente 

alla progettazione di interfacce utente [48]. 

L’interfaccia utente è quella parte del computer che permette alle persone di accede- 

re alle funzionalità del computer stesso [52]. 

Dalla nascita dei primi sistemi a oggi sono stati progettati e realizzati molti tipi di in- 

terfaccia, dalle prime semplicissime a riga di comando fino ad arrivare a quelle in cui 

l’utente può dialogare direttamente col computer. 

Gli agenti conversazionali sono un tipo di interfaccia. Più esattamente sono delle inter- 

facce multimodali e antropomorfiche. Le loro caratteristiche principali sono quelle di ave- 

re un aspetto visivo simile a quello dell’uomo e di essere capaci di interagire con 

l’utente comunicando sia verbalmente che non-verbalmente [8]. 

Il motivo principale del loro utilizzo nell’interazione uomo-macchina risiede nel fat- 

to che, come è stato varie volte dimostrato, le persone tendono a interagire con i 

computer come se essi fossero a loro volta esseri umani e ritengono le informazioni 

fornite da personaggi animati molto più attraenti [13]. 

Diamo allora una definizione più precisa di agente conversazionale [8]: 

un agente conversazionale è un’interfaccia che utilizza la rappresentazione visiva di un 

corpo umano o animale e che è capace di: 

♦ riconoscere e rispondere ad input verbali e non verbali 

♦ generare output verbali e non verbali 

♦ tener conto di eventi particolari della conversazione come il turn taking e il 

feedback (vedere I.2) 

6

Introduzione 

♦ fornire segnali che indicano lo stato della conversazione 

L’architettura di un agente conversazionale è la seguente: 

Possiamo notare prima di tutto che lo schema è diviso in 2 parti principali: la mente e 

il corpo. 

La mente è il sottosistema che si occupa di acquisire e analizzare l’input dell’utente 

(percepire e poi capire quello che dice l’utente e quello che succede nell’ambiente) e 

successivamente decidere quale dovrà essere la risposta dell’agente a tale input. Il 

suo compito, potremmo dire, è quello di decidere “cosa l’agente deve fare o dire”. 

In base a queste indicazioni è poi il sottosistema corpo che realizza la sintesi vocale 

delle parole che la mente ha deciso di far pronunciare all’agente, attivando contem- 

poraneamente il movimento delle braccia, delle mani, della faccia e così via. Per ana- 

logia potremmo allora dire che il corpo decide “come l’agente si deve muovere”. 

Mente e corpo sono due moduli totalmente indipendenti e questo permette di uti- 

lizzare la stessa mente su implementazioni del corpo totalmente differenti, ad esem- 

pio in grafica 2D o 3D, con sembianze femminili o maschili e così via. 

Vediamo quali sono e quali funzioni svolgono le singole componenti del sistema: 

• Input manager: è l’hardware necessario per tradurre in segnali elettronici e 

quindi in forma digitale l’input proveniente dall’utente. Può essere in grado di 

acquisire non solo il suono della voce ma anche la posizione del corpo 

dell’utente nello spazio, la direzione del suo sguardo, la posizione e la forma delle 

sue mani, ecc. Una volta letti questi dati li codifica in un formato opportuno. 

7

Introduzione 

• Comprensione e decisione: è l’elemento principale della mente dell’agente. 

Utilizzando tecniche ad esempio di intelligenza artificiale l’input dell’utente viene 

interpretato e viene decisa la risposta dell’agente che sarà in generale un testo da 

pronunciare più alcune meta-informazioni che riguardano il testo e le sue fun- 

zioni comunicative [39]. Questi dati vengono a questo punto passati in input al 

sottosistema corpo. 

• Generazione: la sua funzione è quella di sintetizzare in un file il suono delle pa- 

role che l’agente ha deciso di pronunciare fornendo loro la giusta intonazione e 

di produrre uno o più file contenenti i dati del movimento di tutte le parti del 

corpo dell’agente. 

Nelle attuali implementazioni degli agenti conversazionali il modulo di genera- 

zione si occupa di calcolare: 

♦ l'intonazione con cui si pronunciano le parole 

♦ le espressioni della faccia e degli occhi in particolare 

♦ la forma e il movimento dei gesti (braccia, mani) 

♦ la postura del corpo 

Tutti questi dati viaggiano su canali separati che nello schema abbiamo indicato 

come file audio (per il suono della voce) e file di animazione (per il movimento 

del corpo e della faccia). 

• Visualizzatore dell’animazione: è l’elemento che genera la rappresentazione 

grafica dell’agente rendendo visibili tutti i movimenti decisi dal modulo prece- 

dente. Si occupa inoltre di riprodurre in modo sincrono il file audio relativo 

all’animazione. 

Entriamo nel dettaglio di alcuni aspetti implementativi del modulo di Generazione 

dei movimenti di un agente conversazionale. 

8

Introduzione 

In generale un programma in grado di calcolare delle animazioni in tempo reale vie- 

ne chiamato motore grafico. Il motore grafico di un agente conversazionale può utiliz- 

zare tre diverse tecniche di animazione: 

♦ animazione statica - L’agente viene disegnato da un animatore. Tutti i frame di 

animazione vengono disegnati e trasformati in immagini statiche (bitmap) che 

il motore poi concatena in modo opportuno. E’ quindi la soluzione più re- 

strittiva perché impone di conoscere in anticipo quali saranno tutti i possibili 

movimenti dell’agente. Eventuali nuovi tipi di movimento non posso essere 

realizzati a meno che non si disegnino i fotogrammi adatti. Con questa tecni- 

ca sono stati implementati per esempio gli “Assistenti di Office” della Mi- 

crosoft. 

♦ motion capture - Si immagazzinano tutti gli spostamenti del corpo comprese le 

espressioni facciali utilizzando un particolare hardware composto da alcuni 

sensori indossato da una persona (di solito un attore o comunque una per- 

sona che riesce ad avere un certo controllo sul proprio corpo). Sequenzializ- 

zando questi movimenti si genera l’animazione finale. In questo modo il ri- 

sultato ottenuto può essere molto realistico ma come nel caso precedente ci 

sono delle limitazioni nell’utilizzo dell’agente. Il problema principale è che si 

possono riprodurre soltanto i movimenti preregistrati e non crearne dinami- 

camente altri nuovi. Questa tecnica viene spesso usata nei film di animazione 

per dare ai personaggi un movimento molto realistico (Final Fantasy, Mon- 

sters Inc., ecc.). 

♦ sintesi del movimento - Si scrivono dei tools grazie ai quali gli sviluppatori pos- 

sono manipolare tramite algoritmi i vari gradi di libertà di un modello sinteti- 

co in grafica 3d del corpo dell’agente. E’ necessaria la collaborazione tra 

animatori, psicologi e studiosi del comportamento umano e il sistema è mol- 

to più complicato da realizzare ma le possibilità di utilizzo dell’agente au- 

mentano notevolmente. Esso infatti riesce ad adattarsi almeno in parte (con 

degli algoritmi appropriati) a qualsiasi situazione reale perché il suo movi- 

9

Introduzione 

mento viene generato dinamicamente [7] . 

Per esempio supponiamo di avere a disposizione due algoritmi che generano 

rispettivamente la camminata normale e la corsa. A differenza delle sequenze 

preregistrate del motion capture, in questo caso alla base del movimento ci 

sono delle funzioni matematiche. E’ quindi possibile alternare la camminata 

e la corsa (per esempio tramite interpolazione) in modo che il risultato finale 

sia molto naturale e senza interruzioni del movimento. E’ questa la soluzione 

migliore per realizzare un agente interattivo. 

In questa tesi ci siamo interessati alla creazione di un agente conversazionale interat- 

tivo che sia capace di mettere in atto una comunicazione non verbale sincronizzata 

con le parole che sta pronunciando. Il canale di comunicazione non verbale che ab- 

biamo studiato e riprodotto con una tecnica di sintesi del movimento è quello dei 

gesti. 

Più esattamente ci siamo occupati del modulo di generazione dei gesti del sottosi- 

stema corpo dell’agente, secondo la definizione che abbiamo dato in precedenza. 

Figura 1. L’agente conversazionale Greta 

10

Introduzione 

Non ci occuperemo invece del sottosistema mente assumendo che le informazioni 

necessarie al funzionamento del corpo (cioè, come detto, un testo più alcune meta- 

informazioni) siano già state rese disponibili come risultato di una precedente elabo- 

razione da parte di un modulo di generazione di dialoghi multimodali oppure per 

inserimento manuale. 

Questa tesi è stata svolta nell’ambito del progetto MagiCster, finalizzato alla proget- 

tazione e implementazione di un agente conversazionale chiamato Greta (figura 1). 

Gli obbiettivi di MagiCster sono: 

− progettare un agente conversazionale che faccia uso di intonazione vocale, 

sguardo, gesti e posizione del corpo in maniera sincronizzata 

− valutare l'utilizzo di un agente conversazionale al fine di determinare quali aspetti 

dell'agente risultano importanti per quali tipi di interazione uomo-macchina 

− sviluppare e documentare l'architettura dell'agente e dei suoi componenti al fine 

di permettere ad altri gruppi di ricerca di sviluppare e valutare nuove versioni 

dell'agente in nuovi domini. 

Riassumiamo ora, dandone una breve descrizione, qual’è stato il lavoro svolto in 

questa tesi: 

♦ pianificazione dei gesti: dando come input al sistema un testo con dei tag ri- 

guardanti le sue funzioni comunicative, abbiamo sviluppato un algoritmo che 

pianifica e genera autonomamente una sequenza gestuale “realistica”; 

♦ implementazione di un visualizzatore dell’animazione: abbiamo implemen- 

tato il modulo incaricato, una volta pianificata una sequenza di gesti, di tradurre 

l’animazione calcolata dal corpo in un filmato visualizzabile sullo schermo del 

computer; 

♦ implementazione di alcuni tools di supporto: abbiamo sviluppato una serie 

di tools per permettere la definizione interattiva dei gesti e la loro memorizza- 

zione in un formato ben definito; 

11

Introduzione 

♦ implementazione dei gesti deittici: sono i gesti che servono ad indicare un 

punto qualsiasi nello spazio; 

Nel primo capitolo descriveremo la teoria dei gesti, prendendo in esame quello che 

avviene durante la conversazione tra esseri umani, quali sono i gesti che vengono 

utilizzati e come possono essere classificati. Questa analisi preliminare è fondamen- 

tale perché vogliamo che l’agente Greta abbia un comportamento credibile, che si 

muova quindi in maniera adeguata a quello che dice e al contesto in cui lo dice. 

Nel secondo capitolo forniremo una panoramica sugli agenti conversazionali. Par- 

tendo dalla definizione formale di agente conversazionale e dalla sua architettura ba- 

se prenderemo in esame alcuni agenti conversazionali che rappresentano lo “stato 

dell’arte” in questo campo. In chiusura metteremo in risalto affinità e differenze con 

il nostro agente. 

Nel terzo capitolo presenteremo l’agente conversazionale Greta, al sua architettura e 

descriveremo il suo funzionamento generale. 

Nel quarto capitolo daremo una visione generale del sistema per la generazione dei 

gesti dell’agente Greta e metteremo in evidenza i punti fondamentali del lavoro che 

è stato svolto in questa tesi. 

Nel quinto capitolo entreremo nei dettagli della realizzazione del motore gestuale 

dell’agente Greta. Spiegheremo quali sono le regole che abbiamo fissato per decide- 

re quali gesti fare effettuare all’agente e come siamo riusciti a migliorare la dinamica 

del movimento delle sue braccia. 

Nel sesto capitolo descriveremo alcuni tools di supporto che abbiamo sviluppato e 

che servono a facilitare, rendendolo estremamente intuitivo, il processo di defini- 

zione dei gesti. Inoltre vedremo come è stato realizzato il visualizzatore 

dell’animazione finale. 

Nel settimo capitolo infine riassumeremo tutto quello che è stato fatto in questa tesi 

e spiegheremo come si evolverà nel futuro il sistema dell’agente Greta. 

12

Capitolo I, Gesti comunicativi 

13


I 

Gesti comunicativi 

I.1 La conversazione Faccia-a-Faccia 

Il termine Faccia-a-Faccia viene usato per indicare quando la conversazione tra es- 

seri umani avviene direttamente e non con l’interposizione di un qualsiasi mezzo di 

comunicazione, come ad esempio succede col telefono o la posta elettronica. Ve- 

diamo brevemente come funziona questo tipo di interazione, ponendo l’attenzione 

in particolare sul lato gestuale della comunicazione. 

La conversazione Faccia-a-Faccia è fondamentalmente uno scambio di informazio- 

ni, ma affinché si svolga in modo “sincronizzato” ed efficiente i partecipanti metto- 

no in atto spontaneamente (cioè in modo non cosciente, senza una decisione volon- 

taria) una complessa interazione. 

Pensiamo a un colloquio tra più persone: in generale una delle persone prenderà la 

parola mentre le altre la ascolteranno, finché a un certo punto sarà qualcun altro ad 

iniziare a parlare perché la prima persona ha finito oppure perché è stata interrotta 

14


per sollevare un’obiezione e così via. Quindi quando si dice che la conversazione è 

“sincronizzata” non si intende dire che le persone necessariamente prendono la pa- 

rola una dopo l’altra, ma che lo svolgimento stesso della conversazione contiene una 

parte dell’informazione. Ad esempio, se durante un dibattito molto acceso e dai toni 

forti (per esempio in politica) più persone parlano contemporaneamente e le loro 

parole si sovrappongono, questo contribuisce ad aumentare la sensazione di tensio- 

ne ed altera lo stato emotivo dei presenti. 

I.1.1 Proposizione e interazione 

Tutto quello che viene comunicato durante una conversazione può essere distinto 

tra ciò che effettivamente serve per esprimere il proprio pensiero (contenuto proposi- 

zionale) e ciò che serve a regolare l’andamento della conversazione (contenuto interat- 

tivo). 

Le informazioni proposizionali vengono fornite da chi parla per raggiungere 

l’obbiettivo della conversazione. In generale una persona parla con un’altra persona per 

spiegare qualcosa che a lei è nota ma che è più o meno sconosciuta per chi ascolta. 

Quindi chi parla ha chiaro nella sua mente qual’è l’obbiettivo della conversazione e 

il suo scopo e’ quello di trasferire queste informazioni nella mente dell’ascoltatore 

utilizzando tutti i canali comunicativi a cui abbiamo già più volte accennato (parole, 

sguardo, gesti, ecc). I gesti prodotti per scopi proposizionali sono quindi quelli ad 

esempio che servono a spiegare forme (con le mani si descrive nello spazio la forma 

di un oggetto a cui si fa riferimento), che indicano qualcosa (anche in senso astratto, 

indicando verso il basso dicendo per esempio “…in questo contesto…”) e così via. 

Le informazioni interattive servono invece a modificare in continuazione 

l’andamento della conversazione. I piccoli movimenti della testa che si compiono 

mentre l’interlocutore sta parlando e che significano “ho capito, vai pure avanti”, 

oppure brevi esclamazioni come “uh?”, o il sollevamento del braccio con il palmo 

della mano rivolto in avanti che serve per interrompere chi sta parlando. 

15


D’altra parte la persona che sta parlando si rivolge spesso con lo sguardo verso gli 

ascoltatori e in particolare verso i loro occhi, ricevendo un’informazione continua 

ad esempio sul loro livello di attenzione e/o comprensione di quello che lui sta di- 

cendo. 

In quest’ultimo esempio abbiamo parlato di un tipo di informazione che potremmo 

definire “di ritorno” da parte dell’ascoltatore verso chi parla. Il contenuto interattivo 

della conversazione può essere di due tipi: 

− feedback: informazioni “di ritorno” dall’ascoltatore verso chi sta parlando (ad 

esempio annuire con la testa quando vogliamo far capire di essere d’accordo, 

chiudere e riaprire gli occhi rapidamente più volte per indicare stupore o perples- 

sità, inclinare leggermente la testa da un lato per dimostrare attenzione). Servono 

a chi parla per sapere come l’ascoltatore sta seguendo la conversazione (è inte- 

ressato, sta capendo, si sta annoiando, ecc.). 

− turn-taking: comportamenti che stabiliscono il ritmo della conversazione, cioè 

l’ordine in cui i partecipanti vogliono prendere la parola (ad esempio portare la 

mano davanti a sé per mantenere la parola o scuotere ripetutamente la testa per 

chiedere la parola) 

I.1.2 Multimodalità 

Durante la conversazione tra esseri umani sono molti i canali che vengono attivati 

(parlato, intonazione, occhi, faccia, braccia, mani, postura del corpo). In questo sen- 

so si parla di multimodalità della comunicazione Faccia-a-Faccia. La possibilità di 

scegliere se usare uno o più canali nello stesso momento permette anche di paralle- 

lizzare più informazioni nello stesso tempo o dare enfasi a un’unica informazione 

che riteniamo molto importante convogliandola su più canali contemporaneamente. 

In più la gestualità in molti casi serve anche alla persona che sta parlando per piani- 

ficare meglio come comunicare i propri pensieri, se non addirittura per chiarirli me- 

glio a se stessa [34]. Pensiamo per esempio a quando parliamo al telefono e gestico- 

16


liamo pur non essendo osservati dal nostro interlocutore. Oppure quando una per- 

sona sta spiegando qualcosa che risulta complicata anche per lei e allora esprime 

pensieri molto corti e sottolinea l’inizio e la fine di ogni concetto producendo con le 

mani dei gesti come se stesse “affettando l’aria” davanti a sé. 

Prendendo infine in considerazione in particolare i canali del parlato e dei gesti bi- 

sognerà prestare molta attenzione alla relazione che c’è tra di loro, perché le persone 

ne fanno uso quasi sempre contemporaneamente e i gesti hanno per la maggior par- 

te del tempo la funzione di completare l’informazione contenuta nel parlato. 

I.1.3 Temporizzazione 

Scuotere più volte la testa mentre qualcuno sta parlando ha un particolare significa- 

to che ha l’effetto di modificare l’andamento della conversazione. Sia questa che al- 

tre azioni hanno una precisa temporizzazione che rende l’azione riconoscibile in 

modo univoco a chi osserva. Ad esempio fornire un feedback molto rallentato e ri- 

tardato indica distrazione, o svogliatezza. 

E’ ovvio quindi che non rispettando la temporizzazione dei gesti si rischierebbe di 

rendere nullo il contenuto informativo che si vuole trasmettere se non addirittura 

modificarlo. Ad esempio se mentre vengono pronunciate le parole “prendi quel li- 

bro…” il gesto di indicare un certo libro non viene prodotto durante “quel libro” 

ma in un altro momento, allora l’ascoltatore non sarà in grado di capire a quale libro 

si sta facendo riferimento. 

I.2 I gesti nella conversazione 

Tutti i gesti che le persone producono durante una conversazione possono innanzi- 

tutto essere suddivisi in due insiemi: 

17


• gesti comunicativi: sono quelli a cui abbiamo fatto riferimento finora e dei 

quali ci interesseremo in questa tesi. Hanno una funzione comunicativa 

pari agli altri canali della comunicazione non-verbale (Introduzione). 

• gesti non comunicativi: sono casuali, non sono collegati allo svolgimento della 

conversazione né agli argomenti trattati. Ad esempio, spostare un oggetto, 

aggiustarsi i capelli, ecc. 

Forniremo ora una descrizione più dettagliata dei gesti comunicativi che ricordiamo 

(vedi l’Introduzione) rappresentano la quasi totalità dei gesti prodotti durante la 

conversazione. 

D’ora in poi, per convenzione, utilizzeremo sempre il termine gesto anche se in realtà 

ci stiamo riferendo ai soli gesti comunicativi. 

Secondo Kendon [18; 20], pioniere nella ricerca sui gesti, esiste una gerarchia, chia- 

mata Continuo di Kendon, nella quale si possono distribuire i gesti comunicativi: 

Gesticolazione → Gesti Language-like → Emblemi → Linguaggi dei segni 

Vediamo la descrizione delle singole classi da destra a sinistra: 

♦ Linguaggi dei segni: sono i gesti dei linguaggi utilizzati per la comunicazione tra 

persone non udenti. In questo caso, mancando del tutto la comunicazione 

vocale i gesti e le espressioni facciali servono a trasmettere tutta 

l’informazione e sono utilizzati all’interno di un linguaggio che ha una fono- 

logia, una morfologia e una sintassi ben definite. 

♦ Emblemi: sono gesti specifici di una certa cultura, cioè possono essere inter- 

pretati in modo diverso da cultura a cultura. In Italia [19] si usano moltissimi 

gesti che hanno un significato ben preciso, ad esempio per indicare che si 

vuole fare una telefonata si può avvicinare la mano al lato della faccia con 

18


pollice e mignolo aperti e le altre dita chiuse. Oppure chiudere tutte le dita 

tranne il mignolo e mettere la mano in verticale per fare riferimento ad un 

oggetto sottile. Pur costituendo solo il 10% dei gesti che occorrono in una 

conversazione, all’inizio gli sviluppatori di interfacce conversazionali decisero 

di riprodurre principalmente gesti emblematici [8]. Questo probabilmente 

perché sono gesti che vengono prodotti consciamente e quindi molto più fa- 

cilmente identificabili andando ad esaminare superficialmente la gestualità 

delle persone. 

♦ Gesti Language-like: sono gesti integrati grammaticalmente all’interno delle 

frasi e si sostituiscono del tutto alle parole differenziandosi per questo dai ge- 

sti emblematici. Un esempio potrebbe essere la frase “... i genitori erano ok 

ma i figli erano [effettua un gesto invece di pronunciare la parola]” in cui il 

gesto prende il posto di un aggettivo. 

♦ Gesticolazione: in questo insieme sono raccolti tutti i gesti prodotti dalle perso- 

ne in modo spontaneo e involontario con le mani e le braccia. Caratteristica 

fondamentale della gesticolazione è che praticamente essa non avviene mai in 

assenza del parlato. Numericamente la quasi totalità dei gesti di una conver- 

sazione è gesticolazione. La gesticolazione comprende quindi tutti i gesti più 

comuni, quelli compiuti per porre enfasi su alcune parti del discorso, quelli 

per indicare, quelli che riproducono la forma di un oggetto o lo svolgimento 

di un’azione. Ritorneremo tra breve sulla gesticolazione per descrivere tutte le 

classi di gesti di cui si compone. 

Notiamo che man mano che ci spostiamo nella gerarchia da sinistra verso destra la 

presenza del parlato diminuisce mentre aumenta la funzione linguistica dei gesti. In- 

fatti nella gesticolazione i gesti avvengono sempre durante il parlato, i gesti langua- 

ge-like e emblematici invece possono prendere il posto delle parole e infine nei lin- 

guaggi dei segni il parlato scompare del tutto. Inoltre aumenta anche il collegamento 

tra gesti e ambiente, cioè l’interpretazione e l’uso dei gesti dipende sempre di più 

19


dall’ambito culturale, sociale, o addirittura geografico (ad esempio per gli emblemi) 

in cui la conversazione sta avvenendo. 

I.2.1 Gesticolazione e tipi di gesto 

Abbiamo detto che i gesti compresi nella classe della gesticolazione rappresentano la 

quasi totalità dei gesti prodotti durante le normali conversazioni tra le persone. Su 

questa classe si sono quindi concentrati gli studi compiuti nel campo della gestualità, 

producendo la seguente classificazione della gesticolazione [8; 34]: 

• Iconici: sono in stretta relazione con il contenuto semantico del parlato [50]. Un 

gesto iconico tende a visualizzare (con la sua forma) alcuni aspetti della scena a 

cui fa riferimento il parlato. Quando una persona sta elencando qualcosa, ad 

esempio “…la prima cosa che devi fare..”, le mani riproducono i numeri, ad 

esempio il pollice alzato per il numero 1, indice e medio per il numero 2 e così 

via. Oppure pronunciando “…c’è solo un piccolo pro- 

blema…” per esprimere il fatto che il problema non è di 

grave importanza una delle mani assumerà la forma con i 

polpastrelli di indice e pollice che si toccano e le altre di- 

ta curvate e unite tra loro un po’ staccate dall’indice e la 

mano si sposterà davanti e leggermente di lato alla faccia 

(figura 1). In totale rappresentano circa il 40% dei gesti 

normalmente prodotti durante una conversazione. 

• Metaforici: gesti che rappresentano concetti astratti. Per esempio durante una fra- 

se del tipo “…l’ho spinto in avanti…” chi parla fa un gesto con la mano aperta 

davanti a sé e poi sposta il braccio in avanti mentre pronuncia “spinto” mante- 

nendo la mano nella posizione finale fino alla fine parola “avanti”. Rispetto al to- 

tale dei gesti sono circa il 10%. 

20 

Figura 1.


• Deittici: indicano un punto nello spazio mentre ci si riferisce a persone, posti o al- 

tre entità identificabili in senso spaziale. Fanno cioè parte di questa classe sia i 

gesti che indicano qualcosa che si trova fisicamente nell’ambiente in cui avviene 

la conversazione sia quelli che indicano una parte dell’ambiente 

che può in qualche modo essere identificata con un’entità astrat- 

ta. Un esempio di questo tipo è quando si indica verso il basso 

dicendo “..questo..” (figura 2) per indicare in realtà l’oggetto del- 

la conversazione. Come i metaforici anche questi gesti sono circa 

il 10% del totale. 

• Beat: vengono definiti come tutti quei movimenti che non presentano un signifi- 

cato particolare ma che servono a sottolineare il concetto che 

si sta esprimendo oppure hanno funzioni di turn-taking o 

feedback. Sono piccoli spostamenti delle mani o delle braccia, 

senza una forma particolare. Per esempio se una persona vuo- 

le porre una forte enfasi su una certa parola allora, mentre il 

parlato rallenta arrivando a scandire le singole sillabe della pa- 

rola, le mani si muovono ritmicamente con brevi spostamenti 

dall’alto verso il basso, uno per ciascuna sillaba pronunciata (figura 3). Il rima- 

nente 40% dei gesti di una conversazione e’ composto di beat. 

I.2.2 Fasi del gesto 

I gesti si svolgono nel tempo e hanno un’evoluzione per fasi. Generalmente quelle 

che vengono distinte sono: 

♦ preparazione: le mani e le braccia iniziano a muoversi e si portano dalla posi- 

zione di riposo in un punto dello spazio molto vicino a dove dovrà avvenire 

lo stroke. 

21 

Figura 2 

Figura 3


♦ stroke: la fase più energica del gesto, quella che porta con sé il contenuto se- 

mantico. 

♦ mantenimento: le mani e le braccia si mantengono per un certo periodo di tem- 

po (che potrebbe essere anche molto lungo) nella posizione che avevano du- 

rante lo stroke. A questo punto si potrebbe verificare un nuovo stroke oppu- 

re il gesto potrebbe terminare con la successiva fase di rilascio. 

♦ rilascio: le braccia si portano di nuovo nella fase di riposo. 

Non sempre però avvengono tutte queste fasi (anche se c’è sempre come minimo la 

fase di stroke), ogni gesto ha una complessità diversa ed esistono gesti che includo- 

no per esempio solo la preparazione e lo stroke. Altri hanno una successione di 

stroke molto ravvicinati (gesti con ripetizioni) e altri un tempo di mantenimento di 

molti secondi. 

In generale i gesti che hanno una funzione visiva (iconici, metaforici) sono composti 

di tre fasi (preparazione-stroke-rilascio) mentre quelli non visivi (beat) sono a due 

fasi. 

Nella figura seguente [26] vediamo il grafico del movimento delle braccia di una 

persona durante il gesto “TIRARE”. Esso viene effettuato con il palmo della mano 

verso l’alto, partendo col braccio proteso in avanti e il palmo aperto e poi portando 

la mano verso il corpo con un movimento rettilineo e chiudendo contemporanea- 

mente il palmo. 

Come possiamo vedere sono chiaramente riconoscibili le tre fasi di cui esso si com- 

pone: 

22


E’ stato osservato che nella maggior parte dei gesti il momento culminante dello 

stroke (nell’esempio di figura si trova appena prima di 1.4 secondi) avviene mentre 

si sta pronunciando la parola su cui si pone l’enfasi del discorso e più esattamente al 

75% della pronuncia di quella parola [34]. 

Quando due gesti sono molto ravvicinati nel tempo può succedere che la fase di ri- 

lascio del primo e quella di preparazione del secondo si annullino e vengano sosti- 

tuite da un parziale rilascio del primo gesto seguito da uno spostamento verso la fa- 

se di stroke del secondo. Questo tipo di movimento si chiama coarticolazione tra due 

o più gesti. 

I.3 Contenuto rematico e tematico 

Secondo Halliday e altri ricercatori [12] il contenuto informativo di quello che viene 

detto durante una conversazione può essere denotato in due modi: contenuto rema- 

tico (rheme) e contenuto tematico (theme). 

Il theme è l’argomento principale del discorso, noto a tutti i partecipanti, mentre il 

rheme corrisponde a ciò che viene introdotto a un certo punto del discorso come 

concetto nuovo, oppure riguarda il theme ma è di particolare interesse per qualche 

altro motivo. 

23


Di solito quindi (e anche in questa tesi) tutto quello che viene detto durante una 

conversazione viene sempre classificato come rheme o theme. 

Cassell e Prevost [8] hanno dimostrato non solo che la quasi totalità dei gesti si veri- 

fica durante il rheme, ma che si verifica quasi sempre almeno un gesto per ogni fra- 

se con contenuto di tipo rematico. I ricercatori ipotizzano che questo avvenga per- 

ché il rheme è l’informazione che, essendo nuova, maggiormente contribuisce 

all’evoluzione del discorso e che quindi necessita di una descrizione più accurata e 

completa (con l’ausilio della gestualità) da parte di chi sta parlando. 

I.4 Sintesi dei gesti comunicativi 

Abbiamo visto che secondo il tipo di classificazione più diffuso [8; 34] l’insieme dei 

gesti comunicativi può essere suddiviso in classi in base alla funzione svolta dal ge- 

sto. Quindi i gesti iconici o metaforici sono quelli che in qualche modo assomiglia- 

no a quello a cui si riferiscono, i gesti deittici servono ad indicare qualcosa nello 

spazio e quelli emblematici hanno una funzione linguistica. 

Nel lavoro svolto in questa tesi ci siamo basati su un’altra classificazione frutto degli 

studi svolti da Isabella Poggi della Terza Università di Roma [43;44;45]. 

Secondo Poggi i gesti comunicativi possono essere classificati in base al significato 

di quello che le persone vogliono comunicare. 

Da questo punto di vista una persona mentre parla fa riferimento a concetti che ap- 

partengono sempre a una delle seguenti categorie: 

• l’ambiente che la circonda 

• la propria identità 

• il proprio stato mentale ed emotivo 

Le informazioni sull’ambiente riguardano le entità e gli eventi concreti o astratti che 

si trovano nel mondo in cui la persona si trova (oggetti, altre persone, organismi, 

eventi, posti). 

24


Le informazioni sulla propria identità comprendono la propria età, sesso, personali- 

tà, radici culturali e così via. 

Infine le informazioni sulla mente della persona servono per comunicare agli altri il 

proprio stato mentale, i propri obbiettivi, le proprie convinzioni ed emozioni. 

Gli studi di Isabella Poggi [45] si sono concentrati su quest’ultimo tipo di informa- 

zione e sui gesti che ne permettono la comunicazione durante una conversazione, 

che sono stati chiamati Marcatori Gestuali Mentali (originariamente in inglese Gestural 

Mind Markers). Un marcatore gestuale mentale è quindi un gesto usato per comuni- 

care il proprio stato mentale o emotivo. 

I Marcatori Gestuali Mentali possono a loro volta essere di tre tipi: Marcatori delle 

convinzioni (Belief Markers), Marcatori degli obbiettivi (Goal Markers), Marcatori delle emo- 

zioni (Emotive Markers). Vediamo ora per ciascuna di queste categorie quali sono i 

gesti associati. 

I.4.1 Marcatori delle convinzioni 

Sono quei gesti che usiamo per comunicare all’esterno le nostre convinzioni, certez- 

ze o dubbi circa quello che stiamo dicendo in quel preciso istante. 

• Certezza o incertezza: aprire il palmo della mano verso l’alto inclinandola leg- 

germente verso l’interlocutore significa che siamo certi di quello che stiamo di- 

cendo nel senso che la cosa è ovvia, evidente. Il gesto stesso è come se volesse 

mostrare qualcosa alla persona che ci ascolta. 

Quando invece vogliamo dimostrare di conoscere con precisione l’argomento 

del discorso possiamo unire indice e pollice facendo un piccolo spostamento col 

braccio dall’alto verso il basso. 

Al contrario ci sono gesti che indicano incertezza, quello tipico consiste nel sol- 

levare le spalle, eventualmente aprendo anche entrambe le mani lateralmente. Per 

quanto riguarda la negazione il gesto tipico consiste nel sollevare l’indice facen- 

dolo oscillare da destra a sinistra e viceversa (il gesto “no”). 

25


• Gesti meta-cognitivi: alcuni gesti vengono impiegati per dare informazioni relati- 

ve all’origine della certezza dei concetti che stiamo esprimendo. Ad esempio 

schioccare indice e pollice o portare la mano intorno al mento mentre cerchiamo 

di ricordare qualcosa che ci sfugge. In questo modo avvertiamo l’interlocutore 

che parleremo di un ricordo lontano e quindi che non saremo del tutto sicuri di 

quello che diremo. Oppure fare il gesto delle virgolette (con indice e medio di 

entrambe le mani) per far capire che stiamo riportando le parole di qualcun’altro. 

I.4.2 Marcatori degli obbiettivi 

Sono i gesti che servono a dare informazioni sull’obbiettivo del discorso. 

• Argomento-commento: è stato rilevato che in generale durante una conversazio- 

ne le mani si sollevano mentre facciamo riferimento all’obbiettivo del discorso, 

che comunque è già noto alle persone che partecipano alla conversazione (argo- 

mento), e si abbassano quando vengono aggiunte delle nuove informazioni rela- 

tive ad esso (commento). Questo accade indipendentemente dalla forma dei gesti 

che vengono prodotti. 

• Gesti performativi: sono quelli prodotti mentre si fa riferimento diretto 

all’obbiettivo del discorso per dare informazioni su esso. Ad esempio il gesto con 

il solo indice esteso, il palmo verso sinistra, ruotando la mano in alto e in basso 

significa “fai attenzione a quello che sto dicendo perché è quello che penso circa 

questo argomento e sarà meglio per te essere 

d’accordo!”. 

• Gesti meta-discorsivi: servono a spiegare il senso o la lo- 

gica di quello che stiamo dicendo. Per esempio contare 

con le dita delle mani mentre facciamo riferimento ad un 

elenco di concetti collegati tra loro (figura 2). 

Altri gesti meta-discorsivi servono per indicare relazioni 

26 

Figura 4


di causa-effetto o contrasto tra diversi elementi del discorso. In Italia si usa mol- 

to ruotare la mano con indice e pollice curvati e distanziati per esprimere il lega- 

me di causa-effetto quando questo è praticamente ovvio. 

• Gesti meta-conversazionali: comunicano le nostre intenzioni circa l’andamento 

della conversazione. Alzare il dito indice per far capire che vorremmo prendere 

la parola oppure aprire il palmo della mano verso l’interlocutore (come se voles- 

simo porgere un oggetto immaginario) quando abbiamo finito di parlare e vo- 

gliamo cedere la parola. 

I.4.3 Marcatori delle emozioni 

In generale le emozioni vengono quasi sempre espresse attraverso canali diversi da 

quello gestuale, per esempio tramite le espressioni facciali. 

Comunque esistono gesti collegati alle emozioni. Sollevare le braccia coi pugni chiu- 

si nel momento in cui siamo felici di aver raggiunto un importante traguardo. La 

vergogna invece viene espressa ad esempio coprendo il viso con le mani. 

Quello che appare evidente inoltre è che l’emotività viene espressa non attraverso 

un tipo particolare di gesto ma nell’alterazione delle caratteristiche dei gesti stessi. 

Velocità e tensione dei movimenti comunicano ansia mentre lentezza e armonia so- 

no associati ad uno stato emotivo sereno. 

27

Capitolo II, Stato dell’arte 

II 

Stato dell’arte 

II.1 Definizione di agente conversazionale 

Riprendendo la definizione usata da Justine Cassell [8] diremo che un agente conversa- 

zionale è un’interfaccia che utilizza la rappresentazione visiva di un corpo umano o 

animale e che è capace di: 

♦ riconoscere e rispondere a input verbali e non verbali 

♦ generare output verbali e non verbali 

♦ tenere conto di eventi particolari della conversazione come il turn taking ed 

il feedback (vedere il paragrafo 2) 

♦ fornire segnali che indicano lo stato della conversazione 

28


In questo capitolo prendiamo in esame alcuni sistemi tra i tanti che si trovano in let- 

teratura [8; 13; 24; 25; 26; 27; 29; 30; 31; 32; 55] che per le loro caratteristiche asso- 

migliano al nostro. 

Nel paragrafo finale metteremo meglio in evidenza queste affinità e specificheremo 

eventuali differenze. 

II.2 GesSyCa (Thierry Lebourque & Sylvie Gibet, 1999) 

L'agente virtuale di Lebourque e Gibet [29] è in grado di riprodurre in modo interat- 

tivo il linguaggio dei segni per persone non udenti di lingua francese. Il sistema uti- 

lizza un linguaggio appositamente creato per la descrizione dei gesti e un motore 

grafico basato sulla cinematica inversa chiamato modello sensori-motor. 

Il linguaggio di definizione dei gesti è QualGest, che sta per Qualitative Gesture Spe- 

cification, ed è un linguaggio che descrive in modo qualitativo i gesti. Così ogni ge- 

sto è descritto per come viene percepito visivamente (appunto in modo qualitativo) 

evitando di dover specificare complicate sequenze numeriche per definire i movi- 

menti delle singole articolazioni. Per descrivere un gesto con QualGest è sufficiente 

fornire: la posizione del braccio nello spazio intorno all'agente, la traiettoria che 

eventualmente il braccio deve compiere, la forma della mano (più precisamente del- 

le dita) e la direzione della mano, cioè l’orientamento del palmo della mano. 

Come detto tutti questi parametri sono espressi qualitativamente. Per indicare la po- 

sizione del braccio è stata effettuata una suddivisione dello spazio intorno all'agente 

(figura 1) e sono state fissate sei direzioni base (destra,sinistra, su, giù, davanti, die- 

tro) e tre distanze (vicino, a metà, lontano). In questo modo ogni punto dello spazio 

potrà essere approssimato dalla coppia (direzione, distanza) che più gli si avvicina (di- 

scretizzazione dello spazio). In più si possono ottenere direzioni intermedie come 

combinazione di quelle base. Per esempio nella figura seguente la freccia tratteggiata 

indica la direzione ottenuta combinando su con davanti: 

29


Figura 1. discretizzazione dello spazio 

Per il movimento delle braccia sono disponibili cinque primitive (puntamento, mo- 

vimento lineare, movimento curvo, movimento circolare, movimento ondeggiante) 

che vanno istanziate dando i punti di riferimento spaziali del movimento (da speci- 

ficare come detto poco fa). Per esempio la primitiva del movimento curvilineo ha 

bisogno di un punto iniziale, un punto intermedio e un punto finale: 

Per la forma della mano si può scegliere tra cinque configurazioni base (figura a de- 

stra: angolata, a uncino, aperta, pugno chiuso, dritta) ed eventualmente aggiungere 

un modificatore su ciascuna delle singole dita per 

ottenere nuove forme. 

Infine per la direzione (orientamento) della mano 

è sufficiente dire dove puntano il palmo e il metacarpo usando le stesse direzioni 

della posizione spaziale del braccio. 

Dall'osservazione del linguaggio dei segni e utilizzando QualGest Lebourque e Gi- 

bet hanno memorizzato un vocabolario (più esattamente un gestuario) di ben 1359 

gesti che poi sono stati estesi per comprendere i gesti comunemente utilizzati du- 

rante la comunicazione verbale. 

30


Come per tutti gli altri agenti conversazionali anche in GesSyCa è prevista una tem- 

porizzazione dei gesti. Al contrario di sistemi però questo aspetto non è stato tenuto 

particolarmente in considerazione. E' consentito poter vincolare una componente di 

un gesto in modo da farla avvenire dopo un certo intervallo di tempo dall'inizio del 

gesto o dopo che una certa percentuale del gesto è trascorsa. Inoltre si può ottenere 

una sincronizzazione tra le componenti del gesto e avvenimenti "esterni", come ad 

esempio il contatto tra le mani. Questo è sufficiente a riprodurre molto fedelmente 

il linguaggio dei segni della lingua francese ma non dà risultati particolarmente con- 

vincenti quando si utilizza GesSyCa nell'ambito di una conversazione "tradizionale". 

La parte implementativa del motore grafico si basa su un modello chiamato sensori- 

motor. Secondo il principio di funzionamento di questo modello in un certo istante 

di tempo lo stato q delle articolazioni dell'agente viene calcolato in base al gradiente 

dell'errore tra il vettore a che rappresenta lo stato all'istante precedente e il vettore 

obbiettivo t. Ovviamente se l'errore tra lo stato precedente e quello obbiettivo è 

molto grande (nel senso che alcune articolazioni devono compiere ampie rotazioni) 

nascono delle instabilità che possono generare dei loop del sistema. Per evitare que- 

sto è stata usata una funzione non lineare il cui guadagno cresce esponenzialmente 

con l'errore. Una caratteristica interessante di questo metodo è la capacità di antici- 

pare i movimenti in base al contesto generale del modello (stato precedente, stati 

successivi) e di concatenare piccoli movimenti consecutivi in un modo molto flui- 

do. 

31


II.3 MAX (Stefan Kopp, 2001) 

Il lavoro di Kopp [24; 25; 26; 27; 55] è partito dall’osservazione e la misura dei gesti 

compiuti dalle persone mentre parlano. E’ stato studiato in laboratorio l'esatto svol- 

gimento spaziale dei gesti attraverso il tempo per mezzo di sensori elettromagnetici 

applicati sulle braccia e le mani di più persone. Fatto questo è iniziata la fase di ana- 

lisi dei dati raccolti e la classificazione e traduzione dei gesti in una notazione simbo- 

lica. 

Il risultato di questa ricerca è che un gesto si compone di molte fasi, come la prepa- 

razione, lo stroke e il rilascio e che c'è una precisa dinamica secondo la quale queste 

fasi avvengono. Il modello finale dell'agente permette quindi di parametrizzare non 

solo la forma del gesto ma anche la sua dinamica esatta. 

In Max ogni gesto viene descritto in termini delle sue caratteristiche posturali (vin- 

coli statici) e delle fasi del movimento prima, dopo e durante la fase di stroke del ge- 

sto (vincoli dinamici) mentre le fasi di preparazione e rilascio del gesto vengono in- 

serite automaticamente dal sistema. Questi vincoli vengono poi sistemati in una 

struttura ad albero composta di nodi di tipo PARALLEL e SEQUENCE. La de- 

scrizione dei vincoli statici e dinamici è fornita nello standard HamNoSys che è sta- 

to creato per trascrivere il linguaggio dei segni della lingua tedesca [47]. 

32


Fig. 2. Trascrizione in HamNoSys del segno che significa “ANDARE” 

Nel momento in cui un gesto viene istanziato avvengono 3 operazioni: 

• viene scelto dal gestuario la definizione del gesto 

• il gesto viene adattato al contesto 

• vengono forniti i vincoli esterni di temporizzazione del gesto 

Per esempio il gesto “TIRARE” una volta istanziato temporalmente avrà la forma: 

TIRARE: 

(PARALLEL(Start 1.1)(End 1.41)) 

(DYNAMIC (Start 1.1)(End 1.41)(HandLocation((LocShoulder Loc Stretched)(LocNear)))(Manner(Peak 1.39))) 

(DYNAMIC (Start 1.1)(End 1.41)(HandShape((BSflato)(BSfist)))(Manner(Peak 1.39))) 

(STATIC (Start 1.1)(End 1.41)(Palm Orientation(PalmU))) 

Il gesto parte con la mano aperta di fronte alla spalla col braccio proteso in avanti e 

finisce con il pugno chiuso e il braccio chiuso in modo da portare la mano vicino al- 

la spalla mentre per tutta la durata del gesto il palmo è rivolto verso l’alto. La tem- 

porizzazione è impostata in modo che sia la chiusura delle dita che il movimento del 

braccio inizino al tempo 1.1 e finiscano al tempo 1.41 avendo come punto di stroke 

(che qui è chiamato peak) il tempo 1.39. 

33


II.4 REA (Justine Cassell & HaoYan, 2000) 

L’obbiettivo di questo progetto [8; 13] era quello di realizzare un agente immobiliare 

in grado di interagire con l’utente fornendo le informazioni da lui richieste. REA 

viene proiettato su uno schermo di fronte al quale si trova l’utente che indossa un 

microfono che permette il dialogo diretto con l’agente. Inoltre il sistema traccia per 

mezzo di telecamere il movimento della testa e la posizione delle mani dell’utente. 

Infatti REA è forse l’unico agente che tiene in considerazione la comunicazione non 

verbale da parte dell’utente. Se per esempio mentre l’agente sta parlando l’utente sol- 

leva di scatto una mano l’agente è in grado di capire che l’utente vuole prendere la 

parola e allora smette di parlare e si mette in attesa (turn taking). 

Per la realizzazione di REA il lavoro è partito dall’osservazione di come alcune per- 

sone si comportavano durante la descrizione della struttura fisica di immobili e am- 

bienti chiusi. Durante questi esperimenti sono stati realizzati dei video che una volta 

analizzati hanno permesso di stabilire delle regole per la sintesi dei gesti. Infine è 

stata decisa la seguente gerarchia: 

Gesto referenziale complementare 

Gesto referenziale ridondante 

Gesto beat 

34


Alla base di tutto ci sono i gesti di tipo beat (vedi capitolo I) che sono quindi i meno 

importanti nel senso che non esistono vincoli particolari per i quali devono essere 

generati. I gesti ridondanti riguardano l’obbiettivo principale (goal) della conversa- 

zione al quale di solito più di un gesto viene dedicato da chi parla. I gesti comple- 

mentari sono riferimenti a obbiettivi secondari, che sono obbiettivi di contorno a 

quello principale e che concorrono a specificarlo meglio. Come si vede i gesti com- 

plementari hanno la priorità sui gesti ridondanti, e come ultima possibilità vengono 

lasciati i gesti beat. 

L’agente REA è in grado di capire e sintetizzare informazioni sia proposizionali che 

interattive, consente un input e un output multimodale, tiene in considerazione la 

temporizzazione. Vediamo com’è strutturato il modello su cui è basato: 

L’Input Manager raccoglie e codifica l’input proveniente dall’utente attraverso il parla- 

to, i gesti, lo sguardo. L’Hardwired Reaction comanda eventuali reazioni veloci che 

l’agente deve avere in conseguenza di stimolazioni come ad esempio lo spostamento 

dell’utente nell’ambiente in cui si svolge il dialogo. Il modulo Deliberative Discourse 

Processing interpreta i vari input dell’utente in modo appropriato. Nell’introduzione 

era questo l’oggetto che avevamo chiamato mente dell’agente. 

35


Il Generation Module sintetizza poi la voce, i gesti, le espressioni facciali e la postura 

dell’agente, e nell’introduzione lo avevamo chiamato corpo dell’agente. 

L’implementazione vera e propria di Rea utilizza uno stesso modulo, lo SPUD, sia 

per generare il testo delle risposte che per calcolare gesti, intonazione e espressione 

facciale. Lo SPUD costruisce una struttura ad albero formalizzata con la grammatica 

LTAG (Stone & Doran, 1997) dalla quale vengono ottenuti gli alberi per i gesti e 

l'intonazione con un'operazione di sostituzione. Ad esempio, se l'utente chiedesse 

all'agente di descrivere la sala da pranzo della casa, lo SPUD potrebbe fornire una 

risposta che dopo l'operazione di sostituzione apparirebbe del tipo: 

SENTENCESTART 

there is astaircase in the 

middle ofit 

Invece di scegliere ogni gesto da un vocabolario di gesti, il sistema Rea cerca di sin- 

tetizzare il gesto dai suoi elementi base, come per esempio la forma delle mani, la 

posizione iniziale delle braccia, la loro traiettoria. Inoltre tiene in considerazione il 

contesto del discorso e gli obbiettivi della comunicazione. Quindi se l'agente sta de- 

scrivendo il giardino della casa allora compirà un lungo arco con le braccia nella di- 

rezione del giardino mentre pronuncia le parole "è ampio e molto verde". 

La temporizzazione dei gesti non è un elemento centrale come nel caso dell’agente 

di Kopp, e l’autore afferma che anche se è stata tenuta in considerazione il risultato 

finale non è stato particolarmente convincente. 

36


II.5 Cosmo (Lester et al., 1997) 

Si tratta di un agente pedagogico sviluppato dall'Università della Carolina del Nord 

[30; 31; 32] nell’ambito dello studio di un agente animato da impiegare in progetti 

educativi. Cosmo in particolare è un agente esperto nella tecnologia di comunica- 

zione di rete su cui si basa Internet. Il suo compito è quello di seguire l'apprendi- 

mento di giovani studenti che anche attraverso il gioco imparano i meccanismi di 

trasmissione dell'informazione attraverso una rete con protocollo TCP/IP. Per rea- 

lizzare un agente dedicato all'apprendimento ci sono particolari aspetti della comu- 

nicazione umana da tenere in considerazione. Due di questi sono particolarmente 

importanti nel caso in cui, come accade con Cosmo, l'agente agisca all'interno di un 

mondo condiviso con l'utente: 

• Deictic believability 

Un agente pedagogico deve essere capace come gli esseri umani di far riferimen- 

to ad oggetti fisici situati nell'ambiente che lo circonda utilizzando una corretta 

combinazione di parlato, movimento, gestualità. E' quindi necessario progettare 

un planner per il comportamento dell'agente che tenga in considerazione le pro- 

prietà fisiche del mondo in cui l'agente abita e che gli permetta di esprimersi rife- 

rendosi agli oggetti sia con i gesti (per esempio indicando con l’indice) che con le 

parole senza ambiguità. L’agente è in grado di rilevare il grado di ambiguità del 

37


suo comportamento durante la fase di pianificazione e può agire di conseguenza. 

Ad esempio supponiamo che l’agente abbia appena fatto riferimento ad un og- 

getto A di classe C. Se dopo pochi secondi dovesse parlare di un altro oggetto B 

sempre di classe C allora l’agente rileverebbe un livello di ambiguità molto alto e 

deciderebbe di spostarsi nelle vicinanze dell’oggetto B prima di iniziare a descri- 

verlo. 

• Emotive believability 

L'agente deve essere emotivamente credibile. Già da molti anni gli animatori gra- 

fici si sono accorti che la qualità e la chiarezza della comunicazione può essere 

molto incrementata attraverso un comportamento emotivamente credibile. Il 

contenuto emotivo di quello che l’agente dice deve trasparire anche attraverso il 

movimento del corpo e di alcune sue parti in particolare. Un secondo planner si 

occupa quindi di orchestrare precisamente le espressioni della faccia, il movimen- 

to del corpo e delle braccia per sottolineare il contenuto affettivo delle parole, da- 

re incoraggiamento o aumentare la motivazione degli studenti. 

II.5.1 Implementazione – Internet Advisor Learning Environment 

Cosmo è un agente pedagogico che “abita” un ambiente virtuale chiamato Internet 

Advisor Learning Environment. Gli studenti possono interagire con quest’ambiente 

attraverso un normale PC e possono imparare come funziona il metodo di instra- 

damento dei pacchetti di Internet. 

La voce di Cosmo è stata preregistrata da un attore e comprende 240 possibili frasi 

che durano da uno a venti secondi ciascuna. L’aspetto visivo di Cosmo è umano- 

stilizzato, cioè è più simile ad un cartone animato che ad un essere umano. Per ge- 

nerare la sua rappresentazione grafica è stato utilizzato un software 3D della 

Alias/Wavefront su una workstation SGI e tutti i possibili movimenti del corpo so- 

no stati precalcolati e poi trasferiti come immagini statiche su PC. 

38


Notare che questo tipo di approccio nell’implementazione è completamente diver- 

so da quello degli agenti dei paragrafi precedenti. 

Le immagini precalcolate sono di due tipi: full body o compositional. Le immagini full 

body vengono utilizzate ad esempio per azioni come battere le mani che in generale 

non hanno la funzione di indicare (nel senso di far riferimento a) qualcosa. Le im- 

magini compositional rappresentano invece varie parti del corpo separatamente (te- 

sta, braccia, corpo) e vengono assemblate quando l’agente deve indicare qualcosa 

con lo sguardo e/o con le mani. 

Una volta decisa una sequenza di azioni e quindi una o più sequenze di immagini 

precalcolate da visualizzare, per ottenere un movimento morbido del corpo vengo- 

no eventualmente aggiunti dei fotogrammi di transizione tra un’azione e la successi- 

va. 

II.6 Confronti con Greta 

Mettiamo ora in evidenza differenze e analogie tra l'agente Greta e i 4 sistemi pre- 

sentati nei paragrafi precedenti. Considereremo due piani diversi, prima quello delle 

caratteristiche generali dell'agente e poi quello implementativo. 

Per prima cosa va ricordato che l'agente Greta è in grado di comunicare il proprio 

stato emotivo mentre dialoga con l'utente e questo lo rende diverso dagli altri agenti 

che si concentrano di più sulla complessità dei gesti (Gessyca), sulla temporizzazio- 

ne (MAX) o sullo scopo pratico della conversazione (REA e Cosmo). 

Inoltre l'agente ha un aspetto visivo molto credibile al contrario ad esempio di Co- 

smo che è un cartone animato, o MAX che ha un corpo molto stilizzato come an- 

che REA e Gessyca. 

Inoltre molto spesso gli altri sistemi sono dedicati alla riproduzione dei gesti in con- 

testi molto ristretti (linguaggio dei segni, insegnamento) mentre la struttura di Greta 

è più generale e non legata a un utilizzo mirato dell'agente. 

39


Alcuni sistemi però sono davvero avanzati sul piano della ricezione degli input ver- 

bali e non verbali provenienti dall'utente. Per esempio REA riconosce il parlato e i 

movimenti del corpo in tempo reale. L'input di Greta è invece semplicemente un te- 

sto inserito in una finestra di dialogo. 

A livello implementativo Greta presenta forti somiglianze con Gessyca nella defini- 

zione dei gesti tramite un linguaggio dedicato che permette di comporre un gesto a 

partire da configurazione base. Questa tecnica è quella utilizzata anche in MAX 

mentre REA, come abbiamo visto, non ha un gestuario predefinito ma "crea" il ge- 

sto in base a quello che sta dicendo in un certo istante. 

In Greta però, al contrario di Gessyca e MAX, nel gestuario possono essere memo- 

rizzati anche dei gesti definiti a basso livello, cioè specificando esattamente le posi- 

zioni delle singole giunture del corpo dell'agente. 

La temporizzazione dei gesti di Greta è molto accurata e può essere paragonata a 

quella di MAX rispetto alla quale in più tiene in considerazione la suddivisione del 

gesto in un maggior numero di fasi elementari. 

L'animazione finale dell'agente viene calcolata matematicamente come fanno anche 

Gessyca, MAX e REA e non è preregistrata come nel caso di Cosmo. 

40

Capitolo III, L’agente Greta 

III.1 Introduzione 

III 

L’agente Greta 

Greta è un agente conversazionale capace di conversare in modo naturale con 

l’utente. Per fare questo è stato dotato di certe qualità tipiche degli esseri umani: 

comunica attraverso i gesti, lo sguardo e l’intonazione della voce, trasmette il suo 

stato emotivo e tiene costantemente presente l’obbiettivo della conversazione 

Nel tipo di interazione che siamo per ora in grado di simulare, Greta ha il compito 

di fornire all’utente un’informazione appartenente a un certo dominio al quale 

l’agente riesce ad adattare il proprio comportamento. L’utente può fare richieste 

scrivendo in un’apposita finestra di dialogo e Greta pianifica di conseguenza quello 

che dovrà rispondere all’utente. 

Il comportamento (nel senso di gestualità, espressioni facciali, intonazione della vo- 

ce) dell’agente dovrà essere sincronizzato con la sua voce e con il significato di quel- 

lo che sta dicendo; e dovrà anche riflettere il suo stato mentale evitando contempo- 

41


raneamente un “sovraccarico delle espressioni” (per esempio una gesticolazione ec- 

cessiva). 

Vedremo ora un esempio di interazione e daremo poi una descrizione più dettaglia- 

ta dell’architettura di Greta. 

III.2 Un esempio di interazione 

Supponiamo che il compito di Greta sia quello di fornire all’utente delle informa- 

zioni di tipo medico. L’utente attraverso una finestra di dialogo informa Greta di 

voler conoscere il proprio stato di salute. In questo esempio Greta risponde 

all’utente che egli soffre di una forma leggera di angina pectoris. L’utente allora 

chiede di avere maggiori informazioni su questa malattia e quale potrebbe essere la 

cura per guarire da essa. 

Figura 1. L'agente Greta 

Utente: attraverso un’interfaccia grafica l’utente effettua il login e chiede informa- 

zioni sul proprio stato di salute. 

Greta: “Mi dispiace doverla informare che le è stata diagnosticata una forma non 

grave di quella che viene chiamata angina pectoris.” 

42


Utente: “Di che tipo di malattia si tratta?” 

Greta: “E’ uno spasmo del torace ed è causato dal un sovraffaticamento del cuore.” 

Utente: “Come posso curarmi?” 

Greta: “Per risolvere il suo problema ci sono due medicine che lei deve prendere. 

La prima è l’Aspirina e la seconda è l’Atenolol.” 

Nell’esempio possiamo distinguere 3 turni di dialogo, ciascuno composto da una 

coppia domanda/risposta. L’agente ha una base di conoscenza che gli permette di 

interpretare la domanda dell’utente e di costruire la risposta. Siccome l’utente è stato 

caratterizzato come paziente di un dottore, Greta spiegherà la malattia usando un 

linguaggio adatto a persone che non hanno conoscenze mediche. In più in questo 

dialogo l’agente dovrà dimostrare un certo coinvolgimento emotivo con l’utente, di- 

verso da quello che avrebbe mostrato parlando con un altro dottore. 

Durante la prima frase Greta esprimerà la sua empatia all’utente sia verbalmente 

(“mi dispiace doverla informare”) che non (sollevando le sopracciglia e inclinando 

leggermente la testa di lato, sollevando le mani come mostrato in figura). Poi però 

farà in modo di sottolineare le parole “non grave” per far capire all’utente che la 

malattia non è molto seria. 

43


III.3 Descrizione del sistema 

Figura 2. Architettura dell'agente Greta 

L’architettura del sistema è costituita da quattro parti principali, che descriviamo 

brevemente: 

• Mente: si occupa dello stato mentale ed emotivo dell’agente. Durante ogni turno 

della conversazione esso può rimanere invariato oppure essere modificato in ba- 

se a fattori come gli eventi esterni, l’input dell’utente, l’evoluzione di uno stato 

emotivo precedente, e così via. 

• Gestore del dialogo: è il modulo incaricato di portare avanti i turni di dialogo 

con l’utente. 

All’inizio del dialogo esso formula lo scopo della conversazione. Nell’esempio 

che abbiamo visto lo scopo era quello di fornire all’utente informazioni sul suo 

stato di salute. A questo punto viene generato il piano del discorso e la conversazio- 

ne inizia in base alla parte iniziale di questo piano. Nell’esempio la fase iniziale 

consisteva nell’informare l’utente che egli era affetto da una lieve forma di angina 

pectoris. 

44


Man mano che l’utente richiede maggiori informazioni (per esempio su come cu- 

rarsi, ecc.) il piano del discorso serve come punto di riferimento per l’agente per 

decidere come impostare le sue risposte in base alle risposte che già sono state 

fornite. 

Ogni volta che il gestore del dialogo genera un turno di conversazione esso viene 

mandato in input sia al modulo Mente che al MIDAS. Il primo potrà così ag- 

giornare lo stato emotivo dell’agente e, comunicando il suo nuovo stato al Dialog 

Manager, verrà influenzato il modo in cui l’agente presenterà le successive rispo- 

ste. 

• MIDAS: questo modulo effettua la traduzione dalla rappresentazione simbolica 

del dialogo ricevuta dal gestore del dialogo, in una rappresentazione che specifi- 

chi i segnali non verbali che l’agente deve mostrare durante il parlato. Il destina- 

tario dell’output del MIDAS è infatti il modulo di generazione dei movimenti fi- 

sici dell’agente. Il linguaggio di specifica è stato definito usando XML [54] ed è 

stato chiamato APML (Affective Presentation Markup Language, vedere anche il 

capitolo IV per un esempio). 

Una volta ricevuto il testo in linguaggio naturale e il piano del discorso dal gesto- 

re del dialogo, il modulo MIDAS arricchisce il testo con i marcatori del linguag- 

gio APML, tenendo in considerazione lo stato emotivo attuale dell’agente e gli 

obbiettivi della conversazione. 

I tag del linguaggio APML si riferiscono alle funzioni comunicative descritte nel 

paragrafo I.4 e hanno la forma: 

 

• Corpo: ha la funzione (come già spiegato nell’introduzione) di generare il movi- 

mento fisico dell’agente, cioè la comunicazione non verbale, sintetizzare il suono 

delle frasi pronunciate dall’agente e sincronizzare tra loro movimenti (del corpo, 

delle labbra) e suono. 

Quando l’agente vorrà comunicare un particolare stato emotivo sarà compito del 

modulo Corpo decidere su quali canali convogliare questa informazione. Ad 

45


esempio avevamo già detto che l’espressione “mi dispiace...” doveva essere mol- 

to rafforzata e quindi poteva essere espressa sia attraverso l’espressione facciale 

(sollevando le sopracciglia) che con i gesti (sollevando le mani e coi palmi rivolti 

verso l’interlocutore). 

In altri casi i messaggi non verbali verranno smistati su singoli canali. Ad esem- 

pio nel capitolo I avevamo detto che i gesti di solito non sono molto adatti ad 

esprimere emozioni affettive che quindi verranno quasi sempre destinate alle 

espressioni facciali. 

In qualche caso infine sarà anche possibile una parallelizzazione della comunica- 

zione, cioè l’utilizzo contemporaneo di più canali per dare informazioni diverse. 

46

Capitolo IV, Il sistema dei gesti 

IV.1 Motore gestuale 

IV 

Il sistema dei gesti 

Questa tesi si occupa principalmente della progettazione e dello sviluppo del modu- 

lo di sintesi dei gesti dell'agente conversazionale Greta. Questo elemento può essere 

anche chiamato motore gestuale. Prima di descrivere come il lavoro è stato impostato 

vediamo quali sono in generale i problemi a cui si va incontro durante la realizza- 

zione di un oggetto di questo tipo. 

Il motore gestuale di un agente conversazionale è un programma che, preso in input un'opportuna 

descrizione dell'informazione che l'agente intende comunicare, decide e calcola i movimenti delle arti- 

colazioni delle braccia e delle mani dell'agente. 

L’architettura tipica di un generico motore gestuale potrebbe essere la seguente: 

47


Figura 1. Architettura di un motore gestuale 

In input c'è un'opportuna descrizione dell'informazione che l'agente vuole comuni- 

care all'utente. Nel nostro caso, come abbiamo anticipato alla fine del capitolo III, si 

tratta di un testo arricchito con i tag del linguaggio APML: 

Esempio IV.1: 

 

Salve, 

 

il mio nome è 

 

Greta. 

 

Nell’esempio una coppia di tag (in questo caso un marcatore performativo, vedere 

capitolo I) racchiude la parola "salve" indicando al motore che si tratta di un saluto, 

e successivamente un'altra coppia (marcatore enfasi, vedere capitolo I) è intorno alla 

parola "Greta" per specificare che essa rappresenta un concetto da enfatizzare mol- 

to. 

Questo testo arriva in input al selettore dei gesti che decide secondo alcuni criteri quali 

sono i gesti che vanno riprodotti. I criteri che usa per fare questo derivano da studi 

sulla gestualità delle persone, come già spiegato in precedenza nell’ultimo paragrafo 

del capitolo I. 

48


Il sintetizzatore del movimento infine accede a una base dati in cui sono contenute le de- 

scrizioni "motorie" di molti tipi di gesto e da questa preleva i gesti che possono ef- 

fettivamente essere riprodotti, scartandone eventualmente altri. L'output finale è 

una descrizione del movimento, per esempio un file contenete una sequenza di coppie 

(giuntura, rotazione) del tipo: 

fotogramma 1: (giuntura 1, rotazione), (giuntura 2, rotazione),..............., (giuntura n, rotazione) 

fotogramma 2: (giuntura 1, rotazione), (giuntura 2, rotazione),..............., (giuntura n, rotazione) 

..... 

..... 

fotogramma k: (giuntura 1, rotazione), (giuntura 2, rotazione),..............., (giuntura n, rotazione) 

IV.2 Motore gestuale di Greta 

Il motore gestuale dell'agente Greta è basato sul lavoro inizialmente svolto da 

Bjoern Hartmann [15] dell'Università della Pennsylvania. 

Il sistema originario è stato ampliato aggiungendo alcune parti totalmente mancanti 

e modificato per rispondere ad alcuni requisiti indispensabili. 

Il motore è stato scritto totalmente in C++ utilizzando come supporto alcune libre- 

rie matematiche di pubblico dominio sviluppate quasi sempre da altre Università per 

fini di ricerca. 

Il modello utilizzato per riprodurre il corpo dell'agente segue le specifiche dello 

standard H-Anim (Appendice C) [10] e l'output prodotto dal motore è in formato 

MPEG4/BAP (Appendice B) [5; 17; 35; 46], leggibile cioè da un qualsiasi Player per 

questo standard. 

49


IV.3 Dal motore originario a quello finale 

Vediamo in dettaglio come è stato impostato il lavoro svolto in questa tesi. 

Il motore originario sviluppato da Hartmann era un’applicazione che, una volta ri- 

chiesta una certa sequenza di gesti, calcolava tutti i fotogrammi di animazione delle 

articolazioni di uno scheletro umanoide definito secondo lo standard H-Anim pro- 

ducendo infine un file d’animazione in formato MPEG4/BAP. 

In altre parole era possibile inviare una serie di richieste di tipo Request(nome gesto, 

temporizzazione) al motore per ottenere in output l’animazione finale. 

In pratica il motore era il modulo che nella figura 1 abbiamo indicato come Sintetiz- 

zatore del movimento. 

Il sistema stesso era quindi ancora molto lontano dall’essere quello che abbiamo in 

precedenza definito motore gestuale. 

Gli obbiettivi del lavoro svolto in questa tesi sono stati: 

1. trasformare il motore originario in un motore gestuale: era necessario intro- 

durre un nuovo modulo che si occupasse di decidere quali gesti eseguire seguen- 

do una certa strategia e con una corretta temporizzazione. Successivamente oc- 

correva creare un gestuario da cui questo modulo potesse ottenere le informa- 

zioni sui gesti da riprodurre. 

Inoltre è stato necessario integrare nel motore il parser APML realizzato da Mas- 

simo Bilvi per il suo motore di sintesi delle espressioni facciali dell’agente Greta. 

Nel prossimo capitolo vedremo meglio come è stata svolta tutta questa parte del 

lavoro. 

2. implementare il BAP player e raffinare il modello 3D: si tratta del modulo 

che trasforma i dati dell’animazione in una rappresentazione grafica in movimen- 

to. L’output del BAP Player è un vero e proprio filmato in cui il corpo 

dell’agente Greta è visibile e animato in base ai dati calcolati dal motore memo- 

rizzati nel file BAP. 

50


Il BAP Player che abbiamo implementato è stato dotato di controlli per la ripro- 

duzione (avanti, stop, indietro, avanzamento di singoli fotogrammi) e per modi- 

ficare la posizione della telecamera. 

Nel capitolo VI, in cui il BAP Player viene descritto, vedremo che i filmati pro- 

dotti inizialmente avevano numerosi problemi di visualizzazione che hanno ri- 

chiesto un lavoro di raffinamento del modello 3D del corpo dell’agente. 

Il BAP Player viene presentato nel capitolo VI. 

3. ottenere un sistema del tutto autosufficiente: il progetto iniziale era forte- 

mente vincolato al programma commerciale Maya della Alias/Wavefront (vedere 

Appendice). 

Questo software veniva utilizzato per la modellazione del corpo dell’agente e poi 

per la definizione delle pose statiche sulle quali vengono poi costruiti i gesti. Tut- 

ti questi concetti verranno ripresi poi nel capitolo VI. 

E’ stato quindi necessario realizzare alcuni tools che permettessero di fare del a 

meno di Maya, per mantenere il progetto indipendente nel suo insieme da qual- 

siasi altro software. Anche questi tools verranno spiegati nel capitolo VI. 

4. migliorare il motore gestuale: sono state apportate una serie di migliorie al 

motore, sia per correggere alcuni difetti che per aggiungere nuove funzionalità. 

Tutte queste modifiche sono spiegate in dettaglio nel prossimo capitolo: 

• gesti deittici: il motore inizialmente non era in grado di calcolarli. E’ stata ag- 

giunta la possibilità di chiedere all’agente di indicare un oggetto presente nello 

spazio. Vedremo che questo tipo di problema è un classico dell’animazione in 

grafica 3D e che non è in generale di ovvia soluzione. 

• temporizzazione: i gesti non erano eseguiti correttamente, erano sempre 

troppo lenti e morbidi. E’ stato perciò modificato alcune componenti del mo- 

tore in modo da conferire al movimento una dinamica più realistica. 

• posizioni di riposo multiple: abbiamo detto che quando una persona produce 

gesti va continuamente dalla posizione di riposo a quella del gesto, per poi 

tornare in una posizione di riposo che però non è necessariamente identica a 

51


quella iniziale ma è influenzata da vari fattori, come ad esempio il punto dello 

spazio in cui è avvenuto il gesto o il fatto che stiamo per effettuare un altro 

gesto molto ravvicinato nel tempo al primo. 

Tutto ciò non veniva tenuto in considerazione dal motore originario ed è sta- 

to implementato successivamente. 

IV.4 Il motore originario 

Diamo quindi una descrizione del motore realizzato da Bjoern Hartmann [15], par- 

tendo dalla sua architettura: 

IV.4.1 Concretizzatore gesti 

Figura 2. Il motore di B. Hartmann 

Il concretizzatore gesti riceve un elenco di richieste di gesto. In questa versione iniziale 

del motore queste richieste erano inserite manualmente all’interno del codice sor- 

gente, mentre in quello finale saranno il risultato delle scelte effettuate precedente- 

mente dal modulo di pianificazione dei gesti. 

52


Una volta ricevuta in input una lista di richieste il concretizzatore esegue i seguenti 

passi: 

1. cercare il gesto nel gestuario: se non esiste passare alla richiesta successi- 

va, altrimenti andare avanti 

2. controllare se è possibile effettuare il gesto: 

2.1. se il gesto richiede l’uso di tutte e due le mani controllare che en- 

trambe siano libere, altrimenti passare alla richiesta successiva 

2.2. se il gesto richiede l’uso di una sola mano controllare se almeno 

una delle mani è disponibile altrimenti passare alla richiesta succes- 

siva 

3. creare un’istanza del gesto con i vincoli di temporizzazione richiesti 

A questo punto il concretizzatore esamina la lista dei gesti istanziati e inserisce tra di 

loro dei gesti particolari, detti gesti di riposo che vanno effettuati quando c’è molto 

spazio tra due gesti consecutivi. Anche su questo punto abbiamo detto che è stato 

svolto un lavoro di raffinamento meglio descritto nel prossimo capitolo. 

Nel passo 1 dell’algoritmo che abbiamo appena visto si fa riferimento a un gestua- 

rio. Esso è una raccolta di gesti sotto forma di file di testo nei quali i gesti sono de- 

scritti nel linguaggio GestureScript appositamente definito, descritto nel paragrafo fi- 

nale di questo capitolo. 

IV.4.2 Pianificatore del movimento 

Il pianificatore del movimento è la componente che calcola effettivamente il movi- 

mento delle braccia e delle mani dell’agente. 

Il suo input è un vettore di gesti. La struttura dati che viene utilizzata per memoriz- 

zare le informazioni di ciascun gesto è una gerarchia in cui ogni gesto è composto di 

vari fotogrammi chiave e ogni fotogramma di varie componenti: 

53


Un gesto può essere composto da (almeno) uno o più fotogrammi. Un fotogramma 

è a sua volta un vettore di componenti, e ciascuna di esse può appartenere a una di 

queste classi: 

Nome Giunture interessate 

Mano tutte quelle delle dita della mano 

Braccio spalla e gomito 

Polso polso 

Rumore tutte, vedi sotto 

Statica tutte, vedi sotto 

Per ogni frame è ammessa una qualsiasi combinazione di componenti (ma non più 

di una per ogni classe). 

Le componenti Rumore e Statica servono per scopi particolari: 

• Rumore: viene applicata a tutte le giunture del modello e contiene piccolis- 

simi spostamenti generati casualmente. Cioè inserisce un fattore di impreci- 

sione “umano” nei movimenti dell’agente [41]. 

54


• Statica: questo tipo di componente serve a descrivere gesti “statici”. In al- 

cuni casi infatti potrebbe non essere possibile riuscire a specificare tutti i ge- 

sti in senso qualitativo con il linguaggio GestureScript a cui abbiamo già ac- 

cennato e che vedremo meglio nell’ultimo paragrafo di questo capitolo. In 

questi casi allora il gesto può essere specificato in senso quantitativo inseren- 

do in un file tutti i valori numerici degli spostamenti delle articolazioni e in- 

dicando poi al motore il nome di questo file. 

Vediamo con un esempio come funziona il pianificatore del movimento. 

Esempio IV.3: 

Passo 1: per ogni gesto presente nel vettore dei gesti ricevuto in input considerare il 

vettore composto dai suoi fotogrammi chiave: 

Nel grafico sull’asse delle ascisse c’è il tempo espresso in secondi e sull’asse delle 

ordinate per ogni fotogramma c’è la coordinata spaziale di una delle giunture 

dell’agente. 

Passo 2: utilizzando un algoritmo di interpolazione (spiegata più avanti) tra i foto- 

grammi chiave generare l’intera sequenza di frame dell’animazione: 

55


Il problema dell’animazione per mezzo di interpolazione tra fotogrammi chiave è 

stato ed è tuttora molto studiato. In particolare nell’animazione degli arti di un esse- 

re umano o di un animale insorgono anomalie nel movimento se si usa una semplice 

interpolazione lineare insieme a una rappresentazione euleriana delle rotazioni. 

La tecnica utilizzata in Greta consiste nel convertire gli angoli di rotazione dalla 

rappresentazione euleriana a quella con quaterne [9; 49] e poi effettuare 

un’interpolazione tramite TCB splines [23; 28; 37; 56; 57]. 

Il risultato finale prodotto dal pianificatore del movimento è un file in formato 

MPEG4/BAP [5; 17; 35; 46]. 

IV.4.3 BAP Player 

La rappresentazione grafica finale dell’agente Greta viene fornita dal BAP Player. Il 

motore come abbiamo visto si occupa solo del calcolo dei fotogrammi 

dell’animazione. E’ il Player che, leggendo i dati contenuti nel BAP File prodotto dal 

motore, dà all’agente un aspetto “fisico” animato. 

56


IV.5 Il motore finale 

Descriveremo ora la struttura finale del motore gestuale. Alcuni elementi dello 

schema sono già stati presi in esame nel paragrafo precedente perché facevano parte 

del sistema originario. 

Figura 3. Il motore gestuale di Greta 

IV.5.1 Il linguaggio APML e il parser APML 

L’unico input di tutto il sistema è un file APML contenente del testo arricchito da 

alcuni tag che descrivono l’informazione che l’agente deve comunicare attraverso i 

canali non verbali. Lo stesso file APML viene inviato anche all’altro motore di ge- 

stione dell’agente attualmente sviluppato, cioè quello per le espressioni facciali. 

57


Il linguaggio APML è stato creato da Nadja de Carolis e Mark Steedman usando 

XML, un metalinguaggio markup per la definizione di altri linguaggi sempre di tipo 

markup [54]. 

Abbiamo già detto nel capitolo III che i tag del linguaggio APML si riferiscono alle 

funzioni comunicative descritte nel paragrafo I.4 e hanno la forma: 

 

In più sono stati definiti i tag x-pitchaccent [42] che servono a regolare la variazione 

dell’altezza del tono della voce. 

Il parser XML realizzato da Massimo Bilvi provvede a validare il file in input, estrae 

il testo in esso contenuto che poi passa in input al programma di sintesi vocale Festi- 

val (vedi paragrafo successivo). Infine genera un nuovo file di testo contenente tutti 

tags che sono stati incontrati e per ciascuno di essi l’esatta temporizzazione del tag 

rispetto al file WAV restituito da Festival. Il file con le temporizzazioni viene resti- 

tuito al pianificatore del turno. 

Vediamo un esempio di input per il parser: 

Esempio IV.2: 

 

 

I'm sorry to tellyou 

 

that you have been 

diagnosed 

as suffering 

from a mild 

formof what we call 

 

angina 

pectoris. 

 

 

 

58


ed ecco il risultato dell’operazione di parsing, i tempi (in secondi) sono nella forma 

tempo di inizio, durata : 

IV.5.2 Festival 

performative=inform 1.5335 7.4918 

theme affect=sorry-for 1.5335 1.4738 

theme belief-relation=gen-spec 1.5335 1.4738 

theme emphasis=LplusHstar 2.5817 0.2546 

rheme emphasis=Hstar 3.7545 0.7687 



rheme adjectival=small 5.7342 0.2939 


topic-comment=comment 7.6744 1.3509 

emphasis=Hstar 7.6744 0.4726 

emphasis=Hstar 8.1470 0.8783 

Si tratta di un sistema di sintesi vocale sviluppato dal CSTR (Centre for Speech 

Technology Research) dell’Università di Edimburgo [4]. Esso svolge un ruolo im- 

portante nel motore perché si occupa di calcolare esattamente il tempo di inizio e la 

durata del testo che viene pronunciato dall’agente. Grazie a questo calcolo il parser 

XML riesce a risalire alla temporizzazione dei singoli tag contenuti nel file XML di 

input, come abbiamo visto nel paragrafo precedente. 

Fetival è basato sul linguaggio funzionale Scheme (variante del LISP) ma fornisce 

un’interfaccia in C per poter invocare le funzioni Scheme. 

IV.5.3 Pianificatore dei gesti 

Anche intorno a questo elemento del motore si è concentrato il lavoro svolto in 

questa tesi, e torneremo a parlarne molto in dettaglio nel capitolo V. 

Il compito del pianificatore dei gesti è quello di generare il piano secondo cui 

l’agente effettuerà i gesti durante il suo turno di conversazione. 

59


Questo significa che esso esaminerà il risultato del parser XML (il file delle tempo- 

rizzazioni) e deciderà quali saranno i gesti che il motore dovrà generare, stabilendo 

la loro temporizzazione e risolvendo eventuali conflitti. 

Tornando all’Esempio IV.2, a partire dal file generato dal parser, il pianificatore ef- 

fettuerà una sequenza di chiamate di questo tipo: 

Concretizzatore.Richiedi(“ADJECTIVAL=SMALL”,5.7342,5.954625,6.0281); 

Concretizzatore.Richiedi(“BEAT=BEATHBOTH”,8.147,8.805725,9.0253); 

... 

... 

IV.6 Il linguaggio GestureScript 

Il motore gestuale dell’agente Greta utilizza un sistema di descrizione qualitativa dei 

gesti basato su un linguaggio appositamente definito chiamato GesturesScript. 

Riportiamo una breve descrizione della sintassi del linguaggio utilizzando la seguen- 

te notazione: le parole chiave sono in maiuscolo, le parentesi quadre indicano un 

campo opzionale e quelle angolari rimandano ad un tipo di dato. 

Ad ogni gesto del gestuario corrisponde il relativo file di descrizione GestureScript. 

Ogni file inizia con una sezione di intestazione (header): 

GESTURECLASS 

GESTUREINSTANCE 

DURATION 

SIDE 

Il primo campo indica a quale classe il gesto appartiene tra quelle definite nel capito- 

lo I. Il secondo campo è il tipo particolare di istanza del gesto. Un esempio potreb- 

be essere: 

GESTURECLASS performative 

GESTUREINSTANCE greet 

Il terzo campo è la durata di default del gesto. Il motore in realtà adatta la durata del 

gesto al contesto in cui esso viene inserito. Il quarto campo specifica con quale ma- 

60


no dovrà essere effettuato il gesto. Se il campo non viene specificato il motore deci- 

derà probabilisticamente quale mano utilizzare, favorendo quella destra. Altrimenti 

sarà obbligato ad usare la mano specificata e in caso di conflitto con altri gesti vicini 

potrebbe decidere di non effettuare il gesto. 

Dopo l’header seguono uno o più blocchi per ogni fotogramma del gesto. Un foto- 

gramma è una posizione intermedia del corpo durante lo svolgimento del gesto. Se 

c’è un solo fotogramma allora esso descrive totalmente il gesto, altrimenti il gesto 

sarà ottenuto concatenando con un’opportuna interpolazione tutti i fotogrammi di 

cui è composto. 

La sintassi per la definizione di un fotogramma è: 

STARTFRAME 

[FRAMETYPE ] 

[ARM ] 

[WRIST ] 

[HAND [] [] 

OR [ OR ]] 

[FINGER ] 

[ADDNOISE] 

ENDFRAME 

• STARTFRAME, ENDFRAME: marcano l’inizio e la fine del blocco di defi- 

nizione del fotogramma. STARTFRAME è seguito da un numero compreso 

tra 0 e 1 che indica la posizione relativa del fotogramma all’interno dello 

svolgimento dell’intero gesto. Un valore di 0.5 ad esempio significherà che il 

fotogramma si trova esattamente a metà del gesto. 

• FRAMETYPE: specifica quale fase del gesto è descritta dal fotogramma. I 

possibili valori sono: 

− preparation 

− pre_stroke_hold 

− stroke 

− stroke_start 

− stroke_end 

− post_stroke_hold 

− retraction 

per la descrizione delle fasi del gesto vedere il capitolo I. 

61


• ARM: definisce la configurazione di braccio e avambraccio. Per fare questo 

basta specificare la posizione nello spazio della mano dell’agente. Lo spazio 

intorno al corpo dell’agente è stato suddiviso in regioni: 

Le coordinate X e Y quindi possono essere specificate indicando la regione 

nella quale si trovano. La coordinata X potrà variare tra questi valori: estrema 

periferia (EP), periferia (P), centro (C), centro-centro (CC) e centro opposto 

(OppC). La Y invece: estrema periferia superiore (UpperEP), periferia supe- 

riore (UpperP), centro superiore (UpperC), centro-centro (CC), centro infe- 

riore (LowerC), periferia inferiore (LowerP) e estrema periferia inferiore 

(LowerEP). 

Anche la Z può trovarsi in una delle 3 regioni: vicino (Near), medio (Middle) 

e lontano (Far). 

• WRIST: rappresenta la rotazione del polso e di conseguenza l’orientamento 

della mano. Prevede due parametri, e cioè le direzioni dei vettori “palmo” e 

“dita” indicati nella figura seguente: 

62


Figura 4. Vettori palmo e dita 

Anche le possibili direzioni di questi due vettori sono state discretizzate e 

possono variare tra: su, giù, avanti, dietro, interno, esterno (up, down, away, 

towards, inwards, outwards). 

• HAND e FINGER: definisce la forma della mano, più esattamente delle dita 

della mano. E’ possibile scegliere tra alcune forme base oppure specificare 

ogni dito singolarmente (usando FINGER). Se si sceglie una forma base si 

può comunque aggiungere un modificatore per il pollice. Nelle figure se- 

guenti possiamo vedere tutte le forme base: 

63


e i modificatori del pollice: 

• ADDNOISE: indica al motore di aggiungere una componente di rumore ca- 

suale al fotogramma, vedere anche IV.4.2. 

Per concludere, descriviamo un esempio reale di definizione di un gesto tramite Ge- 

stureScript: 

GESTURECLASS iconic 

GESTUREINSTANCE small 

DURATION 1.5 

STARTFRAME 0.0 

FRAMETYPE strokestart 

ARM XC YUpperP ZNear 

HAND symbol_1_open 

FINGER index bend_curved 

WRIST FBUp PalmInwards 

ENDFRAME 


FRAMETYPE stroke 

ARM XC YUpperP ZMiddle 


ENDFRAME 


FRAMETYPE hold 

ARM XC YUpperP ZMiddle 

HAND symbol_1_open 

FINGER index bend_curved 


ENDFRAME 

Il gesto dura 1.5 secondi e si compone di tre fotogrammi base. Il primo inizia al 

tempo 0 con la mano leggermente più in alto della spalla, vicina al corpo e con la 

64


forma symbol_1_open. Il secondo fotogramma avviene al 40% del tempo totale 

del gesto, corrisponde alla fase di stroke e differisce dal primo per un piccolo mo- 

vimento della mano in avanti. Il terzo fotogramma serve solo a mantenere la stessa 

configurazione del secondo fino alla fine del gesto. 

65

Capitolo V, Motore gestuale 

V 

Motore gestuale 

V.1 Pianificazione dei gesti comunicativi 

Una parte del lavoro svolto in questa tesi, come abbiamo anticipato nel capitolo IV, 

è consistita nel realizzare il modulo di pianificazione dei gesti comunicativi per il 

motore gestuale dell’agente Greta. 

Il pianificatore dei gesti è l’elemento del motore che si occupa di: 

1. decidere quali gesti l’agente deve effettuare 

2. fornire la loro temporizzazione 

Questi due compiti sono molto importanti perché determinano il corretto svolgi- 

mento della comunicazione non verbale attraverso il canale della gestualità (capitolo 

I). 

Iniziamo a spiegare come è stato progettato il pianificatore considerando un esem- 

pio di file di input e andando a guardare com’è l’output prodotto dal sistema. Di se- 

66


guito spiegheremo l’architettura completa del pianificatore e l’insieme di regole che 

determinano la scelta dei gesti da compiere. 

V.2 Un esempio 

Ritorniamo nella situazione descritta nel capitolo III. L’agente Greta ha il compito 

di dare all’utente delle informazioni relative al suo stato di salute. 

In un certo istante di tempo supponiamo che il modulo mente dell’agente abbia ela- 

borato la seguente informazione codificata in APML (il testo di quello che verrà 

pronunciato è in grassetto): 

 

Buongiorno 

Signor Smith. 

 

 

 

 

Mi dispiace doverla informare 

che abbiamo diagnosticato 

 

che leisoffre 

di unaleggera 

forma 

di quella che è chiamata 

angina 

pectoris. 

 

 

 

Per risolvere 

questo problema, 

 

ci sarebbero due 

medicine che vorrei che lei prendesse. 

 

 

Laprima 

 

è l’Aspirina 

 

 

che 

serve ad alleviare 

ildolore. 

 

67


 

Sottoponiamo questo file al motore gestuale dell’agente Greta e prendiamo in esame 

l’animazione risultante: 

1) inizio del turno di conversazione 

2) gesto di saluto in corrispondenza dell’enfasi che si trova sulla parola giorno. 

3) gesto fatto con la mano destra con i polpastrelli di indice e pollice molto vicini e 

le altre dita leggermente aperte in corrispondenza 

dell’enfasi sulla parola leggera (figura 1). Il gesto inoltre si 

prolunga con una piccola oscillazione anche sull’enfasi 

della parola forma. 

4) gesto beat (capitolo I) sull’enfasi della parola angina. Vi- 

sto che la mano destra era stata appena utilizzata per il ge- 

sto precedente e che temporalmente i due gesti sono mol- 

to ravvicinati, anche questo gesto verrà effettuato dalla 

mano destra prima di ritornare nella posizione di riposo (coarticolazione, vedere 

sezione I.2.2). 

5) gesto che rappresenta il numero 2 in corrispondenza della parola due. 

6) gesto che rappresenta il numero 1 in corrispondenza della parola prima. Sicco- 

me sta iniziando un elenco di alcuni punti importanti per lo scopo della conver- 

sazione, questo gesto si prolungherà per tutta la spiegazione collegata 

all’elemento dell’elenco (in questo caso fino alla parola dolore). 

7) gesto fatto con la mano aperta rivolta col palmo in basso, muovendo il braccio 

orizzontalmente partendo da davanti al corpo e arrivando lateralmente in corri- 

spondenza dell’enfasi sulla parola alleviare. Ricordiamo che il gesto precedente 

è ancora in corso e quindi il gesto attuale verrà effettuato con la mano ancora li- 

bera. 

8) fine del turno di conversazione 

68 

Figura 1


Innanzitutto notiamo che l’informazione del turno di conversazione è raggruppata 

gerarchicamente ed è schematizzabile con una struttura ad albero (da sinistra a de- 

stra): 

Al primo livello della gerarchia ci sono sempre dei blocchi di tipo performativo che 

abbiamo indicato con le lettere dalla a alla d. Inoltre notiamo che ogni performativo 

corrisponde esattamente a una frase intera della conversazione. 

69


Mettiamo in evidenza la relazione che c’è tra quello che è accaduto nell’esempio ap- 

pena visto e la struttura del file APML che avevamo mandato in input, prendendo 

in esame separatamente i vari blocchi performativi: 

• a - performativo greet: nell’esempio corrisponde al gesto di saluto e infatti la tipo- 

logia indicata nel tag APML è “greet” che in inglese significa appunto “salutare”. 

Il gesto avveniva sulla parola giorno che si trova nel sottoalbero associato al per- 

formativo a e è racchiusa da un tag di tipo “emphasis”. 

E’ quindi come se l’enfasi indicasse il punto del discorso in cui emerge mag- 

giormente lo scopo della frase, e il gesto ad esso associato dipende dalla natura 

del contenuto performativo della frase (in questo caso il perfomativo era di tipo 

greet e infatti sull’enfasi è avvenuto un saluto). 

• b - performativo inform: innanzitutto notiamo che nell’esempio non avveniva 

nessun gesto in corrispondenza della parola informare. Questo è corretto, infatti 

pur essendo in presenza di un’enfasi l’informazione è di tipo tematico e quindi in 

generale non va accompagnata da gestualità [8] come abbiamo osservato nel ca- 

pitolo I. 

Possiamo quindi concludere che al fine di riprodurre correttamente i gesti di una 

persona, l’informazione tematica può essere in generale ignorata mentre va sem- 

pre considerata quella rematica. 

Come ulteriore conferma osserviamo che nell’esempio i gesti di questo perfor- 

mativo sono sulle parole leggera forma e angina, tutte contenute nel sottoalbe- 

ro di un tag di tipo rheme. 

Questo tag contiene però altre enfasi (diagnosticato, soffre) che non hanno da- 

to luogo a nessun gesto. L’enfasi su leggera prevale sulle altre perché è riferita 

ad un aggettivo (“adjectival=small”). In più la parola seguente è il nome (forma) 

a cui l’aggettivo si riferisce provocando una ripetizione del gesto. 

La parola angina invece viene sottolineata da un gesto perché il tag enfasi in cui 

70


è racchiusa ha un parametro in più (level=”strong”) che ne aumenta la priorità 

rispetto alle altre. 

• c - performativo suggest: l’unico gesto presente è il numero 2 fatto con una mano 

in corrispondenza della parola due. In accordo con quanto precedentemente 

stabilito, il gesto avviene all’interno di un tag che indica un contenuto informati- 

vo di tipo rematico. Nell’albero sotto questo tag inoltre è presente una sola enfa- 

si che è di tipo adjectival=two. 

• d - performativo inform: la sequenza di gesti in questo caso è leggermente più 

complicata. Viene riprodotto con una mano il numero 1 e mentre questo gesto 

viene mantenuto per tutta la durata della frase (quindi durante tutto il performa- 

tivo) l’altra mano fa un gesto per sottolineare la parola alleviare. Possiamo nota- 

re ancora una volta che la gestualità accompagna il contenuto rematico della fra- 

se. Il primo gesto, che avviene in corrispondenza della parola prima, è di tipo 

meta-discorsivo (belief-relation) e per questo viene mantenuto fino alla fine della 

frase (in accordo con l’analisi dei gesti spiegata alla fine del capitolo I). Sulla pa- 

rola alleviare è invece presente una normale enfasi. 

Ci accorgiamo infine della presenza di un’enfasi rematica (su l’Aspirina) che 

non ha dato luogo a nessun gesto perché nella frase esistevano altre due enfasi 

che avevano una priorità maggiore e l’inserimento di un terzo gesto avrebbe 

provocato un “sovraccarico” della comunicazione. 

Presentiamo adesso le regole che abbiamo impiegato nell’implementazione del pia- 

nificatore dei gesti, e che in parte abbiamo anticipato descrivendo questo esempio. 

V.3 Implementazione 

Vediamo prima l’architettura del pianificatore (figura 2) dei gesti e descriviamo bre- 

vemente il suo funzionamento. 

• Per prima cosa il pianificatore riceve in input un file proveniente dal parser 

APML (capitolo IV) e contenente i tempi di inizio e durata dei tag incontrati du- 

71


rante la scansione del file AMPL. Il file delle temporizzazioni corrispondente 

all’esempio del paragrafo precedente è: 

performative=greet;0;1.577; 

rheme;emphasis=Hstar;0.5265;0.4091; 

performative=inform;1.577;7.7451; 

theme;affect=sorry-for;1.577;2.1289; 

theme;belief-relation=gen-spec;1.577;2.1289; 

theme;emphasis=LplusHstar;3.1317;0.5742; 




rheme;adjectival=small;6.2823;0.4379; 



rheme;level=strong;8.3448;0.4052; 


rheme;level=strong;8.75;0.5721; 

performative=suggest;9.3221;5.234; 

theme;belief-relation=solutionhood;9.3221;1.957; 

theme;emphasis=LplusHstar;9.8803;0.5284; 

rheme;belief-relation=suggestion;11.2791;3.277; 


rheme;adjectival=two;12.2787;0.2533; 

performative=inform;14.5561;3.6882; 

rheme;belief-relation=first;14.5561;1.0617; 

rheme;emphasis=LplusHstar;15.0722;0.3336; 


theme;affect=relief;16.2291;0.1546; 

theme;belief-relation=gen-spec;16.2291;0.1546; 



• Successivamente entra in azione un piccolo parser che legge i 

dati contenuti nel file delle temporizzazioni e costruisce un al- 

bero in cui ogni nodo ha la seguente struttura: 

GestureTree: 

GestureTree* FirstSon; //punta al primo nodo figlio 

GestureTree* Parent; //punta al nodo padre 

GestureTree* NextBrother;//punta al successivo nodo fratello 

char Type[20]; //vale “theme” o “rheme” 

char Description[250]; //descrizione, ad esempio “ADJECTIVAL=SMALL” 

double StartTime,EndTime;//tempo esatto di inizio e fine pronuncia 

//delle parole contenute nel tag 

bool Requested; //flag che indica se è già stato assegnato un 

//gesto a questo tag; inizializzato sempre a 

//false 

Nell’albero quindi ogni nodo padre può avere un numero arbitrario di figli che 

sono gestiti come lista. Un nodo foglia si può riconoscere dal fatto che il punta- 

tore FirstSon vale NULL. 

72 

Figura 2


• A questo punto, lavorando sulla struttura ad albero che abbiamo appena defini- 

to, il selettore dei gesti decide finalmente quali sono i gesti che vanno riprodotti e 

assegna loro la corretta temporizzazione. I criteri in base ai quali effettua queste 

scelte verranno esposti nel prossimo paragrafo. 

V.4 Selettore dei gesti 

Ricapitoliamo tutto quello che è stato detto finora riguardo la gestualità in generale. 

Nel paragrafo finale del capitolo I abbiamo dato una classificazione dei gesti ottenu- 

ta dallo studio di situazioni reali svolto da Isabella Poggi. 

Ci siamo quindi proposti come obbiettivo quello di riprodurre quel tipo di gesti con 

il nostro agente conversazionale Greta. 

Presentiamo ora l’insieme finale di regole che abbiamo stabilito nella fase di imple- 

mentazione del modulo di pianificazione dei gesti dell’agente Greta. 

1. per ogni tag adjectival o deictic, se nel gestuario esiste il gesto corrispon- 

dente allora riproducilo sull’enfasi del tag ed eventualmente aggiungi delle ri- 

petizioni del gesto sulle enfasi successive se queste sono consecutive nel 

tempo; 

2. (da applicare solo se la regola 1 non ha dato luogo a nessun gesto) per ogni 

tag belief-relation, se nel gestuario esiste un gesto corrispondente allora ri- 

producilo facendolo iniziare sull’enfasi del tag e facendolo terminare alla fine 

del tag performativo dal quale discende il belief-relation; per ogni tag affect 

se nel gestuario esiste il gesto corrispondente allora riproducilo sull’enfasi del 

tag; 

3. (da applicare solo se né la regola 1, né la regola 1 hanno dato luogo a nessun 

gesto) per ogni tag performativo, se nel gestuario esiste il gesto corrispon- 

dente allora riproducilo sull’enfasi del tag, altrimenti riproduci un gesto beat 

sull’enfasi del tag; 

73


Ecco allora l’algoritmo in pseudo-codice che codifica queste regole. Ricordiamo che 

la struttura dati su cui l’algoritmo lavora è quella dell’albero di tag descritto nel para- 

grafo precedente (e in cui sono memorizzate anche le temporizzazioni di ogni tag): 

Input: puntatore alla radice dell’albero 

for(ogni nodo s figlio della radice): 

cercare nel sottoalbero che si dirama da s per: 

− nodi con enfasi ADJECTIVAL; 

− nodi con enfasi DEICTIC; 

if(trovato==true): 

effettuare il relativo gesto ottenendo le temporizzazioni 

dai dati del nodo enfasi; 

if(esistono dei nodi fratelli temporalmente consecutivi): 

effettuare una ripetizione del gesto su ciascuno di loro; 

if(è stato effettuato almeno un gesto) 

uscire e passare alla prossima iterazione; 


− nodi BELIEF-RELATION; 

− nodi AFFECT; 


if(BELIEF-RELATION): 

cercare il primo nodo enfasi contenuto nel sottoalbero che 

si dirama da questo BELIEF-RELATION e poi effettuare il 

relativo gesto ottenendo il tempo di inizio dal nodo 

enfasi e prolungando il gesto fino al tempo di fine 

del performativo s; 

if(AFFECT): 

cercare il primo nodo enfasi contenuto nel sottoalbero che 

si dirama da questo AFFECT e poi effettuare il relativo gesto 

ottenendo le temporizzazioni dai dati del nodo enfasi; 

if(è stato effettuato almeno un gesto) 

uscire e passare alla prossima iterazione; 



− la prima enfasi; 

74


if(esiste un gesto associato al tipo di performativo di s) 

else: 

effettuare il performativo in base alle temporizzazioni 

del nodo enfasi; 

effettuare un gesto di tipo BEAT con le temporizzazioni 

del nodo enfasi; 

passare alla successiva iterazione; 

V.5 Gesti deittici per l’agente Greta 

I gesti deittici servono ad indicare un punto nello spazio mentre stiamo parlando. 

L’entità a cui fanno riferimento può essere fisicamente presente nell’ambiente in cui 

ci troviamo oppure può essere astratta. Un esempio di questo tipo consiste 

nell’indicare verso il basso mentre con la parola “..questo..” si sta facendo riferimen- 

to all’oggetto della conversazione. 

Nel motore originario l’agente Greta non era capace di effettuare questo tipo di ge- 

sto. Questa limitazione era dovuta al tipo di implementazione del movimento per la 

sintesi dei gesti. 

Nell’ultimo paragrafo del capitolo IV abbiamo visto che lo spazio intorno all’agente 

è stato discretizzato suddividendolo in varie regioni. Questa scelta non è stata casua- 

le. Infatti [34] è stato dimostrato statisticamente che i gesti avvengono sempre in 

prossimità di alcune punti ben precisi dello spazio e quindi permettere di posiziona- 

re le braccia in modo del tutto libero non ha poi un’utilità pratica vera e propria. 

In più questa scelta ha reso più semplice (sotto alcuni punti di vista che ora vedre- 

mo) l’implementazione del motore limitandone però per altri aspetti l’utilizzo. 

V.6 Cinematica diretta e inversa 

Consideriamo il sistema fisico braccio-avambraccio di una persona. Il punto dello 

spazio in cui si trova il polso è in ogni momento funzione delle lunghezze di braccio 

75


e avambraccio e dell’angolazione del braccio rispetto al corpo e dell’avambraccio ri- 

spetto al braccio. Vediamo un esempio in 2D: 

Le coordinate del punto finale sono naturalmente: 

x 

y 

f 

f 

= x 

0 

= y 

0 

+ a ⋅cosσ 

+ b ⋅cosθ 

+ a ⋅senσ 

+ b ⋅senθ 

Questo semplice ragionamento si può facilmente estendere a una catena molto più 

lunga dei due soli elementi del sistema braccio-avambraccio e considerando coordi- 

nate a tre dimensioni. Il problema di determinare la posizione finale dell’estremità 

dell’ultimo elemento della catena in funzione degli angoli di rotazione di tutti gli altri 

elementi viene chiamato cinematica diretta. 

Nella cinematica inversa invece il problema è l’esatto contrario: data la posizione nello 

spazio dell’estremità dell’elemento finale della catena (target) determinare gli angoli di 

rotazione di tutti gli elementi della catena. 

Si può facilmente intuire che questo tipo di calcolo è abbastanza complicato e che 

inoltre se esiste una soluzione al problema non è detto che sia unica. 

Torniamo al sistema braccio-avambraccio in 2 dimensioni: 

(a) 

(b) (c) (d) 

76


(a) il problema non ammette soluzione 

(b) il problema ha un’unica soluzione (caso banale) 

(c) il problema ha esattamente due soluzioni 

(d) il problema ha infinite soluzioni 

Vediamo una delle tecniche che si possono impiegare per risolvere il problema. 

Consideriamo prima il caso di una sola giunzione: 

Costruiamo il vettore F che congiunge l’estremità della giunzione con il target. Sia R 

il vettore perpendicolare alla giunzione. La velocità di rotazione della giunzione è 

proporzionale al prodotto scalare tra F e R: 

rotazione=(F⋅R)*k 

Se le giunture sono 2 (per esempio braccio-avambraccio): 

In questo caso basterà iterare all’infinito il seguente algoritmo: 

per ogni componente i della catena: 

− calcolare il vettore F i tra l’estremità della componente e il punto tar- 

get; 

− calcolare il prodotto (F i⋅ R i)*k e applicare il risultato all’angolo di ro- 

tazione della componente 

Spostandoci al caso in 3 dimensioni il problema si può risolvere con un tipo di algo- 

ritmo analogo. 

77


Figura 3. Cinematica inversa per un sistema complesso costituito da più catene (Maya) 

Abbiamo detto che in generale possiamo aspettarci che il numero di configurazioni 

della catena che sono soluzione del problema sia infinito. Nel caso del sistema brac- 

cio-avambraccio, si possono impiegare strategie particolari per selezionare 

dall’insieme di tutte le soluzioni quelle che possono essere considerate effettivamen- 

te ammissibili. 

Dato il punto target infatti, essendo presenti due sole giunzioni, se esiste una solu- 

zione che non sia quella banale allora esistono infinite soluzioni che differiscono tra 

loro per il piano sul quale giace il sistema: 

78


In figura possiamo vedere il sistema braccio-avambraccio posizionato in modo da 

raggiungere un certo punto di target. E’ chiaro che questa è solo una delle infinite 

soluzioni ammissibili, che però differiscono tra loro semplicemente per il valore 

dell’angolo σ. 

Il problema generale della cinematica inversa nel caso di due giunzioni diventa 

quindi risolvibile in modo univoco vincolando il valore dell’angolo σ. 

Torniamo al motore dell’agente Greta. Nell’implementazione originaria le configu- 

razioni delle braccia durante i gesti venivano calcolate esclusivamente con tecniche 

di cinematica diretta. Questo perché basandosi su una suddivisione discreta dello 

spazio era stato possibile memorizzare preventivamente le rotazioni da applicare a 

spalla e gomito per fare in modo che la mano raggiungesse ognuna delle regioni del- 

lo spazio. 

Per questo i gesti deittici erano di fatto irrealizzabili: non era possibile chiedere 

all’agente di indicare un punto nello spazio, operazione che alla luce di quello che 

abbiamo spiegato in questo paragrafo è tipica della cinematica inversa. 

V.7 Cinematica inversa: IKAN 

Nel lavoro svolto in questa tesi abbiamo introdotto nel motore dell’agente Greta un 

nuovo oggetto capace di risolvere problemi di cinematica inversa. 

Per fare questo abbiamo implementato un tool del tutto indipendente dal motore 

che impiega una libreria matematica sviluppata dal Center of Human Modeling and 

Simulation dell’Università della Pennsylvania chiamata IKAN (Inverse Kinematics 

using ANalytical Methods). 

79


Figura 4. Jack, un agente sviluppato usando IKAN 

IKAN è specializzata nella risoluzione di problemi di cinematica inversa per gli arti 

umani (braccia, gambe). 

L’oggetto principale della libreria è l’SRS. 

Date le matrici G, S, T l’oggetto SRS risolve l’equazione: 

G=R 2 * S * R y * T * R 1 

dove: 

R 2 e R 1 sono le matrici di rotazione rispettivamente di polso e spalla 

R y è la matrice di rotazione del gomito 

S è la matrice di traslazione tra polso e gomito 

T è la matrice di traslazione tra gomito e spalla 

Il tool che abbiamo sviluppato permette di spostare liberamente nello spazio una 

sfera e in tempo reale il braccio destro dell’agente viene rivolto nella direzione della 

sfera in modo corretto, evitando cioè configurazioni impossibili per il braccio di un 

essere umano. 

80


Figura 5. Il tool sviluppato per il calcolo della cinematica inversa 

A questo punto non è rimasto altro da fare che includere nel motore la parte di co- 

dice del tool che effettuava il calcolo della cinematica inversa: 

1. settare S e T con le dimensioni di braccio e avambraccio; 

2. istanziare un oggetto di classe SRS: 

SRS(&T, &S, a, p); 

dove a è un vettore parallelo all’avambraccio e p è parallelo al vetto- 

re intorno a cui ruota il gomito; 

3. settare la matrice G con le coordinate del punto che l’agente deve 

indicare (target); 

4. eseguire il metodo SRS::SetGoal(&G); 

5. eseguire il metodo SRS:SolveR1(&R1) che calcola la matrice di rota- 

zione della spalla; 

6. convertire la matrice di rotazione in una terna di singole rotazioni ri- 

spetto agli assi coordinati (rappresentazione euleriana) che è quella 

utilizzata nel motore; 

81


V.8 Dinamica dei gesti e posizioni di riposo multiple 

Non appena il motore ha assunto la forma finale che abbiamo specificato nel para- 

grafo IV.5, abbiamo rivolto la nostra attenzione alla qualità della riproduzione dei 

gesti da parte dell’agente Greta. 

Anche se il pianificatore dei gesti svolgeva molto bene il compito di fornire una 

temporizzazione gestuale basata sulle parole che venivano pronunciate, il risultato 

finale era una sequenza animata in cui i gesti avvenivano nei momenti giusti ma le 

braccia si muovevano in modo troppo lento e morbido da un gesto all’altro. 

Parte del lavoro svolto in questa tesi è consistito allora nell’apportare delle modifi- 

che al concretizzatore dei gesti (vedi IV.4.1) in modo da indurre una dinamica dei 

gesti molto più realistica. 

Supponiamo che, ad esempio, dopo la fase di pianificazione siano stati decisi i se- 

guenti 3 gesti: 

A questo punto nella versione originaria il concretizzatore avrebbe effettuato una 

serie di confronti: 

• per ogni (i=2; isoglia) allora inserire tra t i-1 e t i un gesto di 

riposo al tempo t’= t i-1+(t i- t i-1)/2; 

Supponendo che nell’esempio solo t 2 e t 3 distino un numero di secondi maggiore 

della soglia fissata questo sarebbe stato il risultato: 

82


Innanzitutto il valore della soglia era troppo grande. E comunque anche riducendola 

molto in modo da provocare l’inserimento di un gesto di riposo tra ogni coppia di 

gesti presenti il risultato era che i gesti di riposo avvenivano sempre a metà tra il ge- 

sto precedente e quello successivo e questo nel caso di gesti abbastanza distanti (dai 

3 secondi circa in su) dava luogo ai lunghi e lenti spostamenti delle braccia a cui ab- 

biamo accennato all’inizio del paragrafo. 

E’ stato sufficiente allora cambiare questa strategia per ottenere un primo migliora- 

mento dell’animazione. Tornando all’esempio: 

• per ogni (i=2; isoglia) allora inserire tra t i-1 e t i due gesti di 

riposo al tempo t’= t i-1+0.5 e al tempo t’’= t i-0.5; 

Supponendo che la soglia sia stata diminuita di valore in modo da essere superata 

anche dalla distanza tra t 1 e t 2, l’elaborazione del concretizzatore dà luogo alla se- 

quenza di gesti: 

Dopo queste modifiche i movementi dell’agente erano molto più realistici perché 

effettuava i vari gesti con una dinamica simile a quella degli esseri umani. 

83


Il passo successivo nell’ottimizzazione del funzionamento del concretizzatore è sta- 

to quello di introdurre le posizioni di rest multiple. 

Una persona mentre parla non torna sempre nella stessa posizione di partenza tra 

un gesto e l’altro. Soprattutto se tra due gesti non trascorre un tempo molto elevato 

le mani raggiungono una posizione di riposo in prossimità della zona dello spazio 

nella quale avverrà il gesto successivo. 

Partendo da quest’idea abbiamo ulteriormente modificato il concretizzatore intro- 

ducendo due valori soglia1soglia1) allora inserire tra t i-1 e t i due 

gesti di tipo riposo1 al tempo t’= t i-1+0.5 e al tem- 

po t’’= t i-0.5; 

84

Capitolo VI, Tools di supporto 

VI.1 La dipendenza da Maya 

VI 

Tools di supporto 

Nel capitolo IV, descrivendo il lavoro svolto in questa tesi, abbiamo detto che uno 

degli obbiettivi raggiunti è stato quello di rendere il sistema del tutto indipendente 

dal software Maya della Alias/Wavefront. 

Maya è un programma molto completo per il rendering di scene 3D realistiche e viene 

impiegato in numerosi campi e in particolare in quello degli ef- 

fetti speciali per il cinema. 

Una delle sue caratteristiche principali è quella di incorporare 

un linguaggio ad alto livello chiamato MEL per la realizzazione 

di script che permettono quindi al sistema di interfacciarsi con 

applicazioni esterne. 

Grazie a questa funzionalità inizialmente Maya è stato utilizzato 

come player per le animazioni BAP, per verificare i risultati 

dell’elaborazione del motore (figura 1). 

85 

Figura 1. L'agente 

Greta sotto Maya


Nei capitoli precedenti (paragrafo IV.6 in particolare) abbiamo spesso parlato del 

fatto che i gesti vengono definiti come una successione di fotogrammi chiave, cia- 

scuno dei quali viene descritto qualitativamente come una sovrapposizione delle 

configurazioni di braccio, polso, dita della mano. Ad esempio un fotogramma chia- 

ve potrebbe essere definito come: 

“braccio proteso in avanti”+”mano chiusa col solo indice aperto”+”palmo vero il basso e dita in avanti” 

Questa descrizione è qualitativa e permette quindi di codificare abbastanza facil- 

mente molti tipi di gesto evitando di agire manualmente sulle rotazioni del modello 

(che sarebbe un processo molto lungo e complicato). 

Il motore riesce a generare i fotogrammi chiave di un gesto effettuando delle opera- 

zioni di composizione tra le diverse pose base corrispondenti alla descrizione del fo- 

togramma. 

Una posa è in generale un qualsiasi elenco di elementi (giuntura, rotazione) dove una 

giuntura è il punto di congiungimento di due o più ossa dello scheletro dell’agente.. 

Esistono quindi pose per le braccia, per le mani, per le dita, o addirittura per tutto il 

corpo. L’impiego di Maya era inizialmente fondamentale anche per la definizione di 

queste pose base dei gesti che venivano poi esportate sempre grazie a MEL. 

Per tutti i motivi fin qui esposti e soprattutto per non obbligare gli sviluppatori ad 

acquistare una copia di un programma commerciale che inoltre ha funzionalità mol- 

to più estese di quelle che poi effettivamente vengono utilizzate col motore, abbia- 

mo deciso di: 

1. implementare un BAP player 

2. implementare un tool per la definizione di pose 

Nell’ultimo paragrafo di questo capitolo prendiamo invece in esame un altro tool 

molto utile, l’editor dei gesti che abbiamo implementato per automatizzare la ste- 

86


sura dei file di definizione dei gesti (vedere IV.6). L’idea di scrivere questo tool è na- 

ta da necessità puramente pratiche. 

Il gestuario del motore originario infatti andava “popolato” di gesti e durante il la- 

voro di scrittura dei relativi file di definizione ci siamo accorti del fatto che il lin- 

guaggio di specifica dei gesti non è molto mnemonico mentre sarebbe stato molto 

più intuitivo poter combinare graficamente le varie componenti del gesto. Inoltre 

era abbastanza probabile commettere errori di battitura o sulle temporizzazioni dei 

fotogrammi chiave. 

VI.2 Editor delle pose 

Il motore gestuale dell’agente Greta ottiene i dati dei movimenti da effettuare per 

riprodurre gesti da quelle che abbiamo definito nel paragrafo precedente con il ter- 

mine pose base. 

Una posa è una sequenza di coppie (g,r) ciascuna delle quali informa il motore sulla 

quantità di rotazione r da applicare alla giuntura g dello scheletro dell’agente. 

Schematicamente ecco quello che succede: 

Figura 2. I file delle pose 

87


Il motore chiede al gestuario il file di definizione di un gesto. Scandendo il file, per 

ogni fotogramma base del gesto vengono fatti degli accessi a uno o più file di posa. 

Ad esempio, se in un fotogramma base di un certo gesto una delle mani fosse stata 

definita a forma di “pugno chiuso” allora il motore avrebbe effettuato un accesso al 

file form_fist.txt contenente le seguenti informazioni (la rotazione di ogni 

giuntura è espressa da tre singole rotazioni intorno agli assi x, y e z): 

r_wrist 0.000000 0.000000 0.000000 

r_thumb1 12.000000 17.000000 27.000000 

r_thumb2 55.000000 0.000000 0.000000 

r_thumb3 27.000000 0.000000 0.000000 

r_index0 0.000000 0.000000 0.000000 

r_index1 5.000000 7.000000 84.000000 

r_index2 0.000000 0.000000 72.000000 

r_index3 0.000000 0.000000 62.000000 

r_middle0 0.000000 0.000000 0.000000 

r_middle1 2.000000 0.000000 80.000000 

r_middle2 0.000000 0.000000 69.000000 

r_middle3 0.000000 0.000000 50.000000 

r_ring0 0.000000 0.000000 0.000000 

r_ring1 0.000000 0.000000 75.000000 

r_ring2 0.000000 0.000000 62.000000 

r_ring3 0.000000 0.000000 52.000000 

r_pinky0 0.000000 0.000000 0.000000 

r_pinky1 0.000000 0.000000 68.000000 

r_pinky2 0.000000 0.000000 69.000000 

r_pinky3 0.000000 0.000000 27.000000 

Applicando queste rotazioni alle relative giunture (wrist=polso, thumb=pollice, in- 

dex=indice, middle=medio, ring=anulare, pinky=mignolo) ecco il risultato sul cor- 

po dell’agente: 

Figura 3. Posa "pugno chiuso" 

I gesti dell’agente risultano essere il risultato di una composizione di pose base stati- 

che precedentemente definite. 

L’editor delle pose serve a facilitare la fase di definizione delle pose perché permette 

di muovere liberamente gli arti superiori dell’agente Greta avendo un continuo 

feedback visivo e una volta raggiunta la configurazione desiderata genera la corri- 

spondente sequenza di rotazioni e la memorizza in un file di testo. 

88


Figura 4. Editor delle pose 

L’utente interagisce con l’editor per mezzo di un’interfaccia grafica intuitiva. 

Un’area molto grande dell’interfaccia è riservata alla finestra di feedback destinata 

alla visualizzazione del corpo dell’agente Greta. Essa riflette in tempo reale tutte le 

variazioni che vengono applicate alle sue giunture usando i controlli situati nella par- 

te destra: 

− Pose name: è il nome della posa su cui si sta lavorando 

− Joint: il campo Name contiene l’elenco di tutte le giunture dello sche- 

letro dell’agente Greta. Per modificare la posizione di una giuntura ba- 

sta selezionarla in questa listbox e poi agire sui tre sliders RotX, RotY, 

RotZ. 

− Zoom: imposta la quantità di zoom sul corpo dell’agente. 

− Show model, Show skeleton: servono ad attivare o disattivare la vi- 

sualizzazione del corpo dell’agente e del suo scheletro. In figura 4 è vi- 

89


sibile tutto il corpo mentre in figura 5 osserviamo la stessa configura- 

zione ma attraverso il solo scheletro. 

− left2right, right2left: svolgono l’utile funzione di copiare tutte le rota- 

zioni degli angoli del braccio sinistro in quelle corrispondenti del brac- 

cio destro, e viceversa. 

− Load: carica da un file di testo le rota- 

zioni associate ad una certa posa base: 

− Save: nel momento in cui viene pre- 

muto questo pulsante l’editor chiede 

quale sottoinsieme dell’insieme delle 

giunture vogliamo che venga scritto nel 

file di testo che poi specificheremo. 

− Constraints: permette di configurare, 

per mezzo di un’ulteriore finestra di dialogo, i vincoli sulle rotazioni 

delle giunture. Non è infatti detto che ogni giuntura possa ruotare 

liberamente intorno a tutti e tre gli assi. Pensiamo ad esempio al 

gomito di una persona che può ruotare intorno a due soli assi, quello 

parallelo alla sua lunghezza e quello che esce “lateralmente”: 

Spalla e polso invece hanno per esempio tutti e tre i gradi di libertà. 

Il motore deve perciò tenere conto di queste considerazioni 

anatomiche e di conseguenza altrettanto deve fare l’editor per fare in 

modo che quello che viene visualizzato nella finestra di feedback 

90 

Figura 1. Scheletro


corrisponda poi precisamente a quello che il motore riprodurrà 

durante l’animazione. 

VI.3 Implementazione dell’editor delle pose 

L’editor delle pose è un’applicazione per sistemi operativi Win32 che fa uso della li- 

breria MFC per la creazione e la gestione dell’interfaccia grafica e della libreria 

OpenGL [36] per la visualizzazione in grafica tridimensionale. 

L’editor è stato sviluppato in Visual C++ all’interno del Microsoft Developer Stu- 

dio, semplificando in questo modo la fase di creazione della finestra di dialogo e di 

tutte le sue componenti. 

Quello che vogliamo mettere in risalto in questo paragrafo riguarda il procedimento 

adottato per la visualizzazione tridimensionale del corpo dell’agente Greta. La stessa 

tecnica è stata poi trasferita facilmente (grazie al paradigma di programmazione a 

oggetti) nello sviluppo del BAP player che vedremo nel prossimo paragrafo. 

Nella prima versione dell’editor ci siamo preoccupati innanzitutto di arrivare a vi- 

sualizzare semplicemente uno scheletro con proporzioni umane (figura 5) mentre 

successivamente abbiamo “applicato” intorno allo scheletro un modello umanoide 

(figura 4). 

VI.3.1 Lo scheletro 

Il punto di partenza di tutto il lavoro è stato Maya. Come abbiamo detto nel primo 

paragrafo di questo capitolo tutta la fase di definizione delle pose avveniva inizial- 

mente in questo ambiente di sviluppo. 

Il corpo umano può essere considerato suddiviso in una serie di segmenti connessi 

tra di loro (braccio, avambraccio, mano, dita). Il punto in cui due o più segmenti si 

congiungono è detto giuntura. Per riprodurre un corpo umano è quindi prima di tut- 

to necessario considerare una sua rappresentazione come gerarchia di giunture. Per 

animarlo si può allora accedere alle giunture e modificarne gli angoli di rotazione. 

91


Lo standard H-Anim (Appendice C) fornisce appunto un elenco di giunture di uno 

scheletro umanoide e le relative coordinate tridimensionali, del tipo: 

l_acromioclavicular 0.0962 1.4269 -0.0424 

l_shoulder 0.2029 1.4376 -0.0387 

l_elbow 0.2014 1.1357 -0.0682 

l_wrist 0.1984 0.8663 -0.0583 

l_thumb1 0.1924 0.8472 -0.0534 

l_thumb2 0.1951 0.8226 0.0246 

l_thumb3 0.1955 0.8159 0.0464 

l_index0 0.1983 0.8024 -0.0280 

l_index1 0.1983 0.7815 -0.0280 

l_index2 0.2017 0.7363 -0.0248 

l_index3 0.2028 0.7139 -0.0236 

. . . . . . . . . 

Inserendo questi dati in Maya è stato configurato uno scheletro che poteva essere a 

questo punto posizionato agendo sulla quantità di rotazione di ogni giuntura. 

Figura 6. Maya - l'ambiente di lavoro con lo scheletro dell'agente 

Dopo il posizionamento bastava mandare in esecuzione un apposito script in lin- 

guaggio MEL e la posa veniva scritta in un file di testo al quale avrebbe poi potuto 

accedere il motore durante l’elaborazione dell’animazione (figura 2). 

Il primo passo è stato allora quello di replicare lo scheletro all’interno dell’editor. 

L’oggetto principale dell’editor è la giuntura (in inglese Joint) e lo scheletro 

dell’agente è ovviamente un albero di giunture: 

92


class Joint: 

Joint* sons; 

//puntatore alla giuntura padre 

Joint* parent; 

//nome della giuntura 

CString name; 

//posizione(offset) della giuntura rispetto al padre 

coord3d translation; 

//rotazione della giuntura 

coord3d rotation; 

//vincoli sui gradi di libertà della giuntura 

bool enableX,enableY,enableZ; 

In fase di inizializzazione l’editor scorre il contenuto di un file in cui abbiamo me- 

morizzato la descrizione dello scheletro H-Anim (Appendice C)[10]. 

Per ogni giuntura incontrata vengono eseguite le operazioni: 

1. istanziazione di un nuovo oggetto di classe Joint; 

2. memorizzazione del nome della giuntura; 

3. memorizzazione dell’offset della giuntura rispetto al padre; 

4. azzeramento della rotazione della giuntura; 

5. inserimento della giuntura nella corretta posizione all’interno 

dell’albero (scheletro) finora creato; 

Una volta immagazzinati i dati di tutte le giunture e costruito l’albero che corri- 

sponde allo scheletro dell’agente è molto semplice ottenere la visualizzazione dello 

scheletro. 

In pratica per ogni giuntura occorre tracciare le ossa che vanno verso quelle figlie e 

poi spostarsi in ciascuna di loro e ripetere il procedimento. 

Ecco il metodo (ricorsivo) che abbiamo implementato: 

metodo Draw: 

input: una giuntura dello scheletro 

disegnare una piccola sfera; 

effettuare la rotazione R associata alla giuntura; 

for(ogni giuntura s figlia di quella in input): 

disegnare il segmento che unisce la giuntura in input ad s; 

spostare con una traslazione T il sistema di riferimento in 

modo che l’origine si trovi nella posizione di s; 

s.Draw; 

93


effettuare la traslazione –T; 

effettuare la rotazione –R; 

Se t è il puntatore alla radice dell’albero-scheletro basterà una semplice chiamata 

t→Draw(); per provocare il disegno tramite OpenGL dell’intero scheletro 

dell’agente completo di tutte le rotazioni corrispondenti alle varie giunture. 

Il codice completo commentato del metodo Draw della classe Joint è riportato 

nell’Appendice A. 

VI.3.2 Il modello 

Visualizzare un modello complesso invece di un semplice scheletro è leggermente 

più complicato. 

Un modello tridimensionale è una coppia (V,T) dove V è un insieme di punti dello 

spazio tridimensionale e T un insieme di triangoli i cui vertici sono punti apparte- 

nenti a V. 

Figura 7. Maya - modello 3D del corpo dell’agente Greta 

Grazie ad uno script MEL appositamente realizzato era abbastanza semplice ottene- 

re una versione in OpenGL del modello 3D del corpo dell’agente originariamente 

impiegato nel Player di Maya (figura 1). Lo script effettuava un’iterazione 

sull’insieme V di tutti i vertici del modello scrivendo in un file di intestazione C le 

94


loro coordinate sotto forma di array, e successivamente in un secondo array memo- 

rizzava tutti i triangoli dell’insieme T come indici del primo array. 

Il problema principale è consistito però nel trovare un modo per arrivare a poter 

applicare un procedimento ricorsivo analogo al caso del solo scheletro (vedi sezione 

precedente) anche in presenza di un modello tridimensionale e che permettesse di 

gestire al meglio le deformazioni a cui il modello sarebbe andato incontro come 

conseguenza delle rotazioni delle articolazioni dello scheletro. 

Ancora una volta la soluzione è stata ispirata dalla tecnica impiegata da Maya. 

Il software della Alias/Wavefront permette di effettuare un’assegnazione detta 

skinning tra le ossa dello scheletro e sottoinsiemi dell’insieme V dei vertici del mo- 

dello. In questo modo i vertici sono vincolati a muoversi seguendo gli spostamenti 

dell’osso associato. Visivamente inoltre con questa tecnica il modello sembra de- 

formarsi in modo sufficientemente naturale vicino alle giunture: 

Figura 8. Maya - deformazione del braccio 

Abbiamo allora realizzato un ulteriore script MEL per esportare su file di testo i dati 

dello skinning. Il risultato dello script è un file di intestazione C che contiene per 

ogni giuntura dello scheletro l’array degli indici dei vertici dell’insieme V assegnati a 

quella giuntura. 

Definire un algoritmo per il tracciamento tridimensionale del modello corpo 

dell’agente Greta equivale a calcolare a partire da V un nuovo insieme V’ in cui i 

vertici dell’insieme di partenza siano stati spostati (per mezzo di rotazioni) in base 

alla configurazione delle giunture dello scheletro. 

95


Illustriamo il procedimento con un esempio semplice, nel caso bidimensionale. 

Consideriamo 2 giunture: 

Supponiamo di applicare una rotazione θ nel punto P 0 e una rotazione σ nel punto 

P 1: 

Utilizziamo la notazione matriciale, trasferibile quindi direttamente al caso in 3 di- 

mensioni. Ricordiamo che dato un punto P e una matrice di rotazione K il punto 

che si ottiene applicando a P la rotazione descritta da K intorno è: P’=P⋅K. 

Definiamo allora due matrici di rotazione M,N che corrispondono rispettivamente 

alle rotazioni θ e σ. 

Per calcolare le coordinate finali del punto P 2 basterà effettuare due traslazioni e due 

rotazioni: 

1. traslare il sistema portando il punto P 1 nell’origine; 

2. calcolare P’ 2= P 2⋅N; 

3. traslare il sistema in modo da riportare P 0 nell’origine; 

4. calcolare P’’ 2= P’ 2⋅M; 

96


Ed ecco l’algoritmo finale che calcola l’insieme V’ ripetendo questo procedimento 

su tutti i vertici del modello del corpo dell’agente: 

Metodo ModelDraw: 

input: una giuntura g dello scheletro 

ottenere l’insieme G ⊆ V dei vertici associati a g; 

inizializzare la matrice ROT come matrice identità; 

for(ogni giuntura s a partire da g e risalendo nello scheletro 

fino alla radice): 

sia R la matrice di rotazione associata alla rotazione di s; 

ROT=ROT*R; 

for(ogni v ∈ G): 

traslare la giuntura s nell’origine; 

v=ROT*v; 

traslare la giuntura s nella posizione iniziale; 

ripetere tutto il procedimento sulle giunture figlie di g; 

Il codice completo e commentato del metodo ModelDraw della classe Joint è ri- 

portato nell’Appendice A. 

VI.4 BAP player 

Abbiamo più volte citato questo importante elemento del sistema dell’agente con- 

versazionale Greta. Ricordiamo che pur non essendo una componente del motore 

gestuale esso ha il compito fondamentale di dotare l’agente di un aspetto fisico e 

una voce, potremmo quindi dire di “dare vita” all’agente. 

Nell’architettura di un agente conversazionale e dell’agente Greta in particolare (ve- 

dere il paragrafo IV.5) il BAP player entra in azione non appena il motore gestuale 

ha terminato il calcolo di tutti i fotogrammi di animazione del turno di conversazio- 

ne dell’agente e ha riversato questi dati in un file BAP, la cui codifica esatta verrà 

spiegata nel prossimo paragrafo. 

97


Il player a questo punto accede al file BAP e al file WAV che era stato generato da 

Festival (IV.5.2) e avvia la riproduzione dell’animazione e dell’audio in modo sin- 

crono. Nella versione attuale del player è possibile modificare in tempo reale la po- 

sizione della telecamera che sta inquadrando l’agente e regolare la riproduzione 

dell’animazione agendo su dei pulsanti simili a quelli di un videoregistratore. 

VI.5 La codifica BAP 

BAP (Body Animation Parameters) è un insieme di parametri per la codifica 

dell’animazione del corpo di figure umanoidi sia 2D che 3D. E’ stato definito 

all’interno dello standard MPEG4 per l’integrazione di animazioni di figure uma- 

noidi all’interno di contenuti multimediali. 

La codifica prevede la possibilità di gestire ben 175 gradi di libertà (che a loro volta 

vengono singolarmente chiamati ancora BAP, per un elenco completo vedere 

l’Appendice B) per lo scheletro del modello. 

Ciascuno di questi BAP rappresenta la quantità di rotazione intorno a uno dei tre 

assi coordinati di una giuntura dello scheletro. 

Ad esempio per entrambe le spalle esistono tre BAP per la rotazione intorno agli as- 

si X, Y e Z. Per i gomiti invece sono riservati due BAP ciascuno per la rotazione in- 

torno agli assi X e Z. 

Nella sezione VI.3.1 avevamo spiegato che lo scheletro dell’agente è stato definito 

usando un altro standard chiamato H-Anim che prevede una rappresentazione tra- 

mite uno scheletro composto da 89 giunture. Abbiamo quindi identificato i BAP 

che intervenivano nell’animazione gestuale (quindi quelli relativi a spalle, gomiti, 

polsi e dita delle mani) ed effettuato un’operazione di matching tra BAP e giunture 

H-Anim. 

In pratica H-Anim serve come standard per la struttura dello scheletro mentre BAP 

è lo standard per animarlo. 

98


Consideriamo un esempio. Per il dito mignolo della mano sinistra (che in inglese si 

chiama pinky) la codifica BAP prevede 6 parametri su 4 giunture: 

• giuntura l_pinky0: flexion (rotazione intorno all’asse X) 

• giuntura l_pinky1: pivot,twisting,flexion (rotazione intorno agli assi 

X,Y e Z) 



Lo stesso dito per H-Anim è composto di 4 ossa: l_pinky_metacarpal, 

l_pinky_proximal, l_pinky_middle, l_pinky_distal. 

Il matching tra BAP e H-Anim è illustrato nella seguente figura: 

Significa quindi che l’osso del metacarpo ruoterà intorno alla giuntura PINKY0 che, 

come abbiamo detto all’inizio di questo esempio, ha un solo grado di libertà (quello 

rispetto all’asse X). L’osso della falange invece ruoterà intorno alla giuntura PIN- 

KY1 che aveva tutti e 3 i gradi di libertà. Falangina e falangetta, dovendo ruotare in- 

torno rispettivamente alle giunture PINKY2 e PINKY3 avranno un solo grado di 

libertà (asse X). 

Un file BAP è un file di testo in formato Ascii, contenente più righe che terminano 

con il carattere di ritorno a capo e ha una struttura fissa. 

La prima riga contiene sempre: 

99


• il numero della versione BAP (ad esempio “2.1”) e in questo modo il player 

potrà decidere se e come procedere nella visualizzazione dell’animazione; 

• una stringa che rappresenta il nome del file BAP; 

• un intero che indica il numero di fotogrammi al secondo (FPS) che sono sta- 

ti generati durante il calcolo dell’animazione (nel caso dell’agente Greta sono 

sempre 25 FPS). 

• il numero totale di fotogrammi che compongono l’animazione. 

Dalla seconda in poi sono memorizzate le informazioni relative ai fotogrammi 

dell’animazione, in modo che ogni fotogramma sia contenuto in due righe. 

La prima è una maschera, cioè una sequenza di 175 valori “0” o “1”. Uno “0” nella 

posizione i indica al player che il BAP numero i non viene utilizzato nel fotogram- 

ma attuale, un “1” il contrario. 

La seconda inizia sempre con il numero di fotogramma attuale e successivamente ci 

sono, nell’ordine, i valori dei BAP (espressi in radianti*10 5 ) che nella maschera della 

riga precedente erano stati contrassegnati con il numero “1”. 

Ecco un esempio di file BAP: 

0.0 tmp\into1_1.bap 25 839 

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 

1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 

0 -4645 -4796 27592 -26998 -38885 38796 -112452 -110961 -917 859 13757 -12173 -25731 - 

30218 82764 -84527 -68255 65700 -6907 -7117 0 0 -106708 99125 -97646 98381 -72864 71440 - 

6477 -6260 0 0 -98507 102741 -97987 90837 -68262 64587 6611 6758 0 0 -102057 93953 -85530 

97681 -51875 48845 17696 16831 0 0 -78502 80728 -91709 88674 -32323 -30713 -63022 69897 

49194 -47899 35007 40433 52715 53306 

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 

1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 

1 -5672 -5827 27844 -27257 -38659 38553 -111703 -110277 -909 851 12592 -10819 -24203 - 

28623 88805 -90882 -61782 59479 -7024 -7321 0 0 -96606 89751 -88394 89054 -65965 64669 - 

6482 -6255 0 0 -89179 92995 -88703 82236 -61791 58474 5985 6117 0 0 -92377 85055 -77429 

88418 -46954 44220 17046 16250 0 0 -71060 73074 -83026 80286 -29242 -27784 -57075 63295 

44521 -43351 31708 36620 47744 48276 

VI.6 Implementazione del BAP player 

Il player che abbiamo realizzato è in realtà fortemente basato sul codice creato per 

l’editor delle pose. 

100


Come abbiamo visto, l’editor era capace di visualizzare il corpo dell’agente varian- 

done la posizione degli arti in base all’input dell’utente oppure leggendo questi dati 

da un file. 

L’idea allora è stata quella di caricare il file BAP in un array e poi inserire, ad inter- 

valli tempo prestabiliti, i dati dell’array nello scheletro dell’agente provocando di 

conseguenza il movimento del corpo con il risultato che possiamo vedere nella se- 

guente figura: 

Figura 9. BAP player 

Il corpo dell’agente nella figura è completo anche della testa. Infatti nel player è sta- 

to integrato il codice del FAP player realizzato da Massimo Bilvi [2] per la visualiz- 

zazione delle espressioni facciali. 

Durante la riproduzione, in qualsiasi momento: 

• muovendo il mouse e tenendo premuto il tasto sinistro la telecamera che in- 

quadra l’agente ruota verso destra, sinistra, in alto o in basso. 

• muovendo il mouse e tenendo premuto il tasto destro la telecamera scorre 

lateralmente o dall’alto in basso (panning). 

101


• muovendo il mouse e tenendo premuto il tasto centrale la quantità di zoom 

della telecamera aumenta o diminuisce. 

L’implementazione del player si basa sull’introduzione nella classe Joint presentata 

nel paragrafo 3 di un metodo LoadFrame(int n); che dato il numero di foto- 

gramma n accede all’n-esimo elemento dell’array dei fotogrammi e copia le rotazio- 

ni dei vari BAP nelle corrispondenti giunture dello scheletro. 

A questo punto non resta che invocare il metodo ModelDraw (spiegato nel para- 

grafo 3) per ottenere la visualizzazione del corpo dell’agente al fotogramma n. 

Una volta avviata l’animazione va avanti autonomamente. Questo significa che è 

stato necessario creare un thread secondario dedicato all’aggiornamento della visua- 

lizzazione del corpo dell’agente. Riportiamo il codice del thread e del metodo che 

effettua il refresh della visualizzazione della finestra di dialogo principale del player: 

DWORD WINAPI PlayThread( LPVOID pParam ) 

{ 

//effettuare il cast del parametro nella classe della 

//finestra di dialogo principale 

CDlgOglDlg* pObject = (CDlgOglDlg*)pParam; 

//ripetere all’infinito 

while(true) 

{ 

//bloccare qui finché il dialogo non esce dalla fase di refresh 

while(pObject->refreshing==true) 

{ 

Sleep(10); 

} 

//inviare al dialogo un messaggio che lo avverta che può iniziare 

//la fase di refresh 

pObject->refreshing=true; 

pObject->PostMessage(WM_PAINT,0,0); 

//rimanere inattivo per 10 millisecondi 

Sleep(10); 

} 

//questa istruzione non verrà mai raggiunta 

return 0; 

} 

void CDlgOglDlg::Refresh(){ 

//se l’animazione è stata avviata 

if(playing) 

{ 

//calcolare il numero di fotogramma corrente 

//(25FPS=>ogni fotogramma dura 40 ms) 

102


currentframe=currentframe+(timeGetTime()-starttime)/40.0; 

//se non è stata superata la lunghezza totale dell’animazione 

if(currentframeDrawGLScene(m_root,type,xrot,yrot,xscroll,yscroll,zoom); 

refreshing=false; 

} 

La variabile refreshing funge da semaforo. Il thread la pone uguale a true quando dà 

il via alla fase di refresh e attende che venga posta di nuovo a false prima di prose- 

guire. In questo modo evitiamo che il thread richieda un nuovo refresh mentre è in 

corso quello precedente. 

VI.7 Editor dei gesti 

Nel capitolo IV abbiamo presentato il linguaggio GestureScript per la definizione 

dei gesti. Il linguaggio è stato utilizzato per creare il gestuario del motore gestuale 

dell’agente Greta. 

Ricordiamo brevemente che per il motore ogni gesto è una sequenza di uno o più 

fotogrammi base ciascuno dei quali viene descritto qualitativamente dalla sovrappo- 

sizione delle configurazioni di braccio, polso, dita della mano. 

Durante lo sviluppo del motore abbiamo rilevato che sarebbe stato molto più sem- 

plice ed intuitivo poter costruire “visivamente” i gesti invece di scrivere manual- 

mente i file GestureScript rischiando oltretutto di commettere errori di battitura e di 

sintassi. 

L’editor delle pose è un’interfaccia grafica che permette all’utente di definire gesti 

per il motore gestuale secondo la specifica del linguaggio GestureScript occupandosi 

103


poi della compilazione del file di testo corrispondente ed impedendo all’utente di 

commettere errori di definizione. 

In particolare vengono del tutto eliminati i seguenti tipi di errore: 

• errori di temporizzazione dei fotogrammi base: ogni fotogramma base ha un 

tempo associato compreso tra 0 e 1 che rappresenta il momento in cui il foto- 

gramma si verifica relativamente alla durata totale del gesto; l’editor è predispo- 

sto in modo da impedire di assegnare a ogni fotogramma un tempo inferiore a 

quello del fotogramma precedente oppure al di fuori dell’intervallo [0,1]. 

• errori nell’accoppiamento tra forme della mano e del pollice: in GestureScript la 

configurazione della mano prevede alcune forme base (ad esempio form_fist, 

form_open, symbol_1_open, ecc.) più alcuni modificatori opzionali per il polli- 

ce; le forme sono suddivise in tre insiemi che sono associati a diversi tipi di mo- 

dificatore del pollice; l’editor, grazie ad alcuni pulsanti di tipo “radio” che si abili- 

tano automaticamente, consente di effettuare solo accoppiate sintatticamente 

corrette. 

• errori di assegnazione dei vettori palmo e dita: per ogni fotogramma base è 

possibile specificare la direzione del vettore parallelo alle dita e di quello uscente 

dal palmo (figura 4 del capitolo IV); se ad esempio il vettore dita è diretto in 

avanti allora le uniche possibili direzioni del vettore palmo sono ovviamente su, 

giù, interno e esterno, mentre specificando avanti o dietro il motore non saprebbe 

come interpretare il gesto; l’editor permette di assegnare ai vettori solo direzioni 

compatibili tra loro. 

L’editor è un’interfaccia grafica per sistemi operativi Win32 che fa uso della libreria 

MFC per la creazione e la gestione dei controlli dell’interfaccia. Di seguito possiamo 

vedere un’immagine dell’editor: 

104


Figura 10. L'editor dei gesti 

Nella finestra di dialogo i controlli sono suddivisi in gruppi che corrispondono alle 

parole chiave di GestureScript (ArmX, ArmY, ArmZ, Hand, Palm, FingerBase). Il 

fotogramma definito nella schermata della figura 10 dà poi luogo all’esecuzione del 

gesto iconico “piccolo” (figura 11). 

105


Figura 11. L'agente Greta mentre esegue il gesto iconico "piccolo". 

106

Capitolo VII, Conclusioni e sviluppi futuri 

VII.1 Conclusioni 

VII 

Conclusioni e sviluppi futuri 

In questa tesi abbiamo realizzato il sistema gestule dell’agente conversazionale Greta. 

Questo ha richiesto prima di tutto lo studio di argomenti collegati alla comunicazio- 

ne sociale, alla psicologia e alle scienze cognitive per risalire ai meccanismi mediante 

i quali avviene la comunicazione non-verbale tra gli esseri umani. 

Partendo da un motore per il calcolo dei movimenti di singoli gesti abbiamo intro- 

dotto una serie di modifiche in modo da ottenere un motore gestuale completo: 

• è stato creato un modulo per effettuare la scelta dei gesti da riprodurre (come 

detto, secondo i principi che regolano la gestualità delle persone) e fornire lo- 

ro la corretta temporizzazione; 

• è stato implementato il calcolo dei gesti deittici che inizialmente non erano 

stati previsti; 

• è stata modificata la dinamica dei gesti per renderla più realistica ed è stata 

aggiunta la capacità per l’agente di effettuare posizioni di riposo multiple; 

107


• è stata implementata un’applicazione per definire le pose base dei gesti in 

modo da rendere il sistema indipendente da qualsiasi software commerciale; 

• è stato implementato un editor dei gesti per semplificare la procedura di de- 

finizione dei gesti; 

• è stato creato un gestuario; 

• è stato implementato un BAP player che fornisce un aspetto “fisico” 

all’animazione calcolata dal motore; 

VII.2 Sviluppi futuri 

Il sistema dell’agente è ancora in fase di sviluppo e presto verranno implementate 

nuove funzionalità: 

• miglioramento della riproduzione dei gesti: 

− dare più espressività ai gesti; 

− riprodurre anche gesti con movimento circolare; 

• creazione automatica dei gesti – per ora l’agente può riprodurre solo i gesti pre- 

senti nel gestuario. In alcune situazioni però potrebbe essere utilizzato un proce- 

dimento che, esaminando l’informazione che l’agente sta comunicando verbal- 

mente, riesca a comporre automaticamente un gesto coerente con la conversa- 

zione. Ciò renderebbe molto più flessibile il tipo di impiego dell’agente. 

• implementazione della riproduzione della postura – l’agente per ora mantiene 

sempre la stessa postura mentre in futuro sarà in grado di modificarla in base 

all’andamento del discorso; il motore gestuale è già predisposto per effettuare il 

calcolo su tutti i BAP del corpo, compresi quelli che interessano la postura. An- 

drà introdotto un sistema di definizione delle posture e un pianificatore che si 

occuperà di impostare dei fotogrammi chiave per la postura. Il motore effettuerà 

poi lo stesso tipo di interpolazione di braccia e mani. 

108


• implementazione di un sistema multiagente – sarà possibile attivare nello stesso 

ambiente virtuale più istanze dell’agente che potranno comunicare tra di loro. 

Questo comporterà la definizione dei gesti relativi al turn-taking e al feedback 

che per adesso non sono stati considerati. 

• rendere l’agente libero di muoversi – nel sistema attuale Greta non può spostarsi 

nell’ambiente virtuale in cui si trova. Verranno implementati alcuni algoritmi che 

permetteranno all’agente di camminare mentre si sta svolgendo la conversazione. 

• calcolo delle deformazioni del corpo – il BAP player visualizza il corpo di Greta 

utilizzando una tecnica di deformazione base che potrebbe essere raffinata te- 

nendo in considerazione la struttura anatomica del corpo umano. 

• calcolo dei vestiti – i vestiti dell’agente sono stati inseriti nel BAP player come 

modelli poligonali statici. In futuro i vestiti si deformeranno seguendo i movi- 

menti del corpo. 

• valutazione della credibilità del comportamento dell’agente – verranno valutate le 

espressioni comunicative dell’agente per controllare che siano coerenti col con- 

tenuto informativo che vuole comunicare e che riproducano correttamente le 

espressioni utilizzate nella comunicazione tra esseri umani. 

• valutazione dell’usabilità: andrà verificato che effettivamente per l’utente la fami- 

liarizzazione con il sistema è più semplice e veloce grazie al fatto che sta inter- 

agendo con un agente conversazionale invece che con un’interfaccia tradizionale. 

109

Appendice A 

Appendice A 

VII.3 Il metodo Draw della classe Joint 

Nella sezione 1 del paragrafo VI.3 avevamo descritto l’algoritmo sul quale è basato 

il metodo Draw() della classe Joint. In questo paragrafo riportiamo il codice 

commentato della sua implementazione nel linguaggio C++: 

void Joint::Draw(){ 

//disegnare una sfera nel punto attuale, cioè nel punto da cui parte la giuntura 

gluSphere(gluNewQuadric(),1.0f,4,4); 

//OPENGL:effettuare la rotazione associata alla giuntura 

glRotatef(rotation.z,0.0f,0.0f,1.0f); 

glRotatef(rotation.y,0.0f,1.0f,0.0f); 

glRotatef(rotation.x,1.0f,0.0f,0.0f); 

//se la giuntura ha delle giunture figlie allora per ciscuna di esse: 

for(int i=0; itranslation.x,sons[i]->translation.y,sons[i]->translation.z); 

glEnd(); 

//OPENGL:spostarsi nella posizione di quella figlia 

glTranslatef(sons[i]->translation.x, sons[i]->translation.y, sons[i]->translation.z); 

//disegnare ricorsivamente quella figlia e tutti i suoi successori 

sons[i]->Draw(jointname); 

//OPENGL:tornare nella posizione della giuntura attuale 

glTranslatef(-sons[i]->translation.x, -sons[i]->translation.y, -sons[i]->translation.z); 

} 

OPENGL:dopo aver disegnato tutte le figlie effettuare una rotazione opposta a quella della 

giuntura attuale 

glRotatef(-rotation.x,1.0f,0.0f,0.0f); 

glRotatef(-rotation.y,0.0f,1.0f,0.0f); 

glRotatef(-rotation.z,0.0f,0.0f,1.0f); 

} 

110

Appendice A 

VII.4 Il metodo ModelDraw della classe Joint 

Nella sezione 2 del paragrafo VI.3 avevamo descritto l’algoritmo sul quale è basato 

il metodo ModelDraw() della classe Joint. In questo paragrafo riportiamo il co- 

dice commentato della sua implementazione nel linguaggio C++: 

void Joint::ModelDraw(CString jointname,coord3d totaltranslation,GLfloat* vertex_new, 

GLfloat* normal_new){ 

//convertire il nome della giuntura in una stringa standard c++ 

std::string namestring(name.GetBuffer(0)); 

//ottere il nome dell’array dei vertici associati alla giuntura 

int*jointVertices= GetPolySet(namestring); 

//e il suo numero di elementi 

int size= GetPolySetSize(namestring); 

//variabili locali 

int whichVertex; 

int i; 

coord3d center; 

Joint* prevjoint; 

alg3::vec3 vertex_rot; 

alg3::vec3 normal_rot; 

alg3::mat3 rotmatx(alg3::vec3(0,0,0),alg3::vec3(0,0,0),alg3::vec3(0,0,0)); 

alg3::mat3 rotmaty(alg3::vec3(0,0,0),alg3::vec3(0,0,0),alg3::vec3(0,0,0)); 

alg3::mat3 rotmatz(alg3::vec3(0,0,0),alg3::vec3(0,0,0),alg3::vec3(0,0,0)); 

alg3::mat3 tempmat(alg3::vec3(1,0,0),alg3::vec3(0,1,0),alg3::vec3(0,0,1)); 

//aggiungere la traslazione di questa giuntura alla traslazione totale, data come parametro 

totaltranslation.x=totaltranslation.x+this->translation.x; 

totaltranslation.y=totaltranslation.y+this->translation.y; 

totaltranslation.z=totaltranslation.z+this->translation.z; 

//per ruotare questa parte del corpo occorre spostarsi nel centro di rotazione locale 

//ed effettuare la rotazione della giuntura associata 

//poi il tutto va ripetuto sulle giunture figlie 

prevjoint=this; 

center.x=totaltranslation.x; 

center.y=totaltranslation.y; 

center.z=totaltranslation.z; 

//la rotazione va applicata a ritroso a tutte le giunture precedenti fino alla radice 

while(prevjoint!=NULL) 

{ 

//calcolare tre matrici di rotazione, una intorno ad ognuno degli assi 

rotmatx[0][0]=1; 




rotmatx[1][1]=Cosine((int)(prevjoint->rotation.x)); 

rotmatx[1][2]=-Sine((int)(prevjoint->rotation.x)); 


rotmatx[2][1]=Sine((int)(prevjoint->rotation.x)); 

rotmatx[2][2]=Cosine((int)(prevjoint->rotation.x)); 

rotmaty[0][0]=Cosine((int)(prevjoint->rotation.y)); 

rotmaty[0][1]=0; 

rotmaty[0][2]=Sine((int)(prevjoint->rotation.y)); 




rotmaty[2][0]=-Sine((int)(prevjoint->rotation.y)); 


rotmaty[2][2]=Cosine((int)(prevjoint->rotation.y)); 

rotmatz[0][0]=Cosine((int)(prevjoint->rotation.z)); 

rotmatz[0][1]=-Sine((int)(prevjoint->rotation.z)); 

rotmatz[0][2]=0; 

rotmatz[1][0]=Sine((int)(prevjoint->rotation.z)); 

rotmatz[1][1]=Cosine((int)(prevjoint->rotation.z)); 





111

Appendice A 

//tempmat conterrà la matrice di rotazione finale 

tempmat[0][0]=1; 









tempmat=tempmat*rotmatz; 

tempmat=tempmat*rotmaty; 

tempmat=tempmat*rotmatx; 

//ora per ogni vertice della parte del corpo associata a questa giuntura effettuare 

//la rotazione 

for (i=0; itranslation.x; 

center.y=center.y-prevjoint->translation.y; 

center.z=center.z-prevjoint->translation.z; 

} 

//spostarsi nella precedente e ripeti 

prevjoint=prevjoint->parent; 

} 

//l’algoritmo su tutti i vertici di questa giuntura è terminato, passare ora alle giunture 

//figlie 

for(i=0; iModelDraw(jointname,totaltranslation,vertex_new,normal_new) 

} 

112

Appendice B 

VII.5 Tabella dei gruppi BAP 

Appendice B 

Nel paragrafo VI.5 abbiamo descritto lo standard MPEG4/BAP [5; 17; 35; 46]. Ri- 

portiamo la lista completa dei gruppi BAP. Nel paragrafo successivo forniremo 

l’elenco dei singoli BAP (Body Modification Parameters) che appartengono ad ogni 

gruppo. 

BAP Group n. Group Description Number of BAPs 

1. Pelvis 3 

2. Left leg1 4 

3. Right leg1 4 

4. Left leg2 6 

5. Right leg2 6 

6. Left arm1 5 

7. Right arm1 5 

8. Left arm2 7 

9. Right arm2 7 

10. Spine1 12 

11. Spine2 15 

12. Spine3 18 

13. Spine4 18 

14. Spine5 12 

113

Appendice B 

15. Left hand1 16 

16. Right hand1 16 

17. Left hand2 13 

18. Righ thand2 13 

19. Global positioning 6 

20. Extension BAPs1 22 





VII.6 Elenco dei BAP in ogni gruppo 

Pelvis: 

sacroiliac_tilt, sacroiliac_torsion, sacroiliac_roll 

Left leg1: 

l_hip_flexion,l_hip_abduct,l_knee_flexion,l_ankle_flex 

Right leg1: 

r_hip_flexion,r_hip_abduct,r_knee_flexion,r_ankle_flex 

Left leg2: 

l_hip_twisting, l_knee_twisting, l_ankle_twisting, 

l_subtalar_flexion,l_midtarsal_flexion,l_metatarsal_flex 

Right leg2: 

r_hip_twisting, r_knee_twisting, r_ankle_twisting, 

r_subtalar_flexion,r_midtarsal_flexion,r_metatarsal_flex 

Left arm1: 

l_shoulder_flexion,l_shoulder_abduct,l_shoulder_twist 

l_elbow_flexion, l_wrist_flexion 

Right arm1: 

r_shoulder_flexion,r_shoulder_abduct,r_shoulder_twist 

r_elbow_flexion, r_wrist_flexion 

Left arm2: 

l_sternoclavicular_abduct, l_sternoclavicular_rotate, 

l_acromioclavicular_abduct, l_acromioclavicular_rot, 

l_elbow_twisting, l_wrist_pivot, l_wrist_twisting 

Right arm2: 

r_sternoclavicular_abduct, r_sternoclavicular_rotate, 

r_acromioclavicular_abduct,r_acromioclavicular_rot, 

r_elbow_twisting, r_wrist_pivot, r_wrist_twisting 

Spine1: 

skullbase_roll, skullbase_torsion, skullbase_tilt, 

vc4roll, vc4torsion, vc4tilt,vt6roll, vt6torsion, vt6tilt, 

vl3roll, vl3torsion, vl3tilt, 

Spine2: 

vc2roll, vc2torsion, vc2tilt,vt1roll, vt1torsion, vt1tilt, 

vt10roll,vt10torsion,vt10tilt, vl1roll, vl1torsion, vl1tilt, 

vl5roll, vl5torsion, vl5tilt 

Spine3: 

vc3roll, vc3torsion, vc3tilt,vc6roll, vc6torsion, vc6tilt, 

vt4roll, vt4torsion, vt4tilt,vt8roll, vt8torsion, vt8tilt, 

vt12roll, vt12torsion, vt12tilt,vl4roll,vl4torsion, vl4tilt, 

114

Appendice B 

Spine4: 

vc5roll, vc5torsion, vc5tilt, vc7roll, vc7torsion, vc7tilt 

vt2roll, vt2torsion, vt2tilt, vt7roll, vt7torsion, vt7tilt, 

vt11roll, vt11torsion, vt11tilt,vl2roll,vl2torsion, vl2tilt, 

Spine5: 

vc1roll, vc1torsion, vc1tilt, vt3roll, vt3torsion, vt3tilt, 

vt5roll, vt5torsion, vt5tilt, vt9roll, vt9torsion, vt9tilt, 

Left hand1: 

l_pinky1_flexion,l_pinky2_flexion,l_pinky3_flexion, 

l_ring1_flexion, l_ring2_flexion, l_ring3_flexion, 

l_middle1_flexion,l_middle2_flexion,l_middle3_flex 

l_index1_flexion, l_index2_flexion,l_index3_flexion, 

l_thumb1_flexion, l_thumb1_pivot, 

l_thumb2_flexion, l_thumb3_flexion 

Right hand1: 

r_pinky1_flexion, r_pinky2_flexion,r_pinky3_flexion, 

r_ring1_flexion, r_ring2_flexion, r_ring3_flexion, 

r_middle1_flexion,r_middle2_flexion,r_middle3_flex 

r_index1_flexion, r_index2_flexion, r_index3_flexion, 

r_thumb1_flexion, r_thumb1_pivot, 

r_thumb2_flexion,r_thumb3_flexion 

Left hand2: 

l_pinky0_flexion,l_pinky1_pivot,l_pinky1_twisting, 

l_ring0_flexion,l_ring1_ pivot,l_ring1_twisting, 

l_middle0_flexion,l_middle1_pivot,l_middle1_twist 

l_index0_flexion,l_index1_ pivot, 

l_index1_twisting,l_thumb1_twisting 

Right hand2: 

r_pinky0_flexion, r_pinky1_pivot,r_pinky1_twisting, 

r_ring0_flexion,r_ring1_ pivot, r_ring1_twisting, 

r_middle0_flexion,r_middle1_pivot,r_middle1_twist 

r_index0_flexion, r_index1_pivot, 

r_index1_twisting, r_thumb1_twisting 

Global positioning: 

HumanoidRoot_tr_vertical,HumanoidRoot_tr_lateral, 

HumanoidRoot_tr_frontal,HumanoidRoot_rt_turn, 

HumanoidRoot_rt_roll,HumanoidRoot_rt_tilt 

115

Appendice C 

VII.7 Il modello H-Anim 

Appendice C 

H-Anim è una specifica per la sintetizzazione di personaggi umanoidi in ambienti 

virtuali. L’obbiettivo è quello di creare una libreria di questi personaggi e dei tools 

per animarli. 

Il corpo umano può essere considerato suddiviso in una serie di segmenti connessi 

tra di loro (braccio, avambraccio, mano, dita). Il punto in cui due o più segmenti si 

congiungono è detto giuntura. Per riprodurre un corpo umano è quindi prima di tut- 

to necessario considerare una sua rappresentazione come gerarchia di giunzioni. 

Nel prossimo paragrafo vedremo il diagramma delle giunture del modello H-Anim, 

che ci fornisce anche le loro coordinate spaziali, riportate nell’ultimo paragrafo. 

116

Appendice C 

VII.8 H-Anim: Gerarchia delle giunture 

117

Appendice C 

VII.9 H-Anim: posizione delle giunture 

Per ogni giuntura il modello fornisce la traslazione (offset) rispetto alla giuntura 

precedente nella gerarchia. Questi offset sono stati utilizzati nella creazione dello 

scheletro per il modello dell’agente Greta: 

Joint n. Joint name Offset (dx,dy,dz) 

1 l_forefoot_tip 0.1354 0.0016 0.1476 

2 l_metatarsal_pha5 0.1825 0.0070 0.0928 

3 l_digit2 0.1195 0.0079 0.1433 

4 l_metatarsal_pha1 0.0816 0.0232 0.0106 

5 l_lateral_malleolus 0.1308 0.0597 -0.1032 

6 l_medial_malleolus 0.0890 0.0716 -0.0881 

7 l_sphyrion 0.0890 0.0575 -0.0943 

8 l_calcaneous_post 0.0974 0.0259 -0.1171 

9 l_knee_crease 0.0993 0.4881 -0.0309 

10 l_femoral_lateral_epicn 0.1598 0.4967 0.0297 

11 l_femoral_medial_epicn 0.0398 0.4946 0.0303 

12 r_forefoot_tip -0.1043 -0.0227 0.1450 

13 r_metatarsal_pha5 -0.1523 0.0166 0.0895 

14 r_digit2 -0.0883 0.0134 0.1383 

15 r_metatarsal_pha1 -0.0521 0.0260 0.0127 

16 r_lateral_malleolus -0.1006 0.0658 -0.1075 

17 r_medial_malleolus -0.0591 0.0760 -0.0928 

18 r_sphyrion -0.0603 0.0610 -0.1002 

19 r_calcaneous_post -0.0692 0.0297 -0.1221 

20 r_knee_crease -0.0825 0.4932 -0.0326 

21 r_femoral_lateral_epicn -0.1421 0.4992 0.0310 

22 r_femoral_medial_epicn -0.0221 0.5014 0.0289 

23 r_iliocristale -0.1525 1.0628 0.0035 

24 r_trochanterion -0.1689 0.8419 0.0352 

25 l_iliocristale 0.1612 1.0537 0.0008 

26 l_trochanterion 0.1677 0.8336 0.0303 

27 r_asis -0.0887 1.0021 0.1112 

28 l_asis 0.0925 0.9983 0.1052 

29 r_psis -0.0716 1.0190 -0.1138 

30 l_psis 0.0774 1.0190 -0.1151 

118

Appendice C 

31 crotch 0.0034 0.8266 0.0257 

32 skull_tip 0.0050 1.7504 0.0055 

33 sellion 0.0058 1.6316 0.0852 

34 r_infraorbitale -0.0237 1.6171 0.0752 

35 l_infraorbitale 0.0341 1.6171 0.0752 

36 supramenton 0.0061 1.5410 0.0805 

37 r_tragion -0.0646 1.6347 0.0302 

38 r_gonion -0.0520 1.5529 0.0347 

39 l_tragion 0.0739 1.6348 0.0282 

40 l_gonion 0.0631 1.5530 0.0330 

41 nuchale 0.0039 1.5972 -0.0796 

42 r_neck_base -0.0419 1.5149 -0.0220 

43 l_neck_base 0.0646 1.5141 -0.0380 

44 l_thumb_distal_tip 0.1982 0.8061 0.0759 

45 l_index_distal_tip 0.2089 0.6858 -0.0245 

46 l_dactylion 0.2056 0.6743 -0.0482 

47 l_middle_distal_tip 0.2080 0.6731 -0.0491 

48 l_ring_distal_tip 0.2035 0.6750 -0.0756 

49 l_pinky_distal_tip 0.2014 0.7009 -0.1012 

50 l_metacarpal_pha2 0.2009 0.8139 -0.0237 

51 l_ulnar_styloid -0.2142 0.8529 -0.0648 

52 l_metacarpal_pha5 0.1929 0.7860 -0.1122 

53 l_radial_styloid 0.1901 0.8645 -0.0415 

54 l_olecranon -0.1962 1.1375 -0.1123 

55 l_humeral_medial_epicn 0.1735 1.1272 -0.1113 

56 l_radiale 0.2182 1.1212 -0.1167 

57 l_humeral_lateral_epicn 0.2280 1.1482 -0.1100 

58 l_clavicale 0.0271 1.4943 0.0394 

59 l_acromion 0.2032 1.4760 -0.0490 

60 l_axilla_ant 0.1777 1.4065 -0.0075 

61 l_axilla_post 0.1706 1.4072 -0.0875 

62 r_thumb_distal_tip -0.1869 0.8090 0.0820 

63 r_index_distal_tip -0.1980 0.6883 -0.0180 

64 r_dactylion -0.1941 0.6772 -0.0423 

65 r_middle_distal_tip -0.1969 0.6758 -0.0427 

66 r_ring_distal_tip -0.1934 0.6778 -0.0693 

67 r_pinky_distal_tip -0.1938 0.7035 -0.0949 

68 r_metacarpal_pha2 -0.1977 0.8169 -0.0177 

119

Appendice C 

69 r_ulnar_styloid -0.2117 0.8562 -0.0584 

70 r_metacarpal_pha5 -0.1929 0.7890 -0.1064 

71 r_radial_styloid -0.1884 0.8676 -0.0360 

72 r_olecranon -0.1907 1.1405 -0.1065 

73 r_humeral_medial_epicn -0.1680 1.1298 -0.1062 

74 r_radiale -0.2130 1.1305 -0.1091 

75 r_humeral_lateral_epicn -0.2224 1.1517 -0.1033 

76 r_clavicale -0.0115 1.4943 0.0400 

77 r_acromion -0.1905 1.4791 -0.0431 

78 r_axilla_ant -0.1626 1.4072 -0.0031 

79 r_axilla_post -0.1603 1.4098 -0.0826 

80 suprasternale 0.0084 1.4714 0.0551 

81 cervicale 0.0064 1.520 -0.0815 

82 r_thelion -0.0736 1.3385 0.1217 

83 l_thelion 0.0918 1.3382 0.1192 

84 substernale 0.0085 1.2995 0.1147 

85 r_rib10 -0.0711 1.1941 0.1016 

86 l_rib10 0.0871 1.1925 0.0992 

87 rib10_midspine 0.0049 1.1908 -0.1113 

88 waist_preferred_post 0.2900 1.0915 -0.1091 

89 navel 0.0069 1.0966 0.1017 

120

Bibliografia 

Bibliografia 

[1] N. Badler, R. Bindiganavale, J. Allbeck, W. Schuler, L. Zhao, M. Palmer. Param- 

eterized action representation for virtual human agents. In "Embodied conversational 

characters". Cambridge MA, MIT Press, 2000 

[2] M. Bilvi. Progetto e sviluppo di un agente conversazionale multimodale: animazione e sincro- 

nizzazione dei segnali verbali e non verbali. Tesi di laurea, Università degli Studi di 

Roma “La Sapienza”, 2001 

[3] R. Bindiganavale, N. Badler. Motion abstraction and mapping with spatial constraints. 

In "International workshop on Modeling and motion capture techniques for 

virtual environments", Ginevra, novembre 1998, pp. 70-82 

[4] A. Black, P. Taylor, R. Caley, R. Clark. The festival speech sinthesis system. 

http://www.cstr.ed.ac.uk/projects/festival/ 

[5] T. K. Capin, E. Petajan, J. Ostermann. Efficient modeling of virtual humans in 

MPEG-4, In "ICME 2000", 2000 

[6] J. Cassell. Embodied conversation: integrating face and gesture into automatic spoken dia- 

logue systems. In "Spoken dialogue systems". Cambridge Ma, MIT Press, 2001 

[7] J. Cassell, C. Pelachaud, N. Badler, M. Steedman, B. Achorn, T. Becket, B. 

Douville, S. Prevost, M. Stone. Animated conversation: rule-based generation of facial 

expression, gesture & spoken intonation for multiple conversational agents. In 

"SIGGRAPH ’94", 1994, pp. 413-420 

[8] J. Cassell, J. Sullivan, S. Prevost, E. Churchill. Embodied Conversational Agents. 

Cambridge MA, MIT Press, 2000 

121

Bibliografia 

[9] D. Eberly. Key frame interpolation via splines and quaternions. http://www.magic- 

software.com/ 

[10] H-anim. http://www.h-anim.org/ 

[11] E. Hajicova, P. Sgall. The ordering principle. In "Journal of pragmatics 11", 1987, 

pp. 435-454 

[12] M. Halliday. Intonation and grammar in British English. The Hague, Mouton, 1967 

[13] Hao Yan. Paired speech and gesture generation in embodied conversational agents. M.S. 

thesis in the Media Lab. Cambridge MA, MIT Press, 2000 

[14] P. A. Harling, A. D. N. Edwards. Hand tension as a gesture segmentation cue. In 

"Progress in Gestural Interaction: Proceedings of Gesture Workshop '96", 

London, Springer, 1997, pp. 75-87 

[15] B. Hartmann, M. Mancini, C. Pelachaud. Formational parameters and adaptive proto- 

type instantiation for MPEG-4 compliant gesture synthesis. In "Computer Animation". 

Geneva, giugno 2002, IEEE Computer Society, 2002, p. 111-119 

[16] T. Huang, V. Pavlovic. Hand gesture modeling, analysis, and synthesis, in "Proceed- 

ings of the International workshop on Automatic Face and Gesture Recogni- 

tion", giugno 1995, pp. 73-79 

[17] ISO/IEC JTC 1/SC 29/WG11 N2739 subpart 2, MPEG-4 Versione 2 - BIFS, 

marzo 1999 

[18] A. Kendon. Gesticulation and speech: two aspects of the process of utterance. In "The rela- 

tion between verbal and nonverbal communication". The Hague, Mouton, 

1980, pp. 207-227 

[19] A. Kendon. Gestures as illocutionary and discourse structure markers in southern Italian 

conversation. In "Journal of pragmatics", 23, 1995, pp. 247-279 

[20] A. Kendon. How gestures can become like words. In "Crosscultural perspectives in 

nonverbal communication", F. Poyatos ed., Toronto, Hogrefe, 1988. pp. 131- 

141 

[21] A. Kendon. Movement coordination in social interaction: some examples described. In 

"Nonverbal communication". Oxford University Press, 1974 

122

Bibliografia 

[22] J.R. Kennaway. Synthetic animation of deaf signing gestures. In "4th International 

Workshop on Gesture and Sign Language Based Human-Computer Interac- 

tion", London, aprile 2001 

[23] D. H. U. Kochanek, R. H. Bartels. Interpolating splines with local tension, continuity 

and bias control. In "Computer Graphics (SIGGRAPH ’84 Proceedings)", 18, 

1984, pp. 33-41 

[24] S. Kopp, I. Wachsmuth. A knowledge-based approach for lifelikegesture animation. In 

"Proceedings of the 14 th European conference on artificial intelligence". IOS 

Press, 2000 

[25] S. Kopp, I. Wachsmuth. Model-based Animation of Coverbal Gesture. In "Proceed- 

ings of Computer Animation", IEEE Press, 2002, pp. 252-257 

[26] S. Kopp, I. Wachsmuth. Planning and motion control in lifelike gesture: a refined ap- 

proach. In "Computer Animation", IEEE Computer Society, 2000, pp. 92-97 

[27] A. Kranstedt, S. Kopp, I. Wachsmuth. MURML: A Multimodal Utterance Repre- 

sentation Markup Language for Conversational Agents. In "Autonomous Agents and 

Multi-Agent Systems", 2002 

[28] J. Lasseter. Principles of traditional animation applied to 3D computer animation. In 

"Computer Graphics (SIGGRAPH ’85 Proceedings)", 21, 1987, pp. 35-44 

[29] T. Lebourque e S. Gibet. High level specification and control of communication gestures: 

the GESSYCA system. In "Computer Animation '99", IEEE Computer Society, 

1999, pp. 24-35 

[30] J. C. Lester, S. A. Converse, S. H. Kahler, S. T. Barlow, B. A. Stone, R. S. Bho- 

gal. The persona effect: affective impact of animated pedagogical agents. In "CHI", pp. 

1997, 359-366 

[31] J. C. Lester, S. G. Towns, C. B. Callaway, J. L. Voerman, P. J. Fitzgerald. Deictic 

and emotive communication in animated pedagogical agents. In "Embodied Conversa- 

tional Agents". Cambridge MA, MIT Press, 2000 

123

Bibliografia 

[32] J. C. Lester, J. Voerman, S. Towns, C. Callaway. Cosmo: a like-like animated peda- 

gogical agent with deictic believability. In "Proceedings of the IJCAI97 workshop on 

animated interface agents: making them intelligent", 1997, pp. 61-69 

[33] MAYA 4 Online Library. Alias/Wavefront, 2001 

[34] D. McNeill. Hand and Mind: What Gestures Reveal about Thought. University of 

Chicago, 1992 

[35] MPEG4: http://www.m4if.org/ 

[36] OpenGL: http://www.opengl.org/ 

[37] R. Parent. Computer animation: algorithms and techniques. Morgan Kaufmann Pub- 

lishers, 2002 

[38] V.I. Pavlovic, R. Sharma, T.S. Huang. Visual interpretation of hand gestures for hu- 

mancomputer interaction: a review. In "IEEE Transaction on Pattern Analysis and 

Machine Intelligence", vol. 19, n. 7, 1997 

[39] C. Pelachaud, V. Carofiglio, B. De Carolis, F. de Rosis, I. Poggi. Embodied Con- 

textual Agent in Information Delivering Application. In "First International Joint Con- 

ference on Autonomous Agents & Multi-Agent Systems", 2002 

[40] C. Pelachaud, I. Poggi, B. De Carolis, F. de Rosis. Behavior planning for a reflexive 

agent. IJCAI - 2001, Seattle, 2001 

[41] K. Perlin, K., Noise, Hypertexture, Antialiasing and Gesture, in "Texturing and 

Modeling, A Procedural Approach". D. Ebert, Ed. Cambridge, MA, AP Profes- 

sional, 1994 

[42] J. Pierrehumbert, J. Hirschberg. The meaning of intonational Contours in the Interpreta- 

tion of Discourse. In " Plans and Intentions in Communication and Discours". 

P.R. Cohen, J. Morgan, M.E. Pollack ed. Cambridge MA, MIT Press, 1990, pp 

271-311 

[43] I. Poggi. The Semantics and Pragmatics of Everyday Gestures. C.Mueller and R.Posner, 

2001 

[44] I. Poggi, E. M. Caldognetto. A score for the analysis of gestures in multimodal communi- 

cation. In "Proceedings of the workshop on the integration of gesture and lan- 

124

Bibliografia 

guage in speech, applied science and engineering laboratories", Newark and 

Wilmington, 1996, pp. 235-244 

[45] I. Poggi, C. Pelachaud, E. Magno Caldognetto. Gestural Mind Markers in ECAs. 

In "Second International Joint Conference on Autonomous Agents & Multi- 

Agent Systems", 2003. 

[46] M. Preda, T. Zaharia, F. Prêteux. 3D body animation and coding within a MPEG4 

compliant framework. In "International workshop SNHC", 1999 

[47] S. Prillwitz, R. Leven, H. Zienert, T. Hamke, J. Henning. HamNoSys Version 2.0: 

Hamburg Notation System for Sign Languages: An Introductory Guide. In "International 

Studies on Sign Language and Communication of the Deaf". Signum Press, vol. 

5, 1989 

[48] B. Reeves, C. Nass. The Media Equation: How People Treat Computers, Television, and 

New Media like Real People and Places. CSLI Publications, 1996 

[49] K. Shoemake. Animating rotation with quaternion curves. In "Computer Graphics 

(SIGGRAPH ’85 Proceedings)", 19, 1985, pp. 245-254 

[50] T. Sowa, I. Wachsmuth. Coverbal iconic gestures for object descriptions in virtual envi- 

ronments: An empirical study. In "Post-Proceedings of the Conference of Gestures: 

Meaning and Use", 2000 

[51] W. Stokoe. Sign language structure: an outline of the communicative systems of the Ameri- 

can deaf. Linstock Press, 1978 

[52] H. Thimbleby. User Interface Design, Addison-Wesley, 1990. 

[53] K. R. Thórisson. Layered, modular action control for communicative humanoids. In Com- 

puter Animation ’97, IEEE Computer Society, 1997, pp. 134-143 

[54] XML: http://xml.coverpages.org/xml.html 

[55] I. Wachsmuth, S. Kopp. Lifelike Gesture Synthesis and Timing for Conversational 

Agents. In "Gesture Workshop 2001", pp. 120-133 

[56] A. Watt. 3D computer graphics. Addison Wesley, 1993 

[57] A. Watt, M. Watt. Advanced animation and rendering techniques. Addison Wesley, 

1992 

125

Bibliografia 

126

Analisi e sintesi dei gesti comunicativi per gli - Maurizio Mancini

Create successful ePaper yourself

Delete template?

Save as template?