Multilinguismo nel trattamento automatico del linguaggio naturale

3Proiezionedell’autoreRappresentazioneintensionale ed estensionaleProiezionedel traduttoreDecodificazionedel traduttoreDecodificazionedel nuovo destinatarioTesto in L1Testo in L2Figura 1: Schematizzazione del processo traduttivo. 6Concretamente, quando un parlante utilizza la propria lingua, fa un’operazione di sceltaall’interno delle numerose possibilità di materiali espressivi che ha a disposizione e questidifferiscono per la funzione che andranno a ricoprire all’interno del testo; queste sceltevengono effettuate in base al patrimonio culturale del parlante. Risulta chiaro quindi come almomento della traduzione, nonostante possano essere state utilizzate meticolose perifrasi, iltesto della lingua di arrivo (L2) non possa ritenersi esattamente equivalente a quello dipartenza (L1) in quanto esisteranno diverse funzioni testuali (cioè il rapporto che si crea tra ilsignificato di ciò che il parlante vuole comunicare e il significato stesso del linguaggio).6 E. Rigotti, op.cit, pg. 95

6lemmi dei dizionari di italiano), ma offre comunque, a mio avviso, un ottimo spunto diriflessione: possiamo immaginare una lingua come la rappresentazione del mondo fatta daiparlanti di quella determinata lingua, come un sistema complesso di articolare l’esperienza;in questo senso quindi non si può pensare di trasferire intatto il significato da una lingua adun’altra. Si può semmai parlare di traduzione come il procedimento che trasferisce ciò che èsignificativo in una lingua in quello che di significativo esiste nella lingua di arrivo.Tentativi di ovviare a questa visione limitata di sistema linguistico, ma soprattutto limitativase pensiamo ai processi di traduzione, sono stati condotti dagli studi linguistici di RomanJakobson, Noam Chomsky, così come dalle proposte della semantica generativa.Roman Jakobson viene ricordato soprattutto per la sua teoria universalista di descrizionefonologica attraverso dodici opposizioni binarie (compatto~diffuso; sonoro~non sonoro…)Tale universalismo è rintracciabile anche nella sua analisi del processo di traduzione: latraduzione non solo viene riconosciuta e giustificata a livello teorico, ma diventa unmomento estremamente significativo del processo semiotico.Riprendendo i postulati saussuriani dei due assi associativi della similarità e della contiguità,in una lingua Roman Jakobson distingueva un asse della selezione, o paradigma, da un assedella combinazione, o sintagma. Il primo, verticale, permette di selezionare fra le indefinitepossibilità di scelta di un oggetto linguistico, il secondo consente di scegliere la sequenza osintassi di combinazione degli elementi. Quando si articola o si scrive la frase: “Il cavallocorre sul prato” attuo le due possibilità: combino sintatticamente gli elementi che fanno partedel mio bagaglio linguistico e li metto in un preciso rapporto fra loro in base al loro ordinereciproco. Sono libero sul piano sintagmatico e paradigmatico: potrei infatti dire ugualmente“il cane corre sul prato”, ma anche “il personal computer corre sul prato”, “il cavalloformatta sul floppy”, o persino “sul il cavallo prato corre”. In entrambi i casi, sia che mimuova verticalmente, sia che mi muova orizzontalmente cambierò radicalmente il senso delmio enunciato fino a raggiungere risultati imprevedibili, il cui contenuto di informazionevarierà da zero a infinito (valori semiologicamente omologhi). 12In questa prospettiva è importante chiarire cosa il linguista intendesse per interpretazionedell’enunciato, dato che – come abbiamo visto – è possibile costruire frasigrammaticalmente corrette, ma comunque incomprensibili; per Jakobson interpretare è12 tratto dal sito http://www.brocku.ca/commstudies/courses/2F50/jackobson

8Per l’argomento che qui stiamo trattando, dobbiamo rilevare che Chomsky non parla maiesplicitamente di traduzione, ma alcuni punti della sua teoria possono esser utili per unariflessione sui processi che creano la traduzione.In modo particolare, voglio prendere in esame due aspetti : da un lato l’idea dell’esistenza distrutture superficiali e profonde e, dall’altro, l’analisi della struttura interna dell’enunciato.Per quanto riguarda la distinzione superficiale, bisogna rilevare come in quest’ottica latraduzione si verrebbe a configurare come un semplice strumento meccanico di passaggio frale due strutture; si svilirebbe insomma uno degli scopi principali della traduzione, cioèquello di essere una nuova strategia comunicativa in grado di inserirsi in un altro contestoculturale (si pensi soprattutto all’immagine di lingua come visione del mondo, comerappresentazione di esperienza).Decisamente più significativa è la costruzione del modello di analisi interna dell’enunciato :in questo modo il traduttore è in grado di ricostruire la struttura della frase tradottaverificandone l’esattezza, almeno dal punto di vista sintattico, confrontandola con le regolegrammaticali e le relative combinazioni della lingua nella quale si sta traducendo. 15Diamo qui di seguito un esempio dello schema chomskiano di rappresentazione internadell’enunciato : “la bambina mangia la mela che ha comprato”:SSNLa bambinaSVVmangiaSNla melaSPcheSSNLa bambinaSVha comprato1615 Cfr. Noam Chomsky, Le strutture della sintassi, Editori Laterza, Bari, 1970, p.7416 S = frase; SV = sintagma verbale; SN = sintagma nominale; SP = sintagma preposizionale; V = verbo

10!" I’ll break every bone of your body if you don’t shut up! = ti rompo tutte le ossa senon stai zitto!!" I’ll give it back to you, I promise = prometto di restituirtelo3. si usa per indicare un comportamento abituale; in questo caso può essere utilizzato ancheil presente semplice, ma “will” vuole porre più enfasi alla frase:!" Every time we go there she’ll offer us coffee though she knows we don’t like it =tutte le volte che andiamo da lei ci offre del caffè anche se sa che non ci piace.4. Se l’enfasi viene posta sull’ausiliare sta ad indicare una forte determinazione :!" If you will sit in a draught, you’re bound to catch a cold = se insisti a stare seduto inmezzo alla corrente, sei sicuro di prenderti un raffreddore. 19Esistono principalmente due modalità di contestualizzazione :1. esiste ambiguità a livello semantico e quindi la contestualizzazione serve per rendereunivoco il rapporto tra lessema e significato;2. l’unità linguistica è generica e la contestualizzazione serve per la una specificazioneo determinazione del contenuto.Questi due processi sono ben distinti dal punto di vista semantico in quanto dal rapportounivoco è possibile passare alla specificazione mentre non è possibile il contrario; quindi,per esempio, se dico di avere una casa grande ed una piccola posso dire di avere due case, sedico di avere incontrato un pastore sardo, un pastore protestante ed un pastore bergamasco,non posso dire di avere incontrato tre pastori. 2019 Esempi tratti da G. Dowling, A study of the English Verb for Italians, Supernova, Venezia, 1993, pp. 22-2820 Esempi tratti da E. Rigotti, op. cit., p. 88

14L’obiettivo che si tenta di raggiungere è quello di instaurare un dialogo tra uomo e macchinache sia il più naturale possibile; da un punto di vista filosofico, si è tentato di verificare seuna macchina può superare l’intelligenza umana (compiere cioè le stesse azioni);premettiamo fin da ora che al momento tale verifica ha dato risultati negativi.Possiamo ricordare in questo senso il “test di Turing” che aveva come scopo quello distabilire se le macchine possono pensare. Il test consiste nel disporre in una stanza un uomoe una donna; in un’altra stanza c’è un interrogatore che può formulare delle domande, permezzo di una telescrivente, nel tentativo di identificare chi sia l’uomo e chi la donna,nonostante gli sforzi dell’uomo di camuffare la propria identità.Il test consiste nel fatto che, se dall’altra parte la persona non si accorge della sostituzionedella persona con la macchina, allora il test è riuscito e si dimostra che una macchina puòcompiere le stesso operazioni “intelligenti” di una persona.Una valutazione di tali sistemi in termini di rendimento e di esattezza, ha portato a riteneresoddisfacenti i risultati ottenuti, anche se provengono delle critiche per quanto riguardal’ammontare delle risorse economiche impiegate.È necessario però pensare che, oggi come oggi, in un contesto sempre più multilingue, lapossibilità, e in molti casi la necessità, di accedere a informazioni fornite in linguagginaturali diversi (pensiamo ed esempio alle lingue cosiddette marginali, parlate dapopolazioni che non riescono ancora ad avere un alto grado di scolarizzazione), può e devegiustificare anche lo stanziamento di cospicui fondi per la ricerca in questo settore.2. Text UnderstandingL’esigenza di studiare sistemi in grado di analizzare ed interpretare interi testi e non solosingole frasi, risponde alle richieste di utenti provenienti da diversi ambiti.Da un lato la necessità, in ambienti lavorativi molto vasti, di poter gestire un’ingentequantità di messaggi organizzati secondo principi di accessibilità; può essere il caso diambienti militari, oppure, come si sta verificando in tempi recentissimi, la possibilità fornitada alcuni gestori di posta elettronica di filtrare automaticamente i messaggi che riportano unparticolare contenuto sgradito all’utente.Dall’altro si ha la necessità di acquisire ed estrarre informazione da libri e manuali, ma anchee-mail, siti web, giornali, etc.; da qui, la progettazione di sistemi computazionali in grado disnellire il processo di apprendimento e dotati di capacità di riassumere porzioni di testo.

18quale andare ad individuare il successivo segmento. In questo modo si saltanopassaggi di ricerca nel caso in cui il segmento riconosciuto comporti l’esclusione diqualche lista.Un altro tipo di ricerca è quella strutturata : si procede sempre per strutture ad albero chepossono avere diversi livelli di complessità.In questo caso è però necessario un analizzatore morfologico inserito in un più complessosistema di analisi del testo; come avremo modo di notare parlando dei vari sistemi ditraduzione automatica, un analizzatore ha il compito di fornire un output che possa essereutilizzato come stringa di ingresso per gli altri moduli di analisi (sintattico e semantico)fornendo tutte le informazioni utili per i successivi livelli di analisi.Il metodo più semplice è quello ad albero binario, in cui il dizionario viene ripartito ad ognipassaggio e l’algoritmo di ricerca identifica, un livello alla volta, il ramo in cui il segmentodella parola può trovarsi; una volta identificato, si compie una ricerca tabulare.Un metodo più complesso consiste nel costruire un albero in cui i segmenti venganorappresentati carattere per carattere, componendo in fattori le parti comuni.Da quanto abbiamo detto fin qui, emerge come non sia possibile fermarsi alla primarappresentazione della parola; infatti anche a livello morfologico esiste un certo livello diambiguità come dimostra il fatto che la parola “seminato” possa essere sia il participiopassato del verbo seminare, sia un sostantivo.La piena applicazione di questi modelli risulta efficiente solo nel caso in cui, accanto allaconsultazione del dizionario, vengano inserite delle regole morfologiche che rendano contodel corretto modo di formarsi delle parole, fornendo inoltre informazioni a caratteresintattico e semantico.Lo schema di rappresentazione dell’analisi sarà quindi:

19Parola in inputtestsdicompatibilitàscansioneProcessorediregoledizionariregolemorfografemiche+ categoria grammaticale+ tratti morfosintattici+ semantica……………………..Figura 3: Rappresentazione del processo di analisi morfologica 25Ai fini della traduzione, uno degli aspetti più interessanti, e allo stesso tempo problematici,dell’analisi morfologica, è quello dei composti; con composto si intende indicare una parolache è formata da due o più morfemi lessicali corrispondenti ad unità significative. Esempi dicomposto sono ad esempio le parole “portaombrelli” e “asciugamano”.I due casi sopra riportati possono essere considerati “motivati”, nel senso che è possibilederivare il loro significato dall’analisi dei singoli morfemi lessicali di cui sono composti.Se però pensiamo alla traduzione, dobbiamo constatare il fatto che se in una determinatalingua una parola viene considerata un composto, questa può non esserlo necessariamenteanche in un altro sistema linguistico.Per dare dimostrazione di questo fenomeno, riprendiamo gli esempi “portaombrelli” e“asciugamano” e vediamone la traduzione in inglese e spagnolo: portaombrelli è tradotto ininglese come umbrella stand (composto) e in spagnolo come paraguero (non composto);“asciugamano” corrisponde all’inglese towel (non composto) e allo spagnolo toalla (noncomposto).25 Cfr. G. Ferrari, op. cit., p. 98

20In pratica, quindi, i composti devono essere considerati delle parole alla stregua di tutte lealtre ed essere inserite nel dizionario come singole unità lessicali; nei dizionari verranno poiindicati gli equivalenti nelle diverse lingue, indipendentemente dai costituenti.Un altro aspetto interessante dei composti è quello per cui essi vengono tradotti in altrelingue con intere frasi, come ad esempio avviene tra l’inglese e l’italiano dove, in alcuni casi,un composto inglese è tradotto da una frase preposizionale italiana. Più in generale possiamoaffermare che questo fenomeno è piuttosto frequente quando le due lingue implicate nellatraduzione sono una di origine germanica (come l’inglese) e l’altra appartenente al ceppodelle lingue romanze (italiano o spagnolo).La preposizione di appoggio cambia a seconda dell’interpretazione del composto; prendiamoad esempio i composti inglesi book donation e library donation : nel primo caso lapreposizione italiana reggente è “di” (donazione di libri), mentre nel secondo è “a”(donazione a una libreria).In questi casi diventa necessario rendere esplicite le relazioni semantiche che si instauranotra i costituenti interni dell’inglese e la corretta preposizione dell’italiano. 26Un altro aspetto interessante riguardante il modo con cui le parole si vengono a formare eoccorrono, è quello delle parole multiple (vale a dire frasi idiomatiche e collocazioni).Data l’importanza che questo tipo di parole riveste all’interno di un discorso di traduzioneautomatica, ho preferito dedicare loro un intero capitolo 27 , fornendo non solo la teorialinguistica di base, ma anche le strategie computazionali per la loro risoluzione.2.2.2 ANALISI SINTATTICACompiere l’analisi sintattica di un testo significa identificare le componenti rilevantiall’interno della frase e descriverle dal punto di vista delle strutture sintagmatiche (strutturadella frase) o funzionale (rappresentazione delle funzioni).La tecnica computazionale per analizzare una frase e determinarne le relazioni interne inbase ad una grammatica, si chiama parsing.26 V. Pirrelli, Morphology, Analogy and Machine Translation, Ph. D. Thesis, 1993, Salford University.27 Cfr. p. 66

21Il parser è un processore costruito in modo tale che data in input una frase in un determinatolinguaggio naturale e applicando un insieme di regole 28 , si ottiene in output una struttura (peresempio ad albero di derivazione), attraverso la quale vengono messe in evidenza le relazioniinterne e di dipendenza della frase stessa.Se ad esempio la frase in input è “ Laura mangia la mela”, la struttura ad albero che ilcalcolatore darà in output saràSNPVPNOME V NPLauramangiaARTLaNmelaPer produrre la struttura ad albero in modo corretto, il parser deve poter attingere alleinformazioni grammaticali della lingua che sta trattando, in modo da stabilire quali relazionisiano consentite e quali non lo siano per quel determinato linguaggio naturale:Frase ---! Processore --! struttura ad alberogrammaticaLa grammatica da cui trarre le regole da applicare deve rispettare due caratteristiche di base:!" deve essere in grado di esprimere la maggior parte dei fenomeni del linguaggionaturale che deve trattare;!" deve essere in grado di rappresentare solo le costruzioni corrette di quel determinatolinguaggio naturale.28 Il parser è un processore che interpreta delle regole di grammatica.

22Il problema di costruire grammatiche adeguate alla generazione, è uno dei nodi cruciali perottenere delle produzioni linguistiche corrette.Alcune tra le grammatiche che hanno ottenuto maggior successo, sono state la FunctionalUnification Grammar (FUG) e la Augmented Phrase Structure Grammar (APSG).La FUG, che ha il vantaggio di poter essere utilizzata sia in fase di analisi sia al momentodella generazione, è costruita per la rappresentazione, in termini di coppie attributo=valore,della funzione degli elementi costitutivi della frase.Le coppie, indicate con il termine di features sono rappresentate come negli esempi cat=n(categoria grammaticale=numero); nb=sg (numero=singolre); gender=masc(genere=maschile), etc. Sostanzialmente, quindi, ogni coppiaè il risultato di una funzione diassegnazione dal dominio degli attributi, cioè quelli ammissibili a livello dellarappresentazione, al codominio di tutti i valori che quegli attributi possono assumere; leopportune restrizioni vengono individuate seguendo regole di compatibilità sintattica e di cooccorrenza.L’operazione mediante la quale la grammatica compie la generazione, viene chiamataunificazione e consiste nell’eguagliare i dati in input –costruiti secondo lo stesso schemaattributo=valore – con le coppie contenute nella grammatica. 29Uno degli attributi più importanti è il PATTERN, quello cioè incaricato di fornire l’ordinedei costituenti all’interno della frase.La grammatica APSG, nonostante si stata ideata ormai trent’anni fa, ha posto le basi per losviluppo di altri formalismi grammaticali anche in tempi recenti.Le regole di tale grammatica sono costruite con uno scheletro di base formato da frasistrutturate che vengono poi “aumentate” in base a condizioni che devono essere verificate.Un tipo di grammatica molto semplice utilizzato per i parser è la cosiddetta context-freeaumentate 30 ; nel corso degli anni e con il progredire della ricerca, è stata implementata e resapiù completa, ma viene ancora oggi impiegata in alcuni sistemi di traduzione automatica 31 ;tale grammatica fornisce le regole, per ogni elemento della frase, che servono per costruireuna corretta rappresentazione della struttura interna della frase stessa.29 D. Jurafsky, J. H. Martin, Speech and Language Processing, Prentice Hall, New Jersey, 200030 Il termine “aumentate” deriva dal concetto di “augmentation”, vale a dire particolari azioni che consentono diassegnare modificatori al soggetto o all’oggetto, di manipolare tratti semantici, di verificare concordanze, etc…Per un confronto si veda p.3531 Cfr. il progetto Atlas II a p. 61

23Per meglio capire come sia costruita, torniamo all’esempio della frase “Laura mangia lamela”; il periodo (S) è costituito inizialmente da una frase nominale (NP) e da una fraseverbale (VP); a sua volta la parte nominale è formata da un sostantivo semplice (NOME); lafrase verbale è composta da un verbo (V) e da un’ulteriore frase nominale (NP) a sua voltaancora suddivisa in articolo (ART) e sostantivo (N).La grammatica per questa specifica frase sarà pertanto della forma :S ! NP VPVP ! V NPNP ! NOMENP ! ART NNOME ! LauraV ! mangiaART ! laN ! melaLa frase che ho utilizzato qui come esempio, ha una struttura base del tipo soggetto, verbo ecomplemento oggetto ed è quindi di facile analisi per il parser; in genere gli enunciati sonomolto più complessi e in alcuni casi presentano anche delle costruzioni ambigue che dannoadito a diverse rappresentazioni.A seconda di come procede l’algoritmo del parser nella sua analisi, possiamo distinguere duegrandi classi di parser che tengono più o meno conto della presenza di ambiguità:a) deterministici: ad ogni passo dell’analisi viene fatto seguire un unico passo successivo,senza quindi offrire eventuali alternative da scegliersi a seguito dell’analisi.b) non deterministici: ad ogni passo vengono presentate le alternative da scegliere; talialternative di analisi si possono presentare tutte insieme (strategia breadth-first) oppureuna alla volta (strategia depth-first); conseguentemente, se una delle alternative dovesserivelarsi errata, esiste un meccanismo di ritorno, detto backtrack, per cui è possibileriprendere l’analisi intraprendendo un’alternativa successiva.

24Esistono però vari livelli di ambiguità: 321. Lessicale/categoriale : accade quando una parola appartiene a più di una categoriamorfosintattica, come ad esempio nella frase “la vecchia porta cigola”; la parola “vecchia”può essere considerata come un aggettivo di porta oppure come sostantivo (persona anziana),così come “ porta” può essere il sostantivo oppure la terza persona singolare del verboportare.Il parser darà in output due diverse rappresentazioni :SSNSVARTLaNOMEportacigolaATTvecchiaoppure:SSNSVART NOME portaLavecchiaSVcigolaLa seconda rappresentazione non corrisponde alle regole sintattiche dell’italiano e verràpertanto automaticamente eliminata.32 G. Ferrari, op.cit.

252. strutturale : si presenta quando è possibile attribuire alla stessa frase più di unastruttura sintagmatica, come ad esempio nella frase “la bambina vede il signore con ilbinocolo”; l’ambiguità risiede nel fatto che si può intendere sia che la bambina possiede ilbinocolo grazie al quale riesce a vedere il signore, sia che è il signore ad avere il binocolo.Una possibile soluzione a questo tipo di ambiguità si ottiene eseguendo una verificapreventiva delle restrizioni semantiche; ad esempio, si possono fare osservazioni a caratterestatistico per determinare la posizione all’interno di una frase di un particolare tipo dicomplemento (se vicino al nome a cui si riferisce oppure no).3. funzionale : si verifica quando la caratterizzazione funzionale di un costituenteinfluisce sulla struttura sintagmatica, come nella frase “Giovanni fu visto da Maria”.“ Da Maria” può essere complemento d’agente o di luogo; per il parser entrambe le soluzionisono accettabili e quindi la risoluzione dell’ambiguità si dovrà basare sulla ricerca all’internodel testo che permettano di scegliere tra le diverse interpretazioni.Se prendiamo come punto di riferimento, le strategie che i parser utilizzano per compierel’analisi, ne possiamo distinguere due tipi principali: i top-down e i bottom-up.I parser top-down iniziano la loro analisi partendo dal simbolo S e applicano le regolegrammaticali passando agli elementi sottostanti, fino ad arrivare ad ottenere le singole paroleche costituivano la frase data in input.La frase che ho utilizzato da esempio, sarebbe quindi rappresentata con un parser di questotipo nel modo seguente:S ! NP VPNP ! NOMEVP ! V NPNP ! ART NI parser bottom-up, sostanzialmente compiono il procedimento inverso rispetto ai top-down:partono dalle unità minime di informazione date in input e le raggruppa in insiemeulteriormente riducibili.La frase del nostro esempio verrà in questo caso rappresentata nel seguente modo:

27finanziaria, la parola inglese bank verrà tradotta in italiano con il significato di “banca”,mentre in un contesto di natura ecologica - ambientale, alla stessa parola bank verràattribuito il significato di “argine, riva”.Nella prospettiva della traduzione automatica, il problema dell’ambiguità semantica dellessico, assume una rilevanza particolare; nello sviluppo di metodi automatizzati di analisidei testi, sarà quindi necessario studiare sistemi in grado di affrontare l’analisi del lessico edi tenere conto di eventuali ambiguità che una parola porta con sé.Se è vero quindi che alcune parole possono avere più di un significato, è altrettanto vero chesi possono costruire classi più vaste attraverso cui l’uomo opera una categorizzazione delmondo; già Aristotele aveva individuato delle classi, quali gli oggetti fisici, qualità, quantità,relazione, spazio, tempo, posizione, stato e azione.Nell’analisi del linguaggio naturale dobbiamo però aggiungere ulteriori categorie : eventi,idee, concetti e programmi; tra queste le più rilevanti ai fini di un’analisi computerizzatasono gli eventi e le azioni.Gli eventi risultano importanti ai fini di una teoria semantica in quanto forniscono unastruttura per l’organizzazione e l’interpretazione della frase, mentre le azioni rappresentanociò che compie l’agente per causare quel determinato evento. 35Ma perché è importante definire le categorie?Le categorie in effetti sono l’elemento costitutivo del contesto, cioè il complesso dellecircostanze e situazioni entro il quale si verifica un determinato vento e senza il qualediventerebbe assai difficile ricostruire il significato di una parola nel caso presenti qualchelivello di ambiguità.Nel campo del Natural Language Processing, sono stati studiati diversi sistemi automatizzatiper l’analisi semantica, tra cui :1. Grammatiche semantiche: nella maggioranza dei casi si tratta di grammatichecontext-free che utilizzano categorie legate allo specifico dominio di applicazione,anziché categorie determinate su base linguistica;2. Modello basato su Frames (Case Grammars): l’idea di base consiste nel fatto cheil verbo viene considerato il perno di tutta la frase, strettamente associato ad unastruttura di predicati; contemporaneamente agli altri componenti della frasevengono associati dei ruoli (il case-frame, quali ad esempio Agente (umano),35 J. Allen, op. cit., pg. 231

28Strumento (oggetto)) congiuntamente ad alcune restrizioni riguardanti lecaratteristiche degli elementi che possono ricoprire i diversi ruoli.3. Semantica composizionale (Grammatica di Montague): l’idea di fondo consistenell’ipotesi per cui ad ogni rappresentazione sintattica esista una corrispondenteinterpretazione semantica (principio fondante della grammatica composizionale;ogni qual volta costituenti sintattici vanno a formare una unità sintattica più ampia,le corrispondenti interpretazioni semantiche possono essere combinate per formareunità semantiche più vaste. Questo è possibile in quanto le regole che sottostannoalla composizione delle strutture semantiche sono associate con quelle checonsentono la composizione delle strutture sintattiche. 36Il sistema che però, a parere mio, può risolvere la maggioranza dei problemi legatiall’interpretazione semantica anche in una prospettiva di traduzione automatica, èrappresentato dalle reti semantiche.La prima formulazione delle reti semantiche viene fatta risalire a Quillian, nel 1968, il qualese ne servì per rappresentare il significato di parole in inglese. 37Le reti semantiche sono schemi di rappresentazione della conoscenza; tentano di riprodurre iprocessi di ragionamento e immagazzinamento delle informazioni umani attraverso ilcollegamento tra i concetti appartenenti a specifici domini, a particolari categorie.Concretamente gli schemi vengono costruiti con “nodi” collegati tra loro da “archi”; questopermette di realizzare un gran numero di inferenze significative tramite tecniche di ricerca agrafo. I collegamenti hanno una direzione e vengono “etichettati”, viene cioè dato loro unnome che corrisponde al tipo di relazione che esiste fra i nodi collegati.La direzione degli archi è un elemento fondamentale per cui si da la chiave di lettura perquella specifica relazione.nodoarconodo36 E. Rich, K. Knight, op. cit., p. 41037 F. Sebastiani, Alcuni approcci alla rappresentazione della conoscenza, Technical Report, Istituto diLinguistica Computazionale, 1986, CNR Pisa, p. 33

29Perché una rete semantica possa essere un efficace strumento di rappresentazione dellaconoscenza ai fini della traduzione automatica, possiamo individuare una dimensionecaratteristica della rete, vale a dire un livello concettuale: a tale livello gli oggetti descrittirisultano essere indipendenti dalle specifiche lingue e i legami si definiscono come relazionisemantiche o concettuali. 38Come avremo modo di notare più avanti trattando il sistema UNL, risulterà evidente comequest’ultimo aspetto sia particolarmente rilevante in sistemi che adottano una strategiainterlingua, soprattutto per quanto riguarda la strutturazione e l’organizzazione dellaconoscenza del sistema stesso.Esistono diversi tipi di relazione che si possono instaurare fra i nodi, come ad esempio “genere di “ (AKO dall’inglese “a kind of “) per cui si identifica una relazione che stabilisceinsiemi e sottoinsiemi, passando dall’elemento particolare a quello generale.cane ! animaleOppure una relazione di inclusione ; è un genere di collegamento fra nodi contraria a quellaesaminata in precedenza in quanto si passa dall’elemento generale a quello particolare:animale! caneLa rappresentazione di un concetto implica l’utilizzo di altri concetti e quindi il diagrammapotrebbe essere ampliato all’infinito :caneanimaleisEssereviventeakopechineseakoakodalmataisamammiferiisaisarettilibeagleuccelli38 F. Sebastiani, ibid. p 35

30Ancora, esiste un tipo di relazione chiamata ISA (dall’inglese “is a”) per cui se abbiamo uncane di razza beagle che si chiama Tom, possiamo affermare – in base a questa retesemantica – che è un essere vivente.caneanimaleisEssereviventeakoakoisaisapechineseakodalmatamammiferiisarettiliisabeagleuccelliTomLa caratteristica che emerge con chiarezza, e che rappresenta anche uno dei punti di forzadelle reti semantiche, è che gli oggetti presenti nella parte bassa del diagramma “ereditano”le caratteristiche dei nodi superiori.Ma in una prospettiva di traduzione automatica, come si rendono utili le reti semantiche ?Partiamo dal presupposto che le reti semantiche siano uno strumento in grado di collegareconcetti, intendendo per concetto ciò che la mente umana intende e comprende per mezzodell’osservazione, dell’esperienza; sono cioè rappresentazioni mentali, idee di un oggetto.A questo punto ipotizziamo di dover tradurre un testo e di voler utilizzare le reti semantichecome metodo di analisi semantica in modo da dare una rappresentazione dei concetti presentinegli enunciati; prendiamo ad esempio la frase “Giovanni compra un libro per Laura; la retesemantica dirà solo che Giovanni ISA persona, libro ISA oggetto-fisico, comprare ISAAzione su ruoli come Agente, Tema, Strumento, etc; cioè indica la natura dei concetti.Per definire che Laura è un Agente bisogna riconoscere il ruolo di Agente con un oggetto ditipo Persona.Si sono quindi individuati i concetti basi che costituiscono la frase; se il nostro scopo èquello farne la traduzione, è necessario compiere un ulteriore processo di analisi, questavolta a livello sintattico. Partendo dalle relazioni concettuali stabilite con la rete semantica,

31possiamo utilizzare un parser che ricostruisce la frase nella lingua di arrivo della traduzionein modo che vengano rispettate le stesse relazioni e, nello stesso tempo queste venganoricomposte secondo gli schemi grammaticali consentiti dalla stessa lingua di arrivo.Una concreta applicazione delle reti semantiche utile per svolgere disambiguazione, è ildizionario WORDNET. 39Il progetto nasce nel 1985, grazie agli impulsi dati da studi di psicolinguistica nei qualiemerge chiaramente come il processo umano di costruzione del significato si basi su di uncomplesso sistema di reti di relazioni.Per arrivare a questa conclusione, vennero condotti studi sui processi di apprendimento dellinguaggio da parte dei bambini e si scoprì come i concetti venivano assimilati partendo dacategorie molto vaste per poi scendere sempre più nel particolare; in sostanza, si ragiona persinonimi posizionati in base ad una gerarchia.Il cuore di WordNet è proprio un vasto insieme di sinonimi denominato synset, in grado dirappresentare i concetti e descrivere la matrice lessicale della parola: in pratica avviene unamappatura tra forma e significato delle parole.In effetti, però, per ottenere la completa disambiguazione lessicale, ragionare per reti disinonimi non è sufficiente in quanto il ruolo più importante per l’individuazione di unsignificato viene compiuta dal contesto.È a questo proposito che emerge la caratteristica più interessante di WordNet: l’analisi delcontesto basato sull’applicazione del concetto di distanza; questo significa cioè che l’affinitàsemantica viene misurata in termini di distanza che esiste fra due parole gerarchicamentecollegate all’interno del synset. In effetti, in WordNet è possibile rintracciare, per ogniparola ricercata, non solo il significato/i, ma anche iponimi (cioè parole che racchiudono unsignificato meno esteso, più circoscritto ad uno specifico ambito) e iperonimi (parole cherappresentano significati dal concetto più vasto) e per ciascuno vengono inoltre indicate frasiesemplificative sul contesto entro il quale le parole ricercate vengono utilizzate.Per avere un esempio concreto dei risultati ottenuti con l’utilizzo di WordNet, si vedal’Appendice Uno.39 C. Felbaum (ed), WordNet, An Electronic Lexical Database, MIT Press, Cambridge, 1998

322.2.4 ANALISI DEL DISCORSOFino ad ora abbiamo preso in considerazione i processi di analisi rivolti a singole parole o abrevi frasi; ma il significato di una frase può dipendere da quelle che precedono einfluenzare il senso di ciò che segue.Per questo, se si vuole compiere un’analisi accurata, è necessario considerare l’interastruttura del testo: è indispensabile cioè comprendere i collegamenti interni che mettono inrelazione le singole frasi e, in effetti, non dobbiamo dimenticare che l’oggetto primo dellatraduzione automatica è il testo.Al fine di comprendere i rapporti interni di un testo, il programma di analisi deve fondarsi sudi una solida base di conoscenza e il modo con cui essa viene organizzata rappresenta il nodocruciale per un buon funzionamento del sistema stesso.Per quello che a noi qui interessa, e cioè dare una visione d’insieme delle problematichelegate alla traduzione automatica, gli elementi che risultano maggiormente implicati neisistemi automatici di traduzione, sono l’individuazione della referenza e il contesto 40 .La referenza viene definita come la funzione in base alla quale un segno linguistico rimandaal mondo extra-linguistico; si configura cioè come un problema di conoscenza: l’uomoutilizza cioè la referenza per interpretare parole, relazioni interne ad un determinato discorso,il significato implicito nel modo di esprimersi. 41Il primo passo quindi per compiere l’analisi del discorso, sarà quello di individuare ilreferente; a questo scopo, la linguistica computazionale ha seguito due diversi approcci: unologico, dove l’obiettivo è quello di costruire una struttura logica del discorso entro la qualeindividuare i meccanismi di risoluzione della referenza; tale approccio risulta peròabbastanza inadeguato per trattare tutta la complessità implicita nel discorso e si preferiscequindi utilizzare l’altro sistema, quello strutturale, che risulta più articolato e completo.L’elemento principale di tale approccio è il focus; con tale termine si vuole indicarel’insieme delle conoscenze che permetto un’efficace comunicazione.Possiamo distinguere due tipi di focus : quello globale e il locale. 42Il focus globale si riferisce alla struttura del discorso o, più precisamente, alla strutturadell’argomento specifico trattato nel testo; il focus locale è più strettamente legato aifenomeni linguistici presenti nel testo stesso.40 G. Ferrari, op. cit., p. 13541 Juan Sager, op.cit., p. 9742 H. Bunt, W. Black (eds), Abduction, Belef and Context in Dialogue, John Benjamins Publishing Company,New York, 2000, p.268

33Per determinare il focus si possono seguire due strategie: 43 una, chiamata top-down, piùadatta per l’individuazione del focus globale che è applicabile a testi (dialoghi) task-oriented(cioè orientati a svolgere un compito) in cui vengono specificate nel dettaglio tutte leprocedure che devono essere seguite per raggiungere un determinato scopo (è questo il casodi ricette, manuali di assemblaggio di componenti, istruzioni d’uso…); l’altra strategia, labottom-up, adatta per identificare il focus locale, consiste nella memorizzazione dei sintagminominali che vengono menzionati nelle sequenze di frasi.L’identificazione del focus globale, si può ottenere prendendo in considerazione alcuneparticolari locuzioni, dette cue-words, quali ad esempio “bene”, “ora…”, “andiamoavanti”…, che demarcano l’inizio o la fine di un argomento o di un turno di battuta, o ancheelementi non linguistici, come ad esempio la punteggiatura.Per quanto riguarda il focus locale, la sua determinazione dipende dall’elemento cheall’interno della frase ricopre una importanza maggiore per capire quale sia l’argomentodella frase stessa; quindi per determinare quale sia tale elemento rilevante interno allastruttura della frase, vengono generalmente utilizzate regole grammaticali, come ad esempiola posizione del pronome all’interno della frase; in questo modo si tenta di stabilire unapriorità di ricerca dei singoli foci sulla base di parametri sintattci e posizionali. 44La differenza tra i due procedimenti risiede nel modo di immagazzinare le informazionicontenute nelle frasi, ma l’aspetto più importante si riscontra invece in quello che hanno incomune: in entrambi i casi l’attenzione è rivolta alla fase di spostamento del focus (focusshifting),il momento cioè nel quale si verifica il passaggio da un focus ad un altro.2.3 GENERAZIONE DI LINGUAGGIO NATURALECon il termine “generazione di linguaggio” naturale si vuole indicare quel procedimento inbase al quale, partendo da rappresentazioni fornite dalla fase di analisi, vengono prodottefrasi in una particolare lingua; il generatore è quindi uno degli elementi essenziali per lacostruzione di sistemi adatti a compiere traduzione automatica.Un generatore deve essere in grado di compiere alcune scelte:Lessicali: attraverso la consultazione di un dizionario specifico per la lingua di traduzione,deve scegliere quale sia il termine più adeguato per descrivere un determinato concetto .43 G. Ferrari, op. cit.44 ibid. p. 143

34Sostanzialmente l’input del generatore consiste in una rappresentazione dei concetticontenute nelle frasi e da questi risalire ai termini corrispondenti; in linea generale possiamodire che quando l’algoritmo del generatore individua il termine corrispondente al datoconcetto, inserisce tale termine nel testo; in caso contrario il generatore sceglie un termine digerarchia superiore, un iperonimo, aggiungendo eventualmente modificatori restrittivi. 45Strutturali: il generatore deve essere in grado di strutturare correttamente sia le singole frasi(con l’ausilio di una grammatica), sia l’intero discorso; non dobbiamo infatti dimenticare chenelle diverse lingue, il modo di articolare i periodi varia non solo in base a convenzionigrammaticali, ma anche stilistiche.Le regole che più interessano per la generazione, sono quelle di codifica, in grado cioè ditrasformare diagrammi (generazione a livello alto) in sequenze di parole (generazione bassa).Tali regole possono essere considerate come un’estensione delle regole per la descrizione digrammatiche context-free. 46Prendiamo ad esempio la forma tipica di una regola in grammatiche context-freeS > NP VPIn questo modo non si riesce a intuire come la frase nominale e quella verbale siano derivatedal diagramma concettuale e non possiamo neppure stabilire come la persona e il numero delsoggetto della frase nominale influenzino la frase verbale.È a questo punto che interviene l’innovazione della grammatica ASPG: per ogni nodo nonterminale (NP VP), vengono specificati degli attributi che devono esser verificati.Così avremo :S (condizioni per applicare tale regola) !NP (spostare nodo del concetto verso il soggetto;prendere numero e persona dal concetto)VP ( spostare il nodo del concetto verso l’AZIONE principale;copiare numero e persona dal record NP;copiare modo e tempo dal record S)In linea generale possiamo dire che S rappresenti lo scopo che deve essere raggiunto, mentreNP e VP sono dei sottoprocedimenti da attuare.45 N. Sondheimer, S. Cumming, R. Albano, How to realize a concept: Lexical selection and the conceptualnetwork in text generation, Machine Translation, 1 marzo 199046 Cfr p. 23

35TRADUZIONE AUTOMATICA3.1 INTRODUZIONELa traduzione automatica, vale a dire la traduzione da un linguaggio naturale ad un altroattraverso l’uso di computer, è stato uno tra i primi obiettivi che si è posta la linguisticacomputazionale.In linea generale possiamo dire che attualmente quasi tutti i sistemi di traduzione automaticanon si prefiggono come obiettivo quello di raggiungere una completa traduzione automaticaad alta qualità, ma piuttosto tentano di conseguire un livello qualitativo in grado dirispondere alle esigenze del consumatore, degli utilizzatori di servizi di traduzioneautomatica, che già da qualche tempo stanno diffondendosi gratuitamente anche in rete. Unatraduzione automatica approssimativa ha inoltre il vantaggio di rappresentare una buona basedi partenza per la fase di post-editing, cioè una correzione manuale dell’output dato dalcalcolatore.I problemi legati alla traduzione automatica sono di diversa natura: innanzitutto bisognatenere in considerazione le diversità strutturali che riguardano le diverse lingue; possiamoinfatti catalogare, seppur in modo molto generale, le lingue in base all’ordine nel qualevengono posizionati soggetto, verbo e oggetto in semplici frasi assertive; avremo così lingue“preorder”, dalla forma VSO (verbo, soggetto, oggetto), come nel caso dell’arabo odell’irlandese; lingue “postorder” dalla forma SOV (soggetto, oggetto, verbo) come nelgiapponese e infine lingue “inorder” con la forma SVO (soggetto, verbo, oggetto) come perl’inglese o il francese.In secondo luogo è necessario tenere presenti i vari livelli di ambiguità (semantica,sintattica), che abbiamo già avuto modo di esaminare nella descrizione della fase di analisidel linguaggio naturale, e i problemi legati alla generazione; infine esistono delleconsiderazioni più a carattere operativo, in modo particolare per quanto riguarda le diversestrategie ed approcci che si sono seguiti nel corso dei decenni per la costruzione di sistemiadeguati per la traduzione automatica.Le difficoltà maggiori si riscontrano soprattutto quando si voglia progettare un sistema ingrado di analizzare un testo di qualsiasi natura, senza cioè aver pensato alla costruzione di unsistema di traduzione automatica ad hoc per un argomento specifico : infatti, soprattutto aglialbori degli studi sulla traduzione automatica, i sistemi venivano realizzati per rispondere a

36particolari esigenze di traduzione, come ad esempio previsioni metereologiche o documentimilitari. Se l’argomento della traduzione è ristretto, vengono di molto semplificati i problemidi ambiguità lessicale, polisemia, ambiguità del contesto. Riprendiamo l’esempio dellaparola “bank” 47 e consideriamone le sue accezioni di “istituto bancario” e “riva del fiume”;ora, se avessimo il dizionario di lingua, inserito in un sistema di traduzione automatica,specifico per il dominio finanziario, il significato “riva del fiume” non sarebbe neppurecontemplato e il sistema tradurrebbe senza alcun problema di ambiguità lessicale la parola“bank” con il corrispondente “istituto bancario”.Negli ultimi anni, però la tendenza è stata quella di arrivare a traduzione sempre piùperfezionate e in grado di trattare testi dalla più svariata natura e prova ne è il fatto che,sistemi gratuiti on-line di traduzione automatica sono in larga diffusione (come ad esempioquelli dei browser yahoo, google o altavista).Vediamo quindi quale è stato lo sviluppo delle ricerche nel campo della traduzioneautomatica dagli inizi ai nostri giorni.3.2 STORIA DELLA TRADUZIONE AUTOMATICA 48Le origini della traduzione automatica possono essere fatte risalire al diciassettesimo secolocon l’idea di trovare linguaggi universali, ma le prime vere proposte apparvero nel 1933 coni brevetti del francese Georges ARTSROUNI e del russo Petr TROJANSKIJ.Artsrouni propose un dizionario multilingue automatizzato, mentre il progetto di Trojanskijsi basava sulla codifica e interpretazione delle funzioni grammaticali utilizzando simboliuniversali (sulla falsariga dell’Esperanto).Trojanskij individuò tre fasi nel processo di traduzione automatica: nella prima eranecessario che un esperto della lingua da tradurre predisponesse le forme base della lingua;quindi il traduttore automatico trasformava tali sequenze base e le strutture grammaticali inequivalenti strutture funzioni nella lingua di arrivo; da ultimo un esperto della lingua nellaquale è stata eseguita la traduzione, compie una revisione dell’output del testo.47 Cfr. p. 2848 J. Hutchins, Machine translation: a brief history, in “Concise History of the language sciences: from theSumerians to the cognitivists”. Edito da E.F.K. Koerner e R.E Asher, Pergamon, Oxford, 1995, pp. 431-445.

37La possibilità di usare computer per la traduzione venne ripresentata circa dieci anni dopo,da Andrew BOOTH e Warren WEAVER, stimolati dallo sviluppo di nuovi software.Nel 1949 Weaver si concentrò soprattutto nella risoluzione del problema dell’ambiguitàsemantica, basandosi sulle sue specifiche conoscenze in crittografia, statistica e logica.A seguito di questi nuovi impulsi, nel 1951 venne istituito al Massachusetts Institute ofTechnology, un gruppo di ricerca sulla traduzione automatica guidata da Yehoshua BAR-HILLEL e l’anno seguente venne convocata la prima conferenza nella quale vennerotracciate le linee guida per diversi approcci praticabili in traduzione automatica.Dalla conferenza emerse chiaramente un punto fondamentale : una completa automazionedel processo traduttivo che portasse a risultati paragonabili a quelli proposti da traduttoriumani, era in pratica impossibile; si rendevano quindi necessarie le fasi di pre e post-editing(preparazione dell’input e revisione dell’output).Il 7 gennaio 1954, Leon DOSTERT della Georgetown University, organizzò unadimostrazione pubblica di un sistema di traduzione automatica costruito in collaborazionecon l’IBM : vennero tradotte dal russo all’inglese un set di 49 frasi usando un dizionariocostituito da sole 250 parole e una grammatica contenente sei regole.Nonostante lo scarso valore scientifico di tale esperimento, esso ebbe l’indiscusso merito disensibilizzare l’opinione pubblica e i governi, soprattutto quello americano, tanto chericerche in traduzione automatica vennero iniziate in tutti gli Stati Uniti.Nel 1954 venne fondata la prima rivista specialistica “Mechanical Translation” e pubblicatoil primo libro che trattava in modo rigoroso i paradigmi di traduzione automatica.A seguito dei numerosi progetti portati avanti negli Stati Uniti, così come in UnioneSovietica, si formarono gruppi di ricerca anche in Europa (come ad esempio quello diCambridge sotto la guida di Margaret MASTERMAN o a Milano con il coordinamento diSilvio CECCATO), Cina e Giappone.Nel corso di tutti gli anni sessanta vennero seguiti soprattutto due filoni di ricerca : uno diimpostazione più empirica, basato sull’analisi statistica in grado di dar conto di regolaritàgrammaticali e lessicali; l’altro seguì un approccio più rigoroso nella ricerca linguisticastretta.

38Gli empiristi adottano l’approccio della traduzione automatica diretta, per cui il sistemaviene costruito in ogni dettaglio per poter lavorare con una specifica coppia di lingue; idizionari bilingui vengono semplificati in modo da proporre per ciascuna parola della linguada tradurre un solo equivalente nella lingua di traduzione che coprisse il maggior numero disignificati possibili; sostanzialmente veniva tralasciata l’analisi del contesto e venivamantenuto in modo piuttosto fedele l’ordine delle parole della lingua tradotta.I ricercatori che affrontavano ricerche linguistiche più approfondite, proponevano unapproccio alla traduzione automatica basato sul sistema dell’interlingua; la traduzioneavveniva pertanto in due fasi : dalla lingua da tradurre all’interlingua e quindidall’interlingua alla lingua di arrivo; l’interlingua si viene quindi a configurare come unlinguaggio artificiale di passaggio tra due lingue.Il problema più grosso era però rappresentato dall’inadeguatezza degli strumenticomputazionali a disposizione, per cui gli sforzi si concentrarono soprattutto nello sviluppodi software e strumenti per il trattamento del linguaggio naturale. 49Nonostante le difficoltà di carattere pratico, il fervore per un ampliamento di nuovi progettidi traduzione automatica, in modo particolare negli Stati Uniti, non si arrestò e anzi sicominciò a pensare alle applicazioni più diverse, sia in campo militare, sia per uso privato.Erwin REIFLER, all’università di Washington, propose un approccio basato sullo sviluppodi dizionari : le informazioni lessicografiche contenute nei dizionari bilingui venivanoutilizzate non solo per trovare i significati equivalenti in copie di lingue, ma avrebbero anchedovuto risolvere problemi di carattere grammaticale senza compiere un’analisi sintattica.Un’applicazione pratica di questo sistema venne utilizzato dall’aviazione statunitense fino al1970, anno in cui si cominciò a lavorare con Systran. 50Altri ricercatori seguirono modelli basati sull’analisi di testi a più livelli linguistici, come nelcaso del gruppo di ricercatori guidati da Michael ZARECHNAK alla GeorgetownUniversity, che propose il sistema GAT (Georgetown Automatic Translation) : la linguanaturale veniva analizzata nelle sue componenti morfologiche (inclusa l’identificazione diidiomi), sintagmatica (concordanza di nomi ed aggettivi, verbi, modificazione di aggettivi) esintattica (relazioni tra frasi, soggetti e predicati…).Alla Harvard University, Anthony OETTINGER preferì seguire un approccio graduale, percui in una prima fase ci si concentrò nella compilazione di enormi dizionari bilingui49 Vedi il precedente capitolo sul Natural Language Processing, p. 1350 Cfr. p. 53

39inglese/russo in modo da realizzare una traduzione parola-per-parola; in un secondomomento si pensò alla progettazione di un analizzatore sintattico in grado di compiereprevisioni di tipo statistico sulle possibili sequenze grammaticali.Al Massachusetts Institute of Technology, si puntò soprattutto sull’analisi sintattica: in unaprima fase si costruirono grammatiche adeguate alla lingua che si doveva tradurre; quindisegue una conversione delle strutture individuate nella lingua di partenza in equivalentistrutture nella lingua di traduzione; infine, una grammatica costruita appositamente per lalingua di traduzione, produceva frasi in output.A Berkeley, sotto la direzione di Sydeny LAMB, venne costruita una grammatica“stratificata” con reti, nodi e relazioni; la traduzione viene considerata come un insieme diprocessi di codifica e decodifica: dallo strato grafemico della lingua di partenza, si passa aglistrati morfemici e sememici; il testo nella lingua d’arrivo viene generato passando attraversoquesti diversi strati. Ogni parola viene cioè esaminata in un contesto che non siaesclusivamente quello del testo, ma il più vasto possibile.È facile notare come le ricerche americane prediligessero una approccio basato sul transfer 51linguistico per compiere traduzioni automatiche, tralasciando l’aspetto dell’interlingua; talesecondo approccio venne però seguito in altre parti del mondo.A Cambridge, il gruppo guidato da Margaret MASTERMAN, adottò due linee essenziali: daun lato lo sviluppo di un’interlingua che si configurasse come una lingua pidgin (nel sensodi lingua ausiliaria); dall’altro lato si guardò alla costruzione di strumenti per la revisionedegli output (post-editing), in modo particolare sotto forma di complesse reti semanticheapplicate a thesaurus.A Milano, Silvio CECCATO propose un modello di interlingua basato sull’analisi deiprocessi cognitivi 52 , soprattutto per quanto riguarda le parole (genere, specie, proprietà..) e lediverse correlazioni esistenti tra le parole all’interno di un testo.51 Con transfer si intende la trasformazione delle strutture della lingua sorgente in corrispondenti strutture dellalingua di arrivo.52 Attraverso lo studio dei processi cognitivi si tentano di spiegare le attività con le quali l’uomo giunge aconoscere il mondo esterno ed entra in relazione con esso. I processi cognitivi comprendono quindi attenzione,percezione, riconoscimento, memoria, pensiero e, per quello che a noi qui interessa, il linguaggio, sia per irapporti tra esso e il pensiero, sia per la sua funzione comunicativa.

40In Unione Sovietica gli studi più interessanti in merito alla creazione di un’interlingua,vennero portati avanti da MEL’CHUCK, che propose un modello basato sul “significato deltesto” ; l’idea di fondo era quella di poter individuare particolari aspetti di analisi: fonetico,fonematico, morfemico, sintattico di superficie e profondo, semantico, con particolareattenzione agli aspetti lessicografici. Infatti vennero identificate 50 funzioni lessicaliuniversali dal applicare all’interlingua in modo da ricoprire altrettante relazioniparadigmatiche.A seguito di questi straordinari e nuovi impulsi alla ricerca, nacquero numerosi altri progettiin tutta Europa, Cina, Messico e Giappone.Purtroppo, questo entusiasmo che aveva caratterizzato tutti gli anni cinquanta, fino alla metàdegli anni sessanta, venne notevolmente frenato dal cosiddetto “Rapporto ALPAC”.Tale rapporto, venne pubblicato nel novembre del 1966 ad opera della Automatic LanguageProcessing Advisory Committee.Fin dalle prime battute, apparve evidente il giudizio estremamente negativo dato dallacommissione nei riguardi della traduzione automatica, ma soprattutto era largamente diffusal’opinione per cui non fosse possibile immaginare soluzioni soddisfacenti nel breve periodo.I punti principali sui quali si concentrò il rapporto, erano la qualità, la velocità e i costi dellatraduzione automatica, messi a confronto con quelli che erano i risultati e le spese deitraduttori umani professionisti; per ciascuno di questi aspetti, la commissione espresseun’opinione più favorevole verso la traduzione “ manuale”.La commissione suggerì quindi di concentrare gli sforzi, e le risorse finanziarie, verso losviluppo di strumenti che aiutassero i traduttori professionisti, come ad esempio glossari perricerche incrociate in più testi o database terminologici.In effetti, bisogna riconoscere che il panorama, sia per quanto riguarda i progetti sia per irisultati ottenuti, era qualitativamente scarso e non si vedevano situazioni risolutive a brevetermine, scoraggiando quindi anche i finanziamenti governativi.È però altrettanto vero che ci si limitò a pensare alle esclusive esigenze degli enti federalistatunitensi o quantomeno alla quasi esclusiva applicazione della traduzione automatica incampo militare, tralasciando la possibilità di impiegare tali prodotti per le organizzazioniinternazionali o per la distribuzione su larga scala nelle aziende, soprattutto in un momentoin cui l’economia globale era in piena espansione.Come prima reazione a seguito del rapporto, le ricerche in traduzione automatica negli StatiUniti, cessarono quasi completamente; fortunatamente nuove esigenze in altre parti del

41mondo continuarono ad alimentare la fiducia nel raggiungimento di buono risultati, come nelcaso del Canada, che seguiva una politica atta a mantenere il bilinguismo anglo-francese, edell’Europa, che vedeva in quegli anni lo sviluppo della Comunità Economica Europea.A Montreal nacque così nel 1970 il progetto TAUM, che perseguiva due obiettivi principali:innanzitutto vennero poste la basi per la creazione di un linguaggio di programmazione(PROLOG) da utilizzare per il trattamento del linguaggio naturale, e inoltre la costruzione diun sistema di traduzione automatica per le previsione meteorologiche (Météo).In Europa, gli studi più interessanti si ebbero a Grenoble, con lo sviluppo di progetti basatisull’approccio interlingua. Bernard VAUQUOIS, del Centro per gli Studi sulla TraduzioneAutomatica propose un “linguaggio pivot”, un modello cioè in grado di rappresentareunicamente le proprietà delle relazioni sintattiche, mentre il lessico veniva tradotto da unsemplice sistema bilingue a transfer.Nonostante i buoni risultati raggiunti con sistemi ad approccio interlingua, verso la metàdegli anni settanta le difficoltà individuate per la costruzione di un linguaggio intermedio,soprattutto per quanto riguarda i diversi livelli di analisi, fecero optare per soluzioni menoambiziose e si puntò soprattutto su un approccio transfer.Un sistema di questo tipo, che portasse con sé vaste possibilità di applicazione, vennestudiata proprio dal gruppo di Grenoble: ARIANE, che influenzò numerosi altri progetti ditraduzione automatica lungo tutto l’arco degli anni ottanta.I punti di forza di Ariane erano la flessibilità e la modularità 53 , ma soprattutto il trasduttore,dispositivo in grado di manipolare rappresentazioni a grafo orientato: diversi tipi dirappresentazioni (logiche, della struttura della frase, delle relazioni di dipendenza interna…)potevano essere ricondotte ad un unico grafo con tutte le informazioni contenute nei varimoduli.L’influenza che il gruppo francese ebbe anche su altri progetti, si riscontrò in modoparticolare in Asia; alcune sostanziali somiglianze sono infatti evidenti tra Ariane e Mu, ilsistema sviluppato da MAKOTO NAGAO all’Università di Kyoto: l’analisi grammaticale, lerappresentazioni ad albero delle relazioni di dipendenza e la metodologia per la scrittura digrammatiche, avevano alla base la stessa filosofia di modularità.53 Con modularità si intende indicare la possibilità di scomporre il sistema in moduli, ciascuno dei quali ha unaspecifica funzione all’interno del processo di traduzione.

42Un altro progetto che ha dei punti in comune con Ariane è EUROTRA, sviluppato per laComunità Europea; il suo scopo era quello di costruire un sistema transfer multilingue per latraduzione delle lingue dei paesi membri della comunità.Era un progetto che prevedeva una struttura modulare, disegnato in modo tale da combinareinformazioni riguardanti il lessico, la sintassi e la semantica in interfacce multilivello con unelevato grado di astrattezza; restava comunque necessario un post-editing da parte di espertitraduttori.Nonostante il progetto non ebbe seguito, uno dei suoi meriti fu sicuramente quello di averformalizzato teorie sintattiche, di parsing e di analisi del discorso.Sul finire degli anni ottanta, si assiste ad un ritorno di interesse per sistemi ad approcciointerlingua, in modo particolare per quanto riguarda la creazione di dispositivi costruiti sullabase della rappresentazione della conoscenza.Progetti di questo tipo si svilupparono soprattutto in Olanda; il primo di questi fu DLT(Distributed Language Translation): venne inteso come un sistema multilingue interattivoche lavorasse attraverso reti di computer; ogni terminale doveva essere la macchinatraduttrice da e verso una specifica lingua; i testi dovevano quindi essere trasmessi in unlinguaggio intermedio (costruito seguendo le linee guida dell’Esperanto).L’analisi del linguaggio avveniva solo a livello morfologico e sintattico.Un altro progetto olandese è il ROSETTA, creato dal gruppo guidato da JanLANDSBERGER; lo scopo era quello di utilizzare la grammatica di Montague 54 inrappresentazioni interlingua: le rappresentazioni vengono derivate dalle strutture sintatticheseguendo i principi della composizionalità; per ciascuna struttura di derivazione sintatticaesiste una corrispondente struttura semantica che a sua volta è rappresentazione interlingua.Un altro aspetto interessante del progetto Rosetta è la possibilità della reversibilità dellegrammatiche: la compilazioni di regole grammaticali e trasformazionali avrebbe lavorato inun senso per le fasi di analisi sintattica e semantica di una particolare lingua; nell’altradirezione sarebbe invece servita per la generazione (produzione) di frasi corrette in quellastessa lingua.Anche negli Stati Uniti, la ricerca in traduzione automatica riprese vigore, e prova ne è lacreazione alla Carnegie-Mellon University di Pittsburgh, sotto la guida di JaimeCARBONELL e Sergei NIRENBURG, di sistemi che lavorano su base di conoscenza.54 Cfr. p. 29

43I componenti essenziali di tali sistemi erano piccoli dizionari concettuali costruiti perspecifici domini, dizionari per analisi e generazione, parser, mappatori semantici perl’individuazione dei significati, generatori semantici e sintattici. Tali componenticonfluivano poi nella rappresentazione interlingua di testi sotto forma di reti di proposizioni.All’inizio degli anni novanta, emerse l’esigenza di creare supporti e strumenti di controllo dautilizzare durante le varie fasi di analisi e generazione implicate nel processo automatico ditraduzione.Nacquero così le prime postazioni di lavoro per traduttori, in grado di combinarel’elaborazione multilingue di parole, software specifico per il trattamento delle terminologiee soprattutto corpora fraseologici bilingue; tali corpora avevano la specifica funzione diimmagazzinare testi nelle due versioni, originale e tradotto; i due testi venivano quindidisposti uno accanto all’altro in modo da poter creare e ricercare corrispondenze tra frasi inlingue diverse.Il traduttore sarà inoltre in grado di eseguire ricerche per singole frasi o interi periodi etrovare corrispondenze tra coppie di lingue.Oltre alle postazioni di lavoro, gli anni novanta sono caratterizzati anche dall’emergere di unnuovo metodo di eseguire traduzione automatica, cioè quello di basarsi sulla compilazione divastissimi corpora linguistici multilingue ai quali affiancare metodi di analisi statistica. 55Un progetto di questo tipo, il Candidate dell’IBM, portò a risultati estremamenteinteressanti: circa la metà delle frasi tradotte con questo sistema risultarono identiche aquelle contenute nel corpus e per la rimanente metà, la traduzione risultava comunqueaccettabile.La nascita di vasti corpora e gli studi in psicologia cognitiva, diedero nuova linfa a progettidi traduzione automatica ad approccio interlingua, ancora una volta in ambito statunitense.È interessante notare come in questo periodo, l’attenzione si sposti da studi concentratiprevalentemente sulla sintassi, ad analisi più approfondite sul lessico: aumenta cioè ilbagaglio di informazioni legato ai lemmi (cioè alle voci) contenuti nei dizionari.Le informazioni relative ai lemmi non sono più solo di carattere morfologico, sintattico e dicorrispondenza lessicale, ma hanno anche una caratterizzazione semantica.55 L’utilizzo di vasti corpora favorì anche lo sviluppo di nuovi studi in psicologia cognitiva a scopi linguistici,con particolare attenzione ai meccanismi di produzione del pensiero e reti neurali; ai fini della linguisticacomputazionale, questi studi permisero di irrobustire i calcolatori grazi e alla realizzazione di collegamenti piùstretti fra categorie grammaticali (struttura sintattica) e lessico (reti semantiche).

44Questo aspetto risulta particolarmente importante ai fini di una traduzione automatica basatasu sistemi di interlingua dove i sistemi fanno uso di una forte componente semantica(ontologie, dizionari concettuali, relazioni logiche e semantiche…).Attualmente è possibile individuare due principali filoni di ricerca: il primo tenta disviluppare sistemi di traduzione automatica in grado di riconoscere e produrre il parlato e difare quindi analisi e generazione linguistica di conversazioni e dialoghi (come ad esempio ilprogetto Janus della Carnegie-Mellon University).In secondo luogo, le ricerche in traduzione automatica hanno dovuto far fronte alla crescitaesponenziale di mezzi per la comunicazione globale, Internet in testa.L’influenza di Internet si può riscontrare nel fatto che negli ultimi anni sono nati software ditraduzione automatica specifici per applicazioni su Web; precursori sono stati Babelfish, sulsito del portale Altavista, utilizzabile in ricerca, o CompuServe, sistema applicabile amessaggi e-mail o chat-room.Diversi tipi di traduzione automatica vengono oggi studiati per rispondere alle esigenze piùdiverse, a partire dalle grandi organizzazioni internazionali e industrie, passando per lacreazione di strumenti sempre più potenti da affiancare ai traduttori professionisti, perarrivare all’uso privato di tali sistemi di traduzione così da consentire, da un lato, una realecomunicazione multilingue che rappresenta oggi una delle grandi risorse della nostra societàe, contemporaneamente, preservare le numerosissime varietà linguistiche e culturali che sonoper tutti un valore imprescindibile.3.2 MODELLI DI TRADUZIONECome si è visto da questa breve esposizione, da quando si è sviluppato l’interesse per latraduzione automatica, sono stati creati sistemi che hanno adottato strategie diverse e trattatoquindi i problemi di analisi e generazione con filosofie spesso agli antipodi.I modelli adottati per sistemi di traduzione automatica possono essere organizzatisostanzialmente in tre categorie: modelli per la traduzione diretta, basata su transfer einterlingua.Schematicamente, i tre principali approcci possono essere rappresentati dal seguentetriangolo:

45InterlinguaRappresentazione della conoscenzaInglese( rappresentazionesemantica )Transfer semanticoItaliano( rappresentazionesemantica )Inglese( parsing sintattico )Transfer sintatticoTransfer sintatticoItaliano( parsing sintattico )Testo in inglese( stringa di parole )Parola per parolaTesto in italiano( stringa di parole )Figura 4: Raprresentazione dei diversi approcci utilizzati in traduzione automaticaI metodi che si basano sull’analisi della parola, producono traduzioni parola-per-parola; imetodi transfer costruiscono una rappresentazione strutturata della lingua di partenza adiversi livelli (sintattico o semantico), la trasformano in una rappresentazione della lingua diarrivo (usando delle regole specifiche di transfer per ogni livello di analisi) e generano unastringa di caratteri.I metodi che si basano su un approccio interlingua, oltre ad utilizzare una rappresentazionesintattica e semantica della lingua, inseriscono un nuovo livello di astrazione facendo uso diun linguaggio intermedio ed indipendente dalle lingue coinvolte nel processo di traduzione. 5656 C.D. Manning, H. Schutze, Foundation of Statistical Natural Language Processing, MIT Press, Cambridge,1999

463.3.1 APPROCCIO DIRETTOI sistemi ad approccio diretto possono essere considerati come una semplificazione dimodelli ad approccio transfer; infatti la filosofia di base rimane la stessa e cioè quella divoler considerare solo una coppia di lingue alla volta e costruire quindi un modello ditraduzione ad hoc per quella specifica coppiaIl risultato di una traduzione operata con questo sistema è una sequenza di parole nellalingua di arrivo che è stata direttamente sostituita a quella della lingua di partenza, così cheanche l’ordine delle parole nel testo tradotto rispecchia fedelmente quello del testo originale.Un sistema di traduzione ad approccio diretto si articola in linea generale in diverse fasi,ciascuna delle quali si concentra su uno specifico problema: analisi morfologica, transferlessicale (traduzione parola per parola dei termini), eventuale analisi delle preposizioni (lepreposizioni hanno infatti in diversi casi il compito di stabilire quale verbo deve seguire,come ad esempio nel caso dei phrasal verbs inglesi), transfer sintattico (ordine delle parole)e quindi la generazione.Il problema maggiore che si verifica in questi tipi di sistemi è quello della scelta dei termini:infatti non è possibile risolvere con un semplice transfer lessicale le varie ambiguità che sipossono presentare, non essendo fatta alcuna analisi semantica vera e propria; se è veroinfatti che un testo poco corretto grammaticalmente può ugualmente essere compreso, lostesso non si può dire se manca del tutto un senso logico al discorso.La mancanza di un’analisi semantica non consente di avere dei risultati di traduzionesoddisfacenti in quanto non viene in alcun modo preso in considerazione il contesto entro ilquale una parola si viene a trovare.L’unica soluzione è quella di applicare questo tipo di approccio a testi il cui argomento siaestremamente specifico e costruire quindi dizionari ad hoc, facendo riferimento ai particolaricontesti entro i quali una determinata parola può occorrere. 573.3.2 APPROCCIO TRANSFERAnche per quanto riguarda l’approccio transfer, la struttura di base è organizzata in modo datradurre da una specifica lingua in un’altra specifica lingua.57 In effetti, i sistemi diretti fanno spesso uso di collezioni bilingue o multilingue di espressioni fraseologiche,soprattutto se il sistema si rivolge ad un dominio circoscritto.

47Possiamo identificare tre fasi essenziali: l’analisi, il transfer vero e proprio e la generazione,dove la fase di transfer rappresenta il collegamento tra gli output derivanti dall’analisi el’input del generatore.Strutturaad alberodellalingua dipartenzaTRANSFERStrutturaad alberodellalingua diarrivoParsingGenerazioneParole della linguadi partenzaParole della linguadi arrivoFigura 5: Schema dell’approccio transfer 58L’idea di base di tale modello è quello di fornire testi generati correttamente dal punto divista grammaticale grazie ad opportune trasformazioni operate a livello della strutturasintattica o semantica della lingua che si vuole tradurre; si passa quindi dalla strutturasintattica o semantica della lingua d’origine ad una rispettiva struttura nella lingua di arrivo.Un concetto simile, si trova anche in modelli interlingua; la differenza risiede nel fatto che iltransfer deve trattare specifiche coppie di lingue, mentre l’interlingua si configura come unostadio di passaggio tra una qualsiasi lingua e un’altra qualsiasi lingua avendo unsupplementare livello di astrazione.Uno dei punti deboli di tali sistemi ad approccio transfer, è proprio quello di dover costruireregole di trasformazione per ogni coppia di lingue per cui un sistema in grado di tradurre nnumero di lingue, avrà bisogno di nxn insiemi di regole di transfer; un’ulteriore difficoltàrisiede nel fatto che il set di regole costruite per la traduzione dall’inglese all’italiano dovràessere completamente riscritto per una traduzione dall’italiano all’inglese.58 Tratto da D. Jurafsky, J.H. Martin, Speech and Language Processing: An Introduction to Natural LanguageProcessing, Computational Linguistics and Speech Recognition, Prentice Hall, New Jersey, 2000, p. 808

48Una caratteristica importante di questi sistemi è quella di poter risolvere un certo grado diambiguità lessicale: a partire dall’analisi sintattica, si è in grado di risalire alla categorialessicale in cui rientra una determinata parola nella lingua che si vuole tradurre.Tentare di risolvere un’ambiguità lessicale attraverso le informazioni derivanti dalla sintassinon è sempre possibile, soprattutto per frasi complesse; si rende quindi necessaria lacompilazione di regole specifiche per il transfer semantico vero e proprio, così da poterleimplementare con le informazioni derivanti dall’analisi sintattica.Il transfer semantico si fonda soprattutto su considerazioni riguardanti il contesto, conl’analisi di informazioni di carattere pragmatico e del discorso con l’ausilio anche didizionari bilingui completi, che riportino non solo gli equivalenti terminologici, ma dianoanche informazioni di carattere grammaticale e facciano riferimento ai diversi contesti in cuiuna parola può occorrere.3.3.3 APPROCCIO INTERLINGUAInnanzitutto dobbiamo chiarire cosa si intende per interlingua: l’interlingua si configuracome un metalinguaggio, un livello astratto di passaggio tra due lingue, predisposto comeuna rappresentazione autonoma indipendente dalle specifiche delle singole lingue.I problemi principali affrontati da un sistema ad approccio interlingua ed i traguardi che sipropone di raggiungere sono sostanzialmente l’utilizzo di una base di conoscenzaindipendente dal tipo di lingua che si vuole tradurre, il tentativo di rappresentare ilsignificato di un testo utilizzando un’interlingua, la volontà di raggiungere un grado di“universalità” nella descrizione di qualsiasi lingua e la natura astratta, “profonda”, dellarappresentazione interlingua.Uno degli elementi che si riscontrano con più frequenza in sistemi che adottino un approcciointerlingua per la traduzione, è un insieme prefissato di “ruoli tematici” 59 , elementi cioè ingrado di descrivere la funzione che i componenti delle frasi assumono all’interno di esse,indicandone i reciproci collegamenti.59 D. Jurafsky, J.H. Martin, op. cit., p 812

49Nel momento in cui si utilizza l’interlingua, i ruoli tematici vengono assunti come universalidel linguaggio. 60La nozione di universale linguistico, nella prospettiva di confrontare strutturalmente duelinguaggi, viene rintracciata attraverso la catalogazione degli elementi che appaiono in tuttele lingue; questa posizione ritiene che una data caratteristica possa ritenersi universale seviene rintracciata in tutte le lingue che sono state prese in esame; in questo senso gliuniversali si configurano come un insieme di proprietà, una rilevazione e classificazione dielementi. 61In altre parole, possiamo dire che in ogni lingua ci sono costrutti sintattici che identificanoconcetti relativi a persone, oggetti, azioni, eventi, processi… e relazioni generali comeagente di un’azione, tempi, luogo, causa, etc, indipendentemente dalla traduzione checiascun specifico termine ha nelle diverse lingue: concetti e relazioni tra concetti sono quindiidentici in ogni sistema linguistico. 62Strettamente legata agli universali è l’ontologia, una complesso sistema per la strutturazionedei concetti e le loro relative relazioni che possono essere di iperonimia, iponimia,metonomia, casualità, etc.L’ontologia si configura come la descrizione di concetti e delle relazioni che intercorrono traessi; è quindi una strutturazione della conoscenza.Lo scopo della costruzione di un’ontologia è quello di rendere fruibile ed utilizzabile laconoscenza in essa contenuta, soprattutto se inserita in un più complesso sistema ditraduzione automatica, dove le relazioni esplicitate nell’ontologia possono essere parteintegrante dell’intero processo traduttivo.Il modo con cui viene organizzata l’ontologia, nonostante lasci abbastanza libertà alprogettista del sistema, resta uno dei nodi cruciali per il buon funzionamento del sistemastesso. 6360 I ruoli tematici sono categorie semantiche per la caratterizzazione di alcuni argomenti dei verbi; essi sonoagent, instrument, cause, experiencer, benefactive, goal, path, measure, theme. Ad esempio nella frase “Marioha rotto la finestra con un martello”, Mario è agent, ha rotto è cause, la finestra è benefactive mentre con ilmartello è instrument.61 J. Kess, Introduzione alla psicolinguistica, Franco Angeli Editore, Milano, 1979, pg.111-11262 A. Lehrer, Semantic fields and Lexical Structure, North Holland Publishing Company, 1974, pg. 15163 Avremo modo di vedere trattando di UNL come l’organizzazione di una ontologia serva anche per latraduzione vera e propria di termini lessicali

50In tal modo la parola italiana “uomo” sarà identificata nell’ontologia come “essere umano /maschio”. A questo punto, nel processo di traduzione si andrà a rintracciare il termine cheabbia le stesse caratteristiche di “essere umano / maschio”.Questo esempio deve però essere considerato come un’esemplificazione molto generale inquanto, proprio la parola “uomo” può rappresentare più di un concetto (specie umana,marito, compagno, persona forte, etc) e per questo trovarsi in più punti diversi all’internodell’ontologia.L’utilità di avere una rappresentazione concettuale non ambigua dei termini (vedi adesempio il caso di uomo che si trova in posti diversi dell’ontologia) è particolarmenteevidente quando ci si trova a dover tradurre dei termini che non abbiano una perfettacorrispondenza in due diverse lingue: in questo caso, grazie all’organizzazionedell’ontologia (ed è per questo che il modo con cui viene costruita risulta fondamentale), sipuò risalire ad un termine gerarchicamente superiore, vale a dire meno specifico, ma cheriproduce ugualmente il concetto che volevamo definire. Un esempio concreto possonoessere le varie definizioni presenti nel lessico delle popolazioni Inuit che designano untermini particolare per ogni tipo di neve: in questo caso l’ontologia ci permette di definiregenericamente “neve” tutti i termini specifici ad essa correlati.Si potrebbe obiettare che in casi come quelli appena citati si possono perdere parte delleinformazioni, sia a livello lessicale sia a livello di stile; bisogna però tenere presente che loscopo della traduzione automatica non è tanto quello di raggiungere una traduzione“perfetta”, quanto piuttosto quello di rispondere alle immediate esigenze comunicativedell’utente; in secondo luogo, l’obiettivo in genere della traduzione è quello di poterrispettare il più possibile il significato del testo che si vuole tradurre e questo è possibileanche se si utilizzano sinonimi meno specifici nel tradurre particolari termini.I meriti principali di un approccio interlingua sono innanzitutto di natura economica: in unoscenario multilingue nel quale siano coinvolte n lingue, sarà necessario costruire nanalizzatori e generatori, includendo 2n grammatiche e dizionari anziché dover costruire adhoc grammatiche, dizionari, analizzatori e generatori da e per una sola coppia di linguecome accade nei sistemi transfer.In secondo luogo un sistema basato su interlingua ha il merito di poter decentrare lacostruzione dei sistemi di traduzione automatica; è infatti impossibile pensare di potercostruire un buon sistema d traduzione senza l’aiuto di persone competenti in merito allecaratteristiche di ciascuna lingua, in grado quindi di adottare appropriate regole di analisi egenerazione.

51Nell’approccio interlingua si separano completamente queste due fasi, consentendo in questomodo lo sviluppo di sistemi di analisi e generazione per una determinata linguaindipendentemente da quelli per altri sistemi linguistici; come vedremo, questa filosofia èseguita anche in UNL, dove i server linguistici specializzati per lingua e mantenuti dapersonale competente per ciascuna lingua, sono fisicamente dislocati in aree geografichediverse e quindi in grado di essere aggiornati con molta più semplicità e rapidità.INTERLINGUAinterpretazionegenerazioneStrutturaad alberodellalingua dipartenzaTRANSFERStrutturaad alberodellalingua diarrivoparsinggenerazioneParole della linguadi partenzaParole della linguadi arrivoFigura 6: Rapporto tra approccio transfer e inaterlingua 6464 Tratto da D. Jurafsky, J.H. Martin, op. cit., p 814

523.4 SISTEMI DI TRADUZIONE AUTOMATICAVediamo ora nello specifico come alcuni gruppi di ricerca hanno sviluppato sistemi ditraduzione automatica utilizzando i diversi approcci sopra elencati (in modo particolaretransfer e interlingua), prestando particolare attenzione alle soluzioni che sono state trovatenell’affrontare i problemi di analisi e generazione.!" SYSTRAN 65Lo sviluppo di Systran iniziò sul finire degli anni Sessanta ed è diventato il sistema ditraduzione automatica utilizzato dalla Comunità Europea.Le caratteristiche di Systran possono essere così identificate:- Modularità: determinata dai moduli inseriti nel sistema; ne esistono due diversi tipi, unorelativo alla costruzione di strumenti per l’utilizzo del sistema indipendenti dalle lingue chevengono trattate, come ad esempio il modulo di consultazione del dizionario; gli altri sonoinvece più rivolti alla traduzione vera e propria e dipendono dalla lingua sorgente e risultanopertanto modificabili in base alla lingua di arrivo.In secondo luogo il processo di traduzione è suddiviso in fasi diverse e per ciascuna di esseesistono programmi specializzati nel trattamento di fenomeni linguistici specifici, quali adesempio la risoluzione di omografie o il riconoscimento delle relazioni tra predicato e suoiargomenti.Infine, i programmi di traduzione sono suddivisi in tre categorie, specifici per la linguasorgente, per la lingua di arrivo e per la particolare coppia che di lingue coinvolte nelprocesso di traduzione.- Componenti linguistici e computazionali: in Systran non viene fatta un’adeguataseparazione tra quelli che sono i dati linguistici e gli algoritmi che devono trattarli; questopunto risulta essere un problema nel momento in cui si vuole estendere il sistema altrattamento di nuove lingue.- Strategia linguistica: la difficoltà riscontrata poc’anzi, rende difficoltoso anchel’aggiornamento del formalismo dei dati che compaiono nel sistema.65 P. Whitelock, K. Kilby, Linguistics Techniques in Machine Translation System Design, UCL Press,Cambridge, 1995

53Le fasi principali in cui Systran suddivise il processo di traduzione sono l’analisi, il transfere la generazione; Systran è stato progettato per poter rispondere alle esigenze di traduzionetra 29 coppie di lingue.ANALISIInizialescansionedeldizionarioHOMORPASS 0PASS 1TRANSFERGENERAZIONEPASS 2LEXESYNPASS 3PREP2PREP2PASS 4CLSLOOKUPFigura 7: Architettura del sistema Systran

54Questo schema vuole mettere in evidenza la caratteristica modulare del sistema suddivisa neivari passaggi del processo traduttivo; una esaustiva descrizione di ciascun modulo verrà datanel corso della presentazione del sistema stesso. 66Prima di analizzare i diversi passaggi di traduzione, è interessante vedere con Systranorganizza i dati linguistici: le parole della lingua di partenza vengono immagazzinate in unaparticolare area e, grazie ad una iniziale scansione del dizionario, a ciascuna vengonoaffiancati dei codici che identificano particolari caratteristiche sintattico-semantiche, qualil’identificazione della parte del discorso, se si tratta di nome, aggettivo, articolo, verbo, eancora genere e numero (se si tratta di un elemento nominale), persona, transitività (per iverbi), etc…Vedremo come questo tipo di classificazione sarà importante in fase ditraduzione per espressioni come le semantiche limitate o le omografie.DizionariIl database lessicale di Systran è formato da due dizionari bilingui, uno per i lemmi singoli,mentre l’altro per le espressioni idiomatiche.Possiamo comunque distinguere diversi tipi di entrate contenute nei dizionari:- abbreviazioni, segni di punteggiatura, radici di parole e intere parole (stem dictionary);per quanto riguarda l’inglese, le forme flesse vengono inserite nel dizionario conriferimento alla parola di base le relative informazioni grammaticali; in questo modoviene evitata l’analisi morfologica.- espressioni idiomatiche, nel senso di sequenze di parole che in ogni contesto occorronoinsieme. In Systran vengono inserite come uniche espressioni; nel momento in cui taliespressioni vengono riconosciute nella lingua sorgente, la sua traduzione nella lingua diarrivo viene rintracciata e marcata come tradotta; esempi di tali espressioni possonoessere at all costs, by the way, on the one hand.- espressioni semantiche limitate (LS): differiscono dalle espressioni idiomatiche inquanto una o più parole dell’espressione possono avere forme flesse; tipi esempi tral’inglese e l’italiano sono developing nation / paese in via di sviluppo oppure kitchengarden /orto. 67 Nel dizionario vengono inserite le forme base mentre le forme flessevengono rintracciate grazie ai codici identificativi che vengono affiancati alle parole66 Ripreso e adattato da http://www.fi.muni.cz/usr/teaching/mt/notes/img10/png67 Da notare che le espressioni semantiche limitate contemplano variazioni soltanto nella parte nominale; levariazioni della parte verbale sono contemplate nelle espressioni semantiche limitate condizionate.

55durante la scansione iniziale del dizionario; ne consegue che ogni parola costituente delleespressioni semantiche limitate deve avere un’entrata nello stem dictionary.a) espressioni semantiche limitate condizionate (CLS): sono un particolare tipo diespressioni LS, analizzate da un insieme di regole che impongono delle condizioni (checoinvolgono le relazioni sintattiche o semantiche tra le differenti parole) per le quali siselezionano specifici significati della lingua di arrivo per particolari espressioni o paroledella lingua sorgente. Prendiamo come esempio l’espressione “to make provision for”,che corrisponde all’italiano “provvedere a”; le regole per questa espressione ci diconoche “provision” deve essere l’oggetto di “make” che a sua volta deve governare “for”.L’eventuale forma flessa viene riconosciuta attraverso i codici attribuiti in fase discansione del dizionario.Per quanto riguarda le relazioni semantiche, in Systran vengono utilizzati dei sempliciindicatori semantici da affiancare ad alcuni categorie lessicali (ad esempio PROF perprofessione, FPROD per gli alimenti, GEOLOC per luoghi geografici o MATER permateriali); è da notare che non c’è stato alcun intento di organizzare tali indicatori in undeterminato ordine gerarchico (caratteristica invece dei sistemi basati sull’interlingua cheutilizzano le ontologie) e la decisione incorporare tali indicatori dipende esclusivamentedalla loro utilità nel risolvere specifici problemi di analisi o traduzione: ad esempio la parolainglese “employ” sarà tradotta in italiano con “dare lavoro” piuttosto che con “utilizzare” seil suo oggetto viene indicato con l’indicatore PROF.Strettamente legata alla consultazione del dizionario è l’analisi morfologica: viene compiutaper tutte le lingue tranne per l’inglese in quanto le sue forme vengono inserite nei dizionariin modo non segmentabile; per le altre lingue esistono due programmi di analisi, unodedicato al riconoscimento delle forme flesse di sostantivi e aggettivi, mentre l’altro per leforme verbali.In linea generale i programmi consistono in tabelle di terminazioni flessionali accompagnateda informazioni grammaticali (nome e genere per i nome e aggettivi; persona e tempo per iverbi).A seguito dell’analisi morfologica, segue la fase dell’analisi sintattica; tale fase di analisi ècondotta da diversi moduli, ciascuno dei quali ha un compito ben preciso.

56Vediamo ora i passaggi più significativi dell’analisi:b) Modulo HOMOR : risoluzione delle omografie attraverso le informazioni assegnatenell’iniziale scansione del dizionario; in Systran si considerano omografie le parole chepossono fungere da più di una parte del discorso, come ad esempio “caduta” (sostantivoo participio passato del verbo cadere) o l’inglese “read” ( verbo all’infinito, al passato eparticipio e sostantivo).c) Modulo STRPASS 0 : stabilisce i confini tra i diversi periodi e li suddivider in frasi per ilsuccessivo modulo di analisi; tale operazione viene eseguita attraverso l’individuazionedi pronomi relativi, congiunzioni di dipendenza e punteggiatura.d) Modulo STRPASS 1 : stabilisce relazioni sintattiche primarie, vele a dire relazioni direggenza e qualificazione tra le parole; tali relazioni vengono indicate affiancando leparole hanno un determinato tipo di legame indicando inoltre il loro codice di riferimento(ad esempio: 16-26 modificatore aggettivale + sostantivo; 22-32 antecedente + pronomerelativo).e) Modulo STRPASS 2: amplia le relazioni sintattiche attraverso la creazione dicollegamenti tra gli elementi costitutivi di un periodo; consideriamo ad esempio la frase“Prendi la macchina fotografica e l’altro l’equipaggiamento necessario”: “macchinafotografica” e “equipaggiamento” vengono riconosciuti come sostantivi, ma l’aggettivo“altro” sarà fatto corrispondere ad “equipaggiamento”.f) Modulo STRPASS 3 : vengono identificati i soggetti e i predicati di ciascuna frase e sene indicano le relazionig) Modulo STRPASS 4 : vengono identificate le relazioni semantiche, quali ad esempioverbo-agente, verbo-soggetto; oggetto-modificatore; tali funzioni vengono utilizzate percompletare le informazioni sintattiche e per poter collegare i vari elementi. 68TransferAnche per la fase di transfer, come per quella di analisi, possiamo individuare dei modulispecifici, orientati verso la traduzione di specifiche coppie di lingue; in linea generale essiriguardano la selezione delle strutture della lingua di arrivo e degli oggetti lessicali sulla basedella delle caratteristiche della lingua sorgente.È importante notare come questi moduli riprendano in gran parte le procedure che sono giàstate utilizzate in fase di analisi; ne consegue che la distinzione tra analisi e transfer in68 Cfr. espressioni CLS a p. 56

57Systran risulta meno evidente rispetto ad altri sistemi che non si affidano così marcatamenteall’utilizzo dei dizionari.Vediamo ora i principali passaggi della fase di transfer:"#Modulo CLSLOOKUP: viene selezionata l’adeguata traduzione nella lingua di arrivorifacendosi alle informazioni già utilizzate per le espressioni semantiche limitatecondizionate. 69"#Modulo PREP2 : seleziona le adeguate traduzioni per ciascuna preposizione della linguasorgente."#Modulo LEX: vengono richiamati particolari programmi per trattare singole parole ecostruzioni, come ad esempio aggiungere, togliere e riordinare gli elementi in modo dasoddisfare la struttura della lingua di arrivo.GenerazionePer la fase di generazione vengono utilizzati due moduli specifici:"#ESYN: traduce ogni oggetto lessicale della frase sulla base delle selezioni operate daiprecedenti moduli; ad esempio vengono scelti i verbi ausiliari, vengono determinati lapersona, il numero, il genere di un sostantivo, il tempo di un verbo e si selezionano leclassi flessionali sulla base di tabelle di paradigmi regolari ed irregolari."#REARR: è il modulo che consente di ricostruire il corretto ordine delle parole in basealle regole della lingua di arrivo.!" GETA ARIANE-78 70Il sistema Ariane-78, ideato nel 1971 dal gruppo di ricercatori GETA (Groupe d’Etude pourla Traduction Automatique) dell’Univrsità di Grenoble, nacque per la traduzione di testicarattere scientifico dal russo al francese; a queste due lingue iniziali se ne sono aggiuntealtre, quali l’inglese, il tedesco, il portoghese e il giapponese.È un sistema basato sull’approccio transfer e possiamo suddividere l’intero processo ditraduzione in sei fasi principali:69 Cfr. p. 5670 J. Slocum, Machine Translation System, Cambridge University Press, Cambridge, 1987

58- analisi morfologica e analisi preliminare delle strutture sintattiche (ATEF);- analisi sintattica vera e propria (ROBRA);- transfer lessicale (TRANSF);- transfer delle strutture interne alle frasi (ROBRA);- generazione sintattica (ROBRA);- generazione morfologica (SYGMOR).Regole ditrasformazioneDizionariotransferAnalisi sintattica(ROBRA)Transfer lessicale(TRANSF)TransferstrutturaleAnalisimorfologicaDizionariGenerazionesintatticaGrammaticaGenerazionemorfologicaGrammaticaDizionariFigura 8: Architettura del sistema Geta-ArianeL’analisi morfologica e il preliminare esame delle strutture interne della frase consentono diindividuare le parole all’interno del testo dato in input (unità lessicali) e di affiancare aqueste tutta una serie di informazioni che verranno poi utilizzate nelle altre fasi del processodi traduzione; tali informazioni, tutte estratte a seguito della consultazione di dizionarispecifici, sono di carattere morfo-sintattico, come ad esempio l’individuazione di radici e

59suffissi, tempo verbale, numero, persona, la valenza di un verbo o di un aggettivo e proprietàsemantiche.L’output reso da questa iniziale fase di analisi, ha una struttura ad albero nella quale vengonomesse in evidenza le informazioni linguistiche ricavate dalla consultazione del dizionario; insecondo luogo, tale rappresentazione serve per impostare una struttura generale del testo, incui i nodi terminali dell’albero sono costituiti dalle variabili ( ad esempio i possibili morfemiriconducibili ad una parola) caratterizzanti le parole.Un primo livello di interpretazione vera e propria del testo si ottiene attraverso la secondafase, quella dell’analisi della struttura interna del testo.La coerenza morfologica e sintattica (vale a dire la scelta di una variabile sulle altre) vienerisolta con l’utilizzo di una grammatica in grado stabilire la compatibilità di tale forma inrelazione alle quattro forme che precedono e a quella che immediatamente segue.Il componente ROBRA riceve in input la struttura di ATEF e, grazie a regole ditrasformazione, la struttura iniziale viene modificata in modo da individuare le classisintagmatiche, vale a dire il tipo di frase che si sta trattando, (come ad esempio frasi verbali,nominali, aggettivali); in secondo luogo si stabiliscono le relazioni che esistono tra le parolein termini di funzioni sintattiche (soggetto, attributo, modificatore…), relazioni logiche (cioètra predicato e suoi argomenti) e relazioni semantiche.Nella fase del transfer lessicale, eseguita dal componente TRANSF, le parole della lingua diarrivo si sostituiscono a quelle della lingua che si vuole tradurre; la selezione della parola dasostituire deve sottostare a determinate condizioni che possono riguardare da un lato lesingole parole e dall’altro il contesto entro cui occorrono le parole stesse.Per quanto riguarda le singole parole possiamo distinguere diversi casi di corrispondenza:- una unità lessicale sostituita da un’altra unità lessicale;- unità lessicale sostituita da una locuzione (come ad esempio nel caso “mediante” = “bymeans of”);- locuzione sostituita da una singola unità lessicale o sostituzione tra due locuzioni, come adesempio nei casi “computer science” = “informatica” o “let…know” = “informare”.Per quanto concerne invece il contesto, dobbiamo tenere presente che in lingue diverse puònon mantenersi, ad esempio, la presenza di un argomento predicativo, come nel caso dellafrase inlgese “John was given a book” per cui in italiano si utilizza il verbo “ricevere” ( Johnha ricevuto un libro).In linea generale il transfer si basa sulla consultazione di un dizionario bilingue che lasciaspazio a diverse possibilità di sostituzione che verranno poi risolte nel passaggio successivo,

60cioè grazie al transfer strutturale; pensiamo ad esempio al verbo inglese “tagliare”: nelle sueforme del presente, passato e participio passato viene coniugato nello stesso modo “cut”,mentre in italiano le forme sono “ io taglio”, “io tagliai” “io ho tagliato”, etc.Il transfer strutturale e la generazione sintattica, utilizzano lo stesso formalismo ROBRA, giàanalizzato per la fase di analisi sintattica; grazie a questi due passaggi, da un lato si completail transfer lessicale, risolvendo casi come quello mostrato poc’anzi del verbo inglese “cut”sulla base di caratteristiche semantiche che permettono un’analisi del contesto entro cui leparole occorrono e, dall’altro, viene fornito il corretto ordine delle parole nella lingua diarrivo, si generano gli articoli, si rispettano tempi e modi verbali, si generano verbi ausiliariL’ultima fase è quella della generazione morfologica (formalismo SYGMOR) e ha ilcompito di convertire la rappresentazione fornita dalla generazione sintattica in parole epunteggiatura della lingua di arrivo con l’ausilio di dizionari - in grado di rendere conto adesempio delle classi flessionali attraverso le variabili indicanti la persona, il numero o iltempo – e di una grammatica, in grado di formare le parole in base a radici, prefissi, affissi,desinenze, etc.!" ATLAS IIATLAS II è un sistema di traduzione automatica con una forte impronta semantica nella suastrutturazione; l’idea di base è quella di raggiungere una traduzione multilingue ad altaqualità e precisione.Per fare questo, è stato adottato un approccio interlingua che, riuscendo a separare le fasi dianalisi e generazione, riesce e trattare un gran numero di lingue senza dover apportaremodifiche alla struttura del software.Il progetto nasce in Giappone nel 1984 con l’idea di costruire un sistema di traduzioneautomatica in grado di simulare la traduzione umana; la considerazione di partenza è stataquella per cui ciascuna lingua viene compresa dal significato delle parole che la esprimono edal contesto entro il quale tali parole occorrono.Un lemma inserito nel dizionario di ATLAS II contiene informazioni relative alle suecaratteristiche grammaticali e, soprattutto, esprime il concetto al quale è legata quella parola.La conoscenza necessaria per comprendere i concetti, viene scritta in una formula tale dapoter essere compresa dal computer, chiamata struttura concettuale, cioè l’interlingua; talestruttura concettuale viene espressa in termini di relazioni binarie, contenute in una base di

61conoscenza, che collegano concetti: in questo modo la frase in input viene rappresentataattraverso una rete semantica. 71Abbiamo già detto che ATLAS II si pone come obiettivo quello di simulare la traduzioneumana; così come gli umani fanno uso della loro conoscenza quando deve comprendere unafrase, ATLAS II ricorre alla sua base di conoscenza quando deve tradurre una frasenell'’nterlingua. La base di conoscenza è strutturata in modo tale da definire ogni possibilerelazione tra concetti; in altre parole, sono contenute tutte le strutture concettualisignificative.Così, il concetto “gli uccelli volano” viene espressa attraverso le relazioni binarieUCCELLO, VOLARE, , mentre “gli uccelli volano con le ali” sarà UCCELLO,VOLARE e ALA, VOLARE .LinguasorgenteDizionariodi paroleDizionariodi paroleLingua diarrivoAnalisi dellafraseRegole dianalisiBase diconoscenzaRegole digenerazionRelazionidi cooccorrenzaGenerazionedella fraseINTERLINGUAStruttura concettualeRegole di transferFigura 9: Architettura del sistema Atlas71 Vedremo poi come questi stessi elementi si ritroveranno anche in UNL.

62Le relazioni devono collegare concetti che sono il più possibile universali, cioè indipendentidalle specifiche di lingue particolari e proprio per questo anch’esse devono essere il piùgenerali possibile; il problema sorge quando un concetto che viene espresso in unadeterminata lingua non trova il suo corrispondente in un altro sistema linguistico. In questicasi, tali concetti dipendenti dalla lingua, vengono inseriti come vocabolario proprio dellalingua e, come vedremo, saranno trattati in modo diverso in fase di generazione.!" La fase di ANALISILa fase di analisi consente di produrre una rappresentazione del significato della frase inun’interlingua.In questo procedimento sono previsti due moduli: SEGMENT, per l’analisi morfologica, eESPER per quella sintattica e semantica.SEGMENT ha il compito di scomporre le parole nei suoi morfemi costitutivi grazieall’ausilio di un dizionario e deve verificare le relazioni che intercorrono tra i vari morfemi.L’output di SEGMENT è rappresentato da una lista di nodi che sarà poi analizzata daESPER.Ogni morfema, al quale vengono affiancate informazioni di tipo sintattico e semanticorecuperate dalla consultazione del dizionario, viene considerato come un nodo terminale diuna più complessa struttura ad albero che si completerà nella fase successiva di analisisintattica e semantica.ESPER ha proprio il compito di proseguire l’analisi del testo dato in input e per fare questoutilizza sostanzialmente regole context-free aumentate. 72Per quanto riguarda la sintassi, ESPER deve verificare delle condizioni affinché determinateregole grammaticali possano essere applicate, stabilendo inoltre un grado di priorità riguardoquale regola debba essere applicata per prima (nei casi in cui possa essere valida più di unacostruzione)..!" La fase di GENERAZIONEUna volta terminata la fase di analisi e verificata la correttezza della struttura concettuale, ènecessario che quest’ultima venga trasformata in una frase in linguaggio naturale.72 Cfr. p. 23

63La fase di generazione in ATLAS II è divisa in due procedimenti: il transfer e lagenerazione.La fase di transfer viene utilizzata per la traduzione di espressioni particolari che, se presentinella lingua di partenza, non trovano loro i corrispondenti nella lingua di arrivo.Tali espressioni possono spesso apparire come semplici differenze nel lessico e nellagrammatica, ma più spesso rappresentano differenze culturali, modi di pensare e di vedere ilmondo.In UNL abbiamo due modalità di risoluzione di problemi di questo tipo: se nella lingua diarrivo non è contemplato l’oggetto lessicale presente nella lingua sorgente, si ricorre allabase di conoscenza, dove i concetti sono organizzati gerarchicamente e si può quindi risaliread un termine più generale, che comprenda quello specifico di cui si sta svolgendo latraduzione 73 ; se le differenze tra le due lingue sono di carattere culturale, vedi ad esempio ladistinzione tra i nostri modi di rivolgersi alle persone con il “tu” e il “lei”, la soluzione vienerintracciata negli attributi, la cui funzione è quella di mettere in evidenza l’attitudine, il puntodi vista del parlante. 74La fase di generazione consiste in una finestra di generazione (lo spazio cioè doveconcretamente avviene la generazione) e in un interprete di regole.L’interprete attraversa ciascun nodo costituente della struttura concettuale spostando lafinestra di generazione e dà come output la lista con i risultati della traduzione; nelmeccanismo intervengono anche un dizionario, relazioni che intercorrono tra parole e regoledi occorrenza.Fino ad oggi questo sistema ha tradotto in giapponese, francese, inglese, tedesco, cinese,innuit e swahili senza che venisse portata alcuna modifica al software.Quello che mi premeva mettere in rilievo presentando questo sistema non era tantoanalizzare dettagliatamente ogni fase del processo di traduzione (come per i sistemi Systrane Geta-Ariane), quanto piuttosto evidenziare la rivoluzione dell’approccio che sta alla basedi questo sistema. I presupposti teorici di partenza sono infatti agli antipodi: nei sistemi adapproccio transfer, ci si basa sostanzialmente sul trasferimento delle strutture interne di73 Cfr. p. 10431 Cfr. p. 93

64superficie alle frasi e necessariamente si devono utilizzare due sole lingue alla volta,costruendo componenti e processori specifici per quella coppia.Systran ha l’indubbio vantaggio di avere una struttura modulare, il che consente diintervenire sui singoli componenti senza intaccare l’intero sistema; Geta-Ariane ha il meritodi impostare fin dalla prima fase di analisi morfologica, una struttura generale del testomettendo in evidenza le variabili morfologiche e sintattiche riguardanti ciascuna formaanalizzata sulle quali intervenire nel corso dei successivi passaggi.Resta però il problema derivante dalla natura stessa di un approccio transfer: si concentrasoprattutto sulle strutture sintattiche e scarse sono le componenti semantiche. Trattando ilcapitolo riguardante il Natural Language Processing, abbiamo messo in evidenza comel’analisi semantica e la disambiguazione fossero dei nodi cruciali per ottenere una buonatraduzione; in Systran non esiste neppure un modulo specifico, ma si utilizzanoall’occorrenza solo degli indicatori per risolvere particolari problemi di traduzione.Inoltre, se si volesse aggiungere una nuova lingua nel sistema di traduzione, questo dovrebbeessere riscritto quasi completamente.I sistemi ad approccio interlingua, invece, basano la loro struttura su di una fortecomponente semantica, fra tutte la base di conoscenza e le relazioni tra concetti.Un’interlingua si propone come un linguaggio artificiale indipendente, in grado dioltrepassare le caratteristiche specifiche di lingue individuali; il limite dell’interlingua risiedeforse proprio in questa sua tendenza all’”universalità”, ad elevato grado di astrazione e dianalisi profonda dei legami interni di una frase.Perché quindi preferire un approccio interlingua?Sostanzialmente per due ordini di motivi: da un lato per la separazione che viene fatta dellefasi analisi e generazione; si permette così lo sviluppo di sistemi di analisi e generazione peruna lingua indipendentemente da quelli per altre lingue. Ne consegue che i responsabili dellosviluppo di tali sistemi devono solo conoscere le proprietà dell’interlingua e della lingua daanalizzare o da generare.In secondo luogo, l’interlingua permette l’uso della conoscenza, elemento necessario perun’efficace analisi semantica ed essenziale per raggiungere elevati standard qualitativi ditraduzione.

65IL LESSICO MULTILINGUE E I DIZIONARI4.1 INTRODUZIONEUno degli aspetti più importanti che deve trattare un sistema di traduzione automatica, èquello del lessico e dell’organizzazione dei dizionari.I dizionari, infatti, giocano un ruolo che potremmo considerare quasi decisivo per lacostruzione di efficienti sistemi di traduzione automatica: sono in effetti la componente piùgrande in termini di quantità di informazioni che possono contenere, e il modo con cui taliinformazioni vengono organizzate e rese consultabili determina il grado di qualità delsistema stesso.Ciò che interessa maggiormente è quindi stabilire quale tipo di informazioni sia necessarioattribuire ai lemmi che vogliamo inserire nel dizionario.Innanzitutto bisogna compiere una distinzione tra le caratteristiche proprie della parola e ivincoli ad essa posti in virtù di determinate proprietà di selezione sulla base della vicinanzacon altre parole; ad esempio, informazioni in merito al contesto grammaticale entro il qualeuna parola può occorrere, riguardano da un lato il contesto sintattico e dall’altro quello piùstrettamente semantico.Uno tra i metodi spesso utilizzati per descrivere le caratteristiche proprie di un parola equelle che derivano dalla sua vicinanza con altre, per poter essere poi inserite in undizionario facente parte di un sistema di traduzione automatica, è quello di rappresentarle intermini di attributi e valori; ad esempio la parola “mela” sarà così rappresentata:lex (lessico) = melacat (categoria) = sostantivontype (tipo di sostantivo) = comunegenere = femminileumano = noconcreto = siVero è che esistono molti altri metodi di rappresentazione, come ad esempio abbiamo avutomodo di mostrare presentando i modelli dei sistemi di traduzione automatica, checontemplano anche la punteggiatura, le classi flessionali, le radici, relazioni semantiche,etc. 7575 Cfr. Systran e Geta-Ariane p. 53 e p. 58

66Proprio per questa varietà nella rappresentazione dei lemmi, ci si sta sempre più sforzando dicreare standard per i lessici e per le caratteristiche da affiancare ai lemmi. 76Inoltre il dizionario deve riportare le caratteristiche morfologiche della parola dalle quali saràpossibile estrarre informazioni di carattere morfo-sinatattico e semantico; non è esclusoinfatti che partendo dall’output reso dalla fase di analisi morfologica, indipendentemente dalformalismo scelto per la rappresentazione, si possa passare all’analisi sintattica vera epropria, come abbiamo già avuto modo di vedere nel caso di Systran. 774.2 MULTI-WORDS4.2.1 ESPRESSIONI IDIOMATICHENei linguaggi naturali esistono espressioni, identificate con il termine inglese “multi-words”,che, nonostante siano formate da più parole, devono essere analizzate come un unicuum, alloscopo di evitare un completo fallimento nell’analisi e nell’interpretazione del lorosignificato; in modo particolare mi riferisco a frasi idiomatiche e collocazioni, anche se inquesta categoria di parole rientrano altre tipologie di espressioni, come ad esempio icomposti, dei quali abbiamo già parlato. 78Le multi-words sono da sempre state considerate una sfida nelle ricerche in NaturalLanguage Processing e in modo particolare per la traduzione automatica; in effetticomportano particolari problemi nelle fasi di analisi e generazione. 79I lessemi composti sono costituiti da un gruppo piuttosto eterogeneo di espressioni, qualifrasi idiomatiche, verbi di supporto (come ad esempio fare/compiere un’analisi = analizzare),verbi accompagnati da particolari preposizioni (soprattutto in inglese nel caso dei phrasalverbs), etc.In alcuni casi è possibile che un’espressione idiomatica possa essere tradotta in più linguemantenendo la stessa struttura e significato; prendiamo ad esempio la frase “prendere il toroper le corna” (il cui significato è quello di “affrontare un problema con decisione”): ininglese viene tradotta con “take the bull by the horns” e corrisponde allo spagnolo “coger eltoro por los cuernos”; ma nella maggior parte dei casi non è possibile compiere traduzioniletterali o utilizzare le normali regole.76 Cfr. ISLE, PAROLE-SIMPLE, MILE p. 7677 Cfr. p. 5378 Cfr. p. 2079 P. Steffens (ed), Machine Translation and the Lexicon, Springer, London, 1995

67Per quanto riguarda la traduzione automatica nello specifico, esistono due diverse strategieper trattare le frasi idiomatiche. 80La prima consiste nel considerare l’idioma come singola unità lessicale contenuta neidizionari monolingue, così che il lemma si presenti con la forma “prendere il toro per lecorna”; la fase successiva sarà quella di costruire particolari regole per rappresentarel’espressione prima che venga compiuta l’analisi sintattica. 81 .È chiaro che un procedimento simile implica l’applicazione di sequenze di procedure dianalisi: la consultazione del dizionario non potrà quindi essere compiuta una sola volta, madeve permettere alle regole di analisi di sostituire frammenti di struttura attraverso leinformazioni contenute nel dizionario a vari livelli del processo 82 . Questo significa che larappresentazione dell’espressione idiomatica “prendere il toro per le corna” e quella dellafrase non idiomatica “prendere il toro per la coda” saranno simili in questo primo livellodell’analisi, ma successivamente, in una fase più astratta della rappresentazione, taleespressione sarà contenuta in un solo nodo e quindi analizzata come parola singola.La complessità della traduzione per questo particolare tipo di espressioni dipende dal gradodi corrispondenza di struttura e lessico tra le due lingue implicate nel procedimento.Ci sono casi in cui esiste una perfetta corrispondenza strutturale e lessicale, come abbiamovisto nell’esempio sopracitato, per cui non esistono particolari problemi né per la costruzionedi un’adeguata rappresentazione, né per la traduzione vera e propria.In molti altri casi si può avere corrispondenza strutturale ma non lessicale, come nel casodella frase inglese “spill the beans” che corrisponde all’italiano “vuotare il sacco”; in questocaso interviene il dizionario, nel quale porzioni di frasi idiomatiche sono stateimmagazzinate mettendo in evidenza gli equivalenti per quella particolare coppia di lingueche si sta trattando.I maggiori problemi sorgono nel momento in cui si trovano espressioni idiomatiche che indue diverse lingue non hanno alcun tipo di corrispondenza, né strutturale né lessicale. Inquesti casi la rappresentazione della struttura dell’espressione nella lingua target, dovrànecessariamente essere più complessa; una possibile soluzione potrebbe essere quella dioptare per una rappresentazione in termini di relazioni concettuali: questa opzione, tipica dei80 D. Arnold (et al.), Machine Translation: An Introductory Guide, NCC Blackwell, Manchester-Oxford, 1994,p. 11681 In effetti molto spesso i sistemi di traduzione automatica utilizzano dizionari specifici di parole multiple chevengono consultati prima di quelli normali; è chiaro come questa soluzione faccia risparmiare in termini dianalisi e di correttezza interpretativa.82 Cfr. ARIANE p. 58

68sistemi ad approccio interlingua, permette quindi di creare corrispondenze non tanto sullabase di corrispondenze, ma concettuali.In questo modo l’espressione inglese “to be over the moon” potrà trovare la sua traduzioneitaliana “non stare più nella pelle” in riferimento al concetto che esprimono (esserecontentissimo).Un altro problema che sorge in frasi che contengono idiomi è il fatto che queste sonosostanzialmente ambigue, nel senso che può essere possibile un’interpretazione sia letteralesia idiomatica. Ad esempio l’espressione inglese “kick the bucket” ( che tradotta in italianocome frase idiomatica diverrebbe “tirare le cuoia”) può realmente avere a che a fare conl’atto di tirare un calcio ad un secchio.Una soluzione possibile potrebbe essere quella di dividere il dizionario in sotto-dizionarispecializzati per argomento: in questo caso l’espressione sopracitata avrebbe più probabilitàdi essere interpretata come idiomatica se si sta trattando di cronaca nera; allo stesso modo“prendere il toro per le corna” dovrebbe essere tradotto letteralmente se si fosse in contestosportivo, relativo ad esempio ad una corrida.Un ulteriore problema delle espressioni idiomatiche è rappresentato dal fatto che non tuttesono espressioni fisse, ma presentano variazioni al loro interno, come ad esempio nel caso diflessioni.Un caso tipico è quello che riguarda i verbi, che cambiano relativamente al tempo, allapersona e al numero; prendiamo ad esempio la frase “vuotare il sacco”: può variare in“ha/hanno vuotato il sacco, vuoterà/vuoteranno il sacco, dovrebbe/dovrebbero vuotare ilsacco…”. Un altro caso frequente di variazione è quello che riguarda i pronomi possessivi inespressioni come “to burn one’s bridges” (= tagliarsi i ponti alle spalle); in questa frase lavariazione del pronome concorda il soggetto :he has burned HIS bridgesshe has burned HER bridgesPer trattare tali variazioni possiamo pensare di avere nel dizionario la forma basedell’espressione “to burn one’s bridges” e di indicare quindi quali elementi sono soggetti avariazione e quali sono le possibili opzioni (pronomi possessivi, coniugazione del verbo,etc.).

694.2.2 COLLOCAZIONIUn particolare tipo di multi-words, sono le collocazioni, cioè espressioni formate da due opiù termini che si presentano insieme, il cui significato è deducibile dall’analisi dei singolicomponenti grazie alla caratteristica per cui ogni elemento oltre ad essere un costituentelessicale è anche costituente semantico.Il termine “collocazione” è stato definito da Sinclair : “Collocation is the occurance of twoor more words within a short space of each other in a text”. 83Le collocazioni denotano co-occorrenze ripetute con frequenza o significative dal punto divista statistico; rappresentano l’evidenza per cui alcune parole non si combinano a caso, maseguono delle regole, principi e motivazioni provenienti dal mondo reale. 84Le collocazioni possono essere trattate differentemente dalle frasi idiomatiche in quantopossiamo pensare ad una porzione specifica dell’espressione come dipendente o prevedibiledall’analisi delle porzioni contigue. 85Esempi di collocazioni sono “accanito fumatore”, “pioggia torrenziale”, “rosa dei venti”…Esistono tre diversi approcci per trattare le collocazioni. 86La prima è di carattere puramente lessicografico: i dizionari forniscono le informazionenecessarie per stabilire ciò che non è prevedibile o ciò che invece è caratteristicodell’espressione.Frasi del tipo “commettere un omicidio” o “compilare un dizionario sono caratterizzate dadue elementi: uno fisso, base (commettere e compilare) e un altro variabile, “collocato”(omicidio e dizionario).La parte fissa è semanticamente autonoma, mentre quella variabile non può esseresemanticamente interpretato come termine isolato. In altre parole, l’insieme delle partivariabili che si combinano con quelle fisse, non è prevedibile e vanno quindi inserite neldizionario con l’indicazione delle collocazioni nelle quali possono occorrere.Vedremo poi, parlando del dizionario di co-occorrenze del sistema UNL come questoproblema relativo alle collocazioni venga risolto attraverso il collegamento che taledizionario instaura con la Basi di Conoscenza. 8783 J. Sinclair, Corpus, Concordance, Collocation, Oxford University Press, Oxford, 1991, p. 17084 R. Moon, Fixed Expressions and Idioms in English, Clarendon Press, Oxford, 1998, p. 2685 D. Arnold, ibid.86 http://budling.nytud.hu/~kalman/reading/siggen94/node4.html87 Cfr. p. 107

70In secondo luogo esiste un approccio statistico, per cui è possibile considerare comecollocazioni gli insiemi di parole che appaiono con maggiore frequenza in qualsiasi contesto,o in domini particolari.Il terzo approccio, ed è quello che offre una soluzione interessante ai fini della traduzioneautomatica in quanto prospetta una specie di interlingua, è quello basato sostanzialmente suconsiderazioni di tipo linguistico.Una proposta specifica in merito al modo di trattare le collocazioni in un modello linguistico,è stata sviluppata da Mel’!uks: la Meaning-Text Theory (MTT); questa teoria descrive illinguaggio naturale come una sorta di dispositivo che associa ad ogni significato M l’insiemedi tutti i testi T (intendendosi come testo ogni produzione linguistica, dai morfemi aiparagrafi) di quella particolare lingua.In altre parole, la teoria vuole modellare il linguaggio attraverso un insieme di regole ingrado di convertire i significati nei corrispondenti testi.La conoscenza lessicale viene codificata in un lemma da inserire nell’ExplanatoryCombinatorial Dictionary; le informazioni relative a ciascun lemma vengono suddivise intre aree principali: una semantica (una rete semantica che rappresenta il significato dellemma stesso), una sintattica (contenente le proprietà grammaticali) e quella dellecombinazioni lessicali (le funzioni lessicali sono utilizzate per mettere in relazione ilessemi).Una funzione lessicale può essere definita come la corrispondenza che associa un terminecon un insieme di altri oggetti lessicali.Prendiamo l’esempio della funzione lessicale Magn, dove il rapporto tra parole ècaratterizzato da un’intensificazione di significato che un termine ha sull’altro; la funzionelessicale viene cioè applicata a diverse categorie grammaticali per attribuire un certo valorealla collocazione.Ad esempio : Magn (fumatore) = accanito [fumatore]Magn (largo) = eccessivamente [largo]Ma come possono essere utili le funzioni lessicali in un contesto di traduzione automatica?Prendiamo proprio l’esempio di “accanito fumatore”.In italiano la funzione lessicale Magn indicherà che il corretto aggettivo da affiancare allaparola fumatore sarà proprio “accanito” e non ad esempio “pesante”; in inglese, invece,l’aggettivo richiesto sarà heavy, mentre in spagnolo empedernido.

71Quindi:Italiano Magn (fumatore) = accanitoInglese Magn (smoker) = heavySpagnolo Magn (fumador) = empedernidoSe a questo punto vogliamo tradurre la frase italiana “accanito fumatore” in inglese,dovremo mappare “fumatore” in “smoker” congiuntamente all’informazione che al terminesmoker è attribuita la funzione lessicale Magn, così come avviene per l’italiano.Spetta poi al generatore dell’inglese estrarre il valore di Magn (smoker) = heavy e inserirequindi correttamente l’aggettivo.4.2.3 Il progetto XMELLTCome abbiamo avuto modo di vedere, il ruolo delle parole multiple è di primaria importanzanella traduzione automatica; nonostante questo, nei dizionari che vengono utilizzati insistemi di traduzione automatica, a fronte di consistenti informazioni riguardanti lecaratteristiche morfologiche, sintattiche e semantiche legate ai lemmi, si riscontra una scarsapresenza di multi-words, anche se i problemi riguardanti la loro struttura e trattamento incontesto di traduzione automatica è piuttosto sentito.In effetti esistono dei dizionari di collocazioni e co-occorrenze, ma si tratta per lo più didizionari monolingue, quali ad esempio il BBI Dictionary (Combinatory Dictionary ofEnglish: A Guide to Word Cominations) oppure il SEC (Selected English Collocations). Incontesto di traduzione automatica, dove i sistemi sempre più si trovano a dover affrontaretraduzioni multilingue e non solo bilingue, la creazione di dizionari multilingue dicollocazioni e multi-words in genere è più che auspicabile; basti pensare che tali costruzionirappresentano circa il 30% del materiale lessicale totale.È da questi presupposti e considerata l’importanza delle multi-words per le varieapplicazioni del Natural Language Processing, che nasce il progetto XMELLT (CrosslingualMulti-word Expresisons Lexicons for Language Technology), il cui scopo è quello distudiare la possibilità di sviluppare dizionari appositi per le multi-words che contengano siainformazioni morfosintattiche sia semantiche.I punti principali della strategia seguita per lo sviluppo del progetto sono:

72- stabilire standard uniformi per la descrizione di espressioni multiple;- determinare il tipo e le dimensioni delle informazioni necessarie che meglio servono per lediverse applicazioni del Natural Language Processing;- specificare l’architettura generale della multi-word;- esplorare le possibilità di identificare la struttura del dizionario;- esplorare la possibilità di creare corpora di multi-words.La complessità strutturale e la varietà di multi-words, deve essere considerata la possibilitàdi variazioni interne in termine di modificatori, determinanti, sostituzione di parole, presenzadi flessioni; il lavoro di ricerca che si trova alla base del progetto, serve per stabilire le lineeguida per la creazione di dizionari di multi-words. 88Tale modello di rappresentazione è stato pensato per risultare compatibile con gli standardadottati per la creazione di altri dizionari, come ad esempio i PAROLE-SIMPLE. 89A questo punto è necessario vedere quali siano le informazioni linguistiche riguardanti leentrate lessicali:- categorizzazione sintattica della parte nominale e di quella verbale della multi-word;- morfosintassi del gruppo nominale (genere, numero, caso, possibilità di avere aggettiviqualificativi o relativi, etc.)- relazioni semantiche e sintattiche (ad esempio la variabilità dei componenti, rapporti dicausalità, rapporto tra verbo e suoi predicati, etc.)Risulta piuttosto evidente quale potrebbe essere l’applicazione di un dizionario di multiwordsall’interno di più complessi sistemi di traduzione automatica: un tale dizionariopotrebbe infatti essere collegato ai vari moduli impiegati nella traduzione di un testo,riuscendo così a risolvere la fonte di un considerevole numero di ambiguità lessicali esemantiche.88 Il lavoro è stato suddiviso in diverse fasi che hanno coinvolto ricercatori italiani, inglesi, francesi e tedeschi.Si è proceduto inizialmente all’identificazione di cinquanta nomi presi da dizionari PAROLE-SIMPLE; quindisi sono rintracciati i lemmi corrispondenti in dizionari di tedesco, italiano e francese. Quindi sono stati creativerbi di supporto da affiancare ai 50 nomi delle quattro lingue implicate nel progetto. Contemporaneamente, 50gruppi nominali inglesi sono stati identificati nel dizionario PAROLE-SIMPLE, rintracciando le costruzionicorrispondenti in italiano, francese e tedesco; in questo modo si è realizzata una sorta di banca dati dicorrispondenze lessicali tra le lingue considerate.89 Cfr. p. 77

734.3 I DIZIONARICome abbiamo visto fino ad ora, il dizionario riveste una particolare importanza e funzioneall’interno di sistemi di traduzione automatica, in quanto da un lato serve per trovareequivalenti lessicali in diverse lingue e dall’altro fornisce tutta una serie di informazionispecifiche, dei lemmi che contiene.Ma la traduzione automatica deve oggi confrontarsi con una nuova realtà linguistica cheinteressa non solo lo studio di nuove strategie per la costruzione di sistemi efficienti ditraduzione, ma anche gli strumenti stessi che devono essere inseriti nei sistemi; primo fratutti il dizionario.Mi riferisco alle necessità di una comunicazione che non avviene più solo fra coppie dilingue, ma coinvolge contemporaneamente utenti di più nazionalità e, quindi, sistemilinguistici diversi.La rapida diffusione di Internet come strumento per comunicare e reperire informazioni, havisto un aumento esponenziale del numero di lingue utilizzate in rete; al momento dellanascita di questa nuova tecnologia, quasi la totalità dei testi presenti in Internet venivapresentato in inglese.Questo era dovuto soprattutto a due fattori di natura diversa: da un lato l’imposizionedell’inglese come lingua franca per trattare tutti i rapporti commerciali nell’era dellaglobalizzazione; dall’altro dobbiamo pensare al numero di parlanti: i madrelingua inglesesono circa 375 milioni, altrettanti milioni lo utilizzano regolarmente come seconda lingua ecirca 750 milioni lo studiano come lingua straniera. L’inglese raggiunge quindi circa unmiliardo e mezzo di parlanti. 90Da cinque anni a questa parte, la tendenza all’utilizzo del solo inglese per la comunicazionesta cambiando radicalmente: le informazioni contenute in rete vengono pubblicate nellalingua del paese che fornisce tali informazioni e quasi ogni Stato ha sviluppato motori diricerca nella propria lingua nazionale. 91Si stima che per il 2005 circa il 78% degli utenti di Internet non sarà di madrelingua inglesee solo il 49% delle pagine Web sarà scritta in tale lingua. 9290 R. Lockwood, Global English and Language Market Trends, in “Language International” del 10/04/199891 Articolo di C. Peters, P. Sheridan, Multilingual Infotmation Access, 2001, gentilmente fornito dalla Dott.ssaPeters92 http://www. glreach.com/globstats/index.php3

74In questa prospettiva emerge chiara l’esigenza da parte di utenti parlanti lingue diverse, diavere accesso a tutte le informazioni contenute in rete, possibilmente con la facilitazione diutilizzare la propria lingua.In questo senso la traduzione automatica sembra rappresentare la risposta più adeguata perquesto nuovo scenario linguistico.Per potersi adeguare a queste richieste, i sistemi di traduzione automatica devono essereforniti degli strumenti adatti per poter trattare contemporaneamente più di due lingue.Come ho già avuto modo di accennare, nei sistemi di traduzione automatica, i dizionaricostituiscono la risorsa linguistica fondamentale, senza la quale non sarebbe possibilecompiere la traduzione stessa.A questo punto si presenta però il problema di organizzare tali risorse linguistiche per uncontesto multilingue: è così che diversi gruppi di ricerca hanno cominciato a pensare allarealizzazione di standard di rappresentazione dei lemmi contenuti nei dizionari, in modo cheper ogni parola vengano indicate informazioni a vari livelli linguistici (morfologici,morfosistattici, sintattici e semantici) che possano valere come rappresentazione per ognisistema linguistico.In modo particolare, vorrei trattare le soluzioni fornite dal progetto ISLE (InternationalStandards for Language Engineering), che propone standard per la costruzione di dizionarimultilingue, indicando inoltre nel dettaglio quale deve essere l’architettura di un lemma(MILE).La funzione di una entrata in un dizionario multilingue è quella di fornire tutte leinformazioni necessarie affinché il sistema possa identificare uno specifico senso daattribuire ad una parola o frase che si presentano in diversi contesti nella lingua che si vuoletradurre e associare ciascun contesto con la traduzione più appropriata nella lingua dellatraduzione.Il primo passo è quello di determinare, tra le varie informazioni associate al lemma dellalingua di partenza, quelle che sono più rilevanti per essere codificate, a quale livello didescrizione e quali elementi devono essere associati nella traduzione.

754.3.1 ISLEIl progetto ISLE è la continuazione di un altro progetto, EAGLES (Expert Advisory Groupfor Language Engineering) nato nel 1993 grazie all’impulso dato dalla Comunità Europea.L’obiettivo principale del progetto è quella di fornire degli standard per il trattamento dirisorse linguistiche diverse, quali possono essere ad esempio la costruzione di corpora odizionari computazionali.In modo particolare, per quello che a noi qui interessa, una delle aree di ricerca seguite daISLE è quella di creare e proporre standard per dizionari multilingue, linea portata avanti dalComputational Language Working Group (CLWG).La priorità del CLWG nella prima fase di sviluppo del progetto ISLE, è stata quella difornire una panoramica riguardo dizionari bilingue e multilingue così da coprire una vastagamma di risorse linguistiche. Questa fase viene considerata preliminare e necessaria perraggiungere l’obiettivo primo del CLWG, vale a dire la definizione di MILE (MultilingualISLE Lexical Entry), cioè il tipo di voce lessicale che deve essere inserita in un dizionariomultilingue.A questo punto devono essere fatte due premesse fondamentali: innanzitutto, parte dellenozioni base che servono per la costruzione di MILE, vengono rintracciate nelleinformazioni contenute nei dizionari; in secondo luogo l’aspetto multilingue che vuolecaratterizzare MILE, dipende dalle caratteristiche dei lemmi contenuti nei dizionarimonolingue; detto questo, quindi, è importante stabilire quali siano le informazioni chedevono essere estratte dai dizionari in modo da poterle utilizzare, così come si presentano omodificate, per la creazione di MILE.Il rapporto tra dizionario monolingue e dizionario multilingue, diventa particolarmenterilevante ai fini della traduzione automatica, dove sorgono due problemi di diversa natura: daun lato la necessità di organizzare l’architettura del dizionario multilingue sulla base delleinformazioni contenute nei dizionari monolingue; dall’altro lato, la necessità di creare lacorretta corrispondenza di termini nella fase di traduzione, scegliendo termini contenuti neldizionario multilingue.La funzione di un lemma contenuto in un dizionario multilingue è infatti quella di forniresufficienti informazioni da consentire al sistema di identificare un chiaro significato di unaparola nella lingua sorgente, in contesti differenti, e associare quindi ad ogni contesto latraduzione più appropriata nella lingua di arrivo.

76Dati questi presupposti, vediamo ora la descrizione di un dizionario computazionalemonolingue e, in seguito una più approfondita analisi della struttura di MILE, soprattutto inprospettiva di una sua ipotetica realizzazione nel Master Dictionary di UNL e come base dirappresentazione interlingua.4.3.2 PAROLE-SIMPLEPAROLE-SIMPLE è il nome dato a dizionari monolingue nati in seno al CLWG con loscopo di formalizzare standard di rappresentazione lessicale in 12 lingue (Catalano, Danese,Tedesco, Inglese, Finlandese, Olandese, Greco, Italiano, Portoghese, Spagnolo e Svedese).Inizialmente venne sviluppato il dizionario PAROLE, nel quale ogni lemma viene codificatosecondo le sue caratteristiche morfologiche e sintattiche; in seguito si è aggiunta larappresentazione semantica, codificata in SIMPLE.Sostanzialmente quindi PAROLE-SIMPLE è un modello di dizionario strutturato in trestrati, dove ogni lemma viene codificato a livello morfologico, sintattico e semantico.PAROLE contiene circa 20.000 voci, mentre SIMPLE è costituito da circa 10.000 significatirelativi ai lemmi contenuti in PAROLE, ciascuno legato alle descrizioni sintattichepertinenti.Nonostante PAROLE e SIMPLE corrispondano rispettivamente a dizionari morfosintattici esemantici, devono comunque essere considerati come un unico corpo dove ogni livello dirappresentazione della parola è strettamente connesso con gli altri; così, ad esempio,interazioni complesse tra alternanze sintattiche e interpretazioni semantiche, possono esserefacilmente descritte.Abbiamo detto che in PAROLE sono contenute le proprietà morfosintattiche relative aciascuna voce.Il livello morfologico fornisce informazioni sulle categorie e sottocategorie grammaticali;genere, numero, persona e modo verbale; classi flessionali.Il livello sintattico descrive invece le funzioni grammaticali, come ed esempio ladeterminazione della posizione che particolari categorie grammaticali ricoprono all’interno

77di una frase; specifici eventi che si verificano solo se supportati da determinate regolesintattiche, come ad esempio rendere una frase da attiva a passiva…Il livello semantico è descritto nel dizionario SIMPLE.SIMPLE è in grado di rappresentare le diverse dimensioni dei significati relativi ad unaparola.I significati delle parole vengono codificati in “unità semantiche” (SemU); a ciascuna unitàviene attribuita una “caratteristica semantica” (semantic type) estratta dall’ontologia, conl’aggiunta di altre informazioni contenute nel relativo template, che contribuisce allaspecificazione di un significato.Le informazioni semantiche che descrivono in contenuto di ogni SemU, riguardano ildominio, la classe semantica, le relazioni esistenti tra le varie SemU (polisemie, sinonimi,collocazioni, Qualia…) e la rappresentazione predicativa (specifica cioè quale predicatoviene associato alla SemU, in termini di struttura argomentale, ruoli semantici, scelta degliargomenti…).Overall OrganizationTemplateInstantiationTypeOntology%150 types...Greek lexiconDanish lexiconCatalan lexiconItalian lexiconSemUPred. . LayerPredicate, arguments,Selection restrictionsQualiaDerivationPolysemyEvent Type…Copenhagen, Oct. 2001Figura 10: Organizzazione generale di PAROLE-SIMPLE 9393 Tratto da http://www.cis.upenn.edu/~cmetz/nicoletta.ppt

78Ogni caratteristica semantica attribuita alla SemU, implica un’informazione strutturata cheviene rappresentata come un template.Le stesse caratteristiche sono organizzate e immagazzinate nell’ontologia.La strutturazione delle semantic type, rispetta quattro ruoli Qualia:a) FORMAL: fornisce informazioni che permettono di identificare un particolare oggetto all’interno diun insieme più vasto; fornisce informazioni riguardo il colore, la forma, le dimensioni dell’oggettoconsiderato;b) AGENTIVE: relativo all’origine;c) TELIC: relativo alla funzione o allo scopo che generalmente si attribuisce all’oggetto;d) CONSTITUTIVE: si riferisce alle relazioni che si instaurano tra l’oggetto e i suoi costituenti.Per esempio la rappresentazione della parola inglese “pudding” risulterà:Formal: sostanzaAgentive: fareTelic: mangiareConstitutive: ingredientiIl template rappresenta uno schema strutturato la cui funzione principale è quella didescrivere tutte le varie informazioni relative ad un lemma (significato, dominio, strutturaargomentale, polisemie…), così da poter guidare e facilitare il lavoro lessicografico. 94TemplateType SystemCoordinates“redundancy”PredicativeLayerQualiaStructureContextual/PolysemyInformationSemU:Identifier of a SemUSynU:Identifier of the SynU to which the SemU is linkedBC Number: Number of the corresponding Base Concept inEuroWordNetTemplate_Type: Semantic type of the SemUTemplate_Supertype: Semantic type which dominates the type of the SemU in thetype-hierarchyUnification_path: Unification history of a template (only for unified top-types)Domain:Domain information from ERLI's domain listSemantic Class: One of WordNet Classes used by ERLIGlossa:Lexicographic definitionEvent Type: Event SortPredicativeRepresentation:Predicate associated with the SemU, and its argumentstructureSelectional Restr.: Selectional restrictions on the argumentsDerivation: Derivational relations between SemUsFormal:Formal relation between SemUsAgentive:Agentive relations between SemUsConstitutive: ! Constitutive relations between SemUs! Constitutive semantic featuresTelic:Telic relations between SemUsSynonymy: Synonyms of the SemUCollocates: Collocate informationComplex:Polysemous class of the SemUCopenhagen, Oct. 2001Figura 3: Rappresentazione del template in PAROLE-SIMPLE94 Tratto da http://cst.ku.dk/projects/spinn/Copehn01.ppt

794.4 MILE 95MILE deve essere intesa come una meta-entry per dizionari multilingue.MILE è stata progettata come un layer di rappresentazione comune multilingue, unarappresentazione valevole per risorse lessicali multilingue.La sua caratteristica principale è la scomposizione delle informazioni che deve contenere e lamodularità.Modularity in MILEMeta-informationA. MILE MacrostructureArchitectureMILEC. Word-Sense MicrostructureB. MILE Microstructure1. Coarse-grained2. Fine-grained1. Monolingual 2. Collocational 3. MultilingualCopenhagen, Oct. 2001Figura 12: Rappresentazione della modularità in MILE 96La modularità si può riscontrare almeno sotto tre aspetti:a) nella sua macrostruttura e architettura generale (A): adattamento del dizionario, studiodelle interazioni tra i moduli e della struttura nella quale sono inseriti (transfer, interlingua osistemi misti);95 N. Calzolari, A. Lenci, A. Zampolli, N. Bel, M. Villegas, G. Thurmair, The ISLE in the Ocean TranslatanticStandards for Multilingual Lexicons (with an eye to Machine Translation),http://www.eamt.org/summitVIII/papers/calzolari/pdf96 Tratto da http://cst.ku.dk/projects/spinn/Copehn01.ppt

80b) nella microstruttura (B), e cioè nei moduli di rappresentazione monolingue (1), diinformazioni sulle collocazioni (2) (composti, costruzioni fraseologiche, verbi di supporto,etc) e dell’apparato multilingue (3) (individuazione dei casi più problematici di traduzione,stabilire le condizioni il tipo di trasformazioni per poter stabilire una corretta mappaturamultilingue, stabilire equivalenze multilingue in relazione al tipo di approccio utilizzato dalsistema, transfer o interlingua);c) nelle specifiche relative alle informazioni di tipo semantico (C), sia per quanto riguarda larappresentazione monolingue (Coarse-grained), sia per quanto riguarda proprietàcollocazionali e sintagmatiche, utili soprattutto per la traduzione (Fine-grained).Sono previsti tre componenti principali, di cui diamo di seguito una rappresentazioneschematica:MILEInformazionimonolingueApparato multilinguesemanticamorfologiasintassiInformazionicollocazionali1) Rappresentazione monolingue: è cioè necessario identificare le informazionimorfosintattiche, sintattiche e semantiche che caratterizzano MILE in una specificalingua, proprietà che sono facilmente estraibili da dizionari, quali ad esempio PAROLE-SIMPLE.I tipi di informazione contenuti in questo modulo hanno diversa natura:!" Morfologico: categoria grammaticale, classi flessionali, modificatori, pluralia tantum,nomi collettivi, etc.!" Sintattico: comportamenti non prevedibili in relazione a particolari regole sintattiche (adesempio rendere una frase da attiva a passiva), verbi ausiliari, funzioni attributive o

81predicative, indicazione del grado degli aggettivi, lista di posizioni sintattiche checostituiscono cornici di sottocategorizzazione, caratteristiche morfosintattiche e lessicali(concordanze, preposizioni e particelle che introducono complementi).!" Semantico: caratterizzazione dei significati attraverso un collegamento all’ontologia,informazioni riguardanti il dominio, struttura argomentale, ruoli semantici, relazionisemantiche (sinonimi, iperonimi, meronimi), descrizione del senso di una parola intermini di più specifiche relazioni tra semantica e conoscenza (come ad esempio lestrutture Qualia in SIMPLE), informazioni sulle polisemie, relazioni tra parti deldiscorso.2) Informazioni collocazionali: questo modulo include schemi sintagmatici (collocazioni,costruzioni fraseologiche e multi-words, composti).3) Apparato multilingue: rappresenta il cuore del lavoro svolto dal CLWG; lo scopoprincipale è quello di proporre uno schema generale per il transfer multilingue.In questa fase si rende necessario innanzitutto identificare i più comuni casi di transfer; insecondo luogo verificare quali condizioni devono essere esprimibili e quali trasformazionisono necessarie per ottenere una corretta corrispondenza multilingue; quindi, identificaremetodologie per stabilire equivalenze tra la lingua sorgente e quella di arrivo.In altre parole tale modulo multilingue agisce come un’interfaccia indipendente tra dizionarimonolingue:APPARATO MULTILINGUEDizionario 1 Dizionario 2Modulo semanticoModulo semanticoModulo sintatticoModulo sintatticoModulo morfologicoModulo morfologicoLe corrispondenze multilingue in MILE, sono relazioni binarie che interessano un elementodella lingua sorgente e uno della lingua di arrivo; possiamo identificare diversi aspetti cheinfluenza l’identificazione di tali corrispondenze.Innanzitutto la contestualizzazione, cioè la misura in cui il contesto diviene rilevante per ladescrizione del transfer; in fase di transfer semplice, sarà sufficiente sostituire un termine

82della lingua da tradurre con l’equivalente nella lingua di traduzione. In casi di transfer piùcomplesso, identificare la corrispondenza adeguata può significare dover apportaremodifiche alla struttura o dell’elemento lessicale (ad esempio può cambiare il genere) o alivello dell’intera frase.Per questo il layer multilingue dovrà contenere una serie di condizioni che consentano diesprimere trasformazioni complesse implicate nella fase di transfer.In secondo luogo, dobbiamo rilevare che la corrispondenza tra due lingue può avvenire aqualsiasi livello, sia esso morfologico, sintattico o semantico.Un ultimo aspetto che influisce nel individuazione di corrispondenze, è la struttura stessadelle parole che possono presentarsi come singole unità, composti, multi-words.Parlando dell’analisi morfologica, abbiamo già avuto modo di discutere il problema per cuiuna parola composta in una lingua, può non esserlo in quella nella quale si sta traducendo.Per far fronte a tutti questi aspetti, il layer multilingue è stato ulteriormente suddiviso in treparti responsabili della gestione delle corrispondenze:- test part: è la fase nella quale si stabiliscono le condizioni da verificare perché undeterminato legame possa essere considerato valido.- action part: riguarda le trasformazioni necessarie affinché avvenga un corretto transfer esi stabilisca un’adeguata corrispondenza.Prendiamo ed esempio la frase italiana “Mi piace la musica” e pensiamo di volerla tradurrein inglese; il risultato dovrà essere “ I like the music”.In italiano il verbo piacere ha come soggetto la musica, mentre in inglese il soggetto è “I”;sostanzialmente quindi in questa fase è necessario compiere una trasformazione strutturaledella frase.- typed links: è la fase che permette di identificare la corretta corrispondenza lessicale;nella maggior parte dei casi, in due lingue possiamo rintracciare per ciascun termine ilperfetto equivalente; in altri casi però è necessario scegliere iponimi o iperonimi.Fino ad ora abbiamo visto le applicazioni di MILE in sistemi transfer; è possibile invecevedere un suo possibile impiego come rappresentazione interlingua; le descrizionisemantiche sono affidate alle unità semantiche (SemU) e a ciascun lemma vengonoassegnate tante SemU quanti sono i suoi significati. A loro volta le unità semantiche sonolegate alle unità sintattiche (SynU), il cui compito è quello di rendere conto della sintassi dei

83lemmi stessi; inoltre le SynU sono legate alle unità morfologiche (MU) che esprimono leproprietà morfologiche del lemma.Layer semanticoLayer sintatticoSemUSynUUnità base per ladescrizione delleproprietà semanticheMU in un datocontesto sintatticoUnità base per ladescrizione delcomportamentosintattico di una MULayer morfologicoMUUnità base per ladescrizione diproprietà morfologichedi flessione ederivazione di unaparolaCiascuna unità semantica può essere descritta per mezzo di “oggetti semantici”:!" tratti semantici: categoria semantica, dominio, restrizioni (ad esempio “umano”,“oggetto”, etc).!" concetti (incluse le relazioni che si vengono a determinare tra essi)!" predicati: struttura argomentale, ruoli semantici (“agente”, “beneficiario” “scopo”, etc)!" relazioni semantiche: tali relazioni possono unire due unità semantiche, due predicati odue concetti (meronimia, sinonimia, iponimia, meronimia, qualia, derivazioni,collocazioni, etc.).Tali oggetti semantici possono essere attribuiti sia alla dimensione monolinguistica dellaparola, sia a quella multilinguistica; nel primo caso, un determinato oggetto semantico hauna valenza solo in dizionario di una specifica lingua, mentre nella seconda ipotesi l’oggettosemantico è condiviso in più dizionari. Proprio questa condivisione diviene la base per unadescrizione interlinguistica; in questo modo è possibile far corrispondere al concetto da“cane” le unità semantiche di lingue specifiche tutte connesse all’unico concetto.

84CaneISpPerroCANEconcettoDogEnFrChienInfine, le caratteristiche semantiche possono essere utilizzate per la descrizione diun’ontologia in cui vengano messe in rilievo quelle che sono le proprietà indipendenti dallespecifiche delle singole lingue in modo da poter creare corrispondenze multilingue.In questo capitolo abbiamo messo in evidenza come le caratteristiche proprie del lessicorappresentino l’ostacolo maggiore per il raggiungimento di una buona qualità di traduzione,indipendentemente dalle strategie adottate per analizzare e generare linguaggio naturale;riuscire ad individuare gli strumenti più adatti ad analizzare in profondità le dinamiche dellinguaggio, rappresenta ad oggi la sfida più impegnativa per ottenere buoni risultati intraduzione automatica.Abbiamo visto come le multi-words rappresentino un nodo cruciale per la traduzione inquanto non è sempre possibile proporre le medesime regole di traduzione utilizzate per altritipi di costruzioni.Per quanto riguarda i dizionari, proprio perché rappresentano una delle componentiprincipali di sistemi di traduzione automatica – non dimentichiamo infatti che alcuni sistemi,come ad esempio Systran, basano il loro processo di analisi quasi esclusivamente sullaconsultazione dei dizionari – sono stati oggetto di approfonditi studi perché potesserorispondere alle esigenze emergenti da un contesto multilingue. Da qui gli standard per lacostruzione di dizionari multilingue e, soprattutto, il tentativo di creare un prototipo dilemma in grado di rendersi indipendente dalle specifiche delle singole lingue e proporsicome sistema di rappresentazione multilingue.

85La tendenza quindi sembra essere quella di voler raggiungere gradi molto astratti e profondidi rappresentazione del linguaggio, forme cioè in grado di render conto dei meccanismi“universali” del linguaggio (vedi ad esempio la volontà di MILE di proporsi come base perl’interlingua).UNL sembra essere una concreta risposta a queste tendenze; nel sistema tutto tende ad unarappresentazione che sia il più “universale” possibile: non parole, ma concetti, base diconoscenza in grado di esprimere tutte le possibili relazioni tra concetti, organizzazionestessa della base di conoscenza in modo da poter ricostruire il significato di una parolarisalendo al concetto più generale ad esso collegato.Certo è che se vogliamo inquadrare UNL come sistema di traduzione automatica, bisognaconsiderare il fatto che una traduzione è fatta di parole concrete, di specifici significati;proprio per questo anche in UNL esistono dizionari e grammatiche specifici per lingua, mada notare è lo sforzo compiuto dai suoi ideatori e sviluppatori di voler comunque mantenerelegami concettuali, astratti. Prova ne è il Master Dictionary che collega dizionario di linguae base di conoscenza; in questo modo UNL riuslta un sistema in grado di gestire tutti queiproblemi linguistici (vedi ad esempio le multi-words) che il multilinguismo impone.In virtù di queste sue caratteristiche UNL può essere considerato una pura interlingua,“language-independent”, sempre in evoluzione e aggiornamento e poter così seguire edadattarsi alle difficili dinamiche linguistiche.

86UNIVERSAL NETWORKING LANGUAGE5.1 INTRODUZIONENel 1973 l’Assemblea Generale delle Nazioni Unite sancì la nascita di una universitàvirtuale, UNU (United Nations University) con sede a Tokyo, che permettesse a studentiprovenienti da tutto il mondo, di avere accesso all’informazione.In seno alla United Nations University è nato nel 1995 l’Institute for Advanced Studies(IAS), un istituto di ricerca ed educazione orientato verso studi a carattere scientifico esociale.UNL nasce nell’aprile del 1996 proprio all’Institute for Advanced Studies comerealizzazione di un’idea nata nei primi anni Novanta da due ricercatori giapponesi:KAZUHIKO NISHI e HIROSHI UCHIDA; i due ricercatori, esperti di comunicazione e daanni interessati alla traduzione automatica, pensarono di realizzare un sistema basato sullosviluppo di un’interlingua adatta per essere letta da un computer, per la codifica e decodificadi testi scritti in un linguaggio naturale; UNL è infatti un linguaggio artificiale, sotto formadi rete semantica, ideato per l’espressione e lo scambio di qualsiasi tipo di informazione.Lo scopo di UNL è quello di mettere in evidenza non tanto la sua struttura sintattica, quantopiuttosto il significato profondo del testo; come avremo modo di vedere più avanti, quandotratteremo dei componenti del sistema, UNL tratta le lingue come complesse reti concettualie quindi come sistemi che, in un certo senso, si possono considerare processi universali (ineffetti UNL esprime informazioni attraverso una classificazione sia dell’oggettività sia dellasoggettività).La missione del programma UNL, così come presentata dai suoi stessi ideatori, è quella dipromuovere, un sistema per una comunicazione multilingue, con lo scopo di permettere allepersone di condividere e accedere ad informazioni e conoscenza ed evitare così esclusionescientifica, economica e culturale, principi di pari opportunità tra popoli e culture sancitodalle Nazioni Unite.Proprio per questo motivo UNL è stato progettato per essere fruito via Internet: riuscire adabbattere anche le barriere linguistiche che si presentano navigando in rete dove circa l’80%dei documenti è redatto in inglese.

87Il sistema UNL si presenta come un insieme di server distribuiti in rete che condividono lostesso linguaggio per la trasmissione e decodifica di un testo; le sue componenti principalisono le “Specifiche” (relazioni ed attributi che servono per rappresentare gli oggetti del testodella lingua che si sta analizzando e per indicare il tipo di rapporto che si instaura tra di essi),un “Dizionario Universale” (dizionario di concetti) e la “Base di Conoscenza” (rete direlazioni tra concetti).Il ruolo dei server linguistici è quello di “convertire” e “deconvertire”, attraverso specificisoftware,una lingua naturale in linguaggio UNL e da questo in un’altra lingua naturale.Attualmente, le lingue che sono oggetto di studio per la progettazione di software UNL sonosedici: arabo, cinese, inglese, francese, russo, spagnolo, tedesco, hindi, italiano, indonesiano,giapponese, lettone, mongolo, portoghese, swahili e tailandese.5.2 COMPONENTILa natura universale del linguaggio UNL, la necessità di poterlo utilizzare nella stessa formaper tutte le lingue da trattare e la volontà di raggiungere un elevato grado di stabilità delsistema, sono caratteristiche assicurate dalla condivisione di alcuni elementi costitutivifondamentali: le Specifiche, il Dizionario delle Parole Universali e la Base di Conoscenza.Tutti questi componenti risultano essere tra loro strettamente interconnessi e interdipendenti.Figura 4: Schema dei componenti di UNL e loro collegamenti 9797 Tratto dal sito http://www.ias.unu.edu

885.2.1 SPECIFICHE: RELAZIONI e ATTRIBUTILe Specifiche (UNL Specifications) rappresentano gli elementi caratterizzanti delleespressioni scritte in linguaggio UNL.Possiamo individuare due ordini di elementi : le relazioni e gli attributi.!" RelazioniLe relazioni di UNL rappresentano un sistema economico e generale per poter collegare inmodo logico due elementi di una determinata espressione che si vuole rappresentare inlinguaggio UNL; per il fatto di collegare i diversi elementi a due a due, le relazioni vengonoanche dette “binarie”.Si hanno diversi tipi di relazioni, a seconda del rapporto logico che si vuole esprimere tra glielementi da collegare, come ad esempio agente, beneficiario, scopo, modificatori, etc.Ci sono due principi fondamentali che devono essere seguiti al momento di identificare lacorretta relazione esistente tra due concetti; innanzitutto una condizione NECESSARIA:quando una parola universale (concetto) instaura una relazione con più di due altre paroleuniversali, ciascuna “etichetta” legata alla relazione deve essere in grado di identificarla conil presupposto di avere abbastanza conoscenza rispetto al concetto espresso dalla parolauniversale.La seconda è una condizione SUFFICIENTE: ogni relazione deve essere scelta in modo cheil ruolo di ciascuna parola universale possa essere dedotto dal tipo di relazione scelto.Vediamo ora nel dettaglio le descrizione delle diverse relazioni, suddividendole per tipo:a) Relazioni riguardanti i partecipanti all’azione:AGT (agent): esprime il soggetto che compie l’azione; tale soggetto può essere una persona,un macchinario (dispositivo) o una cosa.Qualche esempio:!" Laura mangia una mela : agt(eat.@entry.@present, Laura)!" Il computer sta risolvendo l’equazione : agt(solve.@entry.@progressive,computer.@def)!" La procedura dà buoni risultati: agt(give.@entry.@present,procedura.@def)

89BEN (beneficiary): esprime il beneficiario o la vittima di un evento; il beneficiario non èperò direttamente relazionato con l’evento stesso. Si può trattare di una persona, una cosa,un’organizzazione, etc.Posso portarti le borse?: ben(carry.@entry.@interrogation.@politeness, you)Matteo lavora per l’università: ben(work.@entry, university)CAG (co-agent): esprime un soggetto che è posto in secondo piano rispetto a quelloprincipale e che intraprende parallelamente a questo una nuova situazione.Vivo qui con lei: agt(live.@entry, I)cag(live.@entry, she)plc(live.@entry, here)COB (affected co-thing): esprime una cosa o un persona che viene direttamente influenzatada un evento implicito che si sta svolgendo in parallelo rispetto a quello principale.È caduto in un fiume con la macchina: obj(fall.@entry.@past, he)gol(fall.@entry.@past, river)cob(fall.@entry.@past, car)OBJ (object): definisce l’oggetto che viene direttamente interessato dallo svolgimentodell’evento.Ho comprato un libro: agt(buy.@entry.@past, I)obj(buy.@entry.@past, book)PTN (partner): definisce la persona o la cosa indispensabili (diversi dal soggetto principale)perché si compia un’azione.Claudia è andata a parlare con i professori: agt(talk.@entry.@past, Claudia)ptn(talk.@entry.@past, teacher.@pl)b) Relazioni logicheAOJ (attribute of the object): esprime un attributo o un particolare stato nel quale si trovauna cosa.Manuela è avvocato : aoj(lawer.@entry,Manuela)Il giglio è un fiore: aoj(flower.@entry,lily)

90CAO (co-thing with attribute): esprime una situazione parallela a quella principaleUn cane con delle macchie: cao(spot.@pl, dog)AND (and): esprime la congiunzione copulativa.Leoni e leopardi cacciano le gazzelle : agt(chase.@entry.@present, :01)and :01(lion.@entry.@generic, leopard.@generic)obj(chase.@entry.@present, gazelle.@generic)OR (or): rappresenta la disgiunzione tra due concetti.Puoi fermarti o andare via: agt(:01.@entry, you)or :01(stay.@entry.@grant.@present, leave.@grant.@present)CNT (content): mette in relazione due concetti che sono equivalenti.Mia sorella, Silvia, lavora in un supermercato: cnt(sister.@pos, Silvia)NAM (name):definisce il nome di una cosa.La città di Milano: nam(city.@def.@entry, Milan)c) Relazioni che riguardano la situazione, l’evento:SRC (source): definisce lo stato in cui si trova un oggetto prima che inizi l’azione.Il semaforo è diventato da giallo a rosso: obj(change.@entry.@past, lightmod(light, traffic)src(change.@entry.@past, yellow)gol(change.@entry.@past, red)RSN (reason): definisce il motivo per cui vi verifica un evento.È scappato per paura del cane: rsn(escape.@entry, dog)Non esce perché si è ammalato: rsn(go.@entry.@present, sick)GOL (goal: final state): rappresenta lo stato finale nel quale si trova una cosa.Si sta ristabilendo: obj(get.@entry.@progress, he)gol(get.@entry.@progress, better)

91d) Relazioni condizionali:CON (condition): esprime la persona o la cosa che influenza l’evento o la situazioneprincipale.Giovanni mangerebbe meno se stesse male: agt(eat.@entry.@apodosis-real, “Giovanni”)aoj(be, “Giovanni”)con(eat.@entry.@apodosis-real, be)obj(be, sick)PUR (purpose): definisce lo scopo del soggetto che compie l’azionedell’esistenza di una cosa.Sono venuto a trovarti: agt(come.@entry.@present, I)pur(come.@entry, visit)obj(visit, you)o il motivoe) Relazioni di luogoSCN (scene): identifica un luogo virtuale nel quale si verifica un evento.Hanno dato questa notizia alla televisione: scn(give.@entry.@present, television)In sogno, ti ho visto a Roma: agt(see.@entry.@past, I)obj(see.@entry.@past, you)plc(you, Rome)scn(see.@entry.@past, dream)PLC (place): definisce il luogo nel quale avviene un avvenimento, dove si verifica uno statoo dove esiste una cosa.Mio fratello vive in Canada: plc(live.@entry.@present, Canada)PLF (initial place): definisce il luogo dove un evento inizia o uni stato diventa vero.Vengo da casa: plf(come.@entry.@present, home)PLT (final place): definisce il luogo dove termina un evento o uno stato diventa falso.Viaggeremo fino a Bruxel: agt(travel.@entry.@future, we)plt(travel.@entry.@future, Bruxel)

92VIA (via) : identifica un luogo o uno stato intermedio, di passaggio.Lo ha visto attraverso la finestra: via(see.@entry.@past, window.@def)agt(see.@entry.@past, she)obj(see.@entry.@past, he)OPL (affected place) : identifica il luogo interessato dall’evento.Gli ho dato una pacca sulla spalla: opl(pat, shoulder)f) Relazioni di tempo:TIM (time): definisce il momento in cui si verifica un evento.È arrivato alle otto: agt(arrive.@entry.@past, he)tim(arrive.@entry.@past, hour)mod(hour, 8)TMF (initial time): definisce il momento preciso in cui comincia un evento.L’incontro è iniziato alle 10: obj(start.@entry.@past, meeting.@def)tmf(start.@entry.@past, hour)mod(hour, 10)TMT (final time): definisce il momento in cui si conclude un evento.L’incontro fu posposto al giorno seguente: tmt(postpone.@entry.@past, tomorrow)obj(postpone.@entry.@past, meeting.@def)DUR (duration): definisce il periodo di entro entro il quale si svolge un evento o unasituazione.Lavoro otto ore al giorno: dur(work.@entry, hour.@pl)SEQ (sequence): identifica la sequenza con la quale si svolgono due eventi.Prima di attraversare, guarda: seq(cross.@entry, look)COO (co-occurence): esprime la relazione esistente tra due eventi o situazioni che sipresentano contemporaneamente.Mentre mangiava un gelato, inciampò: coo(eat.@entry, fall)

93g) Relazioni circostanziali:BAS (basis for expressing degree): è la relazione che viene usata per esprimere un grado,ad esempio in espressioni nelle quali compaiono aggettivi superlativi o comparativi.Mio fratello è più grande del tuo: bas(elder, you)Carlo è il più ricco tra tutti noi: bas(most, us)TO (to): identifica la destinazione di una persona o cosa.È questo il treno per Monaco?: to(train, Monaco.@entry)mod(train, this)INS (instrument): rappresenta il mezzo che si utilizza per raggiungere uno scopo.L’ho rotto con un martello: agt(break.@entry.@past, I)ins(break.@entry.@past, hammer)obj(break.@entry.@past, it)MAN (manner): definisce il modo con il quale avviene una cosa o identifica lecaratteristiche di un particolare stato.Parlo troppo: agt(talk.@entry.@present, I)man(talk.@entry.@present, much)man(much, too)MET (method): definisce il modo con il quale si vuole raggiungere uno scopo.Si può risolvere con un algoritmo: met(solve.@entry, algorithm)MOD (modification): definisce la relazione che esiste tra una cosa e il suo modificatore.Questa casa: mod(house.@entry, this)Capelli castani: mod(hair.@entry, brown)POF (part of): rappresenta la relazione tra due concetti, di cui uno è parte dell’altro.Il sedile posteriore dell’auto: pof(seat.@entry.@def, car)mod(seat.@entry.@def, back)Le pagine di un libro: pof(page.@entry.@pl.@def, book)

94POS (possessor): identifica il possessore di un oggetto.La sua matita: pos(pencil.@entry, she)FRM (from): definisce l’origine di una cosa.Ho ricevuto una lettera da Claudia: frm(letter.@entry, Claudia)h) Relazioni numerali:FMT (from-to): esprime uno spazio, in termini di distanza, peso, lunghezza, grado…, cheesiste tra due cose.Ho viaggiato dal Perù alla Colombia: fmt(Perù.@entry, Colombia)Per andare da casa all’ufficio ci metto mezz’ora: fmt(home.@entry, office)QUA (quantity): definisce la quantità di una cosa.Tre metri di stoffa: qua(meter.@pl, 3)PER (proportion, rate, distribution): definisce un grado di proporzione, una quota didistribuzione o un valore.Si fa vedere due volte al giorno: man(appear.@entry, twice)per(twice.@entry, day)La coppa America si tiene ogni due anni: per(twice, year.@pl)!" AttributiGli attributi delle parole universali, marcati dal simbolo “@”, servono per descrivere ciò chedi soggettivo c’è nella frase; hanno cioè il compito di mettere in evidenza la prospettiva delparlante in merito a quanto viene detto, le sue intenzioni, attitudini; inoltre forniscono unacollocazione temporale agli eventi, uno statuto di instanziato (conosciuto) o non-instanziato(sconosciuto) per gli oggetti di cui si parla e informazioni riguardanti il contesto entro ilquale si sviluppa l’evento stesso.Quello che è interessante osservare degli attributi, è la loro caratteristica di non esprimere deidati linguistici, ma delle informazioni pragmatiche e suprasegmentali che, spesso, possonocaratterizzare delle specifiche convenzioni culturali che si manifestano nel linguaggio.

95Grazie agli attributi, infatti, è possibile rappresentare il modo con cui ci si esprime in unaparticolare lingua in riferimento ad un determinato fatto; dobbiamo infatti ricordare che duelingue diverse hanno spesso una differente attitudine verso particolari fenomeni sociali:pensiamo ad esempio al giapponese e ai suoi numerosi modi di esprimere la reverenza inbase allo status sociale o allo spagnolo che scegli di utilizzare un tempo verbale piuttosto cheun altro a seconda della maggiore o minore probabilità che si verifichi un determinatoevento.Per poter quindi rappresentare le numerose attitudini, che danno luogo e diverse espressioniin lingue differenti, e proponendosi di coprire la più vasta gamma di possibilità, UNL haindividuato 61 attributi suddivisi in sette classi.Occorre notare che la lista degli attributi non è fissa, ma resta aperta: nel momento in cuinuove lingue volessero entrare a far parte del progetto e avessero particolari necessità diesprimere specifiche caratteristiche della lingua (ad esempio aspetti verbali), potrebberosempre inserirle nella lista.Vediamo ora quali sono le classi di attributi:a) posizione temporale dell’evento rispetto al narratore ( da notare che @present, @past,@future non hanno nulla a che vedere con i tempi linguistici propriamente detti; è questoil caso del cosiddetto “presente storico. Prendiamo ad esempio la frase “la terra èrotonda”: tale affermazione è vera sempre, indipendentemente dal tempo considerato. Inquesto caso l’espressione di UNL non avrebbe alcuna marca temporale)b) aspettoc) referenzad) enfasi posta su una particolare parte del discorsoe) attitudini del narratoref) punti di vista del parlanteg) convenzionia) La prima classe è costituita da attributi che esprimono le relazioni esistenti tra l’evento e iltempo in cui si verifica, con riferimento al narratore:@past: evento che si è svolto in un momento precedente rispetto a quello della narrazione.Ieri sono andato al cinema: agt(go.@entry@past,I)@present: evento che si realizza nel momento stesso della narrazioneMangio una mela: agt(eat.@entry@present.@,I)@future: l’evento si svolgerà in momento successivo rispetto a quello della narrazione.

96Luca arriverà domani: agt(arrive.@entry.@future,Luca)b) Alla seconda classe appartengono gli attributi che esprimono la collocazione temporale diun evento così come viene percepita dal narratore; è l’enfasi che il narratore pone su unadeterminata parte dell’evento.@begin: indica l’inizio di un eventoHo cominciato a lavorare: agt(work.@entry.@begin, I)@complete: indica il momento in cui un evento si è definitivamente concluso.Ho finito di leggere il romanzo: agt(read.@entry.@complete, I)@continue: esprime che un evento è in svolgimento.Ha continuato a parlare per ore: agt(talk.@entry.@continue.@past, he)@custom: si riferisce ad un evento svolto con abitudine, consueto.Quando ero bambino studiavo molto: agt(study.@entry.@custom.@past, I)@end: esprime la fine di un evento [la differenza con @complete ?]Sta smettendo di piovere: obj(stop.@entry.@end, rain)@experience: esprime un’esperienza.Hai mai visitato Londra?: agt(visit.@entry.@experience.@interrogation, you)obj(visit.@entry.@experience.@interrogation, London)@progress: esprime un evento in svolgimentoSto mangiando: agt(est.@entry.@progress, I)@repeat: esprime la ripetizione di un evento; la differenza con l’attributo @custom consistenell’indicare o meno la consuetudine nel ripetere una determinata azione.La palla continua a rimbalzare: obj(bounce.@entry.@present.@repeat, ball.@def)man(bounce.@entry.@present.@repeat, still)@state: identifica gli effetti permanenti che si sono verificati a seguito di un particolareevento.Accanto a questi attributi è possibile affiancare dei modificatori che consentono dispecificare meglio l’attributo.@just: indica se un evento si è appena concluso oppure è appena iniziato.Ho appena finito di cucinare: agt(cook.@entry.@end.@just, I)@begin_soon: esprime un evento o una condizione che è sul punto di verificarsi.Il treno sta per partire : agt(leave.@begin_soon, train)

97@yet: esprime un evento o una condizione che non è ancora iniziata o non si è ancoraconclusa; viene accompagnato da @not.Non ho ancora finito i compiti: agt(finish.@entry.@present.@not.@yet, I).@repeat / @continueAccaduto@progress@state@begin_soon@begin_just@complete_soon@complete_just@end_soonNon accaduto@begin@end@complete/@experience/@customc) Esistono poi attributi che specificano se l’oggetto del quale si sta parlando è conosciuto(definito), non conosciuto (indefinito) oppure un’entità generica. Questi attributi rendonoesplicita la referenza del parlante.Pensiamo ad esempio all’espressione “la casa”: non è possibile stabilire se si sta parlando delgenere delle case oppure se ci si sta riferendo ad una casa in particolare. È quindi necessariospecificare il tipo di referenza.@generic: identifica un oggetto generico.Il cane è un animale leale: aoj(animal.@entry, dog.@generic)@def: identifica un oggetto specifico del quale si è già parlato nel testo.La casa all’angolo è in vendita: plc(corner.@def, house.@def)@indef: si riferisce ad un oggetto non specificato.Un amico è venuto a parlarmi: agt(talk.@entry.@past, friend.@indef)A questi attributi possiamo aggiungere anche:@not: esprime una negazione e viene affiancato alla parola che nega.Non è venuto: agt(come.@entry.@past.@not, he)

98Non è Italiano: aoj(italian.@entry.@not, he)@ordinal: serve per indicare numeri ordinaliAbitiamo al secondo piano: plc(live.@entry.@present, 2.@order)d) Alla quarta classe appartengono attributi che vengono utilizzati per sottolinearel’importanza di una parte della frase per mostrare l’importanza che il narratore attribuiscealla situazione descritta.@entry: marca il termine a partire dal quale si costruisce tutta l’espressione o lo scope.Mi promise che sarebbe venuto: agt(come.@intention, he)obj(promise.@entry.@past, come.@intention)agt(promise.@entry.@past, he)@emphasis: pone in evidenza un elemento particolare all’interno della frase.Velocemente è un avverbio: mod(adverb, it)aoj(quicky.@emphasis.@entry, adverb)@qfocus: mette in evidenza una parte particolare dell’espressione; nella maggior parte deicasi viene utilizzato in frasi interrogative.Chi è nato a Milano? : obj(be born.@entry.@past.@interrogative, who.@qfocus.@topic)plc(bear.@entry.@past.@interrogative, Milan)Stai dipingendo la cucina di verde?: obj(paint.@entry.@continue.@interrogative,kitchen.@qfocus)agt(paint.@entry.@past.@interrogative, you)aoj(kitchen.@qfocus, green)@title: identifica il titolo di un documento, articolo o paragrafo.@topic: mette in evidenza l’oggetto di cui si parla nelle frasi passivea) Alla quinta classe, appartengono attributi che esprimono l’attitudine del narratore e i suoisentimenti riguardo l’evento.@affirmative: esprime un’affermazione.@confirmation: esprime conferma.Ti fermi, vero ?@exclamation: esprime un’esclamazione.Guarda!@imperative: indica un ordine.Sei pregato di lasciare la stanza.

99@interrogative: esprime una domanda.Chi è lui?@invitation: indica l’incoraggiamento a fare qualche cosa.Vuoi del tè?@politeness: indica che è stato usato un tono di cortesia nell’espressionePotresti prendermi la borsa?@respect: serve per indicare rispetto nei confronti della persona alla quale ci si rivolgeBuongiorno, signore.@vocative: esprime un’esortazione.Ragazzi, siate ambiziosi!f) La sesta classe è tra le più importanti e vaste; è formata dagli attributi che esprimo ilpunto di vista del parlante rispetto all’evento che si svolge o all’azione di cui è statotestimone.@ability: esprime la capacità di fare qualche cosaGiovanni parla molto bene il francese: agt(speak.@entry.@ability, Giovanni)@apodosis-real: indica la frase principale che, all’interno di una proposizione ipotetica, sirelaizzarà.Se vieni, cucino il tuo piatto preferito:@apodosis-unreal: all’interno di una proposizione ipotetica, indica la frase che avrebbepotuto realizzarsi.Se fossi venuto, ti saresti divertito.@apodosis-cond: esprime la condizione necessaria alla realizzazione di un evento.Se non lo limitassi, fumerebbe troppo.@conclusion: esprime la conseguenza dovuta ad un particolare evento o situazione.Luca lavora e quindi è impegnato tutto il giorno.@expectation: esprime le aspettative derivanti da un’azione.Se glielo domandi , ti aiuterà: agt(help.@entry.@future.@expectation, he)@grant: indica un consenso.Puoi andare al cinema: agt(go.@entry.@grant, you)@insistence: indica un’insistenza nel voler compiere un’azioneVado io dal panettiere: agt(go.@entry.@present, I.@insistence)@intention: indica la volontà di fare qualche cosa.Voglio comprare un libro: agt(buy.@entry.@intention, I)

100Farei una passeggiata: agt(hike.@entry.@intention, I)@inevitability: esprime l’inevitabilità della realizzazione di un particolare evento.@may: indica la possibilità concreta di fare qualche cosaPotrei andare a casa di Luigi: agt(go.@entry.@may, I)@obligation: indica un obbligo imposto a qualcuno.Devi andare dalla nonna: agt(go.@entry.@obligation, you)@possibility: esprime la possibilità che un evento si realizzi, rispetto a @may ha unaconnotazione più positiva, nel senso che la possibilità è più reale.Può accadere che non si raggiunga un accordo.@probability: indica una probabilità.Probabilmente parto domani: agt(leave.@entry.@probability, I)@should to fell duty: indica l’atteggiamento per cui ci si sente in dovere di fare unadeterminata cosa.Dovrei studiare di più: agt(study.@entry.@should to fell duty, I)@unexpectedpresumption: esprime una supposizione contraria alle aspettative.Sono spiacente che debba essere accaduto: obj(be disappointed.@entry.@unexpectedpresumption,it)@unexpected-aspettative: conseguenza contraria rispetto ai propri desideri.Avrei voluto che l’affare si concludesse.@will: esprime una volontà; è più forte rispetto a @intention.g) La classe delle convenzioni rappresenta una classe più marginale rispetto alle altre; aquesta categoria, infatti, appartengono attributi che non servono per specificare statid’animo del narratore, i suoi punti di vista o per mettere in evidenza particolari paroleall’interno delle frasi, ma vengono utilizzati per inserire dei simboli.@pl: serve per indicare che un nome appare nella sua forma plurale.Due persone: qua(person.@pl.@entry, 2)@angle_bracket :viene usato > oppure

1015.2.2 DIZIONARIO delle PAROLE UNIVERSALIAbbiamo già detto che UNL, per la rappresentazione delle espressioni, utilizza i concetti; taliconcetti sono espressi in base a classi, categorie di oggetti e vengono raccolti nel Dizionariodelle Parole Universali.Come abbiamo avuto modo di notare presentando alcuni esempi nella sezione relativa allerelazioni, i concetti sono espressi mediante l’uso convenzionale di parole inglesi, accantoalle quali vengono indicate tra parentesi le categorie di appartenenza.Facciamo un esempio pratico: pensiamo di voler scrivere nel linguaggio UNL l’espressione“Oggi Giovanni compra un libro recente di storia a sua sorella”.La sua rappresentazione grafica che tenga conto delle relazioni che intercorrono tra glielementi sarà:recenteGiovannimodalitàagenteoggettolibromodalitàsorellabeneficiariocomprarestoriapossessoretempo(sua)GiovannioggiVediamo ora come vengono espressi tali concetti con l’utilizzo delle parole universali:sorella = sister(icl>relationship)comprare = buy(icl>action)libro = book(icl>thing)storia = history(icl>domain)recente = new published(equ>recent)

102Quindi la stessa frase sarà scritta nel linguaggio UNL nel seguente modo:agt(buy(icl>action).@entry.@present, Giovanni)ogj(buy(icl>action).@entry.@present, book(icl>thing).@indef)mod(book(icl>thing).@indef, history(icl>domain))mod(book(icl>thing).@indef, new published(equ>recent))ben(buy(icl>action).@entry.@present, sister(icl>relationship))pos(Giovanni, sister(icl>relationship))La grafica sarà quindi:GiovannimodNewpublishedagtobjBook(icl>thingmodSister(icl>relationsbenBuy(icl>actionHistory(icl>domainpostim(he)GiovannitodayIl fatto di definire le caratteristiche di un concetto per meglio determinarne l’esattosignificato, è uno dei punti di forza di UNL, che permette di scrivere una data espressione inmodo non ambiguo. Abbiamo infatti già avuto modo di sottolineare quanto l’ambiguitàsemantica rappresenti lo scoglio maggiore da dover superare per poter ottenere dei buonirisultati in un sistema di traduzione automatica.Per meglio chiarire questo punto, prendiamo in considerazione la parola “swallow”; neldizionario delle parole universali, troviamo tre differenti rappresentazioni:swallow(icl>bird)swallow(icl>action)

103swallow(icl>quantity)Tutte queste rappresentazioni si riferiscono a tre concetti ben distinti: rondine, ingoiare eboccone.Proprio per favorire una completa disambiguazione, nel sistema UNL esistono diversi tipi diparole universali, ciascuno dei quali serve per poter meglio specificare le caratteristiche chedevono essere affiancate al concetto per meglio definirlo.!" Basic UW: sono le parole inglesi che non comportano alcuna restrizione di significato;possono essere considerate come un’etichetta che è valida per tutto un insieme diconcetti espressi con quelle parole.!" Restricted UW: sono ottenute affiancando alle Basic UW delle restrizioni; rappresentanoun sottoinsieme di concetti, concetti più specifici.Ad esempio, le tre parole universali che vengono utilizzate per rappresentare i concetti legatia “swallow”, fanno parte di questa categoria.Le Restricted UW consentono al sistema di identificare correttamente quale sia il concettospecifico che deve essere applicato in un particolare contesto.Se in una specifica lingua non si dovesse trovare il corrispondente concetto nel dizionariodelle parole universali, il sistema ha la possibilità di risalire nell’ontologia (Base diConoscenza) al concetto superiore, vale a dire meno specifico, che lo include.Sono state stabilite sette categorie di concetti, ciascuna delle quali contiene dellesottocategorie; queste sono “thing”, “do”, “occur”, “be”, “how”, “mod

104La parola straniera viene usata come Basic UW, alla quale vengono poi affiancate lecaratteristiche adeguate per restringere il dominio e identificare il concetto più vasto ai qualitali parole appartengono.Ad esempio, la parola giapponese “tatami”, o quella italiana “murano”, non trovano lacorrispondente inglese.La loro rappresentazione nel linguaggio UNL sarà quindi:tatami(icl>thing), che indica l’appartenenza alla categoria degli oggetti;murano(icl>glass, aoj>colourful), cioè tipo di vetro dai molti colori.!" Compound UW: la particolarità di queste parole universali è quella di non trovarsi neldizionario; si tratta infatti di insiemi di parole universali già esistenti che vengonocollegate tra loro attraverso relazioni.Il motivo per cui le Compound UW si trovano solo nei documenti UNL, risiede nel fatto cherappresentano dei concetti complessi esistenti solo in determinati contesti.Prendiamo come esempio la frase “Si dovrebbe chiedere alle donne che indossano grandicappelli al cinema di andarsene.Graficamente tale espressione assumerà la forma:Si dovrebbechiederegolDonne cheindossano grandicappelli alcinemaobjdi andarseneagtVogliamo ora analizzare il nodo “donne che indossano grandi cappelli al cinema”; in essosono presenti concetti semplici, quali donna, indossare, grande, cappello e cinema.Nel linguaggio UNL, ad ogni concetto complesso viene assegnato un codice numerico inmodo che venga analizzato dal sistema come un’unica parola universale.La frase viene quindi scritta nel seguente modo:

105agt:01(wear(icl>do), woman(icl>person).@pl)obj:01(wear(icl>do), hat(icl>thing))aoj:01(big(aoj>thing), hat(icl>thing))plc:01(wear(icl>do), cinema(ocl>place))donne indossareindossare cappellocappello grandeindossare al cinemaÈ interessante notare come le parole universali “compound” possono essere la base per larisoluzione delle espressioni idiomatiche; abbiamo infatti avuto modo di vedere quali equanti siano i problemi legati alla loro rappresentazione e traduzione (interpretazionesemantica deducibile dal significato dei suoi componenti, parti che flettono, non contiguitàdegli elementi, etc).Trattare le espressioni idiomatiche come “scope” (concetto unico formato da più elementi)permetterebbe non solo di farne un’accurata analisi semantica (vengono infatti giàrappresentate sulla base dei concetti e relazioni che intercorrono con le altre parti dellafrase), ma anche di tenere conto in un unico passaggio di tutte le possibili variazioni che leinteressano.!" Temporary UW : sono categorie di parole sconosciute che si trovano solo nei documentiUNL, ma non hanno alcuna entrata nel dizionario delle parole universali o nella base diconoscenza (ad esempio in nomi propri vengono indicati come “Temporary UW”).5.2.3 BASE di CONOSCENZALa Base di Conoscenza (KB) del sistema UNL, si configura come una rete molto estesa chedefinisce tutte le possibili relazioni esistenti tra i concetti (la parole universali) utilizzati perla rappresentazione il linguaggio UNL; ogni concetto assume all’interno della base diconoscenza una determinata posizione che contribuisce all’organizzazione della“conoscenza” generale del sistema”.La funzione principale della base di conoscenza è quella di creare omogeneità neltrattamento di concetti per tutte le lingue: infatti le risorse linguistiche specifiche per ognilingua, vale a dire le grammatiche e i dizionari monolingue, sono strettamente legati sia aldizionario delle parole universali sia alla base di conoscenza.

106I concetti rappresentati nella base di conoscenza seguono un’organizzazione gerarchica;questo aspetto risulta particolarmente importante nel momento in cui un determinatoconcetto non viene espresso in una specifica lingua.Grazie alla struttura gerarchica è possibile risalire al concetto più generale che include quellomeno specifico del quale si vuole identificare il significato.Per meglio chiarire questo aspetto, presentiamo una schematizzazione della struttura dellabase di conoscenza.thingAbstract thingtime place Concrete thingeventstatemannerdomaniactionphenomenonlentamentescuolaanimalpofpofconosceredogdooccur“bere”nevicareFigura 5: Schema dell’organizzazione della Base di Conoscenza 98In altre parole, nella base di conoscenza si può identificare un determinato concettoseguendo la linea generale>particolare, per cui “cane” viene definito come cosa>oggetto98 Tratta da F. Cabrini, Universal Networking Language: dal mito della Lingua Universale al “traduttore”globale, Tesi, Università Cattolica, Facoltà di Scienze Politiche, Aprile 2001

107concreto>animale>cane; oppure “scuola” è definita come facente parte delle coseappartenenti alla categoria dei “luoghi”.5.3 MASTER DICTIONARYIl Master Dictionary ha la funzione chiave di raccogliere le informazioni riguardanti icollegamenti che instaurano tra il Dizionario di Lingua 99 , il Dizionario delle ParoleUniversali e la Base di Conoscenza.Il dizionario contiene le seguenti informazioni:1) Lemma (o multi-word) di una lingua specifica2) Parola Universale (concetto) legato a quel lemma (o multi-word)3) Caratteristiche morfo-sinatticheLe relazioni che si instaurano tra parole universali sono definite nella base di conoscenzasecondo un ordine gerarchico; le parole inglesi che vengono utilizzate per descrivere unconcetto possono però essere ambigue in quanto racchiudono tutti possibili significati che laparola inglese ha; per questo è necessario individuare le opportune restrizioni di significatosfruttando l’organizzazione gerarchica della Base di Conoscenza.Da ultimo le informazioni morfo-sintattiche legate alla parola sono descritte in termini diliste di proprietà riguardo alle classi flessionli, parte del discorso, genere, numero, insiemead altre proprietà sintattiche (ad esempio indicazione se il verbo principale è transitivo omeno, se regge verbi ausiliari oppure no, etc).Data la sua struttura e il tipo di informazioni che contiene, quindi, il Master Dictionary ha lafunzione principale di fornire indicazioni durante la traduzione nel caso in cui unadeterminata parola non venga rintracciata nel dizionario di lingua: è possibile rintracciarenella base di conoscenza il concetto gerarchicamente superiore (cioè più vasto) legato aquella determinata parola. Proprio per questa sua funzione, il dizionario consente dirigenerare il dizionario di lingua e di aggiornare la Base di Conoscenza e il Dizionario delleParole Universali.99 Cfr.p. 108

108Interessante notare come sia attualmente allo studio la possibilità di utilizzare MILE 100 comepossibile entrata del Master Dictionary; ecco uno schema di mappatura:MASTER DICTIONARYParole universaliRelazioni tra parole universaliProprietà morfo-sintatticheMILEConcetti multilingueRelazioni multilingue tra concettiComponenti delle SynU e MUQuesto studio dimostra ancora una volta la vocazione del linguaggio UNL di presentarsicome un sistema in grado di trattare in modo completo e flessibile le problematiche dirappresentazione legate al multilinguismo.5.4 DIZIONARIO di CO-OCCORRENZELe informazioni contenute nel dizionario di co-occorrenze hanno un carattere pragmatico. InUNL una parola universale è spesso rappresentata da più di una parola; le informazionipragmatiche vengono usate per selezionare la parola adeguata in fase di deconversione.Tali informazioni pragmatiche vengono fornite attraverso le definizioni delle relazioni di cooccorrenzache si possono instaurare tra due parole all’interno della stessa frase.Prendiamo ad esempio le espressioni “Luca guida una macchina” e “Luca guida unaeroplano”: il verbo guidare può instaurare una relazione di co-occorrenza con la parola“macchina”, ma non con “aeroplano” per cui si dovrebbe utilizzare il verbo “pilotare”.Per stabilire quindi quale sia la parola corretta, il Dizionario di Co-occorrenze è strettamentecorrelato con il Dizionario di Lingua, il Dizionario di Parole Universali e la Base diConoscenza.Per quanto riguarda la fase di generazione, il dizionario delle co-occorrenze fornisceinformazioni riguardanti la redazione di ciascun linguaggio particolare sulla base dellerelazioni di co-occorrenza tra verbi e sostantivi, tra coppie di sostantivi, preposizioni, etc.Quando il De-Converter applica una regola nella quale viene indicata una co-occorrenza, ilsoftware consulta il dizionario di co-occorrenze e verifica tutte le possibili combinazioni diparole; viene scelta quella che ha il più alto grado di plausibilità.100 Cfr. p. 79

109Ad esempio la parola “forte” ha come corrispondenti di significato “potente” e “robusto”; lascelta di una o dell’altra parola dipende dalle proprietà dell’oggetto che va a modificare: ilsostantivo “personalità” ha come modificatore più appropriato “forte” piuttosto che“potente”, così come “corporatura” instaura una relazione di co-occorrenza più plausibilecon “robusto” piuttosto che con “potente”.Il collegamento che tale dizionario insatura con la Base di Conoscenza è fondamenatle per larisoluzione del problema delle collocazioni. 101Abbiamo detto, infatti, che le co-occorrenze si basano sulle relazioni che si creano tra dueparole; la scelta della parte variabile dell’espressione dipende dalle proprietà dell’oggettoche si va a modificare.Il collegamento con la Base di Conoscenza permette proprio di selezionare i concetti (e poile relative specifiche parole grazie al Dizionario di Lingua) sulla base di determinatecaratteristiche semantiche di certe specifiche relazioni.5.5 IL SERVER LINGUISTICO 102Fino ad ora abbiamo esaminato gli elementi e la metodologia per costruire espressioni inlinguaggio UNL; a questo punto è necessario descrivere l’esatto funzionamento del sistema.Il cuore di UNL è costituito da server linguistici, specifici per ogni lingua, che sono collegatiattraverso Internet e contengono i software dedicati alla conversione e deconversione dilinguaggi naturali, accanto alle specifiche risorse linguistiche proprie di lingue particolari(dizionario e grammatiche).Legati ai server linguistici, esistono delle interfacce che consentono all’utente di potersicollegare ai server linguistici stessi; questi sono l’Editor (legato alla fase di conversione) e ilViewer (per la deconversione).101 Cfr.p. 70 ss.102 Immagini tratte da http://www.unl.ias.unu.edu/unlsys/introduction_main.html

110!" ENCONVERTERL’Enconverter è un parser indipendente dalle specifiche caratteristiche di lingue particolari ilcui compito è quello di trasformare un testo scritto in un particolare linguaggio naturale inlinguaggio UNL. La sua caratteristica principale è quella di avere una grammatica in gradocontenente pacchetti di regole in grado di riconoscere i vari elementi di un testo quali le frasie, all’interno di queste i concetti e le relazioni che si stabiliscono tra essi.Strettamente legato all’Enconverter a alla grammatica di lingua, sono i Dizionari di Lingua(un unico dizionario per la fase di conversione e deconversione): essi contengonoinformazioni in merito alla radice della parola, la parola universale ad essa legata con lerelative restrizioni, le categorie grammaticali, la morfologia (flessioni), le struttureargomentali, le reggenze verbali. 103La fase della conversione è il nodo cruciale per il funzionamento del sistema in quantofornire delle espressioni UNL corrette e non ambigue influenza la buona riuscita delladeconversione; abbiamo però già avuto modo di notare, trattando le tecniche di analisi103 Un buono sviluppo dei dizionari di lingua è di fondamentale importanza per la buona riuscitadell’enconversione: infatti, le informazioni relative a ciasun lemma dovrebbero portare ad una disambiguazionesintattica in grado di identificare la giusta relazione tra concetti.

111semantica 104 , che il problema della risoluzione dell’ambiguità è ancora aperto e dibattutonell’ambito della linguistica computazionale.Gli enconvertitori attualmente attivi non sono ancora in grado di risolvere appieno talidifficoltà di interpretazione e si sono quindi studiate strategie alternative per la fase dideconversione: da un lato, eseguire un post-editing manuale dell’output e, dall’altroricorrere ad un Editor 105 specializzato La prima soluzione prevede una conoscenza piuttostoapprofondita del linguaggio UNL ed è quindi necessaria la formazione di tecnicispecializzati; nel secondo caso, invece, l’Editor scambia delle informazioni con l’utentedomandando, ad esempio chi è l’agente, se esiste un attributo per il verbo, il soggetto ol’oggetto, etc. con questa seconda soluzione, l’Editor prende la forma dei numerosi softwareche svolgono la funzione di help in linea senza che sia necessaria una preparazione tecnicaapprofondita.Nonostante queste difficoltà, resta il pregio notevole dell’Enconverter di restare indipendentedalle specifiche delle lingue, mentre abbiamo visto che altri sistemi di traduzione automaticauytilizzano le regole come parte integrante del software. 106!" DECONVERTERIl DeConverter è stato pensato come un generatore di linguaggio naturale, indipendente daspecifiche lingue; è in grado di fornire generazione morfologica e sintattica, insieme ad unaselezione di parole fatta sulla base delle co-occorrenze.In questo modo il DeConverter può deconvertire le espressioni UNL, sviluppatedall’Enconverter, in un linguaggio naturale facendo uso del Dizionario di lingua, delleregole della grammatica della lingua e del Dizionario delle Co-occorrenze.Vediamo ora schematicamente come si sviluppa UNL in rete:104 Cfr. p. 27 ss.105 Con Editor si vuole qui indicare u ‘interfaccia di dialogo con l’utente.106 Cfr. i sistemi Systran e Ariane p. 53 e p. 58

1121. Il processo di conversione e deconversione vengono forniti dal server linguistico; inquesto caso nel processo di traduzione sono implicati i server dell’arabo e dellospagnolo.2. Quando viene sviluppata una pagina in un determinato linguaggio naturale (in questocaso l’arabo), entra in azione l’Editor che ha il compito di riconoscere il tipo di linguache è stato utilizzato per poi mandare il testo al centro linguistico specifico per laconversione. Una volta che il testo è scritto in UNL, il server rispedisce il testoall’Editor; a questo punto è possibile inserire la versione di UNL in rete.

1133. Il Viewer riconosce il contenuto di una pagina scritta in UNL ed invia la richiesta dideconversione al centro linguistico scelto per la traduzione (in questo caso quello spagnolo).4 Una volta deconvertito, il testo viene rispedito al Viewer.

1145. Lo stesso procedimento mostrato per l’arabo e lo spagnolo può essere effettuato per tuttele altre lingue.Il sistema UNL può essere utilizzato in molti campi di applicazione; non è difficileimmaginare il suo impiego nel settore dell’ e-commerce, della medicina, del lavoro, dellelibrerie e dell’intrattenimento in generale.Inoltre UNL ha possibilità di impiego in altre tecnologie, quali ad esempio il riconoscimentoautomatico della voce, favorendo una comunicazione virtuale (come nelle numeroseuniversità virtuali).Possiamo comunque individuare delle applicazioni più concrete del sistema, come ilMultilingual Information Access, Information Retrieval, motori di ricerca in Internet, sistemiesperti e la traduzione automatica, quadro entro il quale UNL è stato inserito in questamonografia.Vediamo ora come sono correlati gli elementi presenti nel sistema UNL che abbiamotrattato:

115&" SPECIFICHE :!" Relazioni!" Attributi&" PAROLE UNIVERSALI&" BASE di CONOSCENZASERVER LINGUISTICO&" Grammatica&" “Enconverter”&" “Deconverter”&" Dizionario di LinguaMASTER DICTIONARYDIZIONARIO di CO-OCCORRENZEI rapporti esistenti tra i diversi componenti consente al sistema di essere:1) ASTRATTO: è indipendente dalle specifiche lingue; i software di conversione edeconversione possono essere utilizzati per qualsiasi lingua;2) COMPATTO: è formato da pochi elementi; abbiamo visto come in altri sistemi (vediSystran), per ciascun passaggio dell’analisi sia necessario un modulo specifico;3) NON AMBIGUO: si basa sull’universalità della rappresentazione degli oggetti;4) ESAUSTIVO: comprende tutte le relazioni logiche che si possono stabilire tra i concettiche rappresentano la conoscenza del mondo; abbiamo infatti visto che la lista degliattributi è sempre aggiornabile così da poter comprendere ogni aspetto delle lingue chevengono trattate con questo sistema.

116CONCLUSIONIIn questo lavoro ho voluto mettere in evidenza quale sia il ruolo svolto dalla traduzioneautomatica in un contesto multilingue, proprio della nostra società, e le numeroseproblematiche di carattere tecnico-scientifico ad essa legate.La traduzione automatica trova la sua giustificazione nel tentativo di fornire uno strumentoin grado di agevolare una comunicazione multilingue: il livello di professionalità deitraduttori umani non viene certo messo in discussione, né tantomeno è oggi pensabileottenere delle traduzioni automatiche che raggiungano gli stessi risultati qualitativi.È altrettanto vero, però, che le richieste di traduzioni aumentano oggi in manieraesponenziale e difficilmente un traduttore professionista può sopperire a tutte le necessità;inoltre, ci sono lingue che restano escluse dai normali circuiti di comunicazioneinternazionale, me hanno lo stesso diritto – in quanto veicolo di cultura ed espressione diidentità di un popolo – di trovare un posto sul mercato.Per meglio inquadrare il problema, ho prima evidenziato i procedimenti di analisi dellinguaggio naturale proposti dal Natural Language Processing, un campo di ricerca checoinvolge tecniche computazionali e teoria linguistica. La creazione di un modellocomputazionale per l’analisi del linguaggio naturale, deve essere in grado di trattare i diversilivelli linguistici che riguardano una lingua; quindi, sono stati creati analizzatori morfologici,sintattici, semantici e del discorso.L’analisi di questi aspetti è il cuore dei sistemi di traduzione automatica; indipendentementedalla strategia adottata per compiere la traduzione (diretta, transfer, interlingua), si è vistoquanto siano diverse le soluzioni adottate per ciascuna di queste fasi di analisi.In modo particolare è l’interpretazione semantica che costituisce un fattore discriminante dirilievo per ottenere buoni risultati in traduzione; il metodo che sembra essere più adeguatoper questo scopo è l’utilizzazione delle cosiddette “reti semantiche”; le reti semantiche sonoschemi di rappresentazione della conoscenza attraverso l’identificazione di relazioni logichetra concetti. In questo modo si tende a raggiungere una sorta di “universalità” interpretativadel linguaggio applicabile a tutte le lingue, slegandosi così dalle specifiche proprietà dilingue particolari.La volontà di individuare un metodo per la rappresentazione della conoscenza è alla base deisistemi di traduzione automatica ad approccio interlingua, che si propongono proprio comemeta-linguaggi di passaggio tra due qualsiasi lingue; la differenza sostanziale tral’interlingua e il transfer risiede proprio nei presupposti teorici di base, per cui il transfer si

117propone di creare moduli di analisi e generazione di linguaggio naturale considerando lecaratteristiche proprie di una sola coppia specifica di lingue.Nella mia ricerca ho avuto modo di constatare che la tendenza a creare standard dirappresentazione multilingue, si ritrova non soltanto nei diversi approcci adottati per latraduzione automatica, ma anche nella costruzione delle risorse linguistiche che entrano a farparte di tali sistemi; prova ne sono i diversi progetti internazionali per la nascita di dizionarimonolingue che contengono lo stesso genere di informazioni legate ai lemmi e strutturatisecondo i medesimi criteri, ma soprattutto il progetto per l’organizzazione di una entratamultilingue del dizionario.Dato che l’argomento principale del lavoro è quello di mostrare gli strumenti di analisi eddel linguaggio naturale, presentando in modo particolare la traduzione automatica comestrumento in grado di rispondere alle esigenze del multilinguismo, ho voluto esporre unprogetto, tuttora in evoluzione, che si propone come mezzo per la presentazione multilinguedi documenti: UNL (Universal Networking Language).UNL è un linguaggio elettronico per computer, da usare attraverso Internet, la cui filosofia sifonda sul presupposto di poter convertire e deconvertire linguaggi naturali passando per unlinguaggio intermedio (interlingua); le risorse linguistiche adottate da tale sistema trattanoprimariamente concetti e relazioni che si vengono a creare tra essi, collegandosi a dizionari egrammatiche specifiche di lingue particolari per poter creare espressioni in UNL e da questetradurle in altro linguaggio naturale.Il fatto di poter essere utilizzato via Internet, il mezzo di comunicazione più diffuso e incontinua crescita, e la sua caratteristica di proporsi come interlingua, fanno di UNL unostrumento tra i più adeguati per fornire uguaglianza di opportunità economiche, sociali, diinformazione, di progresso, di scambio e conoscenza culturale abbattendo l’ultima barrieradi discriminazione tra popoli: la differenza linguistica.

118SUMMARYIn this work I tried to focus my attention on the main problems that machine translationbrings as the new way of considering the treatment of natural languages in a multilingualcontext. In the first part of my dissertation I tried to show the most remarkable topicsconcerning linguistic and theoretical aspects of translation in general, especially the use ofcomputational methods for the analysis of natural language.I then outlined the main facts about machine translation: a brief history, the strategiesadopted to develop translation systems (some concrete examples of prototypes andcommercial systems are given), resolution of all the problems strictly connected to thepeculiarities of different languages involved in the translation process; in particular there is aspecial section dedicated to multilingual lexicons and the challange for the creation ofstandards in building dictionaries whose information about the entries are intended to belanguage independent.In the last part I present the UNL project, the core of the thesis. It’s a system currently beingdeveloped and, above all, created and structured to answer the needs of our multilingualsociety.TranslationWhen we think about translation, we often consider it as a simple tranfer of words from alanguage to another; but we should not forget that a language is the vision of the world givenby a particular population, by the community that uses that specific language: this is whytranslation is a priviledged way to communicate culture and should be considered from thispoint of view.So, how can we recognize a good translation?We can distinguish four criteria:1. Correspondence of internal structure;2. Stability in the method of translation;3. Accuracy in the representation of the text;4. Equivalence in meaning.

119Speaking about machine translation can get one think about a totally new process; this ispartially true, but the problem of translation itself can be traced back in the origin oflinguistics. Even if not in a specific way, Saussure pointed out that a language is a set ofsocial acts, of conventions that allow an efficient communication; in this sense we can thinkof translation as the way a people represent its own experiences of the world. Referring tothe translation process in a more explicit way, Roman Jackobson justifies it not only from atheoretical point of view, but also recognizes it as a fundamental moment of the semioticprocess; in other words, there is a process of translation every time that a person has tointerpret a sentence even if it is pronounced in his native language.But it is probably Noam Chomsky the one who gave the greatest support to the theory oftranslation: in his “Syntactic Structure” he proposed a representation of the sentence thatconsiders the distinction between superficial and deep structure so that it is possible todisassemble the sentence into different linked syntagmas; we have to notice that this methodof representation by means of internal and dependency relations between syntagmas is usedin many machine translation systems in the phase of syntactic analysis.As regards semantics, there is a linguistic theory, Generative Semantics, that treats theproblem of interpretation of sentences; starting from the observations made by Chomsky,many linguists assumed that representation and identification of meaning could be derivedby the previous syntactic analysis. Even if this theory does not consider one of the cricialproblems of translation, that is contestualization, it is useful to notice that in some machinetranslation systems the output of the syntactic analyzer is used as the input for the semanticmodule.Natural Language ProcessingSince computers made their appearance on the market, language has been one the mostinteresting targets to work on; this is why development and improvement of different NaturalLanguage Processing applications is necessary to answer the varigated requests of a societyin need of fast, efficient and easier communication, facilities for the management of work,tools to make information more accessible.Here are the different fields of research:1. Human-man interaction for information retrieval using machines able to dialogue withthe user;

1202. Text Understanding to deal with the analysis and interpretation of texts (for example forthe exclusion of particular massages in e-mails);3. Report Generation for the automatic production of natural language;4. Machine translationIrrespective of the specific application, Natural Language Processing requires a model ofanalysis and generation of language; the phase of analysis is divided into different stages thatcorrespond to the levels of linguistic information characterising lexical items and, in abroader sense, the context and the general structure of the text.1. Morphological analysisThe first step to take during the analysis of a natural language is the identification of wordsby means of their morphosyntactic features: root, prefix, suffix and ending. The second stepis that to trace these words in a dictionary; this may follow different strategies:!" Sequential scanning: words can be stored in the dictionary both as unique entries and aslists of segments (morphemes); in the second case, dictionary check is performed byverifying the combination of segments according to composition rules; the goal is that toreassemble the word given in input .!" Dictionary subdivision: with this technique the dictionary is divided into lists thatcorrespond to the components of the word; each segment has specific information thatpermits scanning of segments in other lists in order to compose the word. Some lists areexcluded from the scanning process if specific composition rules do not permit theattachment of segments.!" Structured research: in this case a morphological analyzer is necessary; the analyzerdisassembles the word in order to create an input string for the subsequent modules ofsyntactic and semantic analysis.One of the crucial problems related to morphological analysis is that of compounds; themost interesting aspect is that compounds do not follow specific rules of formation and whenconsidering different languages we find that a compound in a language corresponds to asimple word in another one. Machine translation deals with this item by simply storingcompounds as if they were single lexical items and uses the same rules of translation duringthe translation process.

1212. Syntactic analysisThe computational technique to make syntactic analysis is called “parsing” while “parser” isthe processor; the parser analyses an input string of words and represents the internalstructure of the sentence by showing dependency relations between words.It is possible to classify parsers according to their method of analysis or to the kind of outputthey provide. Following the method they use for the analysis, we distinguish “top-down”parsers (they start from the initial sentence and, by dividing it in syntagmas, reconstruct theconstituent words) and “bottom-up” parser (they roughly operate in the opposite way). Onthe contrary, if we consider the nature of the output, we can speak about “deterministic” and“non deterministic” parsers: the former give only one representation of the structure of thesentence, avoiding to consider the potential cases of ambiguity (lexical, structural orfunctional) whereas the latter provide all the possible solutions.Since a parser is an analyzer of grammatical rules, there are grammars linked to it whosefunction is to supply grammatical rules for the language involved in the translation processso as to offer the right construction of the sentence.3. Semantic analysisThe problem of ambiguity observed for syntactic analysis is rather more contingent anddifficult to deal with from the semantic point of view; the main issue is that a single wordcan have more than a meaning and during the translation process the system must choose thecorrect one in order to keep the sense of the original text.The choice of the right meaning is due to the context in which that particular word occurs;scholars studied many strategies to cope with this problem and proposed a number ofsolutions such as “Semantic Grammars” or “Case Grammars” whose characteristic is thecombination of semantic and syntactic information that should contribute to the resolution ofambiguity. But with the increasing need of automated processes of natural language analysisthese instruments revealed their intrinsic loss of flexibility to deal with many cases ofambiguity. This is why the strategy that seems to be suitable to this purpose is the creation ofthe so called “Semantic Networks” that are schemes of representation of knowledge whosepurpose is the attempt to reproduce the mechanisms of storage and wording of informationperformed by humans.A semantic network involves nodes and arcs between nodes; nodes represent objects orconcepts and arcs represent relations between nodes; links are directed and labelled in orderto show the kind of relation that exists between concepts. In this sense, semantic networks

122can avoid language dependent characteristics and take the shape of universal semanticdisambiguation tools; thanks to its particular structure and elements (concepts and relationsbetween them) a semantic nerwork is a strategy used in machine translation systems that arebased on the employment of an interlanguage: the same scheme of semantic representationcan be valid for a great variety of languages.4. Discourse analysisThe main object of translation is the text; this is why a complete analysis of the whole textand not only that of separated sentences is necessary; in fact, the meaning of a sentenceoften depends on what precedes and follows. In the attempt to reach this goal the first step isthe identification of the “reference”, that is what the speaker or author of the text is speakingabout; for this purpose, computational techniques suggest a structural approach whose maincharacteristic is the identification of the “focus”, that is the set of information that allowefficient communication.There are two types of focus: global focus, which refers to discourse structure, and localfocus that is connected to the linguistic phenomena present in the text; to identify globalfocus, we use the top-down approach, suitable for task-oriented texts in which all theprocedures to achieve a particular goal are specified whereas a bottom-up approach is usefulto trace the local focus since it ivolves the storage of the nominal syntagmas that are presentin the text. The importance of the focus is evident in the moment of its shifting, so that it ispossible to determine all the arguments related to one another.5. Generation of natural languageBy “generation” we want to indicate the reverse process performed in the phase of analysis;this means that a generator produces output strings of natural language starting from therepresentations created by morphological, syntactic and semantic analyzers.A generator inserted in a machine translation system must operate lexical and structuralchoices to form sentences in the target language according to the amount of informationreceived by the modules of analysis; thus, the process is performed thanks to theemployment of specific grammars that are used to put together the words of the targetlanguage according to the rules of that language.

123Machine TranslationMachine Translation means the translation from one natural language into another by meansof computerized systems and has been a particularly difficult problem in the area ofArtificial Intelligence for nearly fourty years. Early approaches aimed at reaching thestandards of quality of professional human translators, but in more recent years researchturned to the development of systems that can provide translations that suit the basic needsof the user; this means that a post-editing phase (a revision performed by human translators)is desirable.The first suggestions concerning machine translation were made by the Russian Smirnov-Troyansky and the French Astsouni during the early 1930’s; however, the first seriousdiscussions took place in 1946 when Warren Weaver put forward the first tentative ideas forusing newly invented computers for translating natural languages. Since then, many attemptshave been made, especially in the United States and Europe, to automate the various steps ofthe translation process, as the increasing development of machine translation systems duringthe 1950’s and the 1960’s demonstrates.A serious setback occured in 1964 with the ALPAC report that discouraged researches inthis field because of scientific and economic reasons and in fact the report caused a drasticreduction of funds destined to research in machine translation. But in the early 1970’s a newwave of optimism grew thanks to a new policy in Canada (a bilingual country) and in theEuropean Community: the impelling exigency of translation paved the way to newresearches and this attitude continues even today, especially in a context of multilingualsociety.1. Machine Translation approachesWe can distinguish between three major approaches that interest the strategies ofdevelopment of machine translation systems:!" Direct: it is always between two pairs of languages; it is based on well-organizedglossaries and morphological analysis.!" Transfer: it is still used today, in competition with the interlingua approach. First of all,the source language is parsed into a representation that shows all the relations betweenthe components of the sentence; then the transfer module responsible for the creation ofstructural correspondences with the target language is transferred and finally targetlanguage sentences are generated.

124Both direct and transfer approaches have been criticised since they require separate analysisand generation softwares for each pair of languages with a consequent loss of time andmoney.!" Interlingua: it is the most advanced system; the rationale behind it is the creation of anartificial language (the interlingua) able to include all the differences and peculiarities ofall languages. The translation process is roughly devided into two steps: an analyzertransforms the source language text into the interlingua and a generator transforms theinterlingua into the target language text; in this way there is a drastic reduction ofanalyzers and generators: only one analyzer and one generator are required, no matterhow many languages there are. This simplification is due to the presence of an“ontology” which is the most important element of the interlingua approach. It is acomplex system of related concepts that are stored following hierarchical order andrelations between them. This characteristic allows the system to be suitable forrepresenting languages avoiding particular terminological differences and focusing onconcepts related to specific meanings.1. DictionariesMultilingual language and dictionariesThe role played by dictionaries in machine translation systems is crucial. First of all, theyrepresent the largest component of the system in terms of the amount of information theyhold; secondly, the size and quality of dictionaries limit the scope and coverage of systemsand influence the quality of translation. Equally important is the information at differentlinguistic levels (morphological, syntactic and semantic) that are attached to the headwordsstored in the dictionary itself.Since machine translation deals with multilinguism, the need for some standards ofrepresentation of words is evident. For this reason, some groups of scholars began to studythese standards of representation (ISLE – International Standards for Language Engineering- project) and created monolingual lexicons for the twelve official languages of the EuropeanCommunity ( PAROLE-SIMPLE lexicons); these lexicons are structured in the same wayand, above all, contain the same kind of information (phonological, morphological, syntacticand semantic) related to the dictionary entries. Starting from this issue, scholars are planning

125the realization of the so called “MILE” (Multilingual Isle Lexical Entry) that is intended as ameta-entry acting as a common representational layer for multilingual lexical resources ableto create correspondences between the source language and the target language.2. Multilingual problems in translationOne of the greatest problems connected with multilinguism in machine translation is that ofmulti-word units; by multi-word units we indicate words whose principal characteristic istheir appearence in chunks of two or more words.We can distinguish two different types of multi-word expressions:!" Idioms: expressions whose meaning cannot be completely understood by the meaningsof the component parts; this is why it is not possible to translate them by using thenormal rules. In general the solution to this problem is to perform a complex andaccurate syntactic analysis so that it is possible to recognizetheir structure (for examplefor inflectional classes); secondly, a semantic analysis will match the idiomaticexpression of the source language in an equivalent expression (idiomatic or nonidiomatic)of the target language.!" Collocations: expressions formed by two or more words that habitually co-occur whosemeaning can be detached from the analysis of the meanings of the component parts.One of the best method to deal with collocations is to use the theory proposed byMel’chuks, i.e Lexical Functions. A lexical function can be defined as thecorrespondence between two lexical items, with just one possible connection; in this waythe translation will take into consideration not only the lexical item but also theinformation that regards the lexical function.Since multi-word expressions represent more or less the 30% of the linguistic resources of alanguage, some scholars thought of the creation specific lexicons of multi-wordsexpressions, incorporating both morpho-syntactic and semantic information (XMELLT –Cross-lingual Multi-word Expressions Lexicons for Language Technology project).

126Universal Networking LanguageUNL, the acronym for Universal Networking Language, is an electronic language thatenables communication between different native langauges; it is a system of “enconverter”(an encoder) and “deconverter” (a decoder) software that will reside on the Internet and willbe compatible with standard network servers. Everyone will be able to “enconvert”(encoding process) text from a range of native languages into UNL; in the same way will beable to “deconvert” (decoding process) the text from UNL into another native language; theprocesses of “enconversion” and “deconversion” take place in different Linguistic Serversthrough the Internet.The UNL represents information in the form of hypergraphs (nodes linked by directed andlabelled arrows); these graphs are represented as sets of binary relations, each one betweentwo of the concepts present in a sentence. Concept are expressed by using character-strings(an English-language word) called “Universal Word”; each relation is composed of three orless characters that specify the kind of connection which exists between the two concepts.Universal Words are followed by a list of constraints and attributes that are used to describewhat is said from the speaker's point of view: in UNL there are 61 attributes divided intoseven classes that attempt to account for the different attitudes of a speaker also from acultural point of view.UNL also has a “Knowledge Base”, where all the possible relations between UniversalWords are stored; in this sense it can be considered as a set of knowledge-based entries.Thanks to the organization of the Knowledge Base in a hierarchical order, it is possible totranslate even those lexical items that are not present in a specific language by using the itemthat includes it, that has a more general meaning.UNL seems to be the best answer to an increasing request on the part of our society: it willbe able to provide access to information to everyone thus avoiding linguistic barriers.

127APPENDICE 1Al sito Internet http://www.wordnet.com è possibile utilizzare WordNet per rintracciaresinonimi, iperonimi ed iponimi di una data parola.Quello che segue è il risultato della ricerca effettuata per la parola inglese bank.&"WordNet 1.6 overview for "bank"The noun "bank" has 10 senses in WordNet.1. depository financial institution, bank, banking concern, banking company -- (a financialinstitution that accepts deposits and channels the money into lending activities; "he cashed acheck at the bank"; "that bank holds the mortgage on my home")2. bank -- (sloping land (especially the slope beside a body of water); "they pulled the canoeup on the bank"; "he sat on the bank of the river and watched the currents")3. bank -- (a supply or stock held in reserve especially for future use (especially inemergencies))4. bank, bank building -- (a building in which commercial banking is transacted; "the bankis on the corner of Nassau and Witherspoon")5. bank -- (an arrangement of similar objects in a row or in tiers; "he operated a bank ofswitches")6. savings bank, coin bank, money box, bank -- (a container (usually with a slot in the top)for keeping money at home; "the coin bank was empty")7. bank -- (a long ridge or pile; "a huge bank of earth")8. bank -- (the funds held by a gambling house or the dealer in some gambling games; "hetried to break the bank at Monte Carlo")9. bank, cant, camber -- (a slope in the turn of a road or track; the outside is higher than theinside in order to reduce the effects of centrifugal force)10. bank -- (a flight maneuver; aircraft tips laterally about its longitudinal axis (especially inturning))Questa schermata rappresenta i significati individuati da WordNet per la parola “bank”.&" WordNet 1.6 results for "Hyperonyms (this is a kind of...)" search ofnoun "bank"10 senses of bankSense 1depository financial institution, bank, banking concern, banking company -- (a financial

128institution that accepts deposits and channels the money into lending activities; "he cashed acheck at the bank"; "that bank holds the mortgage on my home")=> financial institution, financial organization -- (an institution (public or private) thatcollects funds (from the public or other institutions) and invests them in financial assets)=> institution, establishment -- (an organization founded and united for a specific purpose)=> organization, organisation -- (a group of people who work together)=> social group -- (people sharing some social relation)=> group, grouping -- (any number of entities (members) considered as a unit)Sense 2bank -- (sloping land (especially the slope beside a body of water); "they pulled the canoe upon the bank"; "he sat on the bank of the river and watched the currents")=> slope, incline, side -- (an elevated geological formation; "he climbed the steep slope";"the house was built on the side of the mountain")=> geological formation, geology, formation -- (the geological features of the earth)=> natural object -- (an object occurring naturally; not made by man)=> object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets,balls and other objects")=> entity, something -- (anything having existence (living or nonliving))Sense 3bank -- (a supply or stock held in reserve especially for future use (especially inemergencies))=> reserve, backlog, stockpile -- (something kept back or saved for future use or a specialpurpose)=> accumulation -- ((finance) profits that are not paid out as dividends but are added to thecapital base of the corporation)=> net income, net, net profit, lucre, profit, profits, earnings -- (the excess of revenues overoutlays in a given period of time)=> income -- (the financial gain (earned or unearned) accruing over a given period of time)=> financial gain -- (the amount of monetary gain)=> gain -- (the amount by which the revenue of a business exceeds its cost of operating)=> sum, sum of money, amount, amount of money -- (a quantity of money; "he borrowed alarge sum"; "the amount he had in cash was insufficient")=> asset -- (anything of material value or usefulness)=> possession -- (anything owned or possessed)Sense 4bank, bank building -- (a building in which commercial banking is transacted; "the bank ison the corner of Nassau and Witherspoon")=> depository, deposit, repository -- (a place where things can be deposited for safekeeping)=> facility, installation -- (something created to provide a particular service; "the assemblyplant is an enormous facility")=> artifact, artefact -- (a man-made object)=> object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets,balls and other objects")=> entity, something -- (anything having existence (living or nonliving))Sense 5bank -- (an arrangement of similar objects in a row or in tiers; "he operated a bank of

129switches")=> array -- (an orderly arrangement: "an array of troops in battle order")=> arrangement -- (an orderly grouping (of things or persons))=> group, grouping -- (any number of entities (members) considered as a unit)Sense 6savings bank, coin bank, money box, bank -- (a container (usually with a slot in the top) forkeeping money at home; "the coin bank was empty")=> container -- (something that holds things, especially for transport or storage)=> instrumentality, instrumentation -- (an artifact (or system of artifacts) that is instrumentalin accomplishing some end)=> artifact, artefact -- (a man-made object)=> object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets,balls and other objects")=> entity, something -- (anything having existence (living or nonliving))Sense 7bank -- (a long ridge or pile; "a huge bank of earth")=> ridge -- (a long narrow natural elevation or striation)=> natural elevation, elevation -- (a raised or elevated geological formation)=> geological formation, geology, formation -- (the geological features of the earth)=> natural object -- (an object occurring naturally; not made by man)=> object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets,balls and other objects")=> entity, something -- (anything having existence (living or nonliving))Sense 8bank -- (the funds held by a gambling house or the dealer in some gambling games; "he triedto break the bank at Monte Carlo")=> funds, finances, monetary resource, cash in hand, pecuniary resource -- (assets in theform of money)=> asset -- (anything of material value or usefulness)=> possession -- (anything owned or possessed)Sense 9bank, cant, camber -- (a slope in the turn of a road or track; the outside is higher than theinside in order to reduce the effects of centrifugal force)=> slope, incline, side -- (an elevated geological formation; "he climbed the steep slope";"the house was built on the side of the mountain")=> geological formation, geology, formation -- (the geological features of the earth)=> natural object -- (an object occurring naturally; not made by man)=> object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets,balls and other objects")=> entity, something -- (anything having existence (living or nonliving))Sense 10bank -- (a flight maneuver; aircraft tips laterally about its longitudinal axis (especially inturning))=> flight maneuver, airplane maneuver -- (an evasive maneuver by an aircraft)

130=> maneuver, manoeuvre, evasive action -- (an action aimed at evading an enemy)=> evasion -- (the act of physically escaping from something (an opponent or a pursuer or anunpleasant situation) by some adroit maneuver)=> escape, flight -- (the act of escaping physically; "he made his escape from the mentalhospital"; "the canary escaped from its cage"; "his flight was an indication of his guilt")=> running away -- (leaving (without permission) the place you are expected to be)=> deed, feat, effort, exploit -- (a notable achievement: "the book was her finest effort")=> accomplishment, achievement -- (the act of accomplishing something)=> action -- (something done (usually as opposed to something said); "there were stories ofmurders and other unnatural actions")=> act, human action, human activity -- (something that people do or cause to happen)&" WordNet 1.6 results for "Hyponyms (...is a kind of this), brief" search ofnoun "bank"Sense 1depository financial institution, bank, banking concern, banking company -- (a financialinstitution that accepts deposits and channels the money into lending activities; "he cashed acheck at the bank"; "that bank holds the mortgage on my home")=> credit union -- (a cooperative depository financial institution whose members can obtainloans from their combined savings)=> Federal Reserve Bank, reserve bank -- (one of 12 regional banks that monitor and act asdepositories for banks in their region)=> agent bank -- (a bank that acts as an agent for a foreign bank)=> commercial bank, full service bank -- (a financial institution that accepts demanddeposits and makes loans and provides other services for the public)=> state bank -- (a bank chartered by a state rather than by the federal government)=> lead bank, agent bank -- (a bank named by a multi-bank lending syndicate to protect theirinterests)=> member bank -- (a bank that is a member of the Federal Reserve System)=> merchant bank, acquirer -- (a credit card processing bank; merchants receive credit forcredit card receipts less a processing fee)=> acquirer -- (a bank gaining financial control over another financial institution through apayment in cash or an exchange of stock)=> thrift institution -- (a depository financial institution intended to encourage personalsavings and home buying)=> Home Loan Bank -- (one of 11 regional banks that monitor and make short-term creditadvances to thrift institutions in their region)Sense 2bank -- (sloping land (especially the slope beside a body of water); "they pulled the canoe upon the bank"; "he sat on the bank of the river and watched the currents")=> riverbank, riverside -- (the bank of a river)=> waterside -- (land bordering a body of water)Sense 3

131bank -- (a supply or stock held in reserve especially for future use (especially inemergencies))=> blood bank -- (a place for storing whole blood or blood plasma; "the Red Cross created ablood bank for emergencies")=> food bank -- (a place where food is contributed and made available to those in need;"they set up a food bank for the flood victims")=> soil bank -- (land retired from crop cultivation and planted with soil-building crops;government subsidies are paid to farmers for their retired land)Sense 4savings bank, coin bank, money box, bank -- (a container (usually with a slot in the top) forkeeping money at home; "the coin bank was empty")=> piggy bank, penny bank -- (a child's coin bank (often shaped like a pig))Sense 5bank -- (a long ridge or pile; "a huge bank of earth")=> bluff -- (a high steep bank (usually formed by river erosion))=> sandbank -- (a submerged bank of sand near a shore or in a river; can be exposed at lowtide)Sense 6bank -- (a flight maneuver; aircraft tips laterally about its longitudinal axis (especially inturning))=> vertical bank -- (a bank so steep that the plane's lateral axis approaches the vertical)

132APPENDICE 2Qui di seguito un esempio di input e output di un testo convertito e deconvertito di UNL.!" INPUTUNL[UD:dn=Mar Aral version 2,on=UNL Spain,mid=carde@opera.dia.fi.upm.es][P][S:1]{org:es}El mar Aral, situado entre las repúblicas de Uzbekistán y Kazajstán, era el cuarto mar interior más grande delmundo.{/org}{unl}nam(sea:01.@def, "Aral")obj(locate(icl>do).@present, sea:01.@def)man(locate(icl>do).@present, between(icl>manner))obj(between(icl>manner), republic:01.@def)and(republic:01.@def, republic:02.@def)nam(republic:01.@def, "Uzbekistan")nam(republic:02.@def, "Kazajstan")aoj(sea:02.@def.@entry.@past, sea:01.@def)mod(sea:02.@def.@entry.@past, inland(modunit).@pl.@past.@entry, 16)mod(deepness, average(modunit).@pl.@past.@entry, kilometer.@pl.@past)aoj(kilometer.@pl.@past, width)qua(kilometer.@pl.@past, 67000)pos(width, it){/unl}

{ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el}{es}Su profundidad media era de 16 metros y su extensión era de 67000 kilómetros.{/es}{fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th}[/S][S:3]{org:es}Los ríos Amu Dariá y Sir Dariá alimentaban y renovaban continuamente sus aguas.{/org}{unl}nam:02(river:01.@def.@entry, "Amu Dar'ya ")nam:02(river:02.@def, "Syr Dar'ya")and:02(river:01.@def.@entry, river:02.@def)and:01(feed(icl>do).@past.@entry, renew(icl>do).@past)man(:01.@entry, continuously)pos(water(icl>thing).@pl, it)agt(:01.@entry, :02)obj(:01.@entry, water(icl>thing).@pl){/unl}{ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el}{es}Los ríos Amu Dariá y Sir Dariá alimentaban y renovaban continuamente sus aguas.{/es}{fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th}[/S][S:4]{org:es}Su gran riqueza biológica hacía de él un importante caladero.{/org}{unl}mod(richness, great)mod(richness, biological(modplace).@indef, important)mod(ground(icl>place).@indef,fishing(moddo).@entry.@past, richness)gol(transform(icl>do).@entry.@past,ground(icl>place).@indef)obj(transform(icl>do).@entry.@past, it)pos(richness, it){/unl}{ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el}{es}Su gran riqueza biológica hacía de él un importante caladero.{/es}{fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th}[/S][/P][P][S:5]{org:es}En el mar Aral vivían 24 especies de peces autóctonos.{/org}{unl}nam(sea.@def, "Aral")plc(live(icl>do).@past.@entry, sea.@def)agt(live(icl>do).@past.@entry, species.@pl)qua(species.@pl, 24)133

mod(species.@pl, fish(icl>thing).@pl)mod(fish(icl>thing).@pl, native(modthing), century)mod(century,this:01)tim(provide(icl>do).@past.@entry, middle(icl>thing))agt(provide(icl>do).@past.@entry, sea)mod(sea, this:02)obj(provide(icl>do).@past.@entry, job(icl>thing).@generic)qua(person.@pl, 60000)ben(provide(icl>do).@past.@entry, person.@pl)agt(capture(icl>do).@past, person.@pl)qua(ton.@pl, 49000)mod(ton.@pl, fish(icl>thing))obj(capture(icl>do).@past, ton.@pl)per(ton.@pl, year){/unl}{ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el}{es}A mediados de siglo este mar daba trabajo a 60000 personas, que capturaban 49000 toneladas de pescado alaño.{/es}{fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th}[/S][S:7]{org:es}En sus aguas y en su delta habitaban 173 especies animales.{/org}{unl}pos(delta(icl>place), it)plc(inhabit(icl>do).@entry.@past, delta(icl>place))qua(species.@pl, 173)mod(species.@pl, animal(modplace), water(icl>thing).@pl)agt(inhabit(icl>do).@entry.@past, species.@pl)pos(water(icl>thing).@pl, it){/unl}{ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el}{es}En sus aguas y en su delta habitaban 173 especies animales.{/es}{fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th}[/S][S:8]{org:es}134

Las aguas del mar Aral han retrocedido 100 kilómetros, dejando barcos varados en un desierto.{/org}{unl}mod(water(icl>thing).@def.@pl, sea.@def)nam(sea.@def, "Aral")obj(recede(icl>occur).@present.@entry.@complete, water(icl>thing).@def.@pl)qua(kilometer.@pl, 100)man(recede(icl>occur).@present.@entry.@complete, kilometer.@pl)agt(abandon(icl>do).@present.@entry, water(icl>thing).@def.@pl)obj(abandon(icl>do).@past, ship(icl>thing).@pl)mod(ship(icl>thing).@pl, stranded)plc(abandon(icl>do).@past, desert(icl>place).@indef)and(recede(icl>occur).@past.@entry.@complete, abandon(icl>do).@past){/unl}{ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el}{es}Las aguas del mar Aral han retrocedido 100 kilómetros, dejando barcos varados en un desierto.{/es}{fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th}[/S][S:9]{org:es}Los ríos dejaron prácticamente de llegar, taponados por presas.{/org}{unl}obj(flow(icl>occur).@past.@entry.@not, river.@def.@pl)man(flow(icl>occur).@past.@entry.@not, almost)rsn(flow(icl>occur).@past.@entry.@not, :01)obj:01(block(icl>do).@past.@entry, river.@def.@pl)agt:01(block(icl>do).@past.@entry, dam.@pl){/unl}{ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el}{es}Los ríos dejaron prácticamente de llegar, taponados por presas.{/es}{fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th}[/S][/P][P][S:10]{org:es}Ahora el mar Aral tiene tan solo una cuarta parte de su volumen.{/org}{unl}nam(sea.@def, "Aral")aoj(have(icl>state).@entry.@present, sea.@def)man(have(icl>state).@entry.@present, only)mod(part(icl>thing).@indef, fourth(modthing).@indef, volume)obj(have(icl>state).@entry.@present, part(icl>thing).@indef)pos(volume, sea.@def){/unl}{ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el}{es}Ahora el mar Aral tiene tan solo una cuarta parte de su volumen.{/es}{fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th}[/S]135

136[S:11]{org:es}La salinidad se ha triplicado.{/org}{unl}obj(triple(icl>do).@present.@entry.@complete, salinity.@def.@topic){/unl}{ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el}{es}La salinidad se ha triplicado.{/es}{fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th}[/S][S:12]{org:es}Las capturas pesqueras se han reducido a cero.{/org}{unl}mod(catch(icl>action).@def.@pl.@topic, fishing)obj(reduce(icl>do).@present.@entry.@complete, catch(icl>action).@def.@pl.@topic)gol(reduce(icl>do).@present.@entry.@complete, zero){/unl}{ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el}{es}Las capturas pesqueras se han reducido a cero.{/es}{fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th}[/S][S:13]{org:es}De las 173 especies animales que vivían en su entorno, hoy solo quedan 38.{/org}{unl}man(remain(icl>occur).@entry.@present, only)tim(remain(icl>occur).@entry.@present, today)obj(remain(icl>occur).@entry.@present, species:01.@pl)qua(species:01.@pl, 38)frm(species:01.@pl, species:02.@pl)qua(species:02.@pl, 173)mod(species:02.@pl, animal(moddo).@past, habitat)agt(live(icl>do).@past, species:02.@pl){/unl}{ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el}{es}De las 173 especies animales que vivían en su entorno, hoy solo quedan 38.{/es}{fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th}[/S][S:14]{org:es}Se trata de una de las mayores catástrofes ecológicas del planeta.{/org}{unl}mod(catastrophe:02.@pl.@def, large)

mod(large,more)mod(catastrophe:02.@pl.@def, ecological)mod(catastrophe:02.@pl.@def, planet.@def)frm(catastrophe:01.@indef.@entry, catastrophe:02.@pl.@def)aoj(catastrophe:01.@indef.@entry, it){/unl}{ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el}{es}Se trata de una de las mayores catástrofes ecológicas del planeta.{/es}{fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th}[/S][S:15]{org:es}El clima también ha cambiado.{/org}{unl}man(change(icl>occur).@present.@entry.@complete, also)obj(change(icl>occur).@present.@entry.@complete, climate.@def){/unl}{ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el}{es}El clima también ha cambiado.{/es}{fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th}[/S][S:16]{org:es}El viento esparce por la región una tóxica mezcla de polvo, restos químicos de plaguicidas y sal del lechomarino seco.{/org}{unl}agt(disperse(icl>do).@entry.@present, wind(icl>thing).@generic)plc(disperse(icl>do).@entry.@present, region.@def)obj(disperse(icl>do).@entry.@present, mixture.@indef)mod(mixture.@indef, toxic(modthing))mod(rest(icl>thing).@pl, chemical(modthing).@pl, pesticide)and(mixture.@indef,rest(icl>thing).@pl)mod(salt(icl>thing), bed(icl>place).@def)mod(bed(icl>place).@def, marine(modplace).@def, dry(modthing).@pl,salt(icl>thing)){/unl}{ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el}{es}El viento esparce por la región una tóxica mezcla de polvo, restos químicos de plaguicidas y sal del lechomarino seco.{/es}{fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th}[/S][/P][/UD]137

138!" OUTPUT[S:1]======================== UNL =======================sea:02(@def,@entry,@past,>aoj,>mod,>mod,>mod)-aoj>sea:01(@def,>nam,man)-man>between(icl>manner)(obj)-obj>republic:01(@def,and,>nam)-and>republic:02(@def,nam)-nam>Kazajstan(Uzbekistan(inland(modmost(world(@def,man,>agt,>obj)-man>continuously(:02(water(icl>thing)(@pl,>pos,it(nam,>and)-nam>Amu Dar'ya (river:02(@def,>nam,Syr Dar'ya(do)(@past,@entry,>and)-and>renew(icl>do)(@past,

139transform(icl>do)(@entry,@past,>agt,>gol,>obj)-agt>richness(>mod,>mod,pos)-mod>great(biological(modobj)]-gol>ground(icl>place)(@indef,>mod,>mod,important(fishing(modplc,>agt)-plc>sea(@def,>nam,Aral(species(@pl,qua,>mod)-qua>24(fish(icl>thing)(@pl,mod)-mod>native(modtim,>agt,>obj,>ben)-tim>middle(icl>thing)(>mod,century(mod)-mod>this:01(sea(mod)-mod>this:02(job(icl>thing)(@generic,person(@pl,>qua,obj)-obj>ton(@pl,>qua,>mod,per)-qua>49000(fish(icl>thing)(year(

140;;Done![S:8]======================== UNL =======================recede(icl>occur)(@present,@entry,@complete,>obj,>man,@past,>and)-obj>water(icl>thing)(@def,@pl,>mod,Aral(agt,@past,>obj,>plc,ship(icl>thing)(@pl,mod)-mod>stranded(desert(icl>place)(@indef,obj,>man,@past,>and)]-man>kilometer(@pl,>qua,100(obj in un deserto .;;Time 1.6 Sec;;Done![S:9]======================== UNL =======================flow(icl>occur)(@past,@entry,@not,>obj,>man,>rsn)-obj>river(@def,@pl,almost(:01(do)(@past,@entry,>obj,>agt)-obj>river(@def,@pl,dam(@pl,

141====================================================Le catture di pesca sono state ridotte a zero .;;Time 0.8 Sec;;Done![S:13]======================== UNL =======================remain(icl>occur)(@entry,@present,>man,>tim,>obj)-man>only(today(species:01(@pl,qua,>frm)-qua>38(species:02(@pl,qua,>mod,173(animal(modagt)-plc>habitat(>pos,it(frm,>aoj)-frm>catastrophe:02(@pl,@def,>mod,>mod,>mod,large(mod)-mod>more(ecological(planet(@def,it(occur)(@present,@entry,@complete,>man,>obj)-man>also(climate(@def,

142Il vento disperde un misto tossico di polvere , sale del letto asciutto marino rimanenze chimici di pesticida nellaregione.BIBLIOGRAFIAAA.VV, Ricerche di psicolinguistica n°25, Franco Angeli Editore, Milano, 1975ALBERTO P., BENNET P. (eds), Lexical Issues in Machine Translation, in Studies inMachine Translation and Natural Language Processing, Office for Official Publications ofthe European Community, 1995, vol.8ALLEN J., Natural Language Understanding, The Benjamin/Cumming PublishingCompany, New York, 1995ALPAC (1966), Languages and Machine: computers in translation and linguistics. A reportby the Automatic Language Processing Advisory Commette, Division of BehavioralSciences, National Academy of Sciences, National Research Council, Washington D.C.,National Academy of Sciences, National Research Council, 1966, Publication 1416, 124 pg.ANTINUCCI F. nella traduzione a N. Chomsky, Le strutture della sintassi, Editori Laterza,Bari, 1970ARCAINI E., Analisi linguistica e Traduzione, Pàtron Editore, Bologna, 1986ARNOLD D., BALKAN L., HUMPHREYS R. L., MEIJER S., SADLER L., MachineTranslation: An Introductory Guide, NCC Blackwell, Manchester-Oxford, 1994ATTI di EXPOLINGUE 1989, Il mondo delle lingue, Milano 8/11 marzo 1990BARNBROOK G., Language and Computers, Edimburgh University Press, Edimburgh,1996BERTUCCELLI PAPI M., An Elementary Introduction to English Linguistics, EdizioniETS, Pisa, 2000

143BOBROW D. G., COLLINS A. (eds), Representation and Understanding. Studies inCognitive Science, Academic Press, New York,1975BOLC L. (ed), Natural Language Based Computer Systems, Carl Hanser Verlag,Munchen/Wien, 1980BUNT H., BLACK W. (eds), Abduction, Belief and Context in Dialogue, John BenjaminsPublishing Company, New York, 2000BUTLER C., Computers in Linguistics, Basil Blackwell, Oxford, 1985CABRINI F., Universal Networking Language: dal mito della Lingua Universale al“traduttore” globale, Tesi, Università Cattolica, Facoltà di Scienze Politiche, Aprile 2001CALZOLARI N., LENCI A., ZAMPOLLI A., BELL N., VILLEGAS M., THURMAIR G.,The ISLE in the Ocean Translatantic Satndards for Multilingual Lexicon (with an eye onMachine Translation), in http://www.eamt.org/summitVIII/papers/calzolari.pdfCARRICO M.A., GIRARD J.E., JONES J.P., Building Knowledge Systems, Mc Graw-HillBook Company, New York, 1989CHOMSKY N., Le strutture della sintassi, Editore Laterza, Bari, 1970CINQUE G. (a cura di), Semantica Generativa, Boringhieri, Torino, 1979CORPAS PASTOR G. (ed), Las lenguas de Europa: estudios de frseologìa y traducciòn,Editorial Comares, Alborote (Granada), 2000DANLOS L., The Linguistic basis of Text Generation, Cambridge University Press,Cambridge, 1987DEAN FODOR J., Semantics: Theories of Meaning in Generative Grammar, The HarvesterPress, Brighton, 1982DOWLING GREGORY, A Study of the English Verb for Italians, Supernova, Venezia, 1993

144DURANTI A., Antropologia del linguaggio, Maltemi Editore, Roma, 2000FELBAUM C. (ed), WordNet, An Electronic Lexical Database, MIT Press, Cambridge,1998FERRARI G., Introduzione al Natural Language Processing, Calderini Editore, Bologna,1991FONTENELLE T., Turning a Bilingual Dictionary into a Lexical-Semantic Database,Niemeyer, Tubingen, 1997FORSYTH R., Machine Learning. Principles and Techniques, Chapman & Hall, London,1989FRANCESCATO G., Saggi di linguistica teorica e applicata, Ed.Dell’Orso, Alessandria,1996GAINES B., BOOSE J. (eds), Knowledge Adquisition for Knowledge-Based Systems,Academic Press, New York, 1988GENET J-P., ZAMPOLLI A. (eds), Computers and the Humanities, Dartmouth, Cambridge,1992GERBER L., Working Toward success in Machine Translation, in Proceedings of theWorkshop 18/22 september 2001, Santiago de Compostela, SpainGHIGLIOZZI G., MORDENTI R., ZAMPOLLI A., La Bella e la Bestia, TirreniaStampatori, Torino, 2000GRISHAM R., Computational Linguistics, Cambridge University Press, Cambridge, 1988HIRST G., Semantic interpretation and the Resolution of Ambiguity, Camridge UniversityPress, Cambridge, 1987

145HUTCHINS J., Machine Translation over fifty years, in Histoire, Epistemologie, Langage,Tomo XXII, fasc. 1, 2001, pg. 7-31INTERNATIONAL JOURNAL OF TRANSLATION, n° 13, gennaio-dicembre 2001, pp.5-20JONES S., Text and Context, Springer-Verlag, London, 1991JACKOBSON R., Aspetti linguistici della traduzione, in L. Heilman (a cura di), “Saggi dilinguistica generale”, Feltrinelli, Milano, 1966JOSCELYNE A., AltaVista Translates in Real Time, in “Language International”, vol.10, n°1, 1998JURAFSKY D., MARTIN J.H., Speech and Language Processing: An Introduction toNatural Language Processing, Computational Linguistics and Speech Recognition, PrenticeHall, New Jersey, 2000KELLY I., Progress in Machine Translation, Sigma Press, Wilmslow (UK), 1989KESS J., Introduzione alla psicolinguistica, Franco Angeli Editore, Milano, 1979KOERNER E.F.K., ASHER R.E. (eds), Concise History of the language sciences: from theSumerians to the Cognitivist, Pergamon Press, Oxford, 1995, pp. 431-445L’HOMME M-C., Understanding specialized lexical combinations, in “Terminology”, vol.6, n° 1, 2000LAFFLING J., Towards High-Precision Machine translation, Foris Publications, Dordrecht(Holland), 1991LAVER M., Computers and Social Change, Cambridge University Press, Cambridge, 1980LEHER A., Semantic fields and Lexical Structure, North-Holland Publishing Company,Amsterdam- New York- Oxford, 1974

146LOCKWOOD R., Global English and Language Market Trends, in “ LanguageInternational”, 10/04/1998LOCKWOOD R., The Business of Language, in “Language International”, vol. 12, n°3,giugno 2000MANNING C.D., SCHUTZE H., Foundation of Statistical Natural Language Processing,MIT Press, Cambridge, 1999MASSARIELLO MERZAGORA G., La Lessicografia, Zanichelli, Bologna, 1983Mc KEOWN K., Text Generation, Cambridge University Press, Cambridge, 1985MOON R., Fixed Expressions and Idioms in English, Clarendon Press, Oxford, 1988MOUNIN G., La Machine à traduire, Mouton & Co., Paris, 1964MOUNIN G., traduzione di Bruno Belloto, Storia della linguistica del XX secolo, Feltrinelli,Milano, 1983NEGRI M. (a cura di ), Navadhyayi, Il Calamaio, Roma, 1996NIRENBURG S., Knowledge-Based Machine Translation, in “Machine Translation, n°1,marzo 1989NIRENBURG S., GOODMAN K., Treatment of of Meaning in Machine TranslationSystems, in “Proceedings of the Third International Conference on Theoretical andMethodological Issues in Machine Translation of Natural Languages”, University of Texas,June 1990OSGOOD C.E., SEBEOK T.A, Psycholinguistics: a Survey of Theory and ResearchProblems, Indiana University Press, Bloominghton, 1954

147O’SHEA T., SELF J., THOMAS G., Intelligent Knowledge-Based Systems: An Inroduction,Harper and Row Publishers, London, 1987PAPEGAAJI B., SHUBERT K., Text Coherence in Translation, Foris Publications,Dordrecht (Holland), 1988PETERS C., SHERIDAN P., Multilingual Information Access, 2001PICKEN C. (ed), Translating and The Computer 8, Aslib, London, 1987PIRRELLI V., Morphology, Analogy and Machine Translation, Ph. D. Thesis, 1993,Salford UniversityPOWERS D.M.W., TURK C., Machine Learning of Natural Language, Sringer-Verlag,London, 1989PUSTEJOVSKY J. (ed), Semantics and the Lexicon, Kluwer Academic Publishers, NewYork, 1993PUSTEJOVSKY J., BOGURAEV B., Lexical Semantics: the Problem of Polisemy,Clarendon Press, Oxford, 1996RADFORD A., ATKINSON M., BRITAIN D., CLAHENS H., SPENCER A., Linguistics :An Introduction, Cambridge University Press, Cambridge, 1999RAMM W. (ed), Text and context in Machine Translation: aspects of discourserepresentation and discourse processing, in Studies in Machine Translation and NaturalLanguage Processing, Office for Official Publications of the European Community, 1994,vol.6RAPALLO U., La ricerca in linguistica, La Nuova Italia Scientifica, Roma, 1994RICH E., KNIGHT K., Artificial Intelligence, Mc Graw-Hill Inc., New York, 1991

148RIGOTTI E., Traduzione nelle teorie linguistiche contemporanee, in “Processi traduttivi:teorie ed applicazioni, Atti del seminario su La Traduzione”, Brescia 19/20 novembre 1981,Editrice La Scuola, Brescia, 1982RIGOTTI E., Principi di teoria linguistica, Editrice La Scuola, Brescia, 1983ROLSTON D.W., Principles of Artificial Intelligence and Expert Systems Development, McGraw-Hill Book Company, New York, 1988SAGER J.C., Language Engeneering and Translation, Benjamins Translation Library,Amsterdam/Philadelphia, 1993SAGER J.C., Terminology: Custodian of Knowledge and Means of Knowledge Transfer, in“Terminology”, vol.1, n° 1, 1994DE SAUSSURE F., Corso di linguistica Generale, Editori Laterza, Bari, 1967SCHREUDER R., WELTENS B. (eds), The Bilingual Lexicon, John Benjamins PublishingCompany, New York, 1993SCHWARTZ S.C., Applied Natural Language Processing, Petrocelli, New York, 1987SCHUTZ J., Terminological knowledge in Multilingual Language Processing, in Studies inMachine Translation and Natural Language Processing, Office for Official Publications ofthe European Community, 1994, vol.5SIMONE R., Fondamenti di Linguistica, Editori Laterza, Bari, 1999SINCLAIR J., Corpus Concordance Collocation, Oxford University Press, Oxford, 1991SLOCUM J. (ed), Machine Translation Systems, Cambridge University Press, Canbridge,1988SNELL B., Translating and the Computer, Springer, London, 1985

149SONDHEIMER S., CUMMING S., ALBANO R., How To Realize a Concept: LexicalSelections and the Conceptual Network in Text Generation, in “Machine Translation”, n° 1,marzo 1990SOWA J.F., Conceptual Structure: Information Processing in Mind and Machine, AddisonWesley Publishing Company, Boston, 1984STEFFENS P. (ed), Machine Translation and the Lexicon, Springer, London, 1995The Fourth Machine Translation Summit: Proceedings, Kobe, Japan, July 20/22 1993VAN EYNDE F., ALLEGRANZA V., Semantics and Discourse: a Natural LunguageProcessing Perspective, in Studies in Machine Translation and Natural LanguageProcessing, Office for Official Publications of the European Community, 1995, vol.9VARILE G.B., ZAMPOLLI A. (eds), Survey of the State of the Art in human LanguageTechnology, Linguistica Computazionale vol. XII-XIII, Giardini Editori e Stampatori, Pisa,1997WALKER D.E., ZAMPOLLI A., CALZOLARI N. (eds), Automating the Lexicon,Clarendon Press, Oxford, 1995WEIGAND H., Linguistically Motivated Principles of Knowledge Base Systems, ForisPublications, Dordrecht (Holland), 1990WHITELOCK P., KILBY K., Linguistics Techniques in Machine Translation SystemDesign, UCL Press, Cambridge, 1995WILKS Y.A., SLATOR B.M., GUTHRIE L.M., Electric Words, MIT Press,Cambridge1996

150http://www-2.cs.cmu.edu/ref/mlim/chapter4.htmlhttp://accsubs.unsystem.org/iscc-intranet/work/documents/pdf/0007.pdfhttp://www.aclweb.orghttp://babel.altavista.com/trhttp://www.brocku.ca/commstudies/courses/2F50/iackobsonhttp://budling.nytud.hu/'kalman/reading/suggen94/node4.htmlhttp://www.cis.upenn.edu/~cmetz/nicoletta.ppthttp://www.ccl.umist.ac.ukhttp://www.ccl.umist.ac.uk/staff/harold/MTjnlhttp://www-clips.imag.fr/getahttp://www.clsp.jhu.eduhttp://www.cogsei.princeton.edu/'wnhtt://crl.nmsu.edu/Events/FWOI/PreWorkshop/prewkshop/farwell.htmlhttp://www.cs.colorado.eduhttp://www.cs.columbia.edu/'aclhttp://www.cs.vassar.edu/'ide/XMELLT.htmlhttp://www.cse.iitb.ernet.inhttp://cslu.cse.ogi.eduhttp://www.cst.ku.dk/project/spinn/Copenh01.ppthttp://www.dcs.kcl.ac.uk/journals/jlachttp://www.duke.eduhttp://www.eamt.org/summitVIII/papers/calzolari.pdfhttp://elies.rediris.es/elies9.htmhttp://fox.cs.vt.eduhttp://www.georgetown.eduhttp://www.globalink.com/xlate.htmlhttp://www.glreach.com/globstat/index.php3http://www.iai.uni-sb.de/UNL/unl-specs.htmlhttp://www.ias.uni.edu/research_prog/science_technology/universalnetwork_language.htmlhttp://www.id.org.ukhttp://www.imim.es/quark/num19/019044.htmhttp://Isadc.org/kay.htmlhttp://www.kecl.ntt.co.jp/icl/mtg

151http://www-ksl.stanford.edu/kst/what-is-an-ontology.htmlhttp://lhsl.comhttp://www.ling.ed.ac.ukhttp://ling.lancs.ac.ukhttp://www.lti.cs.cmu.edu/Researchhttp://www.media.mit.eduhttp://mitpress.mit.eduhttp://mizar.orghttp://www.mri.mq.edu.auhttp://nespole.itc.ithttp://ourworld.compuserve.com/homepages/WJHutchins/MT-93.htmhttp://ourworld.compuserve.com/homepages/WJHutchins/MT-95.htmhttp://ourworld.compuserve.com/homepages/WJHutchins/MT-99.htmhttp://ourworld.compuserve.com/homepages/WJHutchins/MT-2001.htmhttp://ourworld.compuserve.com/homepages/WJHutchins/PPF-3.dochttp://www.sslmit.unibo.ithttp://stp.ling.ui.se/'fredriko/ling.htmlhttp://www.systransoft.comhttp://umiacs.umd.edu/'bonniehttp://www.undl.orghttp://www.undl.org/StatuteUNLP.htmlhttp://www.unesco.or.kr/cyberlang/enghttp://www.unicom.co.uk/3in/issue2/4Asphttp://www.unl.ias.unu.eduhttp://www.unl.ias.unu.edu/unlsys/introduction_main.htmlhttp://unl.ias.unu.edu/gmhttp://unl.ias.unu.edu/publications/UNL-beyond%20MT.htmhttp://www.wi-im.uni-koehn.dehttp://wikipedia.comhttp://www.wordnet.comhttp://www.xfer.com/entry/571565

Multilinguismo nel trattamento automatico del linguaggio naturale

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?