12.07.2015 Views

Texto completo em pdf - Instituto de Letras e Lingüística

Texto completo em pdf - Instituto de Letras e Lingüística

Texto completo em pdf - Instituto de Letras e Lingüística

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Ficha Terminológica Informatizada: etapas e <strong>de</strong>scrição <strong>de</strong> um banco <strong>de</strong> dadosterminológico bilíngüe.Guilherme Fromm 1RESUMO: o objetivo <strong>de</strong>ste texto é apresentar um banco <strong>de</strong> dados, ainda no estágio <strong>de</strong><strong>de</strong>senvolvimento, que será incorporado ao Projeto Comet/USP. Esse banco servirá para aelaboração <strong>de</strong> fichas terminológicas s<strong>em</strong>i-automatizadas e será alimentado pelos diversoscorpora existentes no projeto. Essas fichas prevê<strong>em</strong> a elaboração <strong>de</strong> vocabulários técnicosbaseados unicamente <strong>em</strong> corpus.UNITERMOS: Lingüística <strong>de</strong> Corpus, Banco <strong>de</strong> Dados, Terminografia, Terminologia,Tradução.ABSTRACT: this text aims the linguistic <strong>de</strong>scription of a data bank, still being <strong>de</strong>veloped,that will be incorporated to the Projeto Comet/USP. This bank is being <strong>de</strong>veloped to fulfills<strong>em</strong>i-automatic terminological cards and will be fed by various corpora available at Comet.These cards preview the construction of technical vocabulary based only on corpora.KEYWORDS: Corpus Linguistics, Data Bank, Terminography, Terminology, Translation.O projeto COMET (Corpora Multilíngüe para Ensino e Tradução) 2 , da FFLCH/USP, coleta,já há alguns anos, vários corpora <strong>em</strong> diferentes áreas. Os alunos <strong>de</strong> mestrado e doutorado daProfa. Dra. Stella E. O. Tagnin, coor<strong>de</strong>nadora do projeto, além <strong>de</strong> contribuír<strong>em</strong> para aconstrução <strong>de</strong>sses corpora, também vêm <strong>de</strong>senvolvendo trabalhos <strong>de</strong> pós-graduação paraexpor diferentes maneiras <strong>de</strong> trabalhar com esses corpora. Uma das vertentes <strong>de</strong> estudo é aconstrução <strong>de</strong> vocabulários baseados <strong>em</strong> corpora <strong>de</strong> áreas <strong>de</strong> especialida<strong>de</strong>. Foram tomadoscomo mo<strong>de</strong>los dicionários, monolíngües ou bilíngües, baseados <strong>em</strong> gran<strong>de</strong>s corpora gerais <strong>de</strong>língua (como as das editoras inglesas Longman e a Oxford, que trabalharam com corporapróprios ou o British National Corpus). A proposta <strong>de</strong> alguns doutorandos é a construção <strong>de</strong>ferramentas e mo<strong>de</strong>los que funcion<strong>em</strong> como alicerce para a futura organização <strong>de</strong> obrasterminológicas baseadas exclusivamente <strong>em</strong> corpora.Qualquer trabalho terminológico pressupõe várias etapas para a construção do produto final,que seria um vocabulário <strong>de</strong> uma <strong>de</strong>terminada área ou um glossário (usando as concepções <strong>de</strong>dicionário, vocabulário e glossário, propostas por Barbosa, 2001). Entre essas etapas, umadas mais importantes é a organização dos dados recolhidos através <strong>de</strong> uma ficha, comumentechamada <strong>de</strong> ficha terminológica. Cabré (1993) nos explica o que v<strong>em</strong> a ser essa ficha:Las fichas terminológicas son materiales estructurados que <strong>de</strong>ben contener toda lainformación relevante sobre cada término. Las informaciones que presentan se extraen <strong>de</strong>las fichas <strong>de</strong> vaciado o <strong>de</strong> la documentación <strong>de</strong> referencia, y se representan siguiendounos critérios fijados previamente.1 FFLCH/USP – UNIBAN.2 Uma melhor <strong>de</strong>scrição do projeto po<strong>de</strong> ser vista <strong>em</strong> Tagnin, 2005.


Hay muchos mo<strong>de</strong>los <strong>de</strong> fichas terminológicas, <strong>de</strong> acuerdo com los objetivos <strong>de</strong> cadatrabajo y las necesida<strong>de</strong>s <strong>de</strong> cada organismo. De entrada, pod<strong>em</strong>os distinguir entre fichasmonolingües, fichas monolingües com equivalência y fichas bilingües o plurilingües.A ficha terminológica foi, durante muito t<strong>em</strong>po, elaborada e preenchida através <strong>de</strong> umtrabalho manual. O advento dos computadores permitiu não só o <strong>de</strong>senvolvimento daLingüística <strong>de</strong> Corpus 3 , como também a informatização <strong>de</strong>ssas fichas e a construção <strong>de</strong>bancos <strong>de</strong> dados. Propomos, a partir <strong>de</strong>sse momento, a construção <strong>de</strong> um banco <strong>de</strong> dadosterminológico bilíngüe para o projeto COMET.O objetivo inicial da construção <strong>de</strong>sse banco é prover o Projeto COMET <strong>de</strong> uma ferramentainformatizada s<strong>em</strong>i-automática que auxilie no <strong>de</strong>senvolvimento <strong>de</strong> obras terminológicas<strong>de</strong>senvolvidas a partir da gran<strong>de</strong> base <strong>de</strong> corpora bilíngües já levantadas e disponibilizadaspelo mesmo. O objetivo secundário é fornecer uma base para o <strong>de</strong>senvolvimento <strong>de</strong> novasferramentas ligadas à extração <strong>de</strong> termos a partir <strong>de</strong> corpora <strong>de</strong> áreas <strong>de</strong> especialida<strong>de</strong> e aconstrução <strong>de</strong> novas ferramentas <strong>de</strong> visualização do produto final (vocabulários técnicosbilíngües) para diferentes usuários.Embora existam vários programas disponíveis no mercado internacional (como o Multiterm,Term-PC e outros, muito b<strong>em</strong> analisados por Gavenski, 2001) e vários bancos <strong>de</strong> dadosterminológicos já <strong>de</strong>senvolvidos no país, como os pequenos bancos usados peloCITRAT/CETRAD/USP no ensino <strong>de</strong> Terminologia para a área <strong>de</strong> tradução 4 ou os gran<strong>de</strong>sbancos, como o TERMISUL (Maciel, 2001), pensou-se na construção <strong>de</strong> um bancopersonalizado para as necessida<strong>de</strong>s do COMET. A vantag<strong>em</strong>, além do baixo custo <strong>de</strong><strong>de</strong>senvolvimento (a serviço da Empresa Jr., do ICMC/USP São Carlos), é a possibilida<strong>de</strong> <strong>de</strong>agregação <strong>de</strong> novos módulos, associados às pesquisas <strong>de</strong> mestrado e doutorado sob aresponsabilida<strong>de</strong> da Profa. Stella e outros.A criação <strong>de</strong> uma ficha terminológica é essencial para o <strong>de</strong>senvolvimento <strong>de</strong> um vocabuláriotécnico. Vários mo<strong>de</strong>los já foram propostos e, entre eles, pod<strong>em</strong>os citar Aubert (1996),Krieger & Finatto (2004), Gavenski (2001), Bacellar (2002). O mo<strong>de</strong>lo que tomamos comoponto <strong>de</strong> partida para esse banco, no entanto, é baseado <strong>em</strong> Fromm (2002)5. A proposta dadissertação <strong>de</strong> mestrado do autor era mostrar um mo<strong>de</strong>lo para a construção <strong>de</strong> vocabulário3 “A Lingüística <strong>de</strong> Corpus ocupa-se da coleta e da exploração <strong>de</strong> corpora, ou conjuntos <strong>de</strong> dados lingüísticostextuais coletados criteriosamente, com o propósito <strong>de</strong> servir<strong>em</strong> para a pesquisa <strong>de</strong> uma língua ou varieda<strong>de</strong>lingüística. Como tal, <strong>de</strong>dica-se à exploração da linguag<strong>em</strong> por meio <strong>de</strong> evidências <strong>em</strong>píricas, extraídas porcomputador”. (Sardinha, 2004, p. 3).4 Desenvolvidos pelo Prof. Dr. Francis H. Aubert, baseados <strong>em</strong> um mo<strong>de</strong>lo construído no banco <strong>de</strong> dadosAccess, da Microsoft.5 A ficha terminológica ali apresentada está disponibilizada aqui como anexo.


especializado <strong>de</strong> informática para tradutores. Usando como base a ficha terminológicamonolíngüe não-informatizada ali apresentada, <strong>de</strong>senvolv<strong>em</strong>os uma nova proposta para umaficha monolíngüe com equivalência, que servirá <strong>de</strong> base para a construção do banco <strong>de</strong> dados.Em conversas com o técnico da Empresa Jr., <strong>de</strong>cidiu-se pela construção <strong>de</strong> um banco <strong>de</strong>dados padrão SQL, com duas tabelas básicas para a inputação <strong>de</strong> dados. Devido àcomplexida<strong>de</strong> <strong>de</strong> trabalho num banco <strong>de</strong> dados <strong>de</strong>sse padrão, será criado um ambiente WEBpara que os pesquisadores possam preencher as fichas. Em virtu<strong>de</strong> dos custos <strong>de</strong> elaboraçãodo projeto, somente um administrador terá acesso ao controle do banco numa primeira fase.Ao administrador caberá o cadastro <strong>de</strong> pesquisadores (para que esses possam alimentar asfichas) e somente ele po<strong>de</strong>rá aprovar as fichas, sendo que essas só serão disponibilizadas paraconsulta no sist<strong>em</strong>a após aprovação pelo mesmo. Ao administrador caberá, também, ainserção <strong>de</strong> novas fichas terminológicas, atualização e r<strong>em</strong>oção <strong>de</strong> fichas existentes nosist<strong>em</strong>a.A primeira tabela do banco servirá para a inputação <strong>de</strong> contextos (previamente selecionados)retirados <strong>de</strong> um corpus <strong>de</strong> especialida<strong>de</strong> <strong>de</strong> uma área escolhida. Serão colocados, para cadatermo, tantos contextos quanto os extraídos do corpus e preenchidos os campos relativos acada um: ex<strong>em</strong>plo, fonte, data <strong>de</strong> coleta, data <strong>de</strong> inserção. A partir <strong>de</strong> cada contexto, opesquisador <strong>de</strong>ve, também, extrair um conceito do mesmo. Dev<strong>em</strong>os l<strong>em</strong>brar que ainda naprimeira tabela, com a visualização dos contextos <strong>em</strong> <strong>de</strong>staque, serão extraídas váriasinformações morfológicas, sintáticas, s<strong>em</strong>ânticas e relativas ao corpus possíveis 6 : entradaequivalente na outra língua, número da acepção 7 , posição <strong>de</strong> freqüência no corpus, formasequivalentes na mesma língua, categoria gramatical, gênero, número, possibilida<strong>de</strong>s <strong>de</strong>número (para palavras que só exist<strong>em</strong> no singular ou plural), sigla, acrônimo, entrada porextenso, variações morfossintáticas, relações <strong>de</strong> hiperonímia, relações <strong>de</strong> hiponímia, relações<strong>de</strong> co-hiponímia, relações <strong>de</strong> antonímia, relações <strong>de</strong> sinonímia, possíveis r<strong>em</strong>issivas. Alémdisso, o pesquisador po<strong>de</strong>rá cruzar referências com obras já publicadas, verificando se otermo é dicionarizado, se há <strong>de</strong>finições coinci<strong>de</strong>ntes, a fonte da <strong>de</strong>finição e a <strong>de</strong>finiçãodicionarizada <strong>em</strong> si.A segunda tabela do banco, disponibilizada numa segunda página <strong>de</strong> inserção <strong>de</strong> dados,servirá para a construção da <strong>de</strong>finição do termo. Nela serão visualizados os conceitos6 Uma obra terminológica, normalmente, não apresenta aos leitores tantas informações assim. Preferimos, noentanto, elaborar uma ficha com conteúdo o mais abrangente possível, <strong>de</strong>ixando-a mais próxima <strong>de</strong> uma fichalexicográfica.7 Embora obras terminológicas tendam a apresentar <strong>de</strong>finições monossêmicas, preferimos inserir esse campo.Algumas áreas, que já atualmente apresentam uma gran<strong>de</strong> diversida<strong>de</strong> <strong>de</strong> terminologia, como a informática,pod<strong>em</strong> vir a apresentar algumas <strong>de</strong>finições polissêmicas <strong>em</strong> suas diferentes subáreas.


extraídos pelos pesquisadores na primeira tabela e, a partir dos mesmos, selecionados ostraços distintivos. Dali serão tirados o conceito final e a <strong>de</strong>finição do termo 8 . A consulta aosdados do banco po<strong>de</strong>rá ser feita por diferentes ferramentas, que <strong>de</strong>verão ser <strong>de</strong>senvolvidasvisando à extração <strong>de</strong> dados específicos ou gerais do mesmo.Pod<strong>em</strong>os citar, como ex<strong>em</strong>plo <strong>de</strong> trabalho <strong>em</strong> curso, a tese <strong>de</strong> doutorado <strong>de</strong> Fromm, queproporá um website para o treinamento <strong>de</strong> alunos <strong>de</strong> tradução na área <strong>de</strong> vocabuláriostécnicos. O usuário final terá acesso aos dados do banco, porém somente para consulta. Ainovação proposta será a forma <strong>de</strong> consultar o banco. A construção do ambiente web estásendo feita <strong>em</strong> conjunto com a construção do banco <strong>de</strong> dados. Elisa Duarte Teixeira<strong>de</strong>senvolve uma pesquisa (ainda <strong>em</strong> fase inicial), também <strong>de</strong> doutorado, para a extração <strong>de</strong>dados diretamente <strong>de</strong> um corpus, o que provi<strong>de</strong>nciará a alimentação automática <strong>de</strong> ex<strong>em</strong>plospara a ficha terminológica.Referências BibliográficasAUBERT, F. H. Introdução à metodologia da pesquisa terminológica bilíngüe. São Paulo:Humanitas, 1996.BACELLAR, F. El<strong>em</strong>entos para a elaboração <strong>de</strong> um dicionário terminológico bilíngüe <strong>em</strong>Ciências Agrárias. 2002. 200 f. Tese (Doutorado <strong>em</strong> Lingüística) – Faculda<strong>de</strong> <strong>de</strong> Filosofia,<strong>Letras</strong> e Ciências Humanas, Universida<strong>de</strong> <strong>de</strong> São Paulo, São Paulo, 2002.BARBOSA, M. A. Dicionário, vocabulário, glossário: concepções. In: ALVES, I. M. (org.).A constituição da normalização terminológica no Brasil. São Paulo: FFLCH/CITRAT, 2001.BERBER SARDINHA, T. Lingüística <strong>de</strong> Corpus. São Paulo: Manole, 2004.CABRÉ, M. T. La terminología. Teoria, metodologia, aplicaciones. Barcelona: EditorialAntártida/Empúries, 1993. p. 281-282.FROMM, G. Proposta para um mo<strong>de</strong>lo <strong>de</strong> glossário <strong>de</strong> informática para tradutores.Dissertação (Mestrado <strong>em</strong> Lingüística). Faculda<strong>de</strong> <strong>de</strong> Filosofia, <strong>Letras</strong> e Ciências Humanas,Universida<strong>de</strong> <strong>de</strong> São Paulo, São Paulo, 2002.GAVENSKI, M. M. Microisis: uma experiência no gerenciamento <strong>de</strong> dados terminológicos.In: KRIEGER, M. G.; MACIEL, A. M. B (org.). T<strong>em</strong>as <strong>de</strong> terminologia. Porto Alegre/SãoPaulo: Ed. Universida<strong>de</strong>/UFRGS/Humanitas/USP, 2001.8 O conceito final é montado tendo <strong>em</strong> vista os vários conceitos previamente elaborados pelo terminógrafo. A<strong>de</strong>finição <strong>de</strong>ve obe<strong>de</strong>cer os critérios previamente estabelecidos na construção da obra. Cabré (1993, p. 207-213)


KRIEGER, M. G.; FINATTO, M. J. B. Introdução à terminologia: teoria e prática. SãoPaulo: Contexto, 2004.MACIEL, A. M. B. Termisul e terminótica. In: KRIEGER, M. G.; MACIEL, A. M. B (org.).T<strong>em</strong>as <strong>de</strong> terminologia. Porto Alegre/São Paulo: Ed.Universida<strong>de</strong>/UFRGS/Humanitas/USP,2001.TAGNIN. S. E. O (2004). Um corpus multilíngüe para ensino e tradução – o Comet: daconstrução à exploração. Tradterm 10. São Paulo: Humanitas, 2004.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!