UFSC - UNIVERSIDADE FEDERAL DE SANTA CATARINA - PGET ...
UFSC - UNIVERSIDADE FEDERAL DE SANTA CATARINA - PGET ...
UFSC - UNIVERSIDADE FEDERAL DE SANTA CATARINA - PGET ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
linguagem, em trabalhos de tradução, e em processamento de linguagem<br />
natural. A interdisciplinaridade dessa área tem possibilitado a troca de<br />
experiências e uma colaboração entre profissionais de diferentes áreas<br />
do conhecimento.<br />
A linguística de corpus tem exercido uma grande influência na<br />
pesquisa linguística e na área da tradução. Existem, na Europa, vários<br />
centros de pesquisas e várias universidades que se dedicam à pesquisa<br />
baseada em corpus. Nos Países Escandinavos, por exemplo, os centros<br />
dedicados à Linguística de corpus têm sido muito atuantes há vários<br />
anos. No Brasil, a Linguística de corpus ganha cada vez mais espaço não<br />
somente nos centros acadêmicos, mas também no âmbito empresarial,<br />
no qual existe grande interesse nas aplicações comerciais, psicológicas,<br />
sociológicas, etc..<br />
Existem vários tipos de corpus. Cada corpus é feito de acordo<br />
com a finalidade que se persegue. Hoje em dia um corpus não é apenas<br />
um conjunto de textos: ele precisa estar informatizado e ser construído<br />
seguindo uma série de critérios com propósitos determinados; segundo<br />
SINCLAIR (1991). [...] a corpus is a collection of naturally-occurring<br />
language text, chosen to characterize a state or variety of a language 11 .<br />
SINCLAIR (1991, p. 171).<br />
As características básicas de um corpus linguístico são:<br />
representatividade, tamanho, formatação e anotações ou referência.<br />
Biber (1993, p. 243 apud PÉREZ HERNÁN<strong>DE</strong>Z, 2002, p.1) define<br />
representatividade como the extent to which a sample includes the full<br />
range of variability in a population 12 . Existem critérios internos e<br />
externos para a compilação de um corpus (Hofland e Johansson 1982,<br />
Sinclair 1987b, Atkins, Clear e Ostler 1992 e Nakamura 1993 apud<br />
PÉREZ HERNÁN<strong>DE</strong>Z, 2002, p.1).<br />
Um corpus é uma amostra. Não se pode estabelecer qual seria o<br />
tamanho ideal de uma amostra para que represente uma população, por<br />
isso deve-se tomar o maior número possível de dados para uma amostra.<br />
Quanto maior for o número de dados da amostra se aproximar da<br />
população da qual deriva, maior será a sua representatividade<br />
(SARDINHA, 2004, p. 23).<br />
11 O corpus é uma coleção de ocorrência da linguagem natural do texto,<br />
escolhida para caracterizar um estado ou variação da língua (tradução minha).<br />
12 A extensão na qual a amostra inclui a gama de variabilidade em uma<br />
população (tradução minha).<br />
41