Um corpus é
um conjunto formado por milhares de textos (novelas, obras de teatro, roteiros
de cinema, notícias de imprensa, ensaios, transcrições de noticiários radiofônicos
ou televisivos, transcrições de conversas, discursos, etc.) e centenas de milhões
de formas. A principal vantagem que os corpus
oferecem é a possibilidade de analisar usos reais. Dado o tamanho que possuem, os
corpus devem estar em formato eletrônico,
de modo que possam ser processados por computador.
Um corpus geral permite
obter as características que uma língua apresenta num determinado momento de sua
história. No caso do espanhol atual, o corpus deve conter textos de todos os
tipos e também de todos os países que constituem o mundo hispânico.
Hoje vamos falar do
Corpus do Espanhol do Século XXI (CORPES XXI), formado por textos escritos e
orais procedentes de Espanha, América, Filipinas y Guiné Equatorial com uma
distribuição de 25 milhões de formas por cada um dos anos compreendidos no período
2001 a 2012.
A versão disponível
atualmente ainda é provisória, uma versão beta, e o objetivo final deste grande
projeto é reunir, em 2018, um conjunto textual constituído de 400 milhões
de formas e palavras da língua comum de quase 500 milhões de hispanófonos.
Neste pequeno artigo vou apresentar dois
recursos muito úteis aos tradutores, e que eu utilizo com frequência: estadística
e concordância.
A estadística é um
recurso muito útil, no caso do espanhol, porque permite visualizar a distribuição
geográfica de um termo, isto é, sua frequência por país. Assim, caso eu tenha dúvidas, sobre
a preferência na América Latina entre dois adjetivos que são sinônimos perfeitos, como,
por exemplo, “sustentable” e “sostenible”, realizo uma busca de
estatísticas para cada termo, separadamente e obtenho os seguintes resultados,
que mostram a preferência pela primeira forma entre os hispano-americanos:
sustentable (Clique nas figuras para ampliá-las) |
sostenible |
Agora, vamos ver qual é
o substantivo de uso mais frequente na Espanha para computador: “ordenador” ou “computadora”.
ordenador |
computadora |
A busca por
concordância do verbo “reconciliar”, por exemplo, permite ver as diferentes
regências que esse verbo admite. Além disso, o recurso concordância conta ainda com filtros que permitem ordenar os resultados por ano, país, etc. E ao posicionar o ponteiro do mouse sobre uma linha, aparece a fonte de onde foi extraído o termo.
Fonte de onde foi extraído o termo |
Concordância do termo "reconciliar" |
REAL ACADEMIA ESPAÑOLA: Banco de datos (CORPES XXI) [en línea]. Corpus del Español del Siglo
XXI (CORPES). <http://www.rae.es>