segunda-feira, 17 de abril de 2017

Como usar o CORPES (Corpus do Espanhol do Século XXI)

Um corpus é um conjunto formado por milhares de textos (novelas, obras de teatro, roteiros de cinema, notícias de imprensa, ensaios, transcrições de noticiários radiofônicos ou televisivos, transcrições de conversas, discursos, etc.) e centenas de milhões de formas. A principal vantagem que os corpus oferecem é a possibilidade de analisar usos reais. Dado o tamanho que possuem, os corpus devem estar em formato eletrônico, de modo que possam ser processados por computador.

Um corpus geral permite obter as características que uma língua apresenta num determinado momento de sua história. No caso do espanhol atual, o corpus deve conter textos de todos os tipos e também de todos os países que constituem o mundo hispânico.

Hoje vamos falar do Corpus do Espanhol do Século XXI (CORPES XXI), formado por textos escritos e orais procedentes de Espanha, América, Filipinas y Guiné Equatorial com uma distribuição de 25 milhões de formas por cada um dos anos compreendidos no período 2001 a 2012.

A versão disponível atualmente ainda é provisória, uma versão beta, e o objetivo final deste grande projeto é reunir, em 2018, um conjunto textual constituído de 400 milhões de formas e palavras da língua comum de quase 500 milhões de hispanófonos. 



Neste pequeno artigo vou apresentar dois recursos muito úteis aos tradutores, e que eu utilizo com frequência: estadística e concordância.

A estadística é um recurso muito útil, no caso do espanhol, porque permite visualizar a distribuição geográfica de um termo, isto é, sua frequência por país. Assim, caso eu tenha dúvidas, sobre a preferência na América Latina entre dois adjetivos que são sinônimos perfeitos, como, por exemplo, “sustentable” e “sostenible”, realizo uma busca de estatísticas para cada termo, separadamente e obtenho os seguintes resultados, que mostram a preferência pela primeira forma entre os hispano-americanos:

sustentable
(Clique nas figuras para ampliá-las)

sostenible

Agora, vamos ver qual é o substantivo de uso mais frequente na Espanha para computador: “ordenador” ou “computadora”.


ordenador
computadora
Por último, o recurso concordância é uma lista que permite visualizar as ocorrências de um determinado termo num corpus. Cada ocorrência aparece contextualizada, o que é muito útil para o tradutor, já que permite conhecer como se utiliza um termo num determinado contexto, sua combinação com substantivos, adjetivos, preposições, complementos, etc. o que nos permite, também, compreender melhor seu significado para utilizá-lo no contexto adequado.

A busca por concordância do verbo “reconciliar”, por exemplo, permite ver as diferentes regências que esse verbo admite. Além disso, o recurso concordância conta ainda com filtros que permitem ordenar os resultados por ano, país, etc. E ao posicionar o ponteiro do mouse sobre uma linha, aparece a fonte de onde foi extraído o termo.
  
Fonte de onde foi extraído o termo
Concordância do termo "reconciliar"


REAL ACADEMIA ESPAÑOLA: Banco de datos (CORPES XXI) [en línea]. Corpus del Español del Siglo XXI (CORPES). <http://www.rae.es> 


Nenhum comentário:

Postar um comentário