O que é um corpus?
Um corpus ou corpora é uma
coletânea de textos em formato eletrônico, compilada segundo critérios específicos, considerada
representativa de uma língua e destinada à
pesquisa.
Hoje vou apresentar uma ferramenta
que utilizo com frequência, o Corpus do Português dos professores Mark Davies, da Brigham Young
University, e Michael J. Ferreira, da Georgetown University. Eles publicaram na
rede um corpus do português com 45 milhões de palavras numa compilação de
textos que abrangem o período do século XIV ao XX.
De que forma podemos
usufruir dessa ferramenta?
Quantas vezes temos dúvidas quanto à
combinação de algumas palavras?
Às vezes certa combinação soa familiar numa língua, mas não temos certeza se ela está correta ou de seu correspondente na língua de chegada.
O corpus eletrônico permite consultar uma coletânea de textos diversos de vários gêneros: acadêmico, notícias, ficção, oral, etc., tanto em português brasileiro como em português europeu, o que permite obter exemplos reais de uso de forma automática.
Às vezes certa combinação soa familiar numa língua, mas não temos certeza se ela está correta ou de seu correspondente na língua de chegada.
O corpus eletrônico permite consultar uma coletânea de textos diversos de vários gêneros: acadêmico, notícias, ficção, oral, etc., tanto em português brasileiro como em português europeu, o que permite obter exemplos reais de uso de forma automática.
Antes da computação e da Internet,
isso só seria possível reunindo uma infinidade de livros físicos e realizando
uma exaustiva pesquisa manual.
O corpus do português
Para acessar a interface você deve
inserir o endereço http://www.corpusdoportugues.org/.Clique na opção “Português”. Será
exibida a página principal da aplicação:
Para aprender a usar os diferentes
recursos, faça um tour
pelo site. Para isso, clique na caixa de texto Ajuda / Informação / Contatar.
Além da busca por palavras ou
expressões, é possível realizar pesquisas mais avançadas, por sinônimos,
categorias gramaticais e combinações de palavras. Em termos de consultas
básicas, o usuário pode pesquisar palavras exatas, lemas (formas
de uma palavra), frases e fazer pesquisas mais complexas como verbos
com des* ou formas de querer + pronome + infinitivo.
Vou mostrar aqui duas opções bem
básicas:
1)
O resultado de uma busca pela palavra “misterioso”:
2)
O resultado de uma busca pelos adjetivos mais
comuns perto da palavra “riso”:
Uma colocação é o modo como as
palavras se combinam numa língua para produzir um discurso natural (cartão de
crédito, tomar uma decisão, prestar atenção, acreditar plenamente, pedir
encarecidamente, cinema mudo, ódio mortal, amor cego, etc.).
Em português, por exemplo, dizemos “responsável por”, em espanhol, “responsable de”; em português dizemos “ministrar aulas”, em espanhol “impartir clases”, em português “estar apaixonado por”, em espanhol “estar enamorado de”; em português “pisar na bola”, em espanhol “meter la pata”; em português “sorriso amarelo”, em espanhol “sonrisa forzada” e assim por diante.
Em português, por exemplo, dizemos “responsável por”, em espanhol, “responsable de”; em português dizemos “ministrar aulas”, em espanhol “impartir clases”, em português “estar apaixonado por”, em espanhol “estar enamorado de”; em português “pisar na bola”, em espanhol “meter la pata”; em português “sorriso amarelo”, em espanhol “sonrisa forzada” e assim por diante.
Se você ainda não conhece esta ferramenta, o que está esperando? Acesse já! (sim, quando encontramos algo assim, precisamos fazer propaganda ao melhor estilo Walter Mercato, lembra-se dele?).
Para saber mais acerca da
linguística de corpus leia o livro Linguística
de Corpus de Stella E O Tagnin.
Que feliz he quedado yo :)
ResponderExcluirMuchísimas gracias por compartir esa información ;)
Acredito que o Corpus não só seja útil para tradução, mas também para melhorar a própria escrita!
ResponderExcluir