sábado, 19 de março de 2011

Visão Geral da Linguística de Corpus

Resumo

O primeiro corpus linguístico eletrônico foi lançado em 1964. Nessa época em que a informatização de textos era difícil e a ideia de gastar tempo e recursos com a coleta de registros linguísticos era vista com incredulidade, o Brown University Corpus of Present-day American English possuía um milhão de palavras.

Sete anos antes, Noam Chomsky lançara Syntatic structures e contribuiu para mudanças de paradigma na linguística. Com base nessa publicação, os dados necessários para o linguísta estavam em sua mente e seriam acessíveis por introspecção. A coleta de dados de terceiros não seria necessária, pois serviriam apenas para o estudo do desempenho, quando todos sabiam que o interesse era a investigação da competência linguística. Dessa forma, vê-se que o corpus de Brown surgiu em uma época em que se duvidava de seu mérito.

Além de ratificar a importância do corpus de Brown como propulsor do desenvolvimento da Linguística de Corpus (LC), o objetivo do primeiro capítulo do livro Linguística de Corpus, de Tony Berber Sardinha, é fazer uma retrospectiva da LC e discutir questões teóricas e práticas relacionadas a ela. Como o maior desenvolvimento se deu em relação ao inglês, o texto é dedicado, predominantemente, a essa língua.

A LC agrupa e explora os corpora – grupos de dados linguísticos textuais coletados criteriosamente, que servem na pesquisa de uma língua ou variedade linguística. Também explora a linguagem por meio de evidências baseadas na experiência, conseguidas com o auxílio do computador. Sabe-se, porém, que antes deste já existiam corpora. Na Grécia Antiga, Alexandre, o Grande, definiu o Corpus Helenístico. Na Antiguidade e na Idade Média, também eram produzidos corpora de citações bíblicas.

Os corpora eram coletados e analisados manualmente, e a ênfase geral deles era o ensino da língua. Hoje o que predomina na literatura é a descrição de linguagem e não a pedagogia, apesar de haver algumas aplicações recentes dos corpora na sala de aula e na investigação da linguagem de alunos de língua.

Um corpus não-computadorizado, o Survey of English Usage, planejado para um milhão de palavras, serviu de referência para outros, inclusive o de Brown. A composição do corpus influenciou a fixação do número de textos e quantidade igual de palavras para cada texto. O Survey foi organizado em fichas de papel e as palavras foram analisadas gramaticalmente. O conjunto de categorias resultante serviu de base para o desenvolvimento dos etiquetadores computadorizados da atualidade. Sua transformação completa em corpus eletrônico se deu em 1989.

O Syntactic structures, de Chomsky, por sua vez, surgiu com uma mudança de paradigma na linguística. Deixou-se para trás o empirismo e a sustentação dos trabalhos baseados em corpora, dando lugar para as teorias racionalistas da linguagem, a linguística gerativista. Houve muitas críticas ao processamento manual de corpora gigantescos. Dizia-se que não eram confiáveis porque os humanos não eram feitos para tarefas desse tipo. As grandes equipes existentes para essas tarefas aumentavam a chance de erro e as inconsistências. Faltava um instrumento que analisasse os corpora de modo confiável.

Em vista disso, nos anos 1960, computadores mainframe equiparam centros de pesquisa universitários e foram aproveitados em pesquisa de linguagem. Seu uso permitiu a consecução de tarefas mais complexas de forma mais eficiente, visto que a capacidade de armazenamento e as novas mídias facilitaram a criação e manutenção de mais corpora.

Hoje a LC tem grande influência na pesquisa linguística. Os grandes centros de pesquisa se encontram na Grã-Bretanha, nos países escandinavos e nos Estados Unidos, com presença mais modesta, devido ao conflito entre a linguística gerativo-transformacional e a LC, entre outros fatores. Entretanto, há nos EUA um alto grau de desenvolvimento na pesquisa em Processamento de Linguagem Natural, que tem laços com a Ciência da Computação, que, apesar de ter temas em comum com a LC, mantêm-se independentes. Entretanto, no Brasil, a LC está em seu estágio inicial.

Observa-se que a LC também ganha espaço no âmbito empresarial. Há parcerias entre universidades e empresas, como as de telecomunicações, que utilizam pesquisas baseadas em corpus com várias finalidades comerciais. Considerando a finalidade deste resumo, suprimiram-se as seções que tratam de corpora de outras línguas além do português.

Há vários corpora eletrônicos de destaque em língua portuguesa, como o Banco de Português (233 milhões de palavras), da PUC/SP; o Corpus de Extractos de Textos Electrônicos (229 milhões de palavras), do Projeto Linguateca; e o Corpus do Português Brasileiro Contemporâneo (100 milhões de palavras), da UNESP Araraquara, por exemplo.

A pesquisa com corpora eletrônicos de português data dos anos 1960, em Portugal, sendo o Centro de Linguística da Universidade de Lisboa um dos pioneiros. Nota-se ainda que há projetos de criação e informatização de corpora em várias regiões do Brasil, porém o grau de informatização ainda não é o ideal, concluindo-se que o corpus de língua escrita e falada ainda não foi concretizado.

Define-se corpus como um conjunto de dados linguísticos, sistematizados segundo critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de forma que possam ser processados por computador, com a finalidade de propiciar vários resultados, úteis para descrição e análise.

Tal definição é importante porque menciona a origem, o propósito, a composição, a formatação, a representatividade e a extensão. Assim, entende-se que: o corpus deve ser composto de textos autênticos, em linguagem natural; a autenticidade dos textos subentende textos produzidos por falantes nativos; o conteúdo do corpus deve ser colhido criteriosamente; e o corpus deve ser representativo para uma variedade linguística ou para o idioma.

Pelo fato de a nomenclatura que define o conteúdo e o propósito na LC ser extensa, serão apresentados apenas os principais tipos citados na literatura, segundo critérios próprios: modo, tempo, seleção, conteúdo, autoria, disposição interna e finalidade. Essa classificação também pode ser feita por meio de perguntas criadas a partir da pluralidade de autoria, da origem da autoria, do meio, da integralidade, da especificidade, do dialeto, do equilíbrio, do fechamento, da renovação, da temporalidade, da tradução e da intercalação.

Para ser representativo, um corpus deve ser o maior possível. Haja vista que quanto maior a quantidade de palavras, maior a probabilidade de aparecerem as de baixa frequência. Além disso, será possível encontrar diversos sentidos para uma mesma palavra, de acordo com o contexto. Não se pode estabelecer um tamanho ideal de corpus, visto que é uma amostra de uma população cuja dimensão se desconhece. Dessa forma, percebe-se que são os usuários de um corpus que lhe atribuem a representatividade de certa variedade.

Apesar de ser um critério importante para a representatividade, pouco se pesquisou sobre a definição de critérios mínimos para a extensão de um corpus. Entretanto, sabe-se que sua extensão comporta três dimensões: o número de palavras, o número de textos e o número de gêneros estudados. Igualmente, podem-se definir três abordagens: impressionística, histórica e estatística. A primeira está relacionada ao número de palavras; a segunda, à monitoração dos corpora realmente usados pela comunidade; e o terceiro, à aplicação de teorias estatísticas.

Ressalta-se que há oposição de ideias entre os empiristas (hallidianos) e os racionalistas (chomskyanos) da linguagem. Os primeiros veem a linguagem como probabilidade; e os segundos, como possibilidade. As diferenças estão relacionadas ao foco no desempenho linguístico no lugar da competência, no foco na descrição linguística e no foco em uma visão mais empirista do que racionalista.

Afirma-se haver muitos trabalhos enquadrados na LC, que compartilham características como o empirismo e a análise de padrões de uso em textos naturais; o uso de corpus e computadores; e a dependência de técnicas qualitativas e quantitativas. Suas principais áreas de pesquisa concentram a compilação de corpus, o desenvolvimento de ferramentas, a descrição da linguagem e a aplicação de corpora, sendo a descrição a área mais ativa.

Os padrões de linguagem podem ser resumidos em três conceitos principais: a colocação (textual, psicológica ou estatística), que é a associação entre itens lexicais ou entre o léxico e campos semânticos; a coligação, que é a associação entre itens lexicais e gramaticais; e a prosódia semântica, que é a associação entre itens lexicais e conotação ou instância avaliativa.

Esse capítulo apresenta um painel da LC. Observa-se, porém, que há duas dificuldades para se retratar esse campo: a quantidade de trabalhos novos que surgem e a visão de que ela se trata de uma contabilidade linguística, por isso há que se explicitar o quadro teórico que lhe dá coerência e sustentação.

Conclui-se que o crescimento e a força da LC se manterá à proporção que os pesquisadores percebam no corpus uma fonte inestimável de informação. Logo, estudantes, linguistas e demais pesquisadores verão que nenhum corpus contém toda a informação necessária, mas todo corpus ensina coisas sobre a linguagem que não podem ser descobertas sem ele.


SARDINHA, Tony Berber. Linguística de Corpus. São Paulo: Manole, 2004.

Nenhum comentário: