sábado, 19 de março de 2011

Breve Histórico da Sociolinguística

A Sociolinguística, como campo de estudo ou disciplina em si, é algo recente. Provavelmente, o interesse pelos aspectos sociais da linguagem e a interseção entre linguagem e sociedade exista desde o começo da humanidade, porém seu estudo formal e organizado é datado no final do século XX.

Nessa época, produziram-se muitos trabalhos com o objetivo de entender as relações entre os traços linguísticos e sociais em diferentes comunidades nos Estados Unidos e na Europa, porém aqui se enfocarão as contribuições de Willian Labov* para as pesquisas entre o linguístico e o social, visto que a partir delas estabeleceu-se um novo paradigma de investigação na área.

A interferência da língua na sociedade e vice-versa não é tão óbvia quanto possa parecer, haja vista que, “[...] segundo Chomsky (1965), o objetivo dos estudos linguísticos é a competência linguística do falante-ouvinte ideal, pertencente a uma comunidade linguisticamente homogênea” (TARALLO, 2003, p. 06). Essa afirmação pode ser questionada quando se nota que em cada contexto de fala a língua se mostra heterogênea e diversificada. É essa mesma situação heterogênea que deveria ser submetida à sistematização.

Ao partir da constatação da heterogeneidade e da ampla diversificação da língua falada, Labov inicia seu trabalho, com o intuito de comprovar relações entre traços linguísticos e sociais no real desempenho linguístico dos falantes nas comunidades socioculturais. Ele acreditava que as variações pelas quais uma língua passa não são capazes de impedir a comunicação entre falantes que compartilham do mesmo sistema. Assim, percebeu que o caráter heterogêneo faz parte da estrutura e, por isso, poderia ser submetido à sistematização(CHIAVEGATTO, 1999, p. 48).

Labov desenvolveu suas pesquisas a partir da hipótese de que em meio a um caos aparente, demonstrado pela diversidade nas línguas, existiriam regularidades que deveriam ser encontradas. Seu intento era comprovar a hipótese geral de que existiriam razões sociais que condicionam a ocorrência das variações na língua, tanto nos distintos grupos socioculturais que há no interior das comunidades, como nos casos de interação que permitem suas atualizações.

Dentre os vários e significativos resultados que os estudos sociolinguísticos conseguiram, destaca-se a possibilidade de comprovação de que a heterogeneidade linguística é marca essencial das línguas naturais. Dessa forma, percebe-se que as comunidades humanas utilizam simultaneamente variações nos diversos níveis de linguagem. Entretanto, ressalta-se que essas variações não ocorrem ao acaso. Elas dependem de fatores socioculturais e subdividem a língua de acordo com as diferentes faixas etárias, religiões, profissões, classes sociais, anos de estudo e até mesmo gênero sexual.

Visto isso, entende-se que a língua usada por uma comunidade é um conjunto de variações condicionadas pela própria sociedade, sobre as quais recai juízo de valor. É por isso que há variedades linguísticas prestigiadas, estigmatizadas ou neutras. Apesar disso, os falantes de cada uma dessas variações pode se movimentar de uma variedade desprestigiada para uma mais prestigiada, de acordo com seus interesses de pertencer a um novo grupo social ou pela simples adaptação de sua fala a dado contexto social. Com isso, nota-se que a maneira como um indivíduo fala pode associá-lo a certos segmentos da sociedade e mostrar seu grau de identificação com um grupo.

O conhecimento linguístico, que é transmitido pelas gerações ao longo do tempo, é um tipo de aprendizado que se dá informalmente, na maioria das vezes. As crianças aprendem com seus pais e familiares as construções basilares da língua em um primeiro momento, e, em seguida, começam a entender regras de constituição de sentenças e de construção de palavras. Esse conhecimento acontece predominantemente de maneira assistemática, pelo contato com outros falantes da língua.

A aquisição da linguagem não se dá geneticamente, mas a capacidade fisiológica e neurológica da fala sim. As línguas são adquiridas ao longo das interações socioculturais e a transmissão dessa linguagem ao longo das gerações sucessivas é o que gera as mudanças linguísticas. Prova disso é que, caso um grupo seja separado geograficamente, as muitas variações podem chegar ao ponto de tornar a comunicação impossível. Quando as mudanças acontecem em uma mesma área geográfica, as variações desenvolvem identidades socioculturais que se associam aos traços linguísticos já existentes.

Conclui-se que a linguagem tem o poder de alterar o progresso da humanidade, considerando que se podem transmitir os conhecimentos e as experiências adquiridas por meio da linguagem, que tem como um de seus atributos a função de transmitir a cultura desenvolvida no interior de uma sociedade. Espera-se que este trabalho tenha apresentado, ainda que minimamente, a relação e interferência mútua entre língua e sociedade.

*O modelo teórico-metodológico de Labov ficou conhecido como Sociolinguística Quantitativa, que, apesar de considerar os aspectos socioculturais para suas análises, tem em foco a língua, buscando sistematizar, por meio de mecanismos científicos, o que antes foi considerado desvio, erro ou corrupção da língua. Por outro lado, há também a Sociolinguística Qualitativa, cujo enfoque não está na língua como sistema, mas na relação dos sujeitos com a linguagem.


Bibliografia

CHIAVEGATTO, Valéria Coelho. Linguagem, Sociedade e Cultura. In: CARNEIRO, Marísia (org.). Pistas e Travessias. Rio de Janeiro: EdUERJ, 1999, p. 29-61.

TARALLO, F. A relação entre língua e sociedade. In: A pesquisa sócio-linguística. São Paulo: Ática. 2003.

Visão Geral da Linguística de Corpus

Resumo

O primeiro corpus linguístico eletrônico foi lançado em 1964. Nessa época em que a informatização de textos era difícil e a ideia de gastar tempo e recursos com a coleta de registros linguísticos era vista com incredulidade, o Brown University Corpus of Present-day American English possuía um milhão de palavras.

Sete anos antes, Noam Chomsky lançara Syntatic structures e contribuiu para mudanças de paradigma na linguística. Com base nessa publicação, os dados necessários para o linguísta estavam em sua mente e seriam acessíveis por introspecção. A coleta de dados de terceiros não seria necessária, pois serviriam apenas para o estudo do desempenho, quando todos sabiam que o interesse era a investigação da competência linguística. Dessa forma, vê-se que o corpus de Brown surgiu em uma época em que se duvidava de seu mérito.

Além de ratificar a importância do corpus de Brown como propulsor do desenvolvimento da Linguística de Corpus (LC), o objetivo do primeiro capítulo do livro Linguística de Corpus, de Tony Berber Sardinha, é fazer uma retrospectiva da LC e discutir questões teóricas e práticas relacionadas a ela. Como o maior desenvolvimento se deu em relação ao inglês, o texto é dedicado, predominantemente, a essa língua.

A LC agrupa e explora os corpora – grupos de dados linguísticos textuais coletados criteriosamente, que servem na pesquisa de uma língua ou variedade linguística. Também explora a linguagem por meio de evidências baseadas na experiência, conseguidas com o auxílio do computador. Sabe-se, porém, que antes deste já existiam corpora. Na Grécia Antiga, Alexandre, o Grande, definiu o Corpus Helenístico. Na Antiguidade e na Idade Média, também eram produzidos corpora de citações bíblicas.

Os corpora eram coletados e analisados manualmente, e a ênfase geral deles era o ensino da língua. Hoje o que predomina na literatura é a descrição de linguagem e não a pedagogia, apesar de haver algumas aplicações recentes dos corpora na sala de aula e na investigação da linguagem de alunos de língua.

Um corpus não-computadorizado, o Survey of English Usage, planejado para um milhão de palavras, serviu de referência para outros, inclusive o de Brown. A composição do corpus influenciou a fixação do número de textos e quantidade igual de palavras para cada texto. O Survey foi organizado em fichas de papel e as palavras foram analisadas gramaticalmente. O conjunto de categorias resultante serviu de base para o desenvolvimento dos etiquetadores computadorizados da atualidade. Sua transformação completa em corpus eletrônico se deu em 1989.

O Syntactic structures, de Chomsky, por sua vez, surgiu com uma mudança de paradigma na linguística. Deixou-se para trás o empirismo e a sustentação dos trabalhos baseados em corpora, dando lugar para as teorias racionalistas da linguagem, a linguística gerativista. Houve muitas críticas ao processamento manual de corpora gigantescos. Dizia-se que não eram confiáveis porque os humanos não eram feitos para tarefas desse tipo. As grandes equipes existentes para essas tarefas aumentavam a chance de erro e as inconsistências. Faltava um instrumento que analisasse os corpora de modo confiável.

Em vista disso, nos anos 1960, computadores mainframe equiparam centros de pesquisa universitários e foram aproveitados em pesquisa de linguagem. Seu uso permitiu a consecução de tarefas mais complexas de forma mais eficiente, visto que a capacidade de armazenamento e as novas mídias facilitaram a criação e manutenção de mais corpora.

Hoje a LC tem grande influência na pesquisa linguística. Os grandes centros de pesquisa se encontram na Grã-Bretanha, nos países escandinavos e nos Estados Unidos, com presença mais modesta, devido ao conflito entre a linguística gerativo-transformacional e a LC, entre outros fatores. Entretanto, há nos EUA um alto grau de desenvolvimento na pesquisa em Processamento de Linguagem Natural, que tem laços com a Ciência da Computação, que, apesar de ter temas em comum com a LC, mantêm-se independentes. Entretanto, no Brasil, a LC está em seu estágio inicial.

Observa-se que a LC também ganha espaço no âmbito empresarial. Há parcerias entre universidades e empresas, como as de telecomunicações, que utilizam pesquisas baseadas em corpus com várias finalidades comerciais. Considerando a finalidade deste resumo, suprimiram-se as seções que tratam de corpora de outras línguas além do português.

Há vários corpora eletrônicos de destaque em língua portuguesa, como o Banco de Português (233 milhões de palavras), da PUC/SP; o Corpus de Extractos de Textos Electrônicos (229 milhões de palavras), do Projeto Linguateca; e o Corpus do Português Brasileiro Contemporâneo (100 milhões de palavras), da UNESP Araraquara, por exemplo.

A pesquisa com corpora eletrônicos de português data dos anos 1960, em Portugal, sendo o Centro de Linguística da Universidade de Lisboa um dos pioneiros. Nota-se ainda que há projetos de criação e informatização de corpora em várias regiões do Brasil, porém o grau de informatização ainda não é o ideal, concluindo-se que o corpus de língua escrita e falada ainda não foi concretizado.

Define-se corpus como um conjunto de dados linguísticos, sistematizados segundo critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de forma que possam ser processados por computador, com a finalidade de propiciar vários resultados, úteis para descrição e análise.

Tal definição é importante porque menciona a origem, o propósito, a composição, a formatação, a representatividade e a extensão. Assim, entende-se que: o corpus deve ser composto de textos autênticos, em linguagem natural; a autenticidade dos textos subentende textos produzidos por falantes nativos; o conteúdo do corpus deve ser colhido criteriosamente; e o corpus deve ser representativo para uma variedade linguística ou para o idioma.

Pelo fato de a nomenclatura que define o conteúdo e o propósito na LC ser extensa, serão apresentados apenas os principais tipos citados na literatura, segundo critérios próprios: modo, tempo, seleção, conteúdo, autoria, disposição interna e finalidade. Essa classificação também pode ser feita por meio de perguntas criadas a partir da pluralidade de autoria, da origem da autoria, do meio, da integralidade, da especificidade, do dialeto, do equilíbrio, do fechamento, da renovação, da temporalidade, da tradução e da intercalação.

Para ser representativo, um corpus deve ser o maior possível. Haja vista que quanto maior a quantidade de palavras, maior a probabilidade de aparecerem as de baixa frequência. Além disso, será possível encontrar diversos sentidos para uma mesma palavra, de acordo com o contexto. Não se pode estabelecer um tamanho ideal de corpus, visto que é uma amostra de uma população cuja dimensão se desconhece. Dessa forma, percebe-se que são os usuários de um corpus que lhe atribuem a representatividade de certa variedade.

Apesar de ser um critério importante para a representatividade, pouco se pesquisou sobre a definição de critérios mínimos para a extensão de um corpus. Entretanto, sabe-se que sua extensão comporta três dimensões: o número de palavras, o número de textos e o número de gêneros estudados. Igualmente, podem-se definir três abordagens: impressionística, histórica e estatística. A primeira está relacionada ao número de palavras; a segunda, à monitoração dos corpora realmente usados pela comunidade; e o terceiro, à aplicação de teorias estatísticas.

Ressalta-se que há oposição de ideias entre os empiristas (hallidianos) e os racionalistas (chomskyanos) da linguagem. Os primeiros veem a linguagem como probabilidade; e os segundos, como possibilidade. As diferenças estão relacionadas ao foco no desempenho linguístico no lugar da competência, no foco na descrição linguística e no foco em uma visão mais empirista do que racionalista.

Afirma-se haver muitos trabalhos enquadrados na LC, que compartilham características como o empirismo e a análise de padrões de uso em textos naturais; o uso de corpus e computadores; e a dependência de técnicas qualitativas e quantitativas. Suas principais áreas de pesquisa concentram a compilação de corpus, o desenvolvimento de ferramentas, a descrição da linguagem e a aplicação de corpora, sendo a descrição a área mais ativa.

Os padrões de linguagem podem ser resumidos em três conceitos principais: a colocação (textual, psicológica ou estatística), que é a associação entre itens lexicais ou entre o léxico e campos semânticos; a coligação, que é a associação entre itens lexicais e gramaticais; e a prosódia semântica, que é a associação entre itens lexicais e conotação ou instância avaliativa.

Esse capítulo apresenta um painel da LC. Observa-se, porém, que há duas dificuldades para se retratar esse campo: a quantidade de trabalhos novos que surgem e a visão de que ela se trata de uma contabilidade linguística, por isso há que se explicitar o quadro teórico que lhe dá coerência e sustentação.

Conclui-se que o crescimento e a força da LC se manterá à proporção que os pesquisadores percebam no corpus uma fonte inestimável de informação. Logo, estudantes, linguistas e demais pesquisadores verão que nenhum corpus contém toda a informação necessária, mas todo corpus ensina coisas sobre a linguagem que não podem ser descobertas sem ele.


SARDINHA, Tony Berber. Linguística de Corpus. São Paulo: Manole, 2004.

quinta-feira, 3 de março de 2011

Um NÃO ao xixi na rua e à camisinha no bolso. Como disse o Velho Guerreiro, o lugar dela é no pescoço!

Hoje acordei disposto e, apesar da chuva, fiz minha caminhada matinal. Como gosto de ouvir música ou as notícias do dia enquanto me exercito, peguei o celular (que também é rádio, filmadora, câmera fotográfica, peso para papel, etc.) e saí em busca de alguns dos dez mil passos diários sugeridos pelos estudos mais recentes.

Comecei a pular de estação em estação, e parei na rádio Globo, para ouvir um pouco de informação sem a seriedade da CBN. Ressalto que gosto desta emissora, mas a aproximação do carnaval não nos deixa pensar em nada muito sério. Meu objetivo era me exercitar e relaxar, não necessariamente nessa ordem.

Os dias que antecedem a festa de Momo fizeram com que a rádio Globo reproduzisse algumas das marchinhas eternizadas na lembrança do carioca. A de hoje, veiculada por volta das nove horas, foi gravada pelo Chacrinha no final dos anos 1980, quando a AIDS começou a tirar o brilho das fantasias de carnaval.

Nela se ouvia o Velho Guerreiro, acompanhado de suas chacretes e banda, dar um sábio e atual conselho: “Bota camisinha / Bota meu amor / Que hoje tá chovendo / Não vai fazer calor / Bota a camisinha no pescoço / Bota geral / Não quero ver ninguém / Sem camisinha / Pra não se machucar / No Carnaval”. Essa marchinha cheia de duplo sentido foi uma das formas de educar o povo sexualmente diante dessa nova realidade, tanto no rádio como na televisão. Lá se vão quase duas décadas e todo fevereiro-março faz sucesso na boca do povo. Agora você vai entender onde entra (mas não deveria) o xixi nessa história.

A televisão tem divulgado comerciais alertando a população, principalmente os marmanjos, a não urinar nas ruas nesses dias de folia. Além dos comerciais na TV, há anúncios no rádio e cartazes espalhados em lugares de grande concentração de foliões. Isso é correto, visto que a cidade que abrigará a Copa do Mundo de 2014 e as Olimpíadas de 2016 deve saber, pelo menos, dar um fim ao xixi que escorre pelas ruas quando acontece qualquer comemoração.

Para que isso se resolva, é necessária uma operação conjunta entre a prefeitura e a população. A primeira, ainda que com ajuda da iniciativa privada, deve colocar um número suficiente de banheiros químicos, bem localizados e devidamente higienizados. A segunda deve entender que o poder público não consegue tomar conta de tudo sozinho, por isso, deve ter consciência de sua responsabilidade socioambiental.

Parte de minha revolta está relacionada à repulsa que senti quando, durante a caminhada, vi um vira-lata sair mastigando alguma coisa de um banheiro químico instalado perto dos Arcos da Lapa. Fiquei minutos tentando não imaginar o que poderia ter sido, mas sei que não era Pedigree Champ. Se a prefeitura não providenciar a limpeza, o cãozinho vai voltar lá na hora do almoço... Ai, credo.

Bem, apesar de a AIDS continuar sendo um problema de saúde pública, sua prevenção não está sendo bem divulgada como em outros carnavais. Estão se preocupando mais com o xixi nos postes, árvores, paredes e algumas bancas de jornal quase podres por aí e com o consumo excessivo de álcool associado à direção.

De tudo um pouco, nada de excesso. A mídia deveria fazer campanhas de prevenção contra tudo o que oferece risco à sociedade, mas sem dar preferência a um tema exageradamente. A cada ano escolhem um mote e ficam martelando naquilo em datas específicas. Daí o povo pensa que o problema combatido no ano anterior já foi resolvido.

A melhor solução seria beber pouco, voltar para casa de táxi ou de carona com alguém que não tenha bebido. Bebendo pouco, a pessoa vai urinar pouco e, quando der vontade, vai conseguir chegar ao banheiro químico mais próximo (caso haja). Em relação à camisinha, o lugar dela é no pescoço, antes, durante ou depois das fantasias.

Acabei dando quase treze mil passos, só pela manhã. Espero que nossa cidade dê muitos outros a cada manhã ensolarada que traz a esperança de quem está aos pés do Cristo. Pela saúde, pelas ruas mais limpas e pela memória/esperança de bons carnavais, façamos nossa parte.