3.3 Anotação linguística

Plano de Trabalho para o
primeiro ano do Projeto

2015

Sintaxe e estrutura informacional da
“História da província Sancta cruz”, 1576:
primeiros estudos para as histórias do Brasil

Universidade de York, Reino Unido

Bolsa de estágio-pesquisa no exterior,
Fundação de Amparo à Pesquisa do Estado de São Paulo – FAPESP
(ver na Biblioteca Virtual Fapesp)

O tratamento computacional dos textos neste Projeto está solidamente amadurecido quanto ao sistema de edição eletrônica e quanto à anotação sintática. O objetivo do primeiro ano do projeto é desenvolver uma anotação de estrutura informacional em moldes compatíveis com as anotações já sistematizadas. Isso será realizado graças a um estágio de pesquisa na Universidade de York, no Reino Unido.

Procuro aqui resumir a direção que será tomada no desenvolvimento dessa anotação, em particular justificando a decisão de aplicá-la com base na anotação sintática. De partida, a relevância da conjugação entre os dois planos de anotação remete à natureza do problema linguístico que queremos estudar: justamente, a relação entre a sintaxe e a estrutura informacional.

Tenho por hipótese que, no Português Clássico, os constituintes são fronteados de acordo com sua proeminência discursiva, e que isso pode ser analisado obervando-se a alternância de referentes em sequências narrativas e descritivas dos textos, conforme detalhei em 2. Nesse sentido, as vantagens de fundar a análise da relação entre sintaxe e estrutura informacional desses textos na anotação sintática já disponível mostram-se bem se retomarmos os pontos principais das análises intuitivas em que fundei essas hipóteses – tanto quanto à interação que se estabelece entre os constituintes em primeira posição entre si, como também quanto à interação entre os constituintes em primeira posição e os sujeitos nulos. Fundamentalmente, afirmei mais atrás que, conforme se alternam os referentes, os constituintes que os expressam são trazidos à frente – mostei, para ilustrá-lo, o exemplo (6), da sequência “Essa cobra he muito formosa, a cabeça tem vermelha, branca e preta, e assi todo o corpo. Esta he a mais peçonhenta detodas, anda de vagar, e vive em as brenhas da terra”, destacando nela a alternância de referentes dos constituintes à esquerda do verbo (i.e., [esta cobra]/[a cabeça]/[esta]). Entretanto, naquele ponto, não tratei dos constituintes sintáticos que não se realizam como lexicais, mas que estão também envolvidos na cadeia de alternância e continuidade de referentes, como mostra o exemplo retomado abaixo, com a indicação rudimentar dos sujeitos nulos com o sinal [ø], e os índices (i) e (ii) para cada referente que se alterna:

  1. [Esta cobra]-i                 he muito formosa,
    [a cabeça]-ii        [ø]-i     tem vermelha, branca e preta, e assi todo o corpo.
    [Esta]-i                            he a mais peçonhenta de todas,
    ……………………….[ø]-i      anda de vagar, e
    ……………………….[ø]-i      vive em as gretas da terra

Temos agora portanto a seguinte cadeia de referentes, expandida em relação ao que vimos antes pela inclusão de  itens não-lexicais: [esta cobra]-i/[a cabeça]-ii/[ø]-i/[esta]-i/[ø]-i/[ø]-i.  – onde, notemos, explicita-se um novo fato: enquanto os referentes dos constituintes fronteados se alternam, o referente dos sujeitos das cinco orações forma uma continuidade (de modo que, por exemplo, a oração “a cabeça [ø] tem vermelha, branca e preta…” difere das demais quanto ao referente do constituinte em primeira posição, mas não quanto ao referente do sujeito, i.e., [cobra]). Assim, para desenhar um “mapa completo” das cadeias de referentes, precisamos incluir os sujeitos nulos. Essa anotação, ao explicitar a relação de referência dos sujeitos nulos com  constituintes lexicais, favoreceria ainda a investigação da hipótese da liberdade configuracional de seu licenciamento, em contraste com o verificado no Português Brasileiro (por Modesto, 2000, entre outros), como sugerido em 2. Levando em conta esses fatores, nosso sistema de anotação de estrutura informacional começará como um sistema que irá, basicamente, explicitar a cadeia de referentes formada pelos constituintes argumentais.

Para isso, tomarei por base a anotação sintática do Corpus Tycho Brahe, onde estão codificadas as funções sintáticas de todos os constituintes (lexicais ou nulos). O sistema de anotação sintática aplicado aos textos do Corpus Tycho Brahe é uma adaptação, para o português, do sistema Penn-Treebank  – mais especificamente, do Penn-Helsinki Parsed Corpus of Middle English (Kroch & Taylor, 2000), fundado em uma análise parcialmente automatizada, realizada pelo algoritmo de Bikel (2004); em Paixão de Sousa, 2014, apresento seus princípios de uma forma detalhada. Aqui, mostro a anotação superficialmente, apenas no que remete aos sujeitos. Notemos, nesse sentido, que os procedimentos automáticos, na atual etapa da técnica, não alcançam a identificação computacional das funções sintáticas (sujeito, objeto) nem das categorias vazias (sujeitos nulos referencias e expletivos); essas categorias encontram-se entretanto exausivamente anotadas nos textos, por codificação manual. Para mostrar como as novas anotações para a estrutura informacional se combinarão a essa anotação prévia, trago como exemplo o texto anotado de Gandavo (1576), selecionando duas sentenças do trecho maior já mostrado em (11): “Tem um rabo comprido todo coberto do mesmo casco : o focinho é como de leitão, ainda que mais delgado algum tanto, e não bota mais fora do casco que a cabeça”. Em (17), na anotação sintática dessas três orações matrizes (sigla IP-MAT), note-se, particularmente, a anotação dos sujeitos – na primeira, está anotado um sujeito nulo, (NP-SBJ *pro*); na segunda, o sujeito lexical (NP-SBJ (D o) (N focinho)); na terceira, outro nulo, (NP-SBJ *pro*):

(17)
Imagem 833

Podemos agora adicionar, a essa anotação já pronta, uma indicação de referentes – por exemplo, aplicando os índices (i) e (ii) aos sintagmas (NP-SBJ…) das matrizes, como resume (18):

(18)
Imagem 834

Nessa anotação, quanto aos sujeitos, duas informações se explicitam em relação a (17): o primeiro sujeito, nulo, tem uma referência diferente do segundo sujeito, lexical e pré-verbal; o terceiro sujeito, também nulo,  tem a mesma referência do primeiro. Extendida ao texto como um todo, essa codificação simples já tornaria possível realizarem-se buscas e depreenderem-se padrões importantes para nossas investigações. Por exemplo, quanto aos padrões mais importantes para a hipótese central do projeto, poderíamos buscar  por “todas as construções com sujeitos lexicais antes do verbo”, mais “todas as construções com complementos antes do verbo”,  e conferir se, como minha hipótese prevê, esses constituintes correspondem consistentemente a referentes alternantes em uma cadeia. Esse resultado já seria muito positivo, pois significaria a confirmação empírica da hipótese intuitiva proposta desde Paixão de Sousa (2004). Além disso, ainda com base nessa anotação simples, seria possível recuperar do texto “todas as construções com sujeitos lexicais”, mais “todas as construções com sujeitos nulos referenciais”, e conferir se os sujeitos nulos aparecerão em liberdade configuracional (isto é, independentes das posições ocupadas por sujeitos lexicais a eles co-referentes) – verificando um aspecto complementar, mas também importante, da hipótese. Assim, essa anotação simples já permitiria verificar as principais previsões empíricas da hipótese da proeminência à esquerda, favorecendo o prosseguimento de meu trabalho sobre a reanálise entre o Português Clássico e o Português Brasileiro.

Entretanto, ela não é ainda uma anotação de estrutura informacional – e sim, a rigor, uma anotação de cadeias de referência. Não se codificam, nesse modelo, as diferentes classes de tópicos e focos – de fato, nem ao menos se classificam os constituintes como tópicos ou focos. Essa será uma codificação inicial, que será a base para o desenvolvimento de uma anotação com maior consistência teórica. Nesse sentido, pretendo, em particular, estudar com profundidade as propostas de Givón, 1983 sobre a “continuidade de tópicos”, fundadas, em  esssência, na verificação das formas de expressão dos constituintes segundo sua participação em uma cadeia de referentes. Assim, partirei da anotação de cadeias de referentes para realizar estudos e experimentos de buscas, e desenvolver o avanço dessa anotação como codificação de categorias informacionais consolidadas. Importa nesse ponto ressaltar o caráter inédito dessa metodologia, e, portanto, a importância da condução de experimentos sobre um modelo inicial, aliados à discussões exaustivas com um grupo de especialistas.


Histórias do Brasil:
Trajetória editorial e mapeamento linguístico de relatos de viagens quinhentistas em um corpus anotado de informações ligadas

Janeiro, 2015

Referências

Anúncios