![]() |
|||||||||||||
|
|||||||||||||
CAT2 foi desenvolvido no âmbito do projecto EUROTRA da Comissão das Comunidades Europeias, a partir de 1987. Dispõe de várias ferramentas para testar entradas lexicais e regras gramaticais e tem um formato de árvore para mostrar etapas intermediárias da tradução automática, análise morfológica, sintáctica e semântica. Com estes instrumentos, os alunos podem facilmente aprender a escrever gramáticas e dicionários próprios e assim conhecer a lógica e o funcionamento interno de um sistema completo. Existem gramáticas e dicionários exemplares em várias línguas europeias que podem ser modificados e aumentados. A tradução é sempre possível nos dois sentidos. O formalismo CAT2 pode ser considerado uma linha paralela do EUROTRA (por isso o 2!) que continuou seguindo as directrizes dos dois primeiros anos quando a chefia do projecto decidiu abandonar o primeiro formalismo (relativamente puro de unificação e declarativo) e passar a outra linha bem mais processual, o chamado E-framework (HALLER 90,93; SHARP 94). Assim que as letras CAT lembram os primeiros conceitos de EUROTRA, o C significando constructor (o nome que o EUROTRA deu às regras de expansão), o A átomo (as entradas de base) e T translator, as regras de manipulação de árvores etiquetadas. O CAT2 também guardou o conceito de representações em níveis diferentes, por exemplo, o morfológico, o sintáctico e ou semântico, facto muito criticado na época pelos formalismos concorrentes como LFG (lexical functional grammar, BRESNAN 82) ou então HPSG (head driven phrase structure grammar) ou TAG (Tree adjoining grammar). Como o EUROTRA, o CAT2 tão pouco chegou a ser aplicado em escala comercial embora fossem construídos gramáticas e dicionários relativamente grandes. Hoje, este formalismo e o programa de interpretação estão ainda a ser utilizados no projecto UNL (http://www.iai.uni-sb.de/UNL-iai.html) e em várias universidades para fins didácticos; a maior utilização em volume de textos traduzidos aconteceu com uma versão inglês-espanhol para notícias de jornal, desenvolvida na Universidade Nacional Autónoma de México (http://triton.dgsca.unam.mx/traduce/index.html), disponível até hoje. Somente nos últimos anos, a interface do usuário chegou a um ponto de permitir uma velocidade suficiente para o desenvolvimento, e os interpretadores PROLOG a uma eficiência semelhante. Além do mais, o CAT2 somente mostra as grandes vantagens dele num sistema multilingue onde as gramáticas e dicionários sempre servem tanto para análise como para geração – e por isto, devem ser elaborados com o máximo cuidado e testados exaustivamente. Foram feitas algumas gramáticas de grande porte, junto com dicionários de várias dezenas de mil entradas lexicais, estes últimos nas línguas alemão, inglês, espanhol e francês. Existem gramáticas experimentais para uma dezena de outras línguas, incluindo línguas “exóticas” como o árabe, o coreano, o russo e o japonês, na maioria dos casos com componentes de tradução para o alemão ou o inglês. Para isto, tornou-se necessário desenvolver uma sistemática de atributos e valores de grande abrangência a qual está exaustivamente descrita em (STREITER 96).
Morfologia no CAT2 Toda gramática do CAT2 começa com um comando que indica o nível de processamento e a língua tratada:
Mspt significa “estrutura morfológica do português”, morph refere-se em geral às partes da gramática que trabalham com operações de caracteres (e não de árvores). Pode servir como exemplo simples a morfologia do adjectivo. No dicionário existem então entradas na forma lematizada:
As regras C para construir as formas flexionadas podem então ser escritas da seguinte forma, descrevendo a operação de cortar e colar necessária para se obter a raiz e a nova forma flexionada:
O traço max torna-se necessário para a geração, indicando que esta regra se aplica somente uma vez. Observe-se a forma geral das regras: começando com o nome da regra (que serve no momento do teste para parar o programa nesta regra), continuando com o sinal “igual”, os traços do lado esquerdo da regra entre colchetes, a flecha das regras de expansão substituída pelo ponto, e o lado direito da regra definido com []. Finalmente, uma regra termina com um ponto, o qual a separa da próxima regra. Esta forma é válida para todo o tipo de regras – as entradas terminais simplesmente têm a mão direita vazia.
Sintaxe Como na morfologia, temos o comando inicial da gramática parcial que trabalhará com árvores ou estruturas de atributos e valores (syntactic):
Como exemplo de uma regra sintáctica, mostramos aqui em primeiro lugar a regra que analisa e gera grupos nominais. A forma geral corresponde ao que foi descrito no capítulo anterior. Usa-se em abundância a unificação para passar todos os traços necessários para a cabeça da regra, np. Ao mesmo tempo, garante-se que somente se construirá um grupo nominal se artigo, adjectivo e substantivo não contenham informações contraditórias respeito ao ”agreement” (número e género). Um grupo como *“a casa bonito” simplesmente não seria analisado. O adjectivo na geração será colocado no devido lugar (antes ou depois do substantivo) se estiver com classificação correcta no dicionário.
Elementos opcionais são marcados com ^, e as regras podem ser recursivas como se vê na primeira regra do grupo preposicional, válida para preposições simples (“de”) que não incluem o artigo definido (d~=def):
Como análise de uma frase simples como “O homem vê a mulher bonita.” obtemos então o seguinte resultado em forma de árvore:
Existe também a possibilidade de representar o resultado com todos os
traços e colunas diferentes, representando o agrupamento dentro da frase.
A representação em árvore, porém, é de muito valor para a didáctica já
que muitos alunos de linguística aprenderam a desenhar estas árvores
nas aulas. É fácil de achar erros nas análises, e somente especialistas
preferem a forma de traços e parêntesis – a qual se torna claramente
necessária quando se quer achar a causa de um eventual erro de análise.
Para isto, também é valioso a possibilidade de observar o procedimento
do programa passo a passo.
Depois, copia-se o próximo elemento da frase: cspt:b:<ver> COPYING SOURCE ATOM > e vê-se se isto já pode integrar uma nova regra sintáctica, no caso aquela da frase “O homem vê” que é correcta seguindo as regras puramente sintácticas: cspt:b:s FOUND > Podem-se observar aqui as regras tipo “f” (feature – traço) que servem para completar a informação de vários nós de uma maneira geral: aplicam-se a todas as frases que não sejam explicitamente marcadas como imperativas ou exclamativas sendo que o primeiro elemento seja um grupo nominal. Por isto, se chamam também “default rules”:
Quando existe a sigla >>, como também na segunda regra em questão, isto significa que um grupo np somente será válido se número e pessoa (no caso de pronome) não contêm informação contraditória; uma frase como “O homem vêem” seria excluída da análise. No caso da frase ser “O homem tem”, o verbo receberia a informação compartilhada com o grupo nominal que o número é o singular. O mesmo procedimento se repete com o grupo “a mulher bonita”, intercalando-se a formação do grupo adjectival (ap), que seria mais complicado se estivesse acompanhado de um advérbio etc. (“mais bonita”):
Finalmente, copia-se o último elemento da frase e forma-se o texto, consistindo na frase sintacticamente correcta mais a pontuação:
É também possível escrever gramáticas compreendendo várias frases ou parágrafos, por exemplo, para analisar as referências de pronomes ou outros elementos deícticos.
As regras de manipulação de árvores e a representação semântica As regras de manipulação de árvores são precedidas por um comando indicando os dois níveis entre os quais se farão as transposições de árvores, o nível ispt sendo um nível semântico ou de interface entre duas línguas, por exemplo, o português e o inglês – lembramos que este formalismo foi desenvolvido para a tradução automática.
Aqui entra em jogo um novo tipo de regras chamado t, de transformação, uma operação muitas vezes necessária para a tradução. Os defensores dos últimos formalismos alegam não necessitar de regras deste tipo porque resolvem tudo somente com análise e geração sofisticada mas terminam com regras muito complicadas porque é difícil abstrair e tomar somente em conta o que fica invariável entre duas línguas diferentes.
O nosso exemplo será a regra que transforma uma representação sintáctica de uma frase na sua contrapartida semântica, a qual se assemelha a uma árvore de dependência.
Formalmente, são duas regras do tipo b, separadas por uma flecha simples ou dupla. A flecha dupla significa que esta regra é válida tanto para análise quanto para geração, o que é o caso na maioria das regras. A flecha única apenas se costuma utilizar quando uma língua possui várias variantes da mesma forma gramatical, por exemplo, em português, as duas formas do pronome relativo (“que” e suas equivalências combinadas com “qual”). Neste caso, pode-se formular uma gramática que é capaz de analisar as duas formas, mas no momento da geração apenas gera as formas explícitas, precedidas do artigo:
Nas partes da direita e da esquerda ocorrem, ainda, marcadores (v:, np:,rest), que marcam elementos a serem transportados ao outro nível; elementos não marcados são excluídos. Isto serve na regra actual para gerar uma árvore mais simples, no caso de um grupo nominal serve por exemplo, para não transportar os artigos que quase nunca serão traduzidos na outra língua como lexemas (veremos mais adiante). O nível semântico tem as suas próprias regras, usando o resto da informação do dicionário, como, por exemplo, a valência dos verbos:
Todo elemento tem que concordar com os outros que estão agrupados com ele; isto faz-se através das variáveis A que têm que unificar uma com a outra para o predicado semântico ser válido. A entrada lexical correspondente do verbo “ver” é a seguinte:
Inserida esta regra na representação semântica, obtemos a seguinte árvore:
O processo pode ser invertido, quer dizer que com esta representação é possível gerar a mesma frase portuguesa novamente, e ao trocar, por exemplo, todos os traços “número” pelo plural, poderíamos gerar a mesma frase com todos os membros no plural: “Os homens vêem as mulheres bonitas.”
Tradução e geração na língua alvo O mesmo vale para a tradução: os elementos do léxico são substituídos pelos elementos correspondentes em inglês.
Estas regras podem ser mais complicadas, por exemplo no caso de várias possibilidades de tradução:
Dependendo da construção sintáctica, a categoria (n ou v) se transferirá também à língua alvo; esta encarregar-se-á da selecção da entrada lexical adequada. Varias possibilidades de tradução da entrada “grande” podem ser especificadas com a posição do adjectivo e com os traços semânticos dos substantivos (que são compartilhadas por unificação dentro do grupo sintáctico):
A árvore (semântica) inglesa será então a seguinte:
Esta árvore será depois transformada para o nível sintáctico e morfológico, num processo semelhante (porém invertido) à análise e dará o seguinte objecto morfológico em inglês:
Observe-se na morfologia inglesa o elemento v=no; este torna-se necessário para escolher a forma correspondente do artigo (a/an).
Comandos de sistema do CAT2 Para fazer estas manipulações, o CAT2 dispõe de uma série de comandos e ajudas que tornam o uso muito simples, que são indicados na tela quando se dá o comando help:
Objectos são sempre representações linguísticas que podem ser administradas (delete), mostradas na tela (show) ou guardadas num arquivo (keep) ou então manipuladas para análise linguística (translate). Quando se obtêm várias representações de uma frase, podem-se comparar (compare) as representações de um mesmo nível e ver em qual atributo ou nó elas diferem. Os comandos que se referem à base de dados servem quando se usam grandes dicionários; o acesso é mais rápido, e a inserção de novas entradas é facilitada. Já os comandos do próprio sistema servem para carregar novas gramáticas (load), indicar a língua fonte e a língua objecto da tradução (set) num sistema multilingue ou repetir uma série de comandos executados anteriormente (repeat). O comando “input” serve para teclar uma frase na tela ou introduzir um arquivo inteiro para análise. Todas as operações estão descritas no manual CAT2 (SHARP 94). O sistema CAT2 (com algumas gramáticas e dicionários de exemplo) pode ser obtido livremente pelo IAI (www.iai.uni-sb.de) por universidades e outros órgãos de pesquisa, para fins não comerciais.
Bibliografia Bresnan, Joan (editor): The Mental Representation of Grammatical Relations. MIT Press, Cambridge, Massachusetts, 1982. ------ EUROTRA – O projeto de pesquisa e desenvolvimento em tradução automática da Commissão Europeia. Exemplos de Tradução Português-Alemão. In: Coletânea da revista Letras de Hoje, PUC Porto Alegre, 1991 CAT2 - Vom Forschungssystem zum präindustriellen Prototyp. In: Pütz,
Horst P. und Haller, Johann (Hrsg.): Sprachtechnologie: Methoden, Werkzeuge,
Perspektiven. Sprache und Computer, Band 13, S. 282 - 303. Georg Olms
Verlag, Hildesheim, 1993. Sharp, Randall Streiter, Oliver Streiter, Oliver et alii
|
|
||||||||||||
| Línguas e Culturas na Web ― Estudo 2007 | Portalingua | | União Latina |