CISUC

Relações Lexicais na Geração de Língua Natural

Authors

Abstract

Graças ao uso generalizado de computadores no mundo dito avançado, o problema da geração automática de texto tornou-se bastante importante nos últimos anos.
ÿ simples para nós, Humanos, comunicar na língua que aprendemos. Mas reproduzir esta capacidade em sistemas informáticos tem-se revelado um obstáculo difícil de ultrapassar.
O problema tem sido abordado utilizando essencialmente uma de duas técnicas distintas.
A mais simples é baseada em modelos: o programa contém modelos das frases que é capaz de gerar, e no processo de geração limita-se a substituir campos pré-definidos por palavras seleccionadas segundo um conjunto de regras.
Outra abordagem é baseada em especificações formais: o gerador de texto recebe uma descrição, por exemplo em lógica predicativa, da frase, e replica-a em língua natural, aplicando regras sintácticas e escolhendo as palavras adequadas.

Em qualquer das duas abordagens os resultados conseguidos até ao momento são bastante limitados em termos de diversidade linguística. Isto é, para entradas iguais os geradores tendem a produzir saídas iguais.
A grande excepção corresponde aos geradores aleatórios, cuja saída é semanticamente difícil de prever. Mas, precisamente pela sua imprevisibilidade, estes sistemas têm um uso bastante limitado.

A resposta para esta limitação pode residir na criatividade, ou seja, na produção de um gerador de texto que seja criativo na sua tarefa de geração. Embora a criatividade não seja ainda claramente entendida nem tenha uma definição universalmente adoptada, alguns princípios sobre ela são largamente aceites. Por exemplo, aceita-se consensualmente que um resultado criativo é em simultâneo original e útil. Recentemente surgiram propostas de formalização dos conceitos previamente definidos informalmente, bem como critérios para avaliar o desempenho de sistemas criativos -- nomeadamente os Critérios de Ritchie. Embora estas propostas sejam recentes, estão a ser confrontadas na prática com um sucesso relativo.

Nesta tese apresenta-se uma proposta que pretende ser um passo nesta solução, recorrendo ao uso de relações lexicais.
O sistema construído, Dupond, é capaz de receber uma frase, decompô-la, desambiguar cada palavra e substituí-la por outra equivalente, segundo os parâmetros configurados pelo utilizador. As palavras de substituição podem ser sinónimos ou hiperónimos da original, dependendo da configuração. O Dupond pode ainda preferir as palavras com mais ou menos sentidos, bem como remover palavras supérfluas.
Idealmente, a frase gerada deve manter o sentido da original.

Como forma de avaliar os resultados desta abordagem escolheu-se um conjunto de frases de dois livros diferentes, em inglês, transpuseram-se essas mesmas frases usando o Dupond e produziram-se dois inquéritos diferentes e um terceiro de controlo. Foi então pedido a um público diversificado que classificasse as frases geradas, comparativamente com as originais, em termos de originalidade, significado e inteligibilidade.

Da análise dos inquéritos tiraram-se diversas conclusões. Nomeadamente, as frases em que se utilizou a hiperonímia para substituir palavras foram as mais mal classificadas, embora tenham sido consideradas relativamente originais. Aquelas em que se utilizaram sinónimos com menos significados foram consideradas melhores na conservação do sentido, e aquelas em que foram preferidas as palavras com mais sentidos as mais inteligíveis.

Outra forma de validação do Dupond foi através da aplicação dos Critérios de Ritchie aos resultados dos inquéritos. Calcularam-se os valores dos critérios, tomando como ponto de partida as classificações médias dos utilizadores, e os resultados foram comparados com os do gerador de poemas Wasp.

O sistema produzido neste trabalho, Dupond, está pronto a ser usado na transformação de frases em inglês, produzindo outras equivalentes.
Pode ser adaptado para lidar com outros geradores de texto, eventualmente melhorando o seu desempenho em termos de criatividade, ou simplesmente para realizar estudos sobre linguagem natural, como no caso deste trabalho.

Keywords

Relações Lexicais, Geração de Língua Natural, Criatividade

Subject

Natural Language Processing

MSc Thesis

Relações Lexicais na Geração de Língua Natural, December 2004

Cited by

No citations found