Uma rede léxico-semântica de grandes dimensões para o português, extraída a partir de dicionários electrónicos
Authors
Abstract
Este artigo apresenta o CARTÃO, uma nova rede léxico-semântica para o português, composta por relações extraídas a partir de três dicionários electrónicos. Após analisarmos a estrutura das definições nos três, concluímos que as mesmas regras podiam ser utilizadas para extrair relações a partir de vários dicionários. Assim, aproveitamos este facto para utilizar o mesmo conjunto de gramáticas na construção desta rede. As relações que compõem o CARTÃO são apresentadas em termos de quantidade e de acordo com o dicionário de onde foram extraídas. Verifica-se que foi possível aumentar em mais de 70% o PAPEL, uma rede semelhante já existente, o que mostra os ganhos em utilizar mais do que um recurso na construção destas redes. A cobertura do CARTÃO e os resultados da validação automática de alguns tipos de relação são aqui também apresentados e discutidos.
Keywords
information extraction, dictionaries, semantic relations
Subject
Natural Language Processing
Related Project
Onto.PT
Journal
Linguamática, Vol. 3, #2, pp. 23-38, José João Almeida, Alberto Simões, Xavier Gómez Guinovart, December 2011