doutoramento PD:CC

25 de fevereiro às 14h30


Programa Doutoral | Ciência de Computadores

Provas | Unfolding the Temporal Structure of Narratives

Estudante | Hugo Miguel Oliveira de Sousa


Data: 25 de fevereiro
Hora: 14:30
Local: Sala FC5 278


Presidente:

António Mário da Silva Marcos Florido
Professor Associado
Faculdade de Ciências, Universidade do Porto


Arguentes:

Adam Jatowt
Professor
Department of Computer Science, University of Innsbruck (Austria)

António Manuel Horta Branco
Professor Catedrático
Faculdade de Ciências, Universidade de Lisboa


Vogais:

Bruno Emanuel da Graça Martins
Professor Associado
Instituto Superior Técnico, Universidade de Lisboa

Álvaro Pedro de Barros Borges Reis Figueira
Professor Auxiliar
Faculdade de Ciências, Universidade do Porto

Alípio Mário Guedes Jorge (Orientador)
Professor Catedrático
Faculdade de Ciências, Universidade do Porto


Resumo:

Ao ler uma história ou um artigo noticioso, os humanos conseguem compreender a ordem cronológica dos eventos mencionados, mesmo quando essa informação está vagamente definida. Esta é uma competência fundamental para a compreensão de uma narrativa. Por exemplo, a partir da frase «O Bob enviou uma mensagem à Alice enquanto ela saía da sua festa de aniversário.» compreendemos que a ocorrência do evento «enviou» está incluída no intervalo temporal do evento «saía», apesar de tal não estar explicitamente indicado no texto. Esta tese de doutoramento aborda a tarefa de extração de informação temporal, enfrentando tanto desafios centrais como aplicações práticas em múltiplos domínios e línguas. Estruturamos o problema em dois componentes principais: identificação de entidades temporais e classificação de relações temporais. 

Para a identificação de entidades temporais, exploramos métodos em diferentes contextos. Desenvolvemos uma pipeline de extração de entidades biomédicas para registos clínicos de oncologia em português, combinando modelos neuronais com ligação de entidades. Estudamos também a utilização de grandes modelos de linguagem para extrair entidades narrativas de artigos noticiosos em português através de prompt engineering, mostrando que a sua eficácia pode ser comparável com métodos treinados especifica mente para a tarefa. Adicionalmente, introduzimos o TEI2GO, um conjunto de modelos multilingues para a identificação de expressões temporais que atinge resultados estado da arte em quatro das seis línguas avaliadas. Para a classificação de relações temporais, propomos a decomposição de relações de intervalo em relações de pontos entre os limites das entidades. Este método alcança uma pontuação de consciência temporal de 70.1% no conjunto de dados TempEval-3, estabelecendo um novo estado da arte neste benchmark. A partir desta ideia, introduzimos uma formulação inédita da tarefa que reconcebe a classificação de relações como um problema de tomada de decisão sequencial. Esta perspetiva permite a aplicação de algoritmos de aprendizagem por reforço para aprender raciocínio temporal a partir da experiência. Toda a investigação foi conduzida com recurso ao tieval, uma biblioteca em Python que desenvolvemos e disponibilizámos em código aberto para apoiar a comunidade científica. Este enquadramento normaliza a avaliação da extração de informação temporal em múltiplos corpora e disponibiliza ferramentas específicas de domínio, como fecho temporal e a métrica de consciência temporal. 

As contribuições desta tese vão desde avanços práticos nos cuidados de saúde e em sistemas multilingues até inovações metodológicas na identificação e classificação tem poral. Em conjunto, estas contribuições avançam o estado da arte e alargam as bases da extração de informação temporal. 

Palavras-chave: extração de informação temporal, identificação de entidades temporais, classificação de relações temporais 


Informação no Sigarra da FCUP