Notícias: Notícia

YAKE! - Yet Another Keyword Extractor

O software de extração de palavras-chave, YAKE!, criado pelo docente do Departamento de Ciência de Computadores da Faculdade de Ciências da Universidade do Porto (FCUP), Alípio Jorge, foi utilizado no processo de criação do General Index, um projeto que catalogou 107 milhões de artigos científicos, reunindo um catálogo de frases e palavras, com o objetivo de facilitar a pesquisa de informação. 

 
Esta nova base de dados está disponível, desde outubro, no Internet Archive, o maior arquivo digital de preservação de conteúdos do mundo, contando com um índice de mais de 19 mil milhões de keywords extraídas com recurso ao YAKE!.

 
De acordo com o que referem Alípio Jorge e Ricardo Campos, co-criadores deste projeto, na página BIP INESC TEC, “a adaptabilidade do YAKE! a diferentes cenários, a sua natureza plug-and-play, e a sua efetividade, quando comparado com diferentes soluções”, assim como “a sua rapidez de execução” são características que terão pesado na escolha desta tecnologia para a criação do General Index. “O facto de terem usado o YAKE! num processo destes é um exemplo claro da sua aplicabilidade em contextos de big data”, reforçam estes investigadores do INESC TEC. 

 
Com capacidade para se adaptar a diferentes domínios de atividade, idiomas e tamanhos de documento, sem necessidade de recorrer a fontes de dados externas, a um elevado volume de dados ou a processos de treino exigentes sob o ponto de vista computacional, o software é um sistema baseado num conjunto de medidas estatísticas, um conjunto de heurísticas, que resultam numa fórmula matemática capaz de determinar a relevância de uma palavra.

 
“O algoritmo e as razões que levam à determinação do que é ou não uma palavra relevante é facilmente operacionalizado no caso YAKE! por oposição a sistemas baseados em redes neuronais tipicamente mais pesados por necessitarem de uma grande quantidade de dados para treinar. Tal permite que o YAKE! seja diretamente aplicável a um grande conjunto de idiomas com pouco trabalho de engenharia de software. Por outro lado, o algoritmo é facilmente entendível o que potencia a explicabilidade dos resultados”, explicam Ricardo Campos e Alípio Jorge. Segundo os investigadores, esta tecnologia veio contribuir para a automatização do processo de extração de keywords, com especial relevância “numa altura em que o volume de dados cresce a uma velocidade vertiginosa.”

 
O YAKE! tem sido também utilizado por outras plataformas como o portfólio de soluções open-source da John Snow Labs, a biblioteca de processamento de linguagem natural e text mining atualmente mais usada na área de negócio, a Biblioteca Nacional da Finlândia, pelo Chartbeat Labs – textacy e no âmbito do projeto do INESC TEC Conta-me Histórias, incluído no Arquivo web português, arquivo.pt.

 
Além de uma demo online, a partir da qual os utilizadores podem extrair keywords através da introdução de um texto ou de um URL, está igualmente disponível um pacote de software open-source, que pode ser incorporado em projetos com necessidades distintas. “Esta é uma solução transversal a diferentes domínios de aplicação. Pode ser utilizado por exemplo por jornalistas, no processo de anotação de artigos noticiosos, ou integrado em pipelines diversas. São vários os exemplos de artigos científicos que referem e usam o YAKE! em diferentes casos de estudo, desde processos de sumarização a processos de text mining”, exemplificam os investigadores.

 
Para além de Ricardo Campos, alumnus do Programa Doutoral em Ciência de Computadores, que é também docente do Instituto Politécnico de Tomar, e de Alípio Jorge, do Departamento de Ciência de computadores da FCUP estão também envolvidos neste software, Arian Pasquali, investigador do INESC TEC, mestre em Ciência de Computadores pela FCUP,  Vítor Mangaravite (Universidade Federal de Minas Gerais), Célia Nunes (Universidade da Beira Interior) e Adam Jatowt (Universidade de Innsbruck).
 
 
© SICC.FCUP

Também lhe pode interessar

06/07/18

Prémio Arquivo.pt

Docente e Alumni do DCC ganham 1º prémio

19/04/19

ECIR 2019

Docente e Alumni do DCC ganham Best Demo Presentation