01 de junho às 14h30
Programa Doutoral | Ciência de Computadores
Provas | Multi-tool integration for comprehensive characterization and validation of genomic and transcriptomic data
Estudante | Marta Patrícia Ribeiro Ferreira
Data: 1 de junho
Hora: 14h30
Local: Sala FC6 029
Presidente:
Alípio Mário Guedes Jorge
Professor Catedrático
Faculdade de Ciências da Universidade do Porto
Arguentes:
Rui Manuel Ribeiro Castro Mendes
Professor Auxiliar
Escola de Engenharia da Universidade do Minho
Joana Gonçalves de Gouveia Maia Xavier
Professora Auxiliar Convidada
Faculdade de Medicina e Ciências Biomédicas da Universidade do Algarve
Vogais:
Miriam Raquel Seoane Pereira Seguro Santos
Professora Auxiliar
Faculdade de Ciências da Universidade do Porto
Pedro Gabriel Dias Ferreira (Co-orientador)
Professor Auxiliar com Agregação
Faculdade de Ciências da Universidade do Porto
Resumo:
O crescimento das tecnologias de Sequenciamento de Nova Geração (NGS) transformou a investigação genómica e transcriptomica, desbloqueando oportunidades sem precedentes para a medicina de precisão. No entanto, a complexidade e o volume dos dados de sequenciamento apresentam desafios computacionais substanciais, especialmente na detecção de variantes, interpretação dos dados e no manuseio de amostras de baixa qualidade. Esta tese aborda esses desafios desenvolvendo novos pipelines computacionais projetados para otimizar e automatizar a análise de sequenciamento do genoma completo (WGS) e de RNA (RNA-seq), avançando, assim, os fluxos de trabalho da bioinformática na genómica.
Apresentamos o TotalGenome, uma pipeline avançada e modular que integra múltiplos detectores de variantes de última geração (DeepVariant, HaplotypeCaller, Lumpy, Delly e GRIDSS) para melhorar a identificação de variantes de nucleotídeo único (SNVs) e variantes estruturais (SVs) em dados de WGS. Ao combinar diversas ferramentas, o TotalGenome alcança maior precisão na detecção de variantes, particularmente na análise de variantes regulatórias não codificantes associadas ao cancro gástrico difuso hereditário (HDGC). A pipeline demonstra como a sinergia entre diferentes métodos pode melhorar tanto a sensibilidade quanto a precisão, proporcionando uma abordagem mais abrangente para a detecção de variantes genéticas e aprimorando a predição de risco na genética clínica.
Para dados de RNA-seq, introduzimos o Transcriptomate, uma ferramenta flexível, escalável e de fácil utilização para o analise do trancriptoma, que simplifica a análise de expressão diferencial ao mesmo tempo que permite a visualização em tempo real da dinámica da expressão dos genes. Projetado para operar de forma independente dos sistemas tradicionais de gerenciamento de fluxo de trabalho (WFMS), o Transcriptomate agiliza a análise de dados e a extração de métricas, tornando-se altamente adequado tanto para bioinformáticos quanto para investigadores. Quando aplicado ao cancro gástrico relacionado ao gene CDH1, a ferramenta identificou alterações-chave na expressão dos genes e disrupções regulatórias, oferecendo uma compreensão mais profunda do processo.
Esta tese também explora a integração de tecnologias avançadas de sequenciamento no contexto de amostras desafiadoras, com o NanoString e o AmpliSeq destacando se como alternativas confiáveis para a análise de RNA de baixa qualidade. O NanoString demonstrou um perfil robusto de expressão em fibrose, enquanto o AmpliSeq caracterizou com precisão subtipos de tumores oncocíticos a partir de amostras congeladas, revelando assinaturas moleculares distintas e genes centrais associados.
Na interseção entre bioinformática e técnicas computacionais, este trabalho enfatiza a importância dos pipelines automatizados e das metodologias integrativas no avanço da pesquisa genómica. As direções futuras desta tese incluem a incorporação de aprendizado de máquina e inteligência artificial para aprimorar a priorização de variantes, melhorar a análise de enriquecimento funcional para insights biológicos mais profundos e desenvolver estratégias sofisticadas de integração multiomica, expandindo os limites da medicina de precisão e da biologia de sistemas.
