 |  |  | Avaliação e funcionamento das aulas |
Avaliação e funcionamento das aulas
Num total de 10:
- Trabalho em grupo: 5 Valores
- Teste: 5 Valores
A entrega consiste num arquivo zip ou tar a enviar por mail com o
subject BIOINFO: Mini-Projeto. O arquivo zip deverá conter
o código e um pequeno relatório de 1 ou no máximo 2 páginas por trabalho
descrevendo a implementação, e dando exemplos.
- Implementação de Algoritmos de Programação Dinâmica:
- Implemente alinhamentos locais e globais
- Experimente com diferentes tipos de matrizes de custo, usando
BLOSUM, PAM
- Utilização de Blast:
- Escolha uma proteína
- Procure essa proteína no BLAST
- Varie os parâmetros e altere as bases de dados, indicando como
isso altera os resultados.
- Implementação de Árvores Filogenéticas:
- Implemente o algoritmo UPGMA.
- Implemente usando as distâncias no artigo entregue na aula prática.
- Tente aplicar estes algoritmos numa família de proteínas do
PFAM. Como computar as distâncias?
Propôe-se um conjunto de projectos a realizar durante o curso. A
entrega de cada projecto deverá incluir:
- Um relatório discutindo o problema, técnicas usadas, problemas
encontrados, avaliação experimental, conclusões e bibliografia.
- Uma apresentação.
Os trabalhos de aprendizagem devem incluir avaliação de confiança nos
resultados, usando técnicas como validação cruzada.
Dada famílias de proteínas do PFAM experimente várias ferramentas de
alinhamento múltiplo de proteínas e compare:
- Tempo de execução: experimente com famílias pequenas e grandes
(ie, sub-famílias da globina).
- Identidade nos alinhamentos
Exemplos de ferramentas incluem CLUSTALW, T-COFFEE, ALIGN-M e MUSCLE.
Dada famílias de proteínas do PFAM experimente várias ferramentas de
construção de árvores filogenéticas:
- Tempo de execução: experimente com famílias pequenas e grandes
(ie, sub-famílias da globina).
- Compare as famílias
Exemplos de ferramentas incluem PHYLIP, Mesquite, PAUP, mrbayes, e PHYML.
Dado genoma de várias
vertebrados
tente alinhar regiões semelhantes usando ferramentas como
Mulan e
Pecan
- Compare os resultados dos dois alinvhamentos
- Use a árvore do MULAN com o PECAN.
- Dado: Conjunto de sequências de DNA (de organismos eucariotos)
de tamanho fixo com fronteiras do tipo intron/exon, exon/intron, e
sem nenhum desses sítios.
- Faça: Gerar um classificador capaz de determinar se uma janela
de tamanho fixo de uma seqüência de DNA possui uma fronteira
intron-exon, exon-intron, ou nenhuma delas
- Conjunto de Dados: UCI splicing
dataset
- Use o Weka como ferramenta e compare os diferentes métodos.
Para os seguintes conjuntos de
dados tente avaliar as
as seguintes técnicas: árvores de decisão, k-NN, naive bayes e
SVMs para identificar se um determinado um padrão pertence a cada
classe. O desempenho dos classificadores gerados deverá ser
avaliado primeiro por validação cruzada e depois com o conjunto de
teste, se disponível.
Antes de começar a desenvolver os experimentos, como há muitos
atributos no conjunto de dados considerado (e poucos exemplos), é
esperado que muitos desses atributos sejam irrelevantes para a
discriminação entre as classes, ou seja, terminam agindo mais como
ruído. Portanto, é desejável usar um filtro para fazer uma seleção
de atributos (por exemplo, selecionar apenas aqueles atributos que
sejam mais importantes para a discriminação entre as classes no
conjunto de treinamento). Use as ferramentas do Weka para remoção de
atributos.
Depois de ter feito o pré-processamento acima:
- Treine uma classificador usando o
seguinte conjunto de atributos:
- Os 500 primeiros genes, baseado no critério de Fisher.
- Os 100 primeiros
- Os 50 primeiros
- Compare os resultados obtidos com as diferentes escolhas de
limiar (500, 100 e 50 genes) para cada um dos métodos separadamente
(árvores de decisão, perceptrons e k-NN). Também compare os
resultados obtidos entre os diferentes métodos.
O objectivo do trabalho é o de encontrar padrões típicos em pequenas moléculas:
- Obtenha datasets de resposta a drogas, eg do NCI_ACA
- Explore o dataset usando MoSS
- Explore o dataset usando o iLogChem (perguntar ao professor).
Procure várias famílias de ncRNA na base de dados RFAM:
- Exploque o que é o rfam.
- Use a ferramenta CentroidFold para encontrar a estrutura
secundária de algumas famílias.
- Use a ferramenta scarna para calcular alinhamentos múltiplos de
ncRNA e
compare com outras ferramentas de alinhamento múltiplo.
Os seguintes artigos não são um estudo exaustivo da área, mas tentam
mostrar algumas áreas de interesse:
- Artigos gerais:
- Artigos na Bioinformatics:
- ISMB:
- Outros:
Vítor Santos Costa, October 9, 2012
 |  |  | Avaliação e funcionamento das aulas |