Sum195°rios das aulas te195≥ricasTopObjectivos, Programa, DocenteAvalia√ß√£o e funcionamento das aulas

Avaliação e funcionamento das aulas

  1. Min-Problemas: m√°ximo de 2 valores com pelo menos 3 mini-problemas
  2. Trabalho: 8 Valores
  3. Monografia: 10 Valores
  4. Teste: 10 Valores

Mini Problemas

  1. Implementa√ß√£o de Algoritmos de Programa√ß√£o Din√Ęmica:
  2. Utilização de Blast:
  3. Utilização de Ferramentas para Encontrar Genes:
  4. Implementação de HMMs:
  5. Implementa√ß√£o de √Ārvores Filogen√©ticas:
  6. Implementação de Clustering:

Projectos de Trabalho

Prop√īe-se um conjunto de projectos a realizar durante o curso. A entrega de cada projecto dever√° incluir:

Os trabalhos de aprendizagem devem incluir avaliação de confiança nos resultados, usando técnicas como validação cruzada.

Os trabalhos de aprendizagem em sequências e de expressão de genes foram obtidos

Aprendizagem em Sequências

Escreva um programa capaz de cumprir uma das seguintes tarefas:

  1. Identificação de sítios de início de tradução:
  2. Identificação de promotores:
  3. Identificação de sítios de splicing:

    Expressão Génica

    A base de dados para este projeto será a base usada em Golub et al. (1999), a qual é formada por perfis de expressão gênica de 38 amostras de medula óssea de pacientes com leucemia aguda, cada perfil consiste da expressão de aproximadamente 7000 genes (golub-data-train.txt). Os exemplos de treinamento estão rotulados como ALL (acute lymphoid leukemia) e AML (acute myeloid leukemia), dois tipos distintos de leucemia. Os exemplos do tipo ALL estão subdivididos nas linhagens T e B (veja o artigo original para maiores detalhes). Há também um conjunto de teste (independente) de 50 exemplos (golub-data-independent.txt).

    1. Descoberta de Classes

    Usando o software Cluster originalmente desenvolvido por Eisen et al. (1998):

  4. Previs√£o de Classe

    Nesta parte do projeto o conjunto (golub-data-train.txt) será usado para treinar árvores de decisão, k-NN e SVMs para identificar se um determinado um padrão pertence a classe ALL ou a classe AML. O desempenho dos classificadores gerados deverá ser avaliado primeiro por validação cruzada e depois com o conjunto (golub-data-independent.txt).

    Antes de começar a desenvolver os experimentos, como há muitos atributos no conjunto de dados considerado (e poucos exemplos), é esperado que muitos desses atributos sejam irrelevantes para a discriminação entre as classes, ou seja, terminam agindo mais como ruído. Portanto, é desejável usar um filtro para fazer uma seleção de atributos (por exemplo, selecionar apenas aqueles atributos que sejam mais importantes para a discriminação entre as classes no conjunto de treinamento). Use as ferramentas do Weka para remoção de atributos.

    No caso da base de dados sendo utilizada, cada exemplo ou é uma amostra de ALL (exemplo positivo) e ou de AML (exemplo negativo). Cada exemplo é composto de aproximadamente 7000 genes (atributos).

    Depois de ter feito o pré-processamento acima:

    1. Treine uma √°rvore de decis√£o, um k-NN e um perceptron usando o seguinte conjunto de atributos:
      • Os 500 primeiros genes, baseado no crit√©rio de Fisher.
      • Os 100 primeiros
      • Os 50 primeiros
    2. Compare os resultados obtidos com as diferentes escolhas de limiar (500, 100 e 50 genes) para cada um dos métodos separadamente (árvores de decisão, perceptrons e k-NN). Também compare os resultados obtidos entre os diferentes métodos.

Artigos de Investigação

Os seguintes artigos n√£o s√£o um estudo exaustivo da √°rea, mas tentam mostrar algumas √°reas recentes de interesse:


Vítor Santos Costa, February 8, 2008


Sum195°rios das aulas te195≥ricasTopObjectivos, Programa, DocenteAvalia√ß√£o e funcionamento das aulas