ex_listp

Next: About this document ...

Lista de Exercícios de Data Mining 1

26 de Outubro de 2015

Numa determinada aplicação existe informação sobre as idades de um conjunto de 12 pessoas. Os seus valores são: 12, 30, 24, 10, 10, 23, 43, 67, 79, 34, 56, 51.

a)

Qual é a mediana destas idades? Justifique.

b)

Qual é o valor da moda destas idades? Justifique.

c)

Indique como obteria em R a diferença entre o percentil 99% e o percentil 1% deste conjunto de idades.

d)

Qual seria o resultado da normalização e ``standardization'' destas idades?
Assuma que no conjunto acima, adicionamos duas novas pessoas com idades: 10 meses e 100 anos.

a)

Aplique a normalização e a ``standardization'' a este novo conjunto de dados.

b)

Há alguma preferência pela utilizaç ão dos dois métodos em cada um dos dois conjuntos de dados (original e com as duas novas pessoas adicionadas)?
Responda ás seguintes perguntas:

a)

Qual é o objetivo dos gráficos do tipo ``boxplot'' (``caixa de bigodes'')?

b)

Para que servem as medidas de dispersão de dados: ``range'' e ``interquartile range''. Há alguma vantagem em usar um sobre o outro?

c)

Que outras medidas de dispersão de dados podemos utilizar?
A Figura 1 mostra um ``scatterplot''. Que informações consegue retirar deste gráfico?

Figure 1: Scatterplot Example
A Figura 2 mostra um ``parallel plot''. Que informações consegue retirar deste gráfico?

Figure 2: Parallel plot Example
Ao fazer visualização de dados pode ser importante ordenar valores de variáveis ou simplesmente mudar a ordem de disposição das mesmas. Dê um exemplo onde a ordenação torna-se importante para a melhor visualização dos dados.
A estratégia para encontrar os vizinhos mais próximos (``nearest neighbours'') também pode ser utilizada para ``imputar'' valores de variáveis desconhecidos. Explique como.
Qual é a ideia básica da Análise de Componentes Principais (PCA - Principal Component Analsysis) e qual é a sua utilidade?
Explique sucintamente o algoritmo k-means.
Assuma que possui dados numa tabela em formato CSV (Comma-Separated Values). Quando utiliza a função read.csv do R quais são os tipos de dados armazenados internamente quando a variável é numérica com apenas dois valores? E no caso do software WEKA, qual é o tipo interno assumido?
Quais são os tipos básicos de dados existentes?
Explique a diferença entre a distância calculada utilizando ``simple matching'' e a distância de Jaccard. Em que situação estes dois tipos de métodos de cálculo de distância devem ser utilizados?
O que é um método de aprendizagem supervisionado?
Para que serve a análise de ``clusters''?
Qual é a diferença entre a correlacão de Pearson e a regressão linear simples?
Considere a seguinte tabela de dados:

Inst/Var V1 V2

I1 1.5 1.7

I2 2 1.9

I3 1.6 1.8

I4 1.2 1.5

Dada uma nova observação (1.4,1.6), quais as duas observações da tabela mais próximas desta nova observação de acordo com a distância Euclideana.
Qual é a diferença entre o ``clustering'' hierárquico aglomerativo e o divisivo?
Explique porque em certas situações a utilização do ``Error rate'' como forma de avaliar um modelo de classificação pode não ser uma boa ideia?
Que estratégia(s) utilizaria para fazer o histograma de uma variável numérica com valores contínuos?
Qual é a finalidade de se fazer amostragem de dados?

About this document ...

Next: About this document ...

Inês de Castro Dutra 2015-10-26

Inst/Var	V1	V2
I1	1.5	1.7
I2	2	1.9
I3	1.6	1.8
I4	1.2	1.5