Ferramentas Computacionais para Análise de Dados
Prof. Dr. Rafael Plana Simões
1
Temas
1) Instalando o Rcmdr;
2) Conceitos prévios;
3) Estudos de casos utilizando distribuição normal e densidade de probabilidade;
4) Testes paramétricos e não paramétricos para validação de hipóteses;
5) Análises de correlação entre variáveis;
6) Uso de curvas ROC para avaliar desempenho de testes diagnósticos;
7) Análise de correspondência múltipla.
8) ANOVA
9) Aprendizado de Máquina para análise de dados
Download do software R
3
O arquivo e suas extensões
4
Para fazer com que o Windows mostre a extensão dos arquivos
5
Como deve ser um arquivo csv convencional
6
Como é um arquivo csv quando o sistema operacional está em português
7
Exercício
8
Preparando o arquivo de entrada
Mudando o diretório de trabalho
10
Pacotes do R
11
Rcmdr
12
Gráfico de uma distribuição normal
Exemplo 1 – Distribuição Normal
Exemplo 2 – Distribuição Normal
Teste de Normalidade
Procedimentos no R
Boxplot
18
Boxplot
19
Boxplot
20
Boxplot no Rcmdr – Exemplo 3
21
Plotando múltiplos boxplot no R
22
Teste de comparação entre médias
Distribuição dos dados é normal?
Teste Paramétrico
Sim
Teste não Paramétrico
Não
Aplicações
Teste T e Teste Z
Teste de hipótese: Inferência estatística
Decisão
Exemplo 4 – Teste T para comparação entre uma média e um valor fixo
Procedimentos no R
Exemplo 5 – Teste T para comparação entre duas médias
Exemplo 6 – Teste de Wilcoxon
Testes de Correlação
Coeficiente de correlação de Pearson
Exemplo 7 – Correlação de Pearson – Duas variáveis
Exemplo 8 – Correlação de Pearson – Várias variáveis
Caso não linear - Coeficiente de correlação de Spearman
Exemplo 9 – Correlação não linear
a) Existe correlação entre essas variáveis?
b) Obtenha uma estimativa para a população brasileira no ano 2000. Compare seu resultado com dados reais que podem ser obtidos na web.
c) Em que ano a população brasileira ultrapassou o índice de 100 milhões? Justifique matematicamente seu resultado.
Procedimentos no R
Exemplo 8 – Correlação de Spearman – Várias variáveis
Curva ROC
Resultado hipotético de um teste
Pacientes doentes
Pacientes NÃO doentes
Número de Indivíduos
Quantidade (Marcador)
20
30
40
50
60
70
80
90
100
110
120
Limiar
NEGATIVOS
POSITIVOS
Quantidade (Marcador)
20
30
40
50
60
70
80
90
100
110
120
NEGATIVOS
POSITIVOS
SEM DOENÇA
COM DOENÇA
True Positives
False Positives
NEGATIVOS
POSITIVOS
NEGATIVOS
POSITIVOS
True Negatives
False Negatives
NEGATIVOS
POSITIVOS
Movendo o Limiar para a direita
Movendo o Limiar para a esquerda
Tabela de Confusão
Conceitos Básicos
Tabela de Confusão
Curva ROC
True Positive Rate (sensitivity)
100%
False Positive Rate
(1-specificity)
0%
100%
Curva ROC
Comparação curvas ROC
True Positive Rate
0%
100%
False Positive Rate
100%
True Positive Rate
0%
100%
False Positive Rate
100%
Um bom desempenho
Um mau desempenho:
É possível quantificar esse desempenho?
Area abaixo da curva ROC (AUC)
AUC para diferentes curvas ROC
True Positive Rate
100%
False Positive Rate
0%
100%
True Positive Rate
100%
False Positive Rate
0%
100%
True Positive Rate
100%
False Positive Rate
0%
100%
AUC = 50%
AUC = 90%
AUC = 65%
AUC = 100%
True Positive Rate
100%
False Positive Rate
0%
100%
Considerações sobre o método
Exemplo 10
Procedimentos no R
plot.roc(DADOS$ESTADO, DADOS$IMC, add=FALSE, col="blue")
legend("bottomright", legend=c("Empirical"),col=c("blue"), lwd=2)
Exemplo 11
Exemplo 12
Curva ROC – Escolhendo melhor limiar para separação dos dados
62