CIÊNCIA DE DADOS: AULA 03
Pré-processamento de Dados
Limpando, transformando e refinando o "petróleo bruto" da era digital para análises de alto impacto.
Refinando a Inteligência
2026
Limpeza de Dados: Tratamento de Ausentes
Dados faltantes podem distorcer análises e invalidar modelos. A escolha entre eliminar ou preencher depende do volume de dados e do contexto do negócio.
Técnica
Vantagem
Desvantagem
Eliminação
Simplicidade e rapidez na execução.
Pode reduzir drasticamente o tamanho da amostra e perder padrões importantes.
Imputação
Mantém o volume total de dados para o modelo.
Pode introduzir viés artificial se a escolha do valor (média/mediana) for inadequada.
Cenário Real: Ausentes no E-commerce
O Problema
Em uma base de clientes, o campo "Renda Mensal" está 30% vazio. Como proceder sem comprometer a análise de marketing?
O Dilema da Decisão
Se removermos (Eliminação)
Perdemos 30% da base, possivelmente os clientes de alta renda que optam por não declarar o valor.
Se imputarmos (Preenchimento)
Podemos usar a média de renda por profissão ou região para manter o cliente na base de segmentação.
Conclusão: A imputação é preferível para manter o alcance das campanhas de marketing.
Comparação: Tratamento de Ausentes
Técnica
Vantagens
Desvantagens
Melhor Cenário
Eliminação
Rápido e mantém a integridade real.
Reduz a amostra; pode introduzir viés.
Perda mínima (< 5%) e aleatória.
Imputação (Média)
Mantém o volume; simples de aplicar.
Reduz variância; distorce distribuição.
Poucos dados faltantes e distribuição estável.
Imputação Preditiva
Mais preciso; considera relações.
Complexo; exige mais processamento.
Bases críticas onde a precisão é vital (ex: saúde).
Tratamento de Ruídos e Outliers
Outliers são valores atípicos que se afastam significativamente da maioria dos dados, podendo distorcer médias e modelos preditivos.
Z-Score
Mede quantos desvios padrão um valor está da média. Valores acima de 3 ou abaixo de -3 são geralmente considerados outliers.
IQR (Intervalo Interquartil)
Baseia-se na diferença entre o 3º e o 1º quartil. Valores fora de 1.5 * IQR são identificados como atípicos.
Visualização: Box Plot
Cenário Real: Fraude e Outliers Legítimos
O Problema
Um gasto de R$ 50.000,00 em uma conta que costuma gastar R$ 500,00. Este valor é um outlier matemático, mas deve ser removido?
O Dilema da Decisão
Se removermos (Eliminação)
Perdemos o "alvo" da análise. O modelo de fraude não aprenderá a identificar o comportamento suspeito.
Se mantivermos (Manutenção)
O modelo identificará a anomalia como um evento crítico. O outlier é a informação mais valiosa aqui.
Conclusão: Nem todo outlier é ruído. Em segurança, o outlier é o sinal que buscamos.
Comparação: Estratégias para Outliers
Técnica
Vantagens
Desvantagens
Melhor Cenário
Remoção
Limpa o ruído; melhora modelos simples.
Pode remover eventos reais importantes.
Erros óbvios de sistema (ex: idade = 200 anos).
Transformação (Log)
Reduz impacto sem remover o dado.
Altera a escala; dificulta interpretação.
Dados financeiros com alta variabilidade (salários).
Capping
Mantém o dado, mas limita o impacto.
Cria uma "parede" artificial nos dados.
Outliers legítimos que distorcem o modelo matemático.
Normalização e Escalonamento
Ajustar a escala dos dados garante que atributos com magnitudes diferentes (ex: Idade vs. Salário) tenham o mesmo peso no modelo.
Técnica
Intervalo
Uso Ideal
Min-Max Scaling
[0, 1]
Distribuições não Gaussianas e limites conhecidos.
Padronização (Z-Score)
Média 0, DP 1
Algoritmos que assumem distribuição normal (Regressão).
"A normalização é essencial para algoritmos baseados em distância, como K-Means e KNN."
Efeito da Normalização
Histograma comparativo: A distribuição mantém sua forma, mas a escala do eixo X é comprimida para o intervalo [0, 1].
Cenário Real: Recomendação de Filmes
O Problema
Como comparar "Nota do Usuário" (1 a 5) com "Tempo de Visualização" (0 a 120 min) em um algoritmo de recomendação?
O Impacto do Escalonamento
Sem Escalonamento
O tempo de visualização (até 120) dominaria matematicamente a nota (até 5). O modelo ignoraria a satisfação do usuário.
Com Escalonamento
Ambas as variáveis são levadas para o intervalo [0, 1]. O modelo agora dá o mesmo peso para nota e tempo.
Conclusão: O escalonamento é a "balança" que permite comparar maçãs com laranjas de forma justa.
Comparação: Normalização vs. Padronização
Técnica
Vantagens
Desvantagens
Melhor Cenário
Min-Max Scaling
Mantém a relação exata; escala fixa [0, 1].
Muito sensível a outliers (encolhe os dados normais).
Redes Neurais e algoritmos de imagem.
Padronização (Z-Score)
Robusta a outliers; média 0 e desvio padrão 1.
Não garante um intervalo fixo.
Regressão Linear, Logística e SVM.
Seleção de Atributos e Amostragem
Reduzir a dimensionalidade e o volume dos dados é essencial para modelos mais rápidos e interpretáveis.
Seleção de Atributos
Identifica e mantém apenas as variáveis que possuem maior poder preditivo, removendo ruídos e redundâncias.
Redução de Complexidade
Menos variáveis significam menor risco de overfitting e menor custo computacional.
Técnicas de Amostragem
Amostragem Aleatória
Cada registro tem a mesma probabilidade de ser escolhido. Simples, mas pode ignorar minorias.
Amostragem Estratificada
Divide a população em subgrupos (estratos) e sorteia proporcionalmente, mantendo a representatividade.
Dica: Use amostragem estratificada quando houver classes desbalanceadas (ex: detecção de fraude).
Cenário Real: Previsão de Churn
O Problema
Uma base com 200 colunas, incluindo "Cor Favorita" e "Último Login". Como simplificar o modelo de cancelamento?
O Poder da Seleção
Remover Irrelevantes
"Cor Favorita" não ajuda a prever o cancelamento. Removê-la reduz o ruído e o risco de overfitting.
Manter Relevantes
"Último Login" e "Frequência de Uso" são sinais vitais. Focar nelas torna o modelo mais rápido e interpretável.
Conclusão: Menos é mais. Um modelo com 10 variáveis fortes é melhor que um com 200 variáveis fracas.
Comparação: Técnicas de Amostragem
Técnica
Vantagens
Desvantagens
Melhor Cenário
Aleatória Simples
Fácil e imparcial; rápida execução.
Pode ignorar grupos minoritários importantes.
Bases homogêneas e muito grandes.
Estratificada
Garante representatividade de todas as classes.
Mais complexa de configurar e processar.
Bases desbalanceadas (ex: detecção de doenças raras).
Dataset de Prática: Vendas Online
ID_Venda
Data
Produto
Valor_Venda
Qtd
Cliente_ID
101
01/03/2026
Smartphone
1500
1
501
102
01/03/2026
Fone Bluetooth
200
2
502
103
02/03/2026
Carregador
null
1
503
104
02/03/2026
Smartphone
1500
1
501
105
03/03/2026
Tablet
1200
null
504
106
03/03/2026
Capinha
-50
1
505
107
04/03/2026
Notebook
4500
1
506
Erros Identificados
Valores Nulos:
IDs 103 e 105 possuem campos vazios.
Duplicidade:
IDs 101 e 104 são o mesmo registro de venda.
Inconsistência:
ID 106 possui valor negativo de venda.
Baixar Dataset (.csv)
Roteiro Prático: Normalização Min-Max
Passo a Passo
1
No Power Query, vá em Adicionar Coluna > Coluna Personalizada.
2
Nomeie como
Valor_Normalizado
e
insira a fórmula ao lado.
3
Substitua
#"Etapa Anterior"
pelo nome
da sua última etapa.
let�Minimo = List.Min(#"Etapa Anterior"[Valor_Venda]),�Maximo = List.Max(#"Etapa Anterior"[Valor_Venda])�in�([Valor_Venda] - Minimo) / (Maximo - Minimo)� // Esta fórmula transforma os valores para o intervalo [0, 1]
Roteiro Prático: Limpeza no Power BI
1
Remoção de Erros
No Power Query, selecione a coluna > Remover Linhas > Remover Erros.
2
Substituição de Valores
Clique com o botão direito na coluna > Substituir Valores (ex: trocar null por 0).
3
Normalização Min-Max
Crie uma
Coluna Personalizada
com a fórmula:
(Valor - Min) / (Max - Min)
.
Qualidade dos Dados
Use a guia Exibir e marque Qualidade da Coluna para ver erros e vazios instantaneamente.
Verifique tipos de dados.
Renomeie etapas aplicadas.
Monitore a distribuição.
Ferramentas de Mercado: ETL Visual
O processo de ETL (Extração, Transformação e Carga) é essencial para integrar dados de fontes complexas e diversas em um formato pronto para análise.
Principais Soluções
Talaxie (Fork do Talend)
Ferramenta open-source poderosa com mapeamento visual de dados e alta escalabilidade.
Alteryx
Focada em automação analítica e preparação de dados self-service para usuários de negócio.
KNIME
Plataforma baseada em nós para criar fluxos de ciência de dados de ponta a ponta.
Dica: Ferramentas visuais reduzem o tempo de desenvolvimento e facilitam a manutenção de fluxos de dados complexos.
Dúvidas e Discussão
Quando é melhor normalizar do que padronizar os dados?
Como decidir se um outlier deve ser removido ou mantido na análise?
Qual o impacto de uma amostragem mal feita em um modelo preditivo?
Como o Talaxie se diferencia do Power Query em projetos de Big Data?
Vamos Conversar?
ESPAÇO ABERTO PARA PERGUNTAS