1 of 18

CIÊNCIA DE DADOS: AULA 03

Pré-processamento de Dados

Limpando, transformando e refinando o "petróleo bruto" da era digital para análises de alto impacto.

Refinando a Inteligência

2026

2 of 18

Limpeza de Dados: Tratamento de Ausentes

Dados faltantes podem distorcer análises e invalidar modelos. A escolha entre eliminar ou preencher depende do volume de dados e do contexto do negócio.

Técnica

Vantagem

Desvantagem

Eliminação

Simplicidade e rapidez na execução.

Pode reduzir drasticamente o tamanho da amostra e perder padrões importantes.

Imputação

Mantém o volume total de dados para o modelo.

Pode introduzir viés artificial se a escolha do valor (média/mediana) for inadequada.

3 of 18

Cenário Real: Ausentes no E-commerce

O Problema

Em uma base de clientes, o campo "Renda Mensal" está 30% vazio. Como proceder sem comprometer a análise de marketing?

O Dilema da Decisão

Se removermos (Eliminação)

Perdemos 30% da base, possivelmente os clientes de alta renda que optam por não declarar o valor.

Se imputarmos (Preenchimento)

Podemos usar a média de renda por profissão ou região para manter o cliente na base de segmentação.

Conclusão: A imputação é preferível para manter o alcance das campanhas de marketing.

4 of 18

Comparação: Tratamento de Ausentes

Técnica

Vantagens

Desvantagens

Melhor Cenário

Eliminação

Rápido e mantém a integridade real.

Reduz a amostra; pode introduzir viés.

Perda mínima (< 5%) e aleatória.

Imputação (Média)

Mantém o volume; simples de aplicar.

Reduz variância; distorce distribuição.

Poucos dados faltantes e distribuição estável.

Imputação Preditiva

Mais preciso; considera relações.

Complexo; exige mais processamento.

Bases críticas onde a precisão é vital (ex: saúde).

5 of 18

Tratamento de Ruídos e Outliers

Outliers são valores atípicos que se afastam significativamente da maioria dos dados, podendo distorcer médias e modelos preditivos.

Z-Score

Mede quantos desvios padrão um valor está da média. Valores acima de 3 ou abaixo de -3 são geralmente considerados outliers.

IQR (Intervalo Interquartil)

Baseia-se na diferença entre o 3º e o 1º quartil. Valores fora de 1.5 * IQR são identificados como atípicos.

Visualização: Box Plot

6 of 18

Cenário Real: Fraude e Outliers Legítimos

O Problema

Um gasto de R$ 50.000,00 em uma conta que costuma gastar R$ 500,00. Este valor é um outlier matemático, mas deve ser removido?

O Dilema da Decisão

Se removermos (Eliminação)

Perdemos o "alvo" da análise. O modelo de fraude não aprenderá a identificar o comportamento suspeito.

Se mantivermos (Manutenção)

O modelo identificará a anomalia como um evento crítico. O outlier é a informação mais valiosa aqui.

Conclusão: Nem todo outlier é ruído. Em segurança, o outlier é o sinal que buscamos.

7 of 18

Comparação: Estratégias para Outliers

Técnica

Vantagens

Desvantagens

Melhor Cenário

Remoção

Limpa o ruído; melhora modelos simples.

Pode remover eventos reais importantes.

Erros óbvios de sistema (ex: idade = 200 anos).

Transformação (Log)

Reduz impacto sem remover o dado.

Altera a escala; dificulta interpretação.

Dados financeiros com alta variabilidade (salários).

Capping

Mantém o dado, mas limita o impacto.

Cria uma "parede" artificial nos dados.

Outliers legítimos que distorcem o modelo matemático.

8 of 18

Normalização e Escalonamento

Ajustar a escala dos dados garante que atributos com magnitudes diferentes (ex: Idade vs. Salário) tenham o mesmo peso no modelo.

Técnica

Intervalo

Uso Ideal

Min-Max Scaling

[0, 1]

Distribuições não Gaussianas e limites conhecidos.

Padronização (Z-Score)

Média 0, DP 1

Algoritmos que assumem distribuição normal (Regressão).

"A normalização é essencial para algoritmos baseados em distância, como K-Means e KNN."

Efeito da Normalização

Histograma comparativo: A distribuição mantém sua forma, mas a escala do eixo X é comprimida para o intervalo [0, 1].

9 of 18

Cenário Real: Recomendação de Filmes

O Problema

Como comparar "Nota do Usuário" (1 a 5) com "Tempo de Visualização" (0 a 120 min) em um algoritmo de recomendação?

O Impacto do Escalonamento

Sem Escalonamento

O tempo de visualização (até 120) dominaria matematicamente a nota (até 5). O modelo ignoraria a satisfação do usuário.

Com Escalonamento

Ambas as variáveis são levadas para o intervalo [0, 1]. O modelo agora dá o mesmo peso para nota e tempo.

Conclusão: O escalonamento é a "balança" que permite comparar maçãs com laranjas de forma justa.

10 of 18

Comparação: Normalização vs. Padronização

Técnica

Vantagens

Desvantagens

Melhor Cenário

Min-Max Scaling

Mantém a relação exata; escala fixa [0, 1].

Muito sensível a outliers (encolhe os dados normais).

Redes Neurais e algoritmos de imagem.

Padronização (Z-Score)

Robusta a outliers; média 0 e desvio padrão 1.

Não garante um intervalo fixo.

Regressão Linear, Logística e SVM.

11 of 18

Seleção de Atributos e Amostragem

Reduzir a dimensionalidade e o volume dos dados é essencial para modelos mais rápidos e interpretáveis.

Seleção de Atributos

Identifica e mantém apenas as variáveis que possuem maior poder preditivo, removendo ruídos e redundâncias.

Redução de Complexidade

Menos variáveis significam menor risco de overfitting e menor custo computacional.

Técnicas de Amostragem

Amostragem Aleatória

Cada registro tem a mesma probabilidade de ser escolhido. Simples, mas pode ignorar minorias.

Amostragem Estratificada

Divide a população em subgrupos (estratos) e sorteia proporcionalmente, mantendo a representatividade.

Dica: Use amostragem estratificada quando houver classes desbalanceadas (ex: detecção de fraude).

12 of 18

Cenário Real: Previsão de Churn

O Problema

Uma base com 200 colunas, incluindo "Cor Favorita" e "Último Login". Como simplificar o modelo de cancelamento?

O Poder da Seleção

Remover Irrelevantes

"Cor Favorita" não ajuda a prever o cancelamento. Removê-la reduz o ruído e o risco de overfitting.

Manter Relevantes

"Último Login" e "Frequência de Uso" são sinais vitais. Focar nelas torna o modelo mais rápido e interpretável.

Conclusão: Menos é mais. Um modelo com 10 variáveis fortes é melhor que um com 200 variáveis fracas.

13 of 18

Comparação: Técnicas de Amostragem

Técnica

Vantagens

Desvantagens

Melhor Cenário

Aleatória Simples

Fácil e imparcial; rápida execução.

Pode ignorar grupos minoritários importantes.

Bases homogêneas e muito grandes.

Estratificada

Garante representatividade de todas as classes.

Mais complexa de configurar e processar.

Bases desbalanceadas (ex: detecção de doenças raras).

14 of 18

Dataset de Prática: Vendas Online

ID_Venda

Data

Produto

Valor_Venda

Qtd

Cliente_ID

101

01/03/2026

Smartphone

1500

1

501

102

01/03/2026

Fone Bluetooth

200

2

502

103

02/03/2026

Carregador

null

1

503

104

02/03/2026

Smartphone

1500

1

501

105

03/03/2026

Tablet

1200

null

504

106

03/03/2026

Capinha

-50

1

505

107

04/03/2026

Notebook

4500

1

506

Erros Identificados

Valores Nulos:

IDs 103 e 105 possuem campos vazios.

Duplicidade:

IDs 101 e 104 são o mesmo registro de venda.

Inconsistência:

ID 106 possui valor negativo de venda.

Baixar Dataset (.csv)

15 of 18

Roteiro Prático: Normalização Min-Max

Passo a Passo

1

No Power Query, vá em Adicionar Coluna > Coluna Personalizada.

2

Nomeie como

Valor_Normalizado

e

insira a fórmula ao lado.

3

Substitua

#"Etapa Anterior"

pelo nome

da sua última etapa.

letMinimo = List.Min(#"Etapa Anterior"[Valor_Venda]),�Maximo = List.Max(#"Etapa Anterior"[Valor_Venda])�in�([Valor_Venda] - Minimo) / (Maximo - Minimo)� // Esta fórmula transforma os valores para o intervalo [0, 1]

16 of 18

Roteiro Prático: Limpeza no Power BI

1

Remoção de Erros

No Power Query, selecione a coluna > Remover Linhas > Remover Erros.

2

Substituição de Valores

Clique com o botão direito na coluna > Substituir Valores (ex: trocar null por 0).

3

Normalização Min-Max

Crie uma

Coluna Personalizada

com a fórmula:

(Valor - Min) / (Max - Min)

.

Qualidade dos Dados

Use a guia Exibir e marque Qualidade da Coluna para ver erros e vazios instantaneamente.

Verifique tipos de dados.

Renomeie etapas aplicadas.

Monitore a distribuição.

17 of 18

Ferramentas de Mercado: ETL Visual

O processo de ETL (Extração, Transformação e Carga) é essencial para integrar dados de fontes complexas e diversas em um formato pronto para análise.

Principais Soluções

Talaxie (Fork do Talend)

Ferramenta open-source poderosa com mapeamento visual de dados e alta escalabilidade.

Alteryx

Focada em automação analítica e preparação de dados self-service para usuários de negócio.

KNIME

Plataforma baseada em nós para criar fluxos de ciência de dados de ponta a ponta.

Dica: Ferramentas visuais reduzem o tempo de desenvolvimento e facilitam a manutenção de fluxos de dados complexos.

18 of 18

Dúvidas e Discussão

Quando é melhor normalizar do que padronizar os dados?

Como decidir se um outlier deve ser removido ou mantido na análise?

Qual o impacto de uma amostragem mal feita em um modelo preditivo?

Como o Talaxie se diferencia do Power Query em projetos de Big Data?

Vamos Conversar?

ESPAÇO ABERTO PARA PERGUNTAS