1 of 68

2 of 68

3 of 68

Deve mais ou menos!

4 of 68

5 of 68

6 of 68

7 of 68

8 of 68

9 of 68

10 of 68

11 of 68

12 of 68

13 of 68

14 of 68

15 of 68

16 of 68

Que PODE ser um dado real!

17 of 68

  • Dados ruidosos são informações que contêm erros, inconsistências ou ruídos que podem distorcer a análise e a interpretação dos dados.

  • Esses dados podem surgir de várias fontes, como medições imprecisas, erros de entrada, falhas nos sensores ou interferências externas.

OBS.: Um dado ruidoso pode gerar um outlier

18 of 68

19 of 68

20 of 68

21 of 68

22 of 68

23 of 68

24 of 68

25 of 68

26 of 68

27 of 68

28 of 68

29 of 68

30 of 68

31 of 68

32 of 68

33 of 68

34 of 68

35 of 68

36 of 68

37 of 68

38 of 68

39 of 68

  1. Normalização e Padronização: Realizar a normalização ou padronização dos dados deve ser feito após a divisão dos conjuntos.

  • Tratamento de Dados Ausentes: Impute ou remova dados ausentes depois da divisão.

  • Codificação de Variáveis Categóricas: A codificação deve ser realizada de forma que a variável categórica não revele informações do conjunto de teste ao conjunto de treinamento. Use técnicas como One-Hot Encoding após a divisão.

Vazamento de Dados

40 of 68

4. Remoção de Outliers: Identifique e remova outliers depois da divisão para garantir que o modelo não seja influenciado por dados extremos presentes no conjunto completo e no teste.

5. Divisão Aleatória: Realize a divisão de forma aleatória para garantir que ambos os conjuntos (treinamento e teste) sejam representativos da distribuição original dos dados. Guarde a semente de aleatoriedade!!

6. Validação Cruzada: Utilize validação cruzada (no conjunto de treinamento) para avaliar o modelo de forma robusta, garantindo que a avaliação não se baseie em um único conjunto de teste.

7. Separação de Dados Temporais: Se os dados forem temporais, mantenha a ordem temporal ao dividir os conjuntos, evitando que informações futuras sejam usadas para prever o passado.

Vazamento de Dados

41 of 68

42 of 68

43 of 68

44 of 68

45 of 68

Combinação linear: Cada componente principal é uma combinação linear das variáveis originais, ou seja, é formada ao multiplicar cada variável por um peso e somar esses valores. Por exemplo, se você tem variáveis x1, x2 … xn são os pesos que definem a contribuição de cada variável para o componente.

onde os coeficientes a1, a2 ... an são os pesos que definem a contribuição de cada variável para o componente

Autovalores e autovetores: Para encontrar esses pesos, o PCA calcula a matriz de covariância dos dados e resolve um problema de álgebra linear para encontrar os autovetores e autovalores dessa matriz.

  • Os autovetores indicam as direções no espaço dos dados onde a variância é máxima — ou seja, as direções dos componentes principais.
  • Os autovalores correspondem à quantidade de variância que cada autovetor (componente) explica nos dados. O primeiro componente principal é o autovetor com o maior autovalor, capturando a maior parte da variação dos dados.

46 of 68

47 of 68

48 of 68

49 of 68

50 of 68

51 of 68

52 of 68

53 of 68

54 of 68

55 of 68

56 of 68

57 of 68

58 of 68

59 of 68

60 of 68

61 of 68

62 of 68

63 of 68

64 of 68

65 of 68

66 of 68

67 of 68

68 of 68