Deve mais ou menos!
Que PODE ser um dado real!
OBS.: Um dado ruidoso pode gerar um outlier
Vazamento de Dados
4. Remoção de Outliers: Identifique e remova outliers depois da divisão para garantir que o modelo não seja influenciado por dados extremos presentes no conjunto completo e no teste.
5. Divisão Aleatória: Realize a divisão de forma aleatória para garantir que ambos os conjuntos (treinamento e teste) sejam representativos da distribuição original dos dados. Guarde a semente de aleatoriedade!!
6. Validação Cruzada: Utilize validação cruzada (no conjunto de treinamento) para avaliar o modelo de forma robusta, garantindo que a avaliação não se baseie em um único conjunto de teste.
7. Separação de Dados Temporais: Se os dados forem temporais, mantenha a ordem temporal ao dividir os conjuntos, evitando que informações futuras sejam usadas para prever o passado.
Vazamento de Dados
Combinação linear: Cada componente principal é uma combinação linear das variáveis originais, ou seja, é formada ao multiplicar cada variável por um peso e somar esses valores. Por exemplo, se você tem variáveis x1, x2 … xn são os pesos que definem a contribuição de cada variável para o componente.
onde os coeficientes a1, a2 ... an são os pesos que definem a contribuição de cada variável para o componente
Autovalores e autovetores: Para encontrar esses pesos, o PCA calcula a matriz de covariância dos dados e resolve um problema de álgebra linear para encontrar os autovetores e autovalores dessa matriz.