Uma média melhor que a média (aritmética)
Roberto Imbuzeiro Oliveira (IMPA)
V Colóquio de Matemática da Região Sul, 2022
Zoraida Fernández-Rico�Columbia
Lucas Resende�IMPA
Paulo Orenstein�IMPA
Philip Thompson�Purdue
Medições ou experimentos repetidos
Resultados podem variar por diferenças individuais ou por variabilidade e incerteza nas medições.
Como tirar conclusões?
Medições ou experimentos repetidos
Resultados podem variar por diferenças individuais ou por variabilidade e incerteza nas medições.
Como tirar conclusões?
Agregando informação
Por que tomar média aritmética?
Um aluno frustrado de Lab de Física I
Experimento | Resultado |
1 | 10 |
2 | 12 |
3 | 14 |
4 | 227 |
5 | 8 |
6 | 2 |
7 | 20 |
8 | 12 |
9 | 113 |
Média | ~ 46 |
Tomar a média pode dar errado
Erros crassos de medição
Medições modificadas por interferência adversarial
Caudas pesadas da distribuição (veremos depois)
O que fazer?
Uma média melhor que a média?
Como calcular
média podada
Aplicação aos desfiles de escola de samba
Média podada: resultados clássicos
Nesta palestra
Nova teoria para a média podada
Propriedades, melhor escolha de k
Muitas médias podadas
Extensões a vetores, matrizes...
Preliminares
Probabilidade básica
Probabilidade básica
Valor esperado e variância
Variáveis aleatórias i.i.d.
Teoria assintótica da média
Média amostral não é robusta
Experimento | Resultado |
1 | 10 |
2 | 12 |
3 | 14 |
4 | 227 |
5 | 8 |
6 | 2 |
7 | 20 |
8 | 12 |
9 | 113 |
Média | ~ 46 |
Média amostral não é robusta
Experimento | Resultado |
1 | 10 |
2 | 12 |
3 | 14 |
4 | 90227 |
5 | 8 |
6 | 2 |
7 | 20 |
8 | 12 |
9 | 113 |
Média | ~ 10046 |
Problemas com a média amostral
Escala dos erros no pior caso
Tomar a média pode dar errado
Erros crassos de medição
Medições modificadas por interferência adversarial
Caudas pesadas da distribuição (veremos depois)
O que fazer?
Existem estimadores melhores!
Ver também Devroye, Lerasle, Lugosi e O’ 2015.
Relembre a média podada
Nosso primeiro resultado
Como se prova isso?
Robustez
Erros crassos de medição
Medições modificadas por interferência adversarial
Caudas pesadas da distribuição (veremos depois)
O que fazer?
Modelos de robustez
Robustez da média podada
O pior que o adversário pode fazer
média podada sem contaminação
O pior que o adversário pode fazer
média podada com contaminação
Outros resultados da tese da Zoraida
Em colaboração com Paulo Orenstein e O’��Como escolher o parâmetro de poda
�Intervalos de confiança��Extensões para estimação de matrizes de covariância (a seguir)
Estimando muitos valores esperados
Contexto
Em alguns casos, interessa estimar várias quantidades associadas a uma medição ou experimento.
Pergunta natural: qual o maior erro cometido?
Muitas coisas a estimar
Variáveis aleatórias i.i.d. e muitas funções
Estimação por médias amostrais
Análogo do problema de Catoni
Tese do Lucas Resende
Comentários
Generaliza e melhora resultados anteriores de diversos autores: Lugosi e Mendelson, Minsker, Lecué e Lerasle...
Resultado é melhor possível também quando há contaminação.
Ideia principal da prova
Processos podados são difíceis de se analisar.
Processos truncados são bem mais fáceis.
Mostrar que poda é similar a truncamento.
Estimando objetos em dimensão mais alta
Classe geral de problemas
Estimar objetos definidos a partir de valores esperados.
Exemplos: valores esperados de vetores, matrizes de covariância, vetor de regressão em mínimos quadrados.
Dificuldade conceitual: não há definição natural de média podada.
Probabilidade para vetores
Notícias boas e ruins
Estado atual do problema
Muitos resultados sub-ótimos
Hopkins (2018): primeiro estimador sub-Gaussiano “computacionalmente eficiente” para vetores.
Muito trabalho desde então.
Nenhum estimador é simples.
Nenhum resultado é ótimo em termos de contaminação.
Problemas relacionados
Estimar covariâncias, regressão linear, outros problemas estatísticos
Nosso trabalho atual
Heurísticas (tese de Lucas Resende)
Método para regressão que funciona muito bem na prática.
Tentativa de provar que funciona.
Métodos gerais com garantias rigorosas (Zoraida, Philip)
Funcionam bem na teoria e não tão mal na prática.
Abordagem bastante geral baseada em Hopkins et al (2021).
Problemas: regressão linear, estimação de matrizes de covariância.
Obrigado!