1 of 51

Uma média melhor que a média (aritmética)

Roberto Imbuzeiro Oliveira (IMPA)

V Colóquio de Matemática da Região Sul, 2022

2 of 51

Zoraida Fernández-Rico�Columbia

Lucas Resende�IMPA

Paulo Orenstein�IMPA

Philip Thompson�Purdue

3 of 51

Medições ou experimentos repetidos

Resultados podem variar por diferenças individuais ou por variabilidade e incerteza nas medições.

Como tirar conclusões?

4 of 51

Medições ou experimentos repetidos

Resultados podem variar por diferenças individuais ou por variabilidade e incerteza nas medições.

Como tirar conclusões?

5 of 51

Agregando informação

  •  

6 of 51

Por que tomar média aritmética?

  •  

7 of 51

Um aluno frustrado de Lab de Física I

Experimento

Resultado

1

10

2

12

3

14

4

227

5

8

6

2

7

20

8

12

9

113

Média

~ 46

8 of 51

Tomar a média pode dar errado

Erros crassos de medição

Medições modificadas por interferência adversarial

Caudas pesadas da distribuição (veremos depois)

O que fazer?

9 of 51

Uma média melhor que a média?

  •  

10 of 51

Como calcular

  •  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

média podada

11 of 51

Aplicação aos desfiles de escola de samba

12 of 51

Média podada: resultados clássicos

  •  

13 of 51

Nesta palestra

Nova teoria para a média podada

Propriedades, melhor escolha de k

Muitas médias podadas

Extensões a vetores, matrizes...

14 of 51

Preliminares

15 of 51

Probabilidade básica

  •  

 

16 of 51

Probabilidade básica

  •  

17 of 51

Valor esperado e variância

  •  

 

18 of 51

Variáveis aleatórias i.i.d.

  •  

 

19 of 51

Teoria assintótica da média

  •  

20 of 51

 

 

21 of 51

Média amostral não é robusta

Experimento

Resultado

1

10

2

12

3

14

4

227

5

8

6

2

7

20

8

12

9

113

Média

~ 46

22 of 51

Média amostral não é robusta

Experimento

Resultado

1

10

2

12

3

14

4

90227

5

8

6

2

7

20

8

12

9

113

Média

~ 10046

23 of 51

Problemas com a média amostral

  •  

24 of 51

Escala dos erros no pior caso

  •  

25 of 51

Tomar a média pode dar errado

Erros crassos de medição

Medições modificadas por interferência adversarial

Caudas pesadas da distribuição (veremos depois)

O que fazer?

26 of 51

Existem estimadores melhores!

  •  

Ver também Devroye, Lerasle, Lugosi e O’ 2015.

27 of 51

Relembre a média podada

  •  

28 of 51

Nosso primeiro resultado

  •  

29 of 51

Como se prova isso?

  •  

30 of 51

Robustez

Erros crassos de medição

Medições modificadas por interferência adversarial

Caudas pesadas da distribuição (veremos depois)

O que fazer?

31 of 51

Modelos de robustez

  •  

32 of 51

Robustez da média podada

  •  

33 of 51

O pior que o adversário pode fazer

  •  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

média podada sem contaminação

34 of 51

O pior que o adversário pode fazer

  •  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

média podada com contaminação

 

 

35 of 51

Outros resultados da tese da Zoraida

Em colaboração com Paulo Orenstein e O’��Como escolher o parâmetro de poda

Intervalos de confiança��Extensões para estimação de matrizes de covariância (a seguir)

36 of 51

Estimando muitos valores esperados

37 of 51

Contexto

Em alguns casos, interessa estimar várias quantidades associadas a uma medição ou experimento.

Pergunta natural: qual o maior erro cometido?

38 of 51

Muitas coisas a estimar

  •  

39 of 51

Variáveis aleatórias i.i.d. e muitas funções

  •  

 

40 of 51

Estimação por médias amostrais

  •  

41 of 51

Análogo do problema de Catoni

  •  

42 of 51

Tese do Lucas Resende

  •  

43 of 51

Comentários

Generaliza e melhora resultados anteriores de diversos autores: Lugosi e Mendelson, Minsker, Lecué e Lerasle...

Resultado é melhor possível também quando há contaminação.

44 of 51

Ideia principal da prova

Processos podados são difíceis de se analisar.

Processos truncados são bem mais fáceis.

Mostrar que poda é similar a truncamento.

45 of 51

Estimando objetos em dimensão mais alta

46 of 51

Classe geral de problemas

Estimar objetos definidos a partir de valores esperados.

Exemplos: valores esperados de vetores, matrizes de covariância, vetor de regressão em mínimos quadrados.

Dificuldade conceitual: não há definição natural de média podada.

47 of 51

Probabilidade para vetores

  •  

48 of 51

Notícias boas e ruins

  •  

49 of 51

Estado atual do problema

Muitos resultados sub-ótimos

Hopkins (2018): primeiro estimador sub-Gaussiano “computacionalmente eficiente” para vetores.

Muito trabalho desde então.

Nenhum estimador é simples.

Nenhum resultado é ótimo em termos de contaminação.

Problemas relacionados

Estimar covariâncias, regressão linear, outros problemas estatísticos

50 of 51

Nosso trabalho atual

Heurísticas (tese de Lucas Resende)

Método para regressão que funciona muito bem na prática.

Tentativa de provar que funciona.

Métodos gerais com garantias rigorosas (Zoraida, Philip)

Funcionam bem na teoria e não tão mal na prática.

Abordagem bastante geral baseada em Hopkins et al (2021).

Problemas: regressão linear, estimação de matrizes de covariância.

51 of 51

Obrigado!