1 of 6

2 of 6

Summary

  • Compara embeddings de 100 años de texto con el censo de USA
  • Muestra que embeddings trackea cambios ocupacionales y demográficos en el tiempo
  • Data
    • Vectores de word2vec entrenados por Google News Dataset
    • Para textos históricos, usa vectores entrenados por Google sobre Google Books + Corpus del Historical American English (COHA)
    • GLoVe sobre corpus del NYT

3 of 6

Pasos

  • Computar la distancia entre palabras asociadas a “mujer” (she, her) y palabras para ocupaciones (carpinterx, abogadx)
  • Lo mismo para hombre - ocupación
  • Métrica Distancia mujeres vs distancia promedio para hombres
  • Compara diferencia en embeddings con diferencia real según censo

4 of 6

Sesgo en ocupaciones

  • El sesgo ocupacional por género en los embeddings sigue de cerca el sesgo real según el censo

5 of 6

Sesgo temporal

  • Análisis por década usando el dataset COHA, 1910-1990.
  • Cambios en embeddings refleja cambios según censo

6 of 6

Estereotipos de género y étnicos