1 of 109

¿Por qué probar hipótesis?

Probar hipótesis

Enero de 2025

Lección 13

2 of 109

REVISIÓN

2

Repasemos lo que hemos completado en

la fase de DISEÑO DE PROTOTIPOS.

3 of 109

La fase de diseño de prototipo convierte las perspectivas en ideación y las ideas en prototipos para avanzar solo con las soluciones más prometedoras.

REVISIÓN

4 of 109

Realizar la ideación de intervenciones

Priorizar las intervenciones

REVISAR

D

DISEÑO DE PROTOTIPOS

TH

S

E

1

2

3

4

Crear prototipos, probar y repetir las intervenciones

Teoría de cambio

5 of 109

REVISIÓN

En las últimas tres lecciones (10-11-12),

aprendimos a:

Redactar ideas (Lección 10)
Generar ideas (Lección 10)
Priorizar intervenciones (Lección 11)
Desarrollar prototipos (Lección 12)
Planificar y llevar a cabo la creación de prototipos (Lección 12)
Repetir/Iterar (Lección 12)
Diseñar una teoría de cambio (Lección 12)

D

DISEÑO DE PROTOTIPOS

TH

S

E

6 of 109

REVISIÓN

En la lección 10, aprendimos a:

DISEÑO DE PROTOTIPOS

1

2

3

4

Ideas preliminares

Micro-comportamiento

El cuidador acude a la segunda cita de vacunación a tiempo

Población de interés

Cuidadores que viven en comunidades de bajos ingresos y refugiados en el Líbano

Barreras/facilitadores

Escasos hábitos de planificación

A

B

C

¿Cómo podríamos fomentar con mejores hábitos de planificación entre los cuidadores del Líbano para que sean más propensos a recordar y acudir puntualmente a las citas de vacunación de seguimiento de sus hijos?

C

A

B

7 of 109

REVISAR

En la lección 10, aprendimos a:

DISEÑO DE PROTOTIPOS

1

2

3

4

Generar ideas utilizando diversos métodos

Los cuidadores tuvieran una tarjeta para recordar la fecha de la siguiente visita de vacunación.

El comportamiento sería �sería más fácil si

Una tarjeta sencilla con la fecha de la cita para la vacuna

Una alegre tarjeta de «Héroe de la vacuna» con un lenguaje festivo y una pegatina para el niño.

Un tono más lúdico y festivo

Animar a los padres a vacunar a sus hijos mediante anuncios

Compartir datos sobre cómo «El 85 % de las madres de su comunidad han vacunado a sus hijos este año».

Hágalo social

8 of 109

REVISIÓN

En la lección 11, aprendimos a:

DISEÑO DE PROTOTIPOS

1

2

3

4

Priorizar las intervenciones basándose en criterios clave

1

2

3

4

5

Deseabilidad

Facilidad para cambiar el comportamiento

Impacto del cambio del comportamiento

Medibilidad

Costo

Escalabilidad

9 of 109

REVISIÓN

En la lección 12, aprendimos a:

DISEÑO DE PROTOTIPOS

1

2

3

4

Prototipos de diseño

Modelos

Maquetas en papel

Guion gráfico

Juego de roles

10 of 109

REVISIÓN

En la lección 12, aprendimos a:

Planificar y llevar a cabo el diseño de prototipos

Trazar un mapa

¿Cuál es el comportamiento específico que queremos que cambie? ¿Cómo se define el éxito?
¿Qué barreras clave creemos que resuelve esta idea?
¿Qué mecanismos utilizará la idea para abordar las barreras?
¿Por qué podría funcionar para la comunidad?

A continuación, decida:

¿Con quién necesitas hablar para probar la idea?
¿Dónde debemos crear el prototipo?
¿Cómo sabremos si está funcionando?

DISEÑAR PROTOTIPOS

1

2

3

4

11 of 109

REVISIÓN

En la lección 12, aprendimos a:

Sintetizar los aprendizajes y repetir

Realizar pruebas iniciales

Síntesis e iteración

MANTENER / MEJORAR / ELIMINAR / AÑADIR

Pruebas de seguimiento

DISEÑO DE PROTOTIPOS

1

2

3

4

12 of 109

REVISIÓN

En la lección 12, aprendimos a:

DISEÑAR PROTOTIPOS

1

2

3

4

Elaborar una teoría del cambio

Recursos

Actores

Necesidades

Actividades

Psicológicas

Comportamentales

Mecanismos

Resultados

Impacto

Resultados intermedios

Resultado del comportamiento primario

13 of 109

DESCRIPCIÓN GENERAL

13

Comencemos nuestra sesión.

14 of 109

DESCRIPCIÓN GENERAL

14

¿Qué viene después del diseño de prototipos?

15 of 109

DESCRIPCIÓN GENERAL

D

PROBAR HIPÓTESIS

S

E

P

En esta fase, se ponen a prueba las ideas.

¿Funcionó la intervención?

Las perspectivas recopiladas aquí revelan qué hay que perfeccionar, escalar o descartar.

16 of 109

DESCRIPCIÓN GENERAL

¿Por qué probar hipótesis?

Consideraciones de diseño para la evaluación de impacto

1

2

3

D

PROBAR HIPÓTESIS

S

E

P

Evaluación e implementación de la investigación

17 of 109

DESCRIPCIÓN GENERAL

¿Por qué probar hipótesis?

Consideraciones de diseño para la evaluación de impacto

1

2

3

D

PROBAR HIPÓTESIS

S

E

P

Evaluación e implementación de la investigación

18 of 109

DESCRIPCIÓN GENERAL

¿Por qué probar hipótesis?

01 La importancia de la evaluación

02 El reto de la causalidad

03 El marco contrafactual

04 Aleatorización: el estándar de oro para los contrafactuales

D

PROBAR HIPÓTESIS

S

E

P

En esta lección�trataremos:

1

19 of 109

DESCRIPCIÓN GENERAL

19

¿Realmente necesitamos seguir probando las soluciones? ¿No podemos escalar de inmediato?

20 of 109

¿Por qué probar hipótesis?

Sección 1

La importancia de la evaluación

D

PROBAR HIPÓTESIS

S

E

P

1

21 of 109

¿Lo tomaría?

IMPORTANCIA DE LA EVALUACIÓN

Este medicamento no se ha probado formalmente, pero algunos pacientes mejoraron y nuestro equipo confía en que funciona.

22 of 109

IMPORTANCIA DE LA EVALUACIÓN

22

La mayoría de la gente se negaría,

y con razón.

23 of 109

IMPORTANCIA DE LA EVALUACIÓN

23

Las soluciones deben someterse a pruebas formales.

Las personas necesitan ver pruebas de que funcionan:

dónde, cómo, por qué y con quién.

LA EVIDENCIA ES CLAVE

24 of 109

IMPORTANCIA DE LA EVALUACIÓN

v

Sin embargo, en el caso de los programas sociales y las intervenciones comportamentales, suele ocurrir lo contrario: actuamos basándonos en buenas intenciones y teorías, pero sin evidencia rigurosas de lo que realmente funciona.

25 of 109

IMPORTANCIA DE LA EVALUACIÓN

25

El desarrollo internacional está repleto de programas que parecían innovadores y prometedores, hasta que se evaluaron rigurosamente.

26 of 109

TOMEMOS EL EJEMPLO DE LAS MICROFINANZAS

Al principio, en 1980

IMPORTANCIA DE LA EVALUACIÓN

Se consideraban un gran avance para la reducción de la pobreza

Pequeños préstamos para fomentar el espíritu emprendedor

Ampliamente elogiado y rápidamente escalado

27 of 109

Al principio, en 1980

Pero tras una evaluación rigurosa

TOMEMOS EL EJEMPLO DE LAS MICROFINANZAS

IMPORTANCIA DE LA EVALUACIÓN

Considerado un gran avance para la reducción de la pobreza

Pequeños préstamos para fomentar el espíritu emprendedor

Ampliamente elogiado y rápidamente escalado

✔️ Mejoró el acceso al crédito

✖️ Impacto mixto sobre la pobreza

✖️ Aumento de la carga de la deuda

✖️ Resultados limitados a largo plazo

Sin embargo, con el tiempo, evaluaciones rigurosas revelaron una realidad más compleja. Si bien las microfinanzas mejoraron el acceso al crédito, su impacto en la reducción de la pobreza, la movilidad económica y el bienestar a largo plazo era menos claro. Estudios rigurosos pusieron de relieve el aumento de la carga de la deuda para los prestatarios, la escalabilidad limitada, los modestos resultados empresariales y los escasos avances en la lucha contra la pobreza estructural. Artículos y libros, como «Big Money Backs Tiny Loans That Lead to Debt, Despair and Even Suicide» (El gran dinero respalda pequeños préstamos que conducen a la deuda, la desesperación e incluso el suicidio) y More Than Good Intentions (Más que buenas intenciones), reflejan la desilusión que siguió y el papel crucial que desempeñó la evaluación a la hora de revelar lo que las anécdotas no podían.

28 of 109

Y hay muchos otros ejemplos

IMPORTANCIA DE LA EVALUACIÓN

PlayPump

Aldeas del Milenio

Una computadora portátil por niño

29 of 109

IMPORTANCIA DE LA EVALUACIÓN

29

Tener buenas intenciones no es suficiente.

Incluso con las mejores intenciones, a menudo hacemos suposiciones que pueden desviar nuestras intervenciones.

Es la «trampa de las suposiciones».

30 of 109

Asumimos que entendemos el problema

IMPORTANCIA DE LA EVALUACIÓN

Definimos los problemas desde nuestra propia perspectiva → nos perdemos la experiencia vivida por las personas afectadas.

31 of 109

Damos por sentado que sabemos lo que funcionará

IMPORTANCIA DE LA EVALUACIÓN

Cuando estamos demasiado convencidos de que algo funcionará, pasamos por alto factores clave que afectan al éxito.

32 of 109

Asumimos que las anécdotas positivas significan éxito

IMPORTANCIA DE LA EVALUACIÓN

Sobrevaloramos las historias positivas → no reflejan la realidad completa.

Mi esposo dijo que disfrutó mucho estar en la clínica con el trabajador sanitario

33 of 109

Asumimos que los resultados positivos se deben a nosotros.

IMPORTANCIA DE LA EVALUACIÓN

Confundimos correlación con causalidad → Si las cosas mejoran, no significa que sea gracias a nuestra intervención.

34 of 109

IMPORTANCIA DE LA EVALUACIÓN

34

La mente humana suele ser parcial y precipitarse a sacar conclusiones. Esto puede ser útil en la vida cotidiana, pero engañoso a la hora de evaluar intervenciones complejas.

CUIDADO CON LA TRAMPA DE LAS SUPOSICIONES

35 of 109

La evaluación proporciona el proceso estructurado que necesitamos para ir más allá de las suposiciones y comprender el verdadero impacto de nuestro trabajo.

IMPORTANCIA DE LA EVALUACIÓN

36 of 109

Una evaluación rigurosa ayuda a:

IMPORTANCIA DE LA EVALUACIÓN

Dirigir los fondos limitados hacia las intervenciones adecuadas.

Abordar los problemas antes de que escalen.

Generar confianza con los socios.

Proporcionar un plan para la expansión.

Identificar consecuencias negativas no deseadas.

Las evaluaciones no son solo ejercicios académicos, sino que aportan un valor concreto:

Optimización de recursos: en entornos con recursos limitados, la evaluación ayuda a destinar los fondos limitados a intervenciones con un impacto demostrado.
Corrección del rumbo: una evaluación oportuna permite identificar y abordar los problemas de implementación antes de escalar, evitando la adopción generalizada de enfoques ineficaces.
Confianza de los actores clave: una evaluación rigurosa genera confianza entre los donantes, los gobiernos y las comunidades, lo que facilita las asociaciones y el apoyo a largo plazo.
Escalar y replicación: los programas bien evaluados proporcionan un modelo para la expansión, lo que permite que los enfoques exitosos beneficien a más comunidades.
Prevención de daños: la evaluación puede identificar las consecuencias negativas no deseadas de programas bien intencionados antes de que afecten a grandes poblaciones.

37 of 109

IMPORTANCIA DE LA EVALUACIÓN

37

Evaluar nuestro impacto es importante, pero ¿cómo sabemos si realmente hemos marcado la diferencia?

38 of 109

¿Por qué probar hipótesis?

Sección 2

El reto de la causalidad

D

PROBAR HIPÓTESIS

S

E

P

1

39 of 109

Se inicia una campaña de vacunación y, poco después, las tasas de enfermedad disminuyen. ¿Podemos concluir que la campaña ha provocado ese descenso?

Sí, el momento en que se llevó a cabo demuestra su impacto.
Todavía no, otros factores podrían explicarlo

QUÉ MEDIR Y CÓMO

VOTA EN LA ENCUESTA

40 of 109

La respuesta es la B:

Los cambios estacionales, las nuevas políticas u otros programas también pueden influir en los resultados; el hecho de que dos cosas ocurran al mismo tiempo no significa que una sea la causa de la otra.

QUÉ MEDIR Y CÓMO

41 of 109

EL RETO DE LA CAUSALIDAD

41

El reto fundamental de la evaluación es determinar si nuestra intervención realmente provocó los cambios que observamos.

42 of 109

La correlación significa que dos cosas ocurren juntas, mientras que la causalidad significa que una cosa provoca que ocurra la otra.

EL RETO DE LA CAUSALIDAD

43 of 109

Cuando las ventas de helados son altas, hay más ataques de tiburones

EL RETO DE LA CAUSALIDAD

+

44 of 109

¿Las ventas de helados están provocando ataques de tiburones?

EL RETO DE LA CAUSALIDAD

45 of 109

Esto se conoce como «el problema de la variable de confusión».

La temperatura es la tercera variable oculta que influye en ambos resultados de forma independiente.

EL RETO DE LA CAUSALIDAD

Influencia causal

Esto ilustra lo que los estadísticos denominan «problema de la tercera variable (o confusión por causa común)». En este caso, la temperatura es la tercera variable oculta que influye en ambos resultados de forma independiente. Durante los meses de verano, la temperatura aumenta. Esto provoca:

Un aumento en el consumo de helados.

Más gente nade en el mar. A medida que más nadadores se adentran en el agua, aumenta la probabilidad de encuentros con tiburones.

Podemos visualizar esta relación con un sencillo diagrama causal, similar a los diagramas que utilizamos cuando mapearon el sistema que rodea nuestro problema en la etapa de definición. Las flechas son influencias causales. No hay ninguna flecha que conecte las ventas de helado y los ataques de tiburones porque no existe una relación causal directa entre ellos: tienen una correlación (ocurren juntos), pero no son causales (uno no causa el otro).

Comprender este problema de la tercera variable nos ayuda a evitar conclusiones erróneas en nuestros programas. Sin esta comprensión, podríamos observar una correlación entre dos variables y suponer incorrectamente que una causa la otra, lo que daría lugar a intervenciones ineficaces o incluso perjudiciales.

46 of 109

La correlación significa que dos cosas ocurren al mismo tiempo.

CORRELACIÓN

La causalidad significa que una cosa hace que la otra suceda.

CAUSALIDAD

DESAFÍO DE LA CAUSALIDAD

47 of 109

EL RETO DE LA CAUSALIDAD

47

¿Por qué es importante que sepamos esto?

48 of 109

EL RETO DE LA CAUSALIDAD

v

Confundir correlación con causalidad puede llevarnos a continuar o escalar intervenciones que no son el verdadero factor que moviliza el cambio.

REALIZAR PRUEBAS CON LOS USUARIOS E ITERAR

49 of 109

¿El programa ha provocado esta mejora?

EL RETO DE LA CAUSALIDAD

El programa de nutrición de UNICEF se implementa en varias comunidades

Mejoran los indicadores de crecimiento infantil

50 of 109

¿Qué más podría estar sucediendo?

EL RETO DE LA CAUSALIDAD

El programa de nutrición de UNICEF se implementa en varias comunidades

Aumento de la disponibilidad estacional de alimentos

Otra organización está proporcionando agua potable, lo que ha reducido las enfermedades diarreicas

El gobierno implementó una política económica que aumentó los ingresos familiares

Mejoran los indicadores de crecimiento infantil

51 of 109

EL RETO DE LA CAUSALIDAD

El programa de nutrición de UNICEF se lleva a cabo en varias comunidades

Aumento de la disponibilidad estacional de alimentos

Otra organización está proporcionando agua potable, lo que ha reducido las enfermedades diarreicas

El gobierno implementó una política económica que aumentó los ingresos familiares

Al asumir que el programa ha provocado el cambio, se corre el riesgo de invertir en intervenciones que en realidad no funcionan o de pasar por alto lo que realmente ha impulsado el cambio.

52 of 109

DESAFÍO DE LA CAUSALIDAD

El programa de nutrición de UNICEF se implementa en varias comunidades

Aumento de la disponibilidad estacional de alimentos

Otra organización está proporcionando agua potable, lo que ha reducido las enfermedades diarreicas.

El gobierno implementó una política económica que aumentó los ingresos familiares.

Intervención

Factores de confusión

53 of 109

Esto se denomina endogeneidad: una situación en la que la relación entre una intervención y su resultado se ve distorsionada porque intervienen otras variables.

EL RETO DE LA CAUSALIDAD

54 of 109

DESAFÍO DE LA CAUSALIDAD

Los factores de confusión basados en el tiempo son cambios que habrían ocurrido independientemente de nuestra intervención.

Variaciones estacionales: disponibilidad típica en lugar de impacto del programa.

Tendencias preexistentes: las tasas ya estaban aumentando debido al desarrollo económico.

Aumento de la disponibilidad estacional de alimentos.

55 of 109

DESAFÍO DE LA CAUSALIDAD

Los factores de confusión de selección son las diferencias entre los participantes y los no participantes.

Sesgo de autoselección: las familias que deciden participar pueden estar más comprometidas.

Sesgo de selección: si elegimos los extremos, la normalización de las tasas a lo largo del tiempo se producirá de todos modos.

Las familias que se unen a un programa de nutrición pueden estar ya más comprometidas con el crecimiento de sus hijos.

56 of 109

EL RETO DE LA CAUSALIDAD

Se pone en marcha un programa de nutrición infantil justo cuando se introduce un subsidio alimentario nacional.

Los factores de confusión ambientales son acontecimientos o condiciones externos que �se producen al mismo tiempo.

Programas concurrentes: diferentes intervenciones con el mismo objetivo se producen al mismo tiempo.

Cambios en las políticas: se pone en marcha una política que también podría ser responsable.

Otra organización proporciona agua potable -> menos enfermedades diarreicas.

57 of 109

EL RETO DE LA CAUSALIDAD

Los factores de confusión en la medición son cambios en la forma en que hacemos un seguimiento de los resultados.

Mejora del seguimiento: las tasas y los resultados pueden cambiar, no por un cambio en el comportamiento, sino por�una mejora en el seguimiento.

Tras la introducción de un nuevo sistema de notificación, se registra un mayor número de niños con bajo peso.

58 of 109

EL RETO DE LA CAUSALIDAD

58

Cuando múltiples factores influyen simultáneamente en los resultados, ¿cómo podemos aislar el verdadero impacto de nuestro programa?

59 of 109

¿Por qué probar hipótesis?

Sección 3

El marco contrafactual: comprender lo que habría sucedido de otro modo

D

PROBAR HIPÓTESIS

S

E

P

1

60 of 109

Para saber si una campaña de vacunación redujo las tasas de enfermedad, ¿con qué debemos compararla?

Las comunidades que también recibieron la campaña.
Comunidades similares que no la recibieron

QUÉ MEDIR Y CÓMO

VOTA EN LA ENCUESTA

61 of 109

La respuesta es la B:

Comparar con comunidades que no han participado en la campaña puede ayudarnos a responder a la pregunta fundamental de la inferencia causal: «¿Qué habría pasado si no se hubiera llevado a cabo la intervención?».

QUÉ MEDIR Y CÓMO

62 of 109

El contrafactual es el escenario alternativo en el que el programa no existía.

CONTRAFACTUALES

63 of 109

CONTRAFACTUALES

Recibe la intervención

Y₁

(resultado)

No recibe la intervención

Para evaluar la diferencia que supone una intervención, cree múltiples realidades posibles para cada unidad.

Y₀

(resultado)

Efecto causal

=

Y₁ - Y₀

Para ayudar a razonar sobre el impacto causal, los estadísticos utilizan lo que se denomina el marco de resultados potenciales.

Este marco proporciona una estructura formal para pensar en la diferencia que supone una intervención, creando múltiples realidades posibles para cada unidad.

Una unidad puede ser una persona, un hogar, una escuela o una comunidad, y para cada unidad hay dos resultados potenciales:

Y₁: El resultado si la unidad recibe el tratamiento/intervención
Y₀: el resultado si la unidad no recibe el tratamiento o la intervención.

El efecto causal es la diferencia entre estos dos resultados potenciales: Y₁ - Y₀.

Niño A (grupo de tratamiento) → Recibió la intervención → Resultado observado: Y₁

Niño B (grupo de comparación) → NO recibió la intervención → Resultado observado: Y₀

Efecto causal = Y₁ - Y₀

64 of 109

No podemos observar tanto lo real como lo contrafactual para un mismo individuo.

CONTRAFACTUALES

Recibe la vacuna

No contrae la enfermedad

No recibe la vacuna

?

65 of 109

HIPÓTESIS CONRAFACTUALES

65

¿Y qué hacemos?

66 of 109

CONTRAFACTUALES

66

A continuación, se aproxima el contrafactual buscando o creando un grupo de comparación válido.

67 of 109

Si los grupos de comparación son muy similares, cualquier diferencia significativa en los resultados puede atribuirse al programa.

CONTRAFACTUALES

Y₁

(resultado)

Y₀

(resultado)

Recibe la intervención

No recibe la intervención

Al crear cuidadosamente grupos de comparación muy similares entre sí, es posible aproximarse a lo que habría sucedido con los miembros del grupo que recibió la intervención y los que no la recibieron.

Este grupo es lo más similar posible al grupo de intervención y experimenta las mismas condiciones externas —como cambios estacionales, variaciones económicas o reformas políticas—, pero no recibe la intervención.

Si ambos grupos están expuestos al mismo contexto, cualquier diferencia significativa en los resultados entre ellos puede atribuirse al programa en sí. Esta es la base de un diseño de evaluación creíble. Un contrafactual cuidadosamente construido ayuda a ir más allá de las suposiciones y a responder con confianza a una pregunta importante: ¿La intervención marcó la diferencia o habría sucedido de todos modos?

68 of 109

Una buena inferencia causal depende de cuán bien nuestro grupo de comparación refleje lo que habría sucedido sin la intervención.

CONTRAFACTUALES

69 of 109

CONTRAFACTUALES

69

Entonces, ¿cómo podemos crear un grupo de comparación que sea lo más similar posible en cuanto a factores/variables observables e inobservables?

70 of 109

CONTRAFACTUALES

v

Existen varios enfoques diferentes para crear un grupo de comparación, cada uno con sus propias ventajas e inconvenientes en cuanto a rigor, viabilidad y riesgo de sesgo.

71 of 109

CONTRAFACTUALES

71

Antes de entrar en algunos de estos enfoques, presentaremos un sistema para reflexionar sobre ello.

72 of 109

CONTRAFACTUALES

v

O → Medimos algo (conocimiento, comportamiento, etc.)

X → El programa se lleva a cabo

Estas son algunas de las siglas que utilizaremos

73 of 109

CONTRAFACTUALES

v

Escribiremos en líneas horizontales

Cada línea representa un grupo

La alineación vertical muestra que las cosas están sucediendo al mismo tiempo

O ------ X ------ O

74 of 109

CONTRAFACTUALES

Diseño simple pre-post sin grupo de comparación

O ------------- X ------------ O

Antes Programa Después

Comparación antes y después: contrafactual débil

Un enfoque común pero defectuoso de la evaluación es la comparación antes y después. Este método mide los resultados justo antes de que comience un programa y de nuevo después, atribuyendo cualquier cambio a la intervención. Aunque es sencillo e intuitivo, este enfoque es muy vulnerable a factores de confusión que pueden influir en los resultados a lo largo del tiempo, independientemente del programa en sí.

Entre ellos se incluyen:

Factores de confusión basados en el tiempo: variaciones estacionales o tendencias a largo plazo (por ejemplo, un programa de capacitación agrícola muestra un aumento en los rendimientos, pero el período de evaluación coincide con la temporada natural de crecimiento).
Factores de confusión ambientales: programas o cambios de política simultáneos (por ejemplo, un programa de nutrición parece tener éxito, pero el gobierno introdujo simultáneamente comidas escolares gratuitas en la misma zona).
Factores de confusión relacionados con la medición: el acto de medir influye en los resultados (por ejemplo, las encuestas repetidas hacen que los hogares sean conscientes del comportamiento «deseado», como lavarse las manos, lo que provoca cambios independientes del programa en sí).

Todos estos factores pueden crear la ilusión de impacto, cuando en realidad el cambio podría haber ocurrido de todos modos.

75 of 109

CONTRAFACTUALES

Diseño simple pre-post sin grupo de comparación.

Este diseño muestra el cambio a lo largo del tiempo, pero no podemos saber si el programa causó el cambio, ya que es posible que también hayan cambiado otras cosas.

Inicio de la estación seca �→ Las enfermedades transmitidas por el agua �disminuyen de forma natural

O ------------- X ------------ O

Antes Programa Después

Abril

Agosto

Salud comunitaria

76 of 109

Se lanza una nueva campaña de vacunación primero en las comunidades que más la solicitaron. ¿Se puede utilizar esta configuración para medir el impacto real de la campaña?

No, esas comunidades pueden diferir en aspectos que sesgan los resultados.
Sí, las comunidades motivadas la adoptarán más rápidamente.

QUÉ MEDIR Y CÓMO

VOTA EN LA ENCUESTA

77 of 109

La respuesta es A:

Las comunidades que participan en actividades de voluntariado pueden tener ya un mejor acceso a la salud o una mayor concienciación. Estas diferencias ocultas muestran si la campaña en sí misma ha provocado el cambio.

QUÉ MEDIR Y CÓMO

78 of 109

CONTRAFACTUALES

Pre-post

con un grupo de comparación (no aleatorio)

O ------------ X ----------- O

Antes del programa Después

O ------------------------- O

Grupo de comparación no equivalente: mejor, pero con defectos

Un paso adelante con respecto a las comparaciones antes y después es un grupo de comparación no equivalente, es decir, un grupo que no recibe la intervención, pero que se observa durante el mismo periodo de tiempo que el grupo de intervención. Este enfoque ayuda a abordar muchos factores de confusión basados en el tiempo, ya que ambos grupos están expuestos a las mismas condiciones externas (por ejemplo, estaciones, cambios políticos o cambios económicos).

Sin embargo, este diseño sigue siendo vulnerable a los factores de confusión de selección: diferencias entre los grupos que pueden afectar a los resultados independientemente de la intervención.

Entre ellos se incluyen:

Autoselección: las personas que deciden participar pueden estar ya más motivadas, disponer de más recursos o ser más conscientes de la importancia de la salud que las que no lo hacen.
Selección administrativa: los programas suelen impartirse intencionadamente en las zonas con mayor necesidad o mayor potencial de éxito, lo que puede sesgar las comparaciones.
Diferencias de referencia: incluso antes de que comience el programa, las comunidades comparadas pueden diferir en aspectos clave, como la infraestructura, los ingresos o la demografía.

Los investigadores suelen intentar emparejar los grupos en función de características observables, pero este enfoque tiene sus limitaciones. Muchos factores importantes (por ejemplo, las actitudes, las aspiraciones, la resiliencia o la genética) no se pueden observar, pero pueden influir en los resultados. Estas diferencias ocultas dificultan atribuir con seguridad los cambios a la intervención.

Aunque es más sólido que el diseño comparación antes y después, el enfoque de comparación no equivalente sigue sin ser suficiente para producir estimaciones causales de alta confianza, a menos que se apliquen cuidadosamente métodos adicionales (como el ajuste estadístico o los experimentos naturales).

79 of 109

CONTRAFACTUALES

Diseño simple pre-post

sin grupo de comparación.

Los grupos no son aleatorios, por lo que pueden ser diferentes

(motivación, antecedentes, apoyo familiar, etc.).

O ------------ X ----------- O

Antes del programa Después

O ------------------------- O

Los participantes decidieron participar: ya están más motivados.

80 of 109

CONTRAFACTUALES

v

Tanto la comparación antes y después como los diseños de grupos de comparación no equivalente tienen limitaciones.

Pueden ayudar a observar el cambio, pero tienen dificultades para aislar qué causó ese cambio.

81 of 109

CONTRAFACTUALES

81

Necesitamos una forma de crear grupos que sean verdaderamente comparables, incluso en cuanto a características que no podemos ver ni medir.

82 of 109

¿Por qué probar hipótesis?

Sección 4

Aleatorización: el estándar de oro para los contrafactuales

D

PROBAR HIPÓTESIS

S

E

P

1

83 of 109

ALEATORIZACIÓN

Aquí es donde entra en juego la aleatorización

1

2

Recibe

intervención

No recibe intervención

GRUPO A

GRUPO B

Muestreo aleatorio de diferentes grupos (individuos, escuelas o comunidades) de la población objetivo

Asignar aleatoriamente qué grupos reciben una intervención

Esto crea grupos estadísticamente equivalentes.

84 of 109

ALEATORIZACIÓN

Con la aleatorización, los factores de confusión se distribuyen de manera uniforme entre los grupos por diseño.

Tendencias preexistentes
Participación asignada
Variaciones estacionales
Efectos relacionados con la medición
Programas concurrentes
Cambios en las políticas

85 of 109

ALEATORIZACIÓN

La única diferencia sistemática entre los grupos es si reciben o no la intervención.

Recibe

la intervención

No recibe intervención

GRUPO A

GRUPO B

86 of 109

Cuando se implementa correctamente, la aleatorización garantiza que la única diferencia entre los grupos sea si recibieron o no la intervención.

ALEATORIZACIÓN

87 of 109

EJEMPLO

Imagina que diriges un programa para animar a los padres a enviar a sus hijos a la escuela.

ALEATORIZACIÓN

Diferentes situaciones económicas

Diferentes niveles educativos

Diferentes horarios

Diferentes valores con respecto a la educación

Diferentes motivaciones

Diferentes experiencias pasadas

Diferentes distancias a la escuela

88 of 109

EJEMPLO

Al asignar aleatoriamente, todas las características se distribuyen de manera similar entre los grupos.

Unidad A

Unidad B

ALEATORIZACIÓN

Recibe

intervención

Grupo de control

No recibe

89 of 109

EJEMPLO

Cualquier diferencia en las tasas de asistencia escolar tras la intervención puede atribuirse a la propia intervención.

Unidad A

Unidad B

ALEATORIZACIÓN

Recibe

la intervención

Grupo de control

No recibe

Y₁

(resultado)

Y₀

(resultado)

La diferencia entre estos dos resultados es el impacto de la intervención.

90 of 109

ALEATORIZACIÓN

90

La aleatorización nos permite crear una comparación creíble de «qué habría pasado», lo que nos ayuda a determinar qué funciona realmente, para quién y por qué.

CUIDADO CON LA TRAMPA DE LAS SUPOSICIONES

El camino desde las buenas intenciones hasta el impacto real

Una evaluación rigurosa no solo tiene que ver con la credibilidad académica, sino también con garantizar que los programas realmente mejoren la vida de las personas. Como se ha señalado anteriormente, las intervenciones bienintencionadas pueden no tener el impacto deseado, desperdiciar recursos valiosos o incluso causar daños no deseados cuando se basan en suposiciones en lugar de en evidencia. La diferencia entre correlación y causalidad es importante, ya que determina si se escala lo que realmente funciona o si se invierte en programas que simplemente coincidieron con un cambio positivo. Al construir contrafactuales válidos, idealmente mediante la aleatorización, la comprensión va más allá de lo que parece funcionar y se centra en lo que realmente funciona, para quién y por qué.

Este conocimiento transforma la forma de diseñar programas, asignar recursos y, en última instancia, servir a las comunidades. Si bien una evaluación rigurosa puede parecer desalentadora, continuar con las intervenciones sin conocer su verdadero impacto es mucho más arriesgado.

91 of 109

ALEATORIZACIÓN

Experimentos aleatorizados

Diseños no aleatorios �y diseños cuasi experimentales

Pre-experimentos

El ECA básico
Ensayo de múltiples brazos
Ensayo controlado aleatorio ágil
Prueba A/B
Ensayo aleatorio por conglomerados
Diseños escalonados y de lista de espera
Diseño cruzado
Ensayo en múltiples centros
Ensayo realista
Ensayo híbrido
Ensayo adaptativo

diseño de discontinuidad de regresión (RDD)
Emparejamiento
diferencia en diferencias (DiD)
Control sintético

Jerarquía

de la evidencia

Aumento del poder causal

92 of 109

ALEATORIZACIÓN

Experimentos aleatorios

v

RCTS

Confianza en los resultados: Muy alta

93 of 109

Un RCT es un experimento en el que se asigna aleatoriamente a las personas en grupos de intervención, uno de los cuales es un grupo de control y no recibe la intervención. Los RCT comparan los resultados entre los grupos y requieren una muestra de gran tamaño.

ALEATORIZACIÓN

94 of 109

ALEATORIZACIÓN

POBLACIÓN DEL ESTUDIO

TRATAMIENTO

CONTROL

SEGUIMIENTO

COMPARAR �RESULTADOS

ALEATORIO

95 of 109

ALEATORIZACIÓN

¿A qué personas o grupos se les ofrecerá acceso al programa?

Cuándo proporcionar acceso �al programa?

¿A qué personas o grupos se animará a participar en el programa?

Oportunidades para aleatorizar

Acceso

Momento del acceso

Incentivo

Hay múltiples situaciones en las que se puede recurrir a la aleatorización. Las tres principales son:

Acceso: Por ejemplo, si tenemos recursos suficientes para proporcionar libros de texto solo a 100 escuelas. Haríamos una lista de 200 escuelas elegibles y seleccionaríamos al azar 100 para recibir los libros de texto durante el período de evaluación y luego se los entregaríamos solo a ellas. Las 100 escuelas restantes serían nuestro grupo de comparación/control.
Momento de acceso: Por ejemplo, si hay un programa de desparasitación escolar en Kenia que planea introducir gradualmente su programa en las escuelas durante tres años y hay 75 escuelas elegibles. Podemos dividirlas aleatoriamente en tres grupos de 25 escuelas y seleccionar al azar qué grupo inicia el programa en cada uno de los tres años.
Estímulo: Por ejemplo, imaginemos que estamos evaluando un programa que ofrece cuentas de ahorro a los agricultores que cultivan productos comerciales. Resulta que hay 200 agricultores, todos ellos elegibles para el programa, pero podemos dividirlos aleatoriamente en dos grupos de 100 y enviar una carta de estímulo a uno de los grupos y nada al otro.

96 of 109

ALEATORIZACIÓN

Ventajas

Garantiza que el tratamiento sea la única causa de la diferencia en la medición de los resultados.
Fácil de analizar y explicar a los actores clave, los responsables políticos y los donantes.
Hay muchos recursos disponibles para guiarle.

Costo
Gran tamaño de la muestra
No garantiza un conocimiento generalizable sobre «lo que funciona».
Ética

Contras

VENTAJAS:

Los RCT, si se realizan correctamente, pueden ayudarle a determinar la eficacia de su intervención. Esto puede servir de guía para tomar decisiones sobre si continuar con la intervención, escalarla, etc.
Los RCT son un método muy popular, por lo que hay un montón de recursos disponibles para guiarle.
Los resultados también son fáciles de analizar y explicar a los actores clave pertinentes. Además, dada la gran expectación que rodea a los RCT, puede ser una idea más fácil de vender entre los financiadores.

CONTRAS:

Los RCT son caros de realizar. Aunque hay RCT rentables, como las pruebas A/B, los RCT de campo suelen ser muy caros y llevar mucho tiempo.
Requieren una muestra de gran tamaño. Si la muestra es pequeña, es posible que no se pueda detectar el efecto (impacto) de las intervenciones.
Validez: los RCT pueden tener una validez externa limitada, es decir, no siempre son adecuados para producir conocimientos generalizables sobre «lo que funciona» en diferentes contextos y para diferentes personas.
Ética: realizar experimentos con servicios esenciales puede parecer objetable. ¿Por qué motivos excluiría a algunas personas? ¿Está justificado? Realizar RCT puede no ser siempre lo más adecuado desde el punto de vista ético.

97 of 109

ALEATORIZACIÓN

97

El siguiente paso es aprender a diseñar evaluaciones que planteen las preguntas adecuadas,

midan lo que importa y generen evidencia que oriente las decisiones reales.

98 of 109

Amara está resfriada

¿Qué debe hacer?

99 of 109

Acciones posibles:

Ella podría

No hacer nada

Tomar vitamina C

100 of 109

Dado que sólo puede actuar una vez y observar las consecuencias una sola vez, ¿qué podemos hacer para aconsejarla?

Ayuda a Amara a decidir:

101 of 109

¿Y si clonáramos a Amara?

102 of 109

¿Por qué clonamos a Amara?

Salud general: Amara A goza de excelente salud y hace ejercicio con regularidad.
Género: Amara A es mujer.
Edad: Amara A tiene 28 años.
Entorno: Amara A vive en Bangkok.
Educación: Amara A tiene un máster en Economía.

Tratamiento: Amara A toma vitamina C.

Amara B (contrafactual)

Salud general: Amara B goza de excelente salud y hace ejercicio con regularidad.
Género: Amara B es mujer
Edad: Amara B tiene 28 años.
Entorno: Amara B vive en Bangkok
Educación: Amara B tiene una maestría en economía.

Tratamiento: Amara B NO toma vitamina C.

Amara A

102

103 of 109

Amara A toma la medicación

Amara B �no

103

No hace nada

Toma vitamina C

104 of 109

Amara A toma la medicación

Amara B �no

104

No hace nada

Toma vitamina C

105 of 109

La causalidad como herramienta para la toma de decisiones

Captura las consecuencias de las acciones
Comparar las consecuencias entre dos o más acciones
Ayudar a identificar qué acciones deben repetirse y cuáles deben detenerse
Ayudar a evitar las coincidencias

106 of 109

¿Cuál es el impacto?

Inicio del programa

RESULTADO PRINCIPAL

TIEMPO

107 of 109

¿Cuál es el impacto?

¿Debemos continuar?

Inicio del programa

RESULTADO PRINCIPAL

TIEMPO

Contrafactual

Impacto

¿Qué habría pasado si el programa no se hubiera llevado a cabo?

108 of 109

¿Cuál es el impacto?

¿Debemos continuar?

Inicio del programa

RESULTADO PRINCIPAL

TIEMPO

Contrafactual

Impacto

¿Qué habría pasado si el programa no se hubiera llevado a cabo?

109 of 109

109

Los experimentos (sociales) son como clonar personas

La clave de la clonación es la aleatoriedad: al clasificar aleatoriamente a las personas en grupos, los dos grupos son estadísticamente iguales, siempre que el tamaño de la muestra sea lo suficientemente grande. �Entonces, ¿cuál debería ser el tamaño de la muestra? → Depende del tamaño del efecto.

POBLACIÓN DEL ESTUDIO

TRATAMIENTO

CONTROL

SEGUIMIENTO

COMPARAR �RESULTADOS

Los experimentos sociales son como clonar personas. Lo que hacemos esencialmente con los experimentos es crear un grupo contrafactual para poder comparar los efectos de nuestros programas y/o intervenciones.

Para comprender cómo los experimentos crean grupos contrafactuales, primero debemos analizar un concepto denominado «aleatorización». La aleatorización es un método utilizado para asignar personas a diferentes grupos de forma aleatoria. Es como cuando los equipos lanzan una moneda al aire antes de los partidos.

Entonces, usted podría preguntarse: ¿por qué funciona la aleatorización?

Si se tiene un grupo de personas lo suficientemente grande y se divide en grupos sin ningún sesgo, como sacar nombres de un sombrero, se obtendrán grupos bastante similares en cuanto a características como la edad, los antecedentes, etc. Esto ayuda a garantizar que cualquier diferencia que observemos posteriormente entre los grupos pueda atribuirse a lo que estamos probando, y no a las diferencias entre los integrantes de cada grupo.

Si lo único que diferencia a estos dos grupos es el tratamiento (las intervenciones), entonces podemos estar seguros de que cualquier diferencia en sus resultados se debe a la intervención en sí, y no a otros factores.