Aprendizaje Estadístico + Comunidades

ClusterAI 2019: Feria de Datos

Ingeniería Industrial, UTN.BA

Laura Ación

@_lacion_

lacion@gmail.com

http://tiny.cc/clusterai2019

Mimisma en una slide (lacion.rbind.io)

  • Lic Cs Biológicas (UBA, 2002)
    • 1er año de Cs. de la Computación (UBA, 1998)

@_lacion_

tiny.cc/clusterai2019

Mimisma en una slide (lacion.rbind.io)

  • Lic Cs Biológicas (UBA, 2002)
    • 1er año de Cs. de la Computación (UBA, 1998)
  • Mg Bioestadística (University of Iowa, 2004), Mg Salud Pública (ídem, 2009), Dra Bioestadística (ídem, 2012)

@_lacion_

tiny.cc/clusterai2019

Mimisma en una slide (lacion.rbind.io)

  • Lic Cs Biológicas (UBA, 2002)
    • 1er año de Cs. de la Computación (UBA, 1998)
  • Mg Bioestadística (University of Iowa, 2004), Mg Salud Pública (ídem, 2009), Dra Bioestadística (ídem, 2012)
  • Científica de Datos de Salud
  • Investigadora Adj, Instituto de Cálculo, CONICET-UBA

@_lacion_

tiny.cc/clusterai2019

Mimisma en una slide (lacion.rbind.io)

  • Lic Cs Biológicas (UBA, 2002)
    • 1er año de Cs. de la Computación (UBA, 1998)
  • Mg Bioestadística (University of Iowa, 2004), Mg Salud Pública (ídem, 2009), Dra Bioestadística (ídem, 2012)
  • Científica de Datos de Salud
  • Investigadora Adj, Instituto de Cálculo, CONICET-UBA
  • Comunidades, muchas comunidades (R-Ladies Global, The Carpentries, R en Buenos Aires)

@_lacion_

tiny.cc/clusterai2019

Camino

@_lacion_

Fin escuela secundaria

1994

Hoy

Deformación académica +

20 años en investigación clínica = ~ 40 artículos

Dominios. Adicciones, genética, traumatismo de cráneo, ACV, depresión, Alzheimer, neuroimágenes, modelos animales, historias clínicas electrónicas

@_lacion_

tiny.cc/clusterai2019

Deformación académica +

20 años en investigación clínica = ~ 40 artículos

Dominios. Adicciones, genética, traumatismo de cráneo, ACV, depresión, Alzheimer, neuroimágenes, modelos animales, historias clínicas electrónicas

Diseños. Experimentales, observacionales, bases de datos administrativas

@_lacion_

tiny.cc/clusterai2019

Estadística/Machine Learning/Aprendizaje Estadístico. Selección de modelos, métricas, instrumentos psicométricos, ensembles (SuperLearning, AutoML), estimación semi-paramétrica

@_lacion_

tiny.cc/clusterai2019

Estadística/Machine Learning/Aprendizaje Estadístico. Selección de modelos, métricas, instrumentos psicométricos, ensembles (SuperLearning, AutoML), estimación semi-paramétrica

TeLoResumoAsíNomás. “Ciencia de Datos de Salud” “Estadística Aplicada a Ciencias de la Salud” “Bioestadística” “En la interfase” “Ni chicha ni limonada”

@_lacion_

tiny.cc/clusterai2019

En Curso: Equipo de trabajo en formación

@_lacion_

tiny.cc/clusterai2019

  • 1 magistrando, 1 emigrante, 2 doctorandes, 2 posdoctorandas, 1 investigadoranda asistente en salud
  • En progreso y con instituciones varias (CABA, FAMAF, Hospital Italiano, etc)
  • Puertas abiertas

En Curso: Proyectos

@_lacion_

tiny.cc/clusterai2019

  • Desarrollo de indicadores de calidad de prestaciones médicas
  • Generación automática de informes a partir de imágenes médicas

En Curso: Proyectos

@_lacion_

tiny.cc/clusterai2019

  • Desarrollo de indicadores de calidad de prestaciones médicas
  • Generación automática de informes a partir de imágenes médicas
  • Modelado del cuidado, manejo y prescripciones de pacientes con hipertensión

En Curso: Proyectos

@_lacion_

tiny.cc/clusterai2019

  • Desarrollo de indicadores de calidad de prestaciones médicas
  • Generación automática de informes a partir de imágenes médicas
  • Modelado del cuidado, manejo y prescripciones de pacientes con hipertensión
  • Limitaciones de SuperLearning y de autoML
  • Ciencia abierta

En Curso: Proyectos

@_lacion_

tiny.cc/clusterai2019

  • Desarrollo de indicadores de calidad de prestaciones médicas
  • Generación automática de informes a partir de imágenes médicas
  • Modelado del cuidado, manejo y prescripciones de pacientes con hipertensión
  • Limitaciones de SuperLearning y de autoML
  • Ciencia abierta

@_lacion_

tiny.cc/clusterai2019

@_lacion_

tiny.cc/clusterai2019

@_lacion_

tiny.cc/clusterai2019

@_lacion_

tiny.cc/clusterai2019

Objetivo

Usar y presentar machine learning (ML) para uso en ciencias de la salud

    • Predicción del éxito de tratamiento de adicciones
    • Herramientas habituales: regresión lineal o logística, modelos lineales
    • Herramientas de ML: redes neuronales, ensembles (débiles - random forest, fuertes - stacking), etc

tiny.cc/clusterai2019

@_lacion_

SuperLearning. Algoritmo de stacking/ensemble de buen funcionamiento con respaldo teórico

van der Laan MJ, Polley EC, Hubbard AE. Super learner. Statistical applications in genetics and molecular biology. 2007;6(1).

@_DaniPrina_

@_lacion_

tiny.cc/clusterai2019

¿Quién es SuperLearning?

Set de entrenamiento

Modelo 1

Modelo 2

Modelo K

SuperLearner

Output

tiny.cc/clusterai2019

@_DaniPrina_

@_DaniPrina_

tiny.cc/clusterai2019

¿Qué hicimos?

Primera aproximación al uso de ML en adicciones

Usamos modelos varios para predecir el tratamiento exitoso de trastornos en el uso de sustancias (TUS) usando una base de datos de 99.013 pacientes con TUS

tiny.cc/clusterai2019

@_DaniPrina_

Características de la muestra

Éxito en el tratamiento TUS

44.748 (45.2%)

No

54.265 (54.8%)

Otros atributos de un total de 29:

Sexo, Edad, Etnia, Educación, Empleo, Sustancia primaria, Frecuencia de uso, Edad del primer uso, Tipo de sustancia de abuso, Fuente de derivación a tratamiento, Duración del tratamiento

tiny.cc/clusterai2019

@_DaniPrina_

En R

library(h2o)

n_seed <- 12345

h2o.init()

dataset_h2o <- as.h2o(dataset)
split <-
h2o.splitFrame(dataset_h2o, . ratios = 0.8, . seed = n_seed)
train <- split[[1]] # 80% para entrenamiento
test <- split[[2]] # 20% para testeo

1. Paquete H2O

2. ¡Reproducibilidad!

3. Iniciamos H2O

4. Importamos la base de datos en formato h2o y dividimos la en “train” y “test”

@_DaniPrina_

En R

target <- "success"

features <- setdiff(colnames(train), target)

@_DaniPrina_

5. Definimos variable dependiente y atributos

model_log <- h2o.glm(x = features,

y = target,

training_frame = train,

model_id = "baseline_log",

nfolds = 5,

seed = n_seed,

family = "binomial",

link = "logit")

6. Generamos modelos de base (ej, regresión logística)

En R

@_DaniPrina_

7. SuperLeaner

model_sl <- h2o.stackedEnsemble

(x = features,y = target,

training_frame = train,

model_id = "model_sl",

base_models = list(model_log, model_rid, model_las,

model_rf, model_dnn, model_eln,

10+), .

metalearner_algorithm = "glm")

En R

@_DaniPrina_

7. SuperLeaner

model_sl <- h2o.stackedEnsemble

(x = features,y = target,

training_frame = train,

model_id = "model_sl",

base_models = list(model_log, model_rid, model_las,

model_rf, model_dnn, model_eln,

10+), .

metalearner_algorithm = "glm")

RESULTADOS

Tabla 2. AUC en el test set (N = 19,802) para modelo incluido en el Super Learner

Acion L, Kelmansky D, van der Laan M, Sahker E, Jones D, et al. (2017) Use of a machine learning framework to predict substance use disorder treatment success. PLOS ONE 12(4): e0175383. https://doi.org/10.1371/journal.pone.0175383

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0175383

En 2020

  • Aplicarle autoML a estos mismos datos
  • Estudiar qué pasa cuando se rompen los supuestos
  • Ahondar en formas de interpretar la caja negra
  • Combinar SL con técnicas para estimar parámetros interpretables y agregar inferencia

@_lacion_

tiny.cc/clusterai2019

Aprendizaje Estadístico + Comunidades

#Comunidad de Práctica

Grupo amplio de personas que comparten saberes y aprendizajes de un tema transversal a distintas profesiones

@_lacion_

tiny.cc/clusterai2019

#Comunidad de Práctica

Grupo amplio de personas que comparten saberes y aprendizajes de un tema transversal a distintas profesiones

Pensá en tus vecines del barrio, profesional internacional

@_lacion_

tiny.cc/clusterai2019

Comunidades… ¿Para qué?

  • Colegas de todo el mundo sin necesidad de avión
  • Oportunidades para conseguir avión

@_lacion_

tiny.cc/clusterai2019

Comunidades… ¿Para qué?

  • Colegas de todo el mundo sin necesidad de avión
  • Oportunidades para conseguir avión
  • Adopción temprana de buenas prácticas, identificación de “modas”

@_lacion_

tiny.cc/clusterai2019

Comunidades… ¿Para qué?

  • Colegas de todo el mundo sin necesidad de avión
  • Oportunidades para conseguir avión
  • Adopción temprana de buenas prácticas, identificación de “modas”
  • Nuevas tecnologías rápidamente, entornos de bajo riesgo

@_lacion_

tiny.cc/clusterai2019

Comunidades… ¿Para qué?

  • Colegas de todo el mundo sin necesidad de avión
  • Oportunidades para conseguir avión
  • Adopción temprana de buenas prácticas, identificación de “modas”
  • Nuevas tecnologías rápidamente, entornos de bajo riesgo
  • Generación de confianza profesional mutua
  • Colaboraciones científicas
  • Proyectos regionales

@_lacion_

tiny.cc/clusterai2019

@_lacion_

tiny.cc/clusterai2019

The Carpentries es:

  • global

The Carpentries es:

  • global
  • sin fines de lucro

The Carpentries es:

  • global
  • sin fines de lucro
  • una comunidad de práctica educativa

The Carpentries es:

  • global
  • sin fines de lucro
  • una comunidad de práctica educativa

Existe desde 1998

The Carpentries desarrolla cursos open access colaborativamente y para investigación sobre:

The Carpentries desarrolla cursos open access colaborativamente y para investigación sobre:

  • software fundacional (R, Python, Git, Unix, SQL...)

The Carpentries desarrolla cursos open access colaborativamente y para investigación sobre:

  • software fundacional (R, Python, Git, Unix, SQL...)
  • habilidades analíticas (manejo y limpieza de datos, visualización, reporte, etc)

The Carpentries desarrolla cursos open access colaborativamente y para investigación sobre:

  • software fundacional (R, Python, Git, Unix, SQL...)
  • habilidades analíticas (manejo y limpieza de datos, visualización, reporte, etc)
  • pedagogía específica para enseñar estos contenidos

Entrenadores de Instructores/Trainer (~ 80)

Curso corto (16 hs) de formación de Instructores

Materiales pedagógicos comunitarios

Entrenadores de Instructores/Trainer (~ 80)

Instructores (1,6K)

Cursos cortos (16 hs)

Curso corto (16 hs) de formación de Instructores

Materiales pedagógicos comunitarios

Materiales pedagógicos comunitarios

Entrenadores de Instructores/Trainer (~ 80)

Instructores (1,6K)

Cursos cortos (16 hs)

Investigadores felices (38K)

Curso corto (16 hs) de formación de Instructores

Materiales pedagógicos comunitarios

Materiales pedagógicos comunitarios

The Carpentries es una comunidad internacional de práctica educativa muy respetuosa, diversa e inclusiva

(¡hasta para la zona horaria!)

@_lacion_

tiny.cc/clusterai2019

Otras comunidades similares y útiles

@_lacion_

Las comunidades hacen

@_lacion_

latin-r.com

LatinR 2020, Montevideo,

Uruguay

tiny.cc/clusterai2019

Las comunidades hacen

@_lacion_

latin-r.com

LatinR 2020, Montevideo,

Uruguay

tiny.cc/clusterai2019

Las comunidades hacen

@_lacion_

latin-r.com

LatinR 2020, Montevideo,

Uruguay

tiny.cc/clusterai2019

¡Muchas Gracias!

Lic. (mlt) Daniela Prina (FCEyN, UBA)

Elizabeth Williams (The Carpentries)

Tracy Teal, PhD (The Carpentries)

Esta presentación está en http://tiny.cc/clusterai2019

¿Qué preguntas tenés?

@_lacion_

Acion_ClusterAI_2019 - Google Slides