Ética Práctica
para Ciencia de Datos
Hola, soy Luciana
Soy investigadora en CONICET y profesora en FAMAF, donde investigo sobre evaluación de errores y sesgos sociales de modelos generativos multimodales.
También soy directiva de Khipu (Latinoamericanos en Machine Learning) y miembro ejecutivo de NAACL (Asociación de Lingüística Computacional de las Americas)
2
Foto tomada en la Cumbre de AI Safety, Inglaterra, Nov 2023
DiploDatos
Ética Práctica
Protección de Datos Personales: Ley 25.326
La Ley 25.326, sancionada el 4 de octubre de 2000, establece un marco legal para la protección de los datos personales en Argentina. Esta ley define los conceptos clave relacionados con la información personal, incluyendo los datos sensibles, y establece los derechos de los titulares de los datos, así como las obligaciones de quienes los tratan.
Caso: Brasil, AirBnB
Definiciones Clave
La ley define "datos personales" como cualquier información relacionada con personas físicas o de existencia ideal, ya sean determinadas o determinables. Los "datos sensibles" son aquellos que revelan información delicada como el origen racial, opiniones políticas o la salud.
Datos Personales
Información sobre personas físicas o de existencia ideal, ya sean determinadas o determinables.
Datos Sensibles
Datos personales que revelan información delicada como el origen racial, opiniones políticas o la salud. (lo vemos en otro slide)
Titular de los Datos
Persona cuyos datos son objeto del tratamiento al que se refiere la ley.
Disociación de Datos
Tratamiento de datos personales de manera que la información obtenida no pueda asociarse a una persona determinada.
Principios del Tratamiento de Datos
La ley establece principios fundamentales para el tratamiento de datos personales, asegurando que la información se maneje de manera responsable y ética. Estos principios incluyen la certeza, la pertinencia, la no excesividad y la actualización de los datos.
1
Certeza
Los datos recolectados deben ser ciertos y veraces.
2
Adecuación y Pertinencia
Los datos deben ser adecuados y pertinentes al ámbito y finalidad para los que se obtuvieron.
3
No Excesividad
Los datos no deben ser excesivos en relación con el ámbito y finalidad para los que se obtuvieron.
4
Actualización
Los datos deben ser exactos y actualizarse cuando sea necesario.
Finalidades del Tratamiento
La ley prohíbe el uso de datos personales para finalidades distintas o incompatibles con aquellas que motivaron su obtención. Esto significa que la información solo puede utilizarse para los propósitos para los que fue recopilada inicialmente.
Obtención
Los datos se recopilan para un propósito específico comunicado en el consentimiento informado.
Tratamiento
Los datos se procesan y almacenan de acuerdo con la finalidad inicial.
Uso
Los datos se utilizan únicamente para la finalidad para la que fueron recolectados. A menos que estén en el dominio público por licencia. ACLARAR AYER
Consentimiento Informado
El tratamiento de datos personales es ilícito si el titular no ha dado su consentimiento libre, expreso e informado. Este consentimiento debe constar por escrito o por otro medio que permita su equiparación.
Consentimiento
El titular de los datos debe dar su consentimiento libre, expreso e informado.
Excepciones
No se requiere consentimiento en casos como la obtención de datos de fuentes públicas (pero hay que ver licencias https://www.dataprovenance.org/) .
Información
Se debe informar al titular sobre la finalidad del tratamiento, los destinatarios de los datos y sus derechos.
Categoría de Datos Sensibles
La ley establece que ninguna persona puede ser obligada a proporcionar datos sensibles, como aquellos que revelan origen racial, opiniones políticas o información sobre la salud.
Datos Sensibles
Ejemplos
Origen racial y étnico
Raza, origen étnico
Opiniones políticas
Afiliación política, creencias políticas
Convicciones religiosas
Religión, creencias religiosas
Información sobre la salud
Condiciones médicas, historial médico
Vida sexual
Orientación sexual, prácticas sexuales
Seguridad y Confidencialidad
El responsable del archivo de datos debe adoptar medidas técnicas y organizativas para garantizar la seguridad y confidencialidad de los datos personales. Esto incluye evitar la adulteración, pérdida, consulta o tratamiento no autorizado de la información.
Seguridad
Medidas técnicas y organizativas para proteger los datos de accesos no autorizados.
Confidencialidad
Mantener la información privada y evitar su divulgación no autorizada.
Integridad
Garantizar la exactitud y la integridad de los datos.
Disponibilidad
Asegurar el acceso a los datos cuando sea necesario.
Deber de Confidencialidad
El responsable y las personas que intervengan en el tratamiento de datos personales están obligados al secreto profesional respecto de los mismos. Esta obligación subsiste incluso después de finalizada su relación con el titular del archivo de datos.
1
Tratamiento
Durante el proceso de tratamiento de datos personales.
2
Finalización
Incluso después de que la relación con el titular del archivo de datos haya terminado.
3
Excepciones
Se puede liberar del deber de secreto por resolución judicial o por razones de seguridad pública, defensa nacional o salud pública.
Derecho de Acceso, Rectificación y Supresión
El titular de los datos tiene derecho a solicitar y obtener información sobre sus datos personales incluidos en bancos de datos públicos o privados. También tiene derecho a que sean rectificados, actualizados y, cuando corresponda, suprimidos o sometidos a confidencialidad los datos personales de los que sea titular.
Derecho de Acceso
Solicitar y obtener información sobre sus datos personales.
Derecho de Rectificación
Solicitar la corrección de datos inexactos o incompletos.
Derecho de Supresión
Solicitar la eliminación de datos personales cuando corresponda.
LEGAL ≠ ÉTICO
Luciana Benotti
Luciana Benotti
Luciana Benotti
Preguntas fundamentales
El dilema del pollito
17
gallina
pollo
El dilema del pollito
18
gallina
pollo
Ético?
El dilema del pollito
19
El dilema del IQ
20
El dilema del IQ
Podemos intentar entrenar un clasificador para predecir el CI a partir de fotos y textos. Discutamos si es ético construir esa tecnología y cuáles son los riesgos..
Estas preguntas nos ayudan a ser concientes del impacto de nuestro trabajo sobre la gente
21
“AI Gaydar”, 2017
22
“AI Gaydar”
23
“AI Gaydar”
24
Qué salió mal?
25
25
Luciana Benotti
Qué pasa en las publicaciones científicas de LLMs?
Surgen para las ciencias de la salud, pero se extendieron a muchas otras ciencias, operacionalizan declaración de derechos humanos (ONU, 1948)
Principios de las ciencias de la salud (Declaración Helsinki 1964)
Ética en tiempos de IA y LLMs
Recipe of a generative AI model
34
Luciana Benotti
35
Luciana Benotti
36
Luciana Benotti
2. Pretraining
37
Source: Solaiman (2023)
But also:
Luciana Benotti
2. Pretraining
38
Sources: HPE (2021), Luccioni et al., 2022, 2023
Luciana Benotti
3. Human Interaction
39
Source: TIME Magazine
Luciana Benotti
What can be done?
(or rather, what is being done?)
Luciana Benotti
Data
Luciana Benotti
Data and Consent
42
Luciana Benotti
Understanding and Exploring Data
43
Luciana Benotti
Es tu turno: Data statements
44
Luciana Benotti
Acceso a frameworks
Luciana Benotti
¿Qué tipos de análisis podemos realizar?
Fairness
Utilizar indicadores de fairness para detectar posibles inequidades en datos y modelos.
Explicabilidad
Dado un modelo nos ayuda a comprender mejor su comportamiento.
Luciana Benotti
¿Cómo se relacionan estos conceptos?
La gran mayoría de las técnicas de fairness se basan en la existencia de variables protegidas explícitas, que suelen ser datos demográficos.�
Muchas veces no vamos a contar con esta información pero el modelo podría tener comportamientos poco deseados o injustos de igual manera.
Luciana Benotti
¿Cómo se relacionan estos conceptos?
Poder entender y explicar el comportamiento del modelo es fundamental, muchas veces no basta con analizar/optimizar métricas de fairness.
Si entendemos sesgo como “errores sistemáticos” entender el comportamiento de nuestro modelo nos ayuda a detectar sesgos.
Luciana Benotti
¿Qué tipos de análisis podemos realizar?
Fairness
Utilizar indicadores de fairness para detectar posibles inequidades en datos y modelos.
¿Cómo definimos comportamiento injusto?
Explicabilidad
Dado un modelo nos ayuda a comprender mejor su comportamiento.
¿Que queremos entender?
Luciana Benotti
¡Depende de la aplicación y el contexto de uso!
Luciana Benotti
¿Porque utilizar frameworks orientados a ética?
Luciana Benotti
¿Porque utilizar frameworks orientados a ética?
Estas herramientas permiten que un experto de dominio pueda conducir análisis del modelo sin necesidad de saber programar, encontrando errores y facilitando el desarrollo iterativo.
Luciana Benotti
¿Porque utilizar frameworks orientados a ética?
Si bien hay partes del que se repiten el análisis depende tanto del contexto y los casos de uso que si se escribe código para cada parte del proceso puede volverse muy tedioso, gasta demasiado tiempo y esto dificulta el análisis.
Luciana Benotti
¿Porque utilizar frameworks orientados a ética?
Estas herramientas permiten acceder a comportamiento interno del modelo en el caso de modelos neuronales. Para todo tipo de modelo nos permiten encontrar casos borde, datos mal etiquetados, mala performance del modelo en grupos particulares, etc
Luciana Benotti
¿Porque utilizar frameworks orientados a ética?
Muchos de estos modelos nos permiten agregar datos artificiales de manera sencilla, incluyen procesos de data augmentation, agregan ruido, hacer análisis de ablacion, de causalidad, etc...
Luciana Benotti
¿Porque utilizar frameworks orientados a ética?
En muchos casos las métricas tradicionales no van a ser suficientes como medida de calidad de los modelos.
Es necesario entender en profundidad el comportamiento de los modelos, sobretodo cuando estos impactan en la vida de las personas.
Luciana Benotti
Algunos frameworks para python:
What-if tool: Orientado a métricas de fairness, exploración de datos tabulares y contrafácticos. Tiene soporte para imágenes y texto. UI interactiva, no hace falta escribir código.
Scikit Fairness: Ofrece herramientas para cada etapa del pipeline de datos: datos, preprocesamiento, modelo, post-procesamiento y métricas. Requiere escribir bastante código. Curva de aprendizaje alta.
Fairlearn: Métricas de fairness, algoritmos de mitigación, visualizaciones. Recursos educativos y buena documentación, pero requiere mucha escritura de código y tiene una complejidad técnica alta.
Luciana Benotti
Algunos frameworks para python:
What-if tool: Orientado a métricas de fairness, exploración de datos tabulares y contrafácticos. Tiene soporte para imágenes y texto. UI interactiva, no hace falta escribir código.
Scikit Fairness: Ofrece herramientas para cada etapa del pipeline de datos: datos, preprocesamiento, modelo, post-procesamiento y métricas. Requiere escribir bastante código. Curva de aprendizaje alta.
Fairlearn: Métricas de fairness, algoritmos de mitigación, visualizaciones. Recursos educativos y buena documentación, pero requiere mucha escritura de código y tiene una complejidad técnica alta.
Luciana Benotti
Algunos frameworks para python:
Shap-index/values: Orientado a explicabilidad. Los valores Shapley son un concepto del campo de teoría de juegos cooperativos cuyo objetivo es medir la contribución de cada jugador en el juego. Requiere escribir código.
AllenNLP: Orientado a explicabilidad de modelos de NLP. Complejidad técnica alta. Requiere mucho expertise en NLP, pero está bien documentado. Requiere escribir código.
LIT (Language Interpretability Tool): Orientado a explicabilidad de modelos de NLP. Complejidad técnica baja. Puede usarse a distintos niveles de profundidad técnica. Muy adaptable a casi cualquier tipo de modelo de texto. Buena documentación y soporte activo, sigue en desarrollo activo. Desarrollado por Google
Alibi: Orientado a explicabilidad, incluye técnicas para imágenes y texto. Requiere escribir código.
Luciana Benotti
Algunos frameworks para python:
Yellowbrick: Orientado a visualización de varias métricas de evaluacion de clusters. MInimiza escritura de código comparado a otras herramientas de visualizacion.
Presidio: Orientado a anonimización de datos. Provee analiticas y anonimización para textos sensible como números de tarjetas de cŕedito, nombres, lugares, números de seguridad social, billeteras de bitcoins, números de teléfono de EEUU y datos financieros.
Aequitas: toolkit para auditar modelos de AA orientado a desarrolladores, analistas, organizaciones gubernamentales y entes legislativos.
Luciana Benotti
Conclusión
Los frameworks nos dan libertad para realizar mucho análisis sin escribir código.� �Nos permiten formular hipótesis y descartarlas rápidamente.�
El análisis debe adaptarse a los distintos casos de uso de nuestras aplicaciones
Es fácil perderse en el análisis y no tener conclusiones claras
Inspección sencilla de los datos
¿Podría ser utilizado por personas no técnicas?
Luciana Benotti
More on privacy
Luciana Benotti
Trends in Language Modeling
63
E Bender et al. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. FAccT 2021
Luciana Benotti
Large Models are Leaky!
64
xkcd.com/2169/
Luciana Benotti
What does preserving privacy in language modeling require?
65
which people know the secret (the "in-group")?
what information is contained in the secret?
in what contexts a secret can be shared without violating privacy?
Brown, Hannah, et al. "What Does it Mean for a Language Model to Preserve Privacy?." FACcT 2022
Luciana Benotti
Challenges in Identifying Context
66
Luciana Benotti
Challenges in Identifying Secrets
67
Language evolves, and so does private information.
Repeated information can still be private information.
Form and Meaning: There are many ways to communicate any piece of information.
Luciana Benotti
Privacy Expectations: What Are We Doing Now?
Scrubbing:
Differential Privacy:
68
Luciana Benotti
What Can We Do?
69
Luciana Benotti
What Can We Do?
70
Luciana Benotti
AI Belongs to Everyone
71
Luciana Benotti
Costs of Generative AI
72
Answer all your burning questions
Chat about any topic
Generate realistic images
Do your homework for you
“AGI”
Exploitation of underpaid workers
Copyright infringement
Tonnes of carbon emissions
Huge quantities of energy/water
Rare metals for manufacturing hardware
Biases and hallucinations
Harmful and violent content
Private information
Crowdsourced via Twitter
Luciana Benotti
Thanks!
73
|
Luciana Benotti