1 of 73

Ética Práctica

para Ciencia de Datos

2 of 73

Hola, soy Luciana

Soy investigadora en CONICET y profesora en FAMAF, donde investigo sobre evaluación de errores y sesgos sociales de modelos generativos multimodales.

También soy directiva de Khipu (Latinoamericanos en Machine Learning) y miembro ejecutivo de NAACL (Asociación de Lingüística Computacional de las Americas)

2

Foto tomada en la Cumbre de AI Safety, Inglaterra, Nov 2023

DiploDatos

Ética Práctica

3 of 73

Protección de Datos Personales: Ley 25.326

La Ley 25.326, sancionada el 4 de octubre de 2000, establece un marco legal para la protección de los datos personales en Argentina. Esta ley define los conceptos clave relacionados con la información personal, incluyendo los datos sensibles, y establece los derechos de los titulares de los datos, así como las obligaciones de quienes los tratan.

Caso: Brasil, AirBnB

4 of 73

Definiciones Clave

La ley define "datos personales" como cualquier información relacionada con personas físicas o de existencia ideal, ya sean determinadas o determinables. Los "datos sensibles" son aquellos que revelan información delicada como el origen racial, opiniones políticas o la salud.

Datos Personales

Información sobre personas físicas o de existencia ideal, ya sean determinadas o determinables.

Datos Sensibles

Datos personales que revelan información delicada como el origen racial, opiniones políticas o la salud. (lo vemos en otro slide)

Titular de los Datos

Persona cuyos datos son objeto del tratamiento al que se refiere la ley.

Disociación de Datos

Tratamiento de datos personales de manera que la información obtenida no pueda asociarse a una persona determinada.

5 of 73

Principios del Tratamiento de Datos

La ley establece principios fundamentales para el tratamiento de datos personales, asegurando que la información se maneje de manera responsable y ética. Estos principios incluyen la certeza, la pertinencia, la no excesividad y la actualización de los datos.

1

Certeza

Los datos recolectados deben ser ciertos y veraces.

2

Adecuación y Pertinencia

Los datos deben ser adecuados y pertinentes al ámbito y finalidad para los que se obtuvieron.

3

No Excesividad

Los datos no deben ser excesivos en relación con el ámbito y finalidad para los que se obtuvieron.

4

Actualización

Los datos deben ser exactos y actualizarse cuando sea necesario.

6 of 73

Finalidades del Tratamiento

La ley prohíbe el uso de datos personales para finalidades distintas o incompatibles con aquellas que motivaron su obtención. Esto significa que la información solo puede utilizarse para los propósitos para los que fue recopilada inicialmente.

Obtención

Los datos se recopilan para un propósito específico comunicado en el consentimiento informado.

Tratamiento

Los datos se procesan y almacenan de acuerdo con la finalidad inicial.

Uso

Los datos se utilizan únicamente para la finalidad para la que fueron recolectados. A menos que estén en el dominio público por licencia. ACLARAR AYER

7 of 73

Consentimiento Informado

El tratamiento de datos personales es ilícito si el titular no ha dado su consentimiento libre, expreso e informado. Este consentimiento debe constar por escrito o por otro medio que permita su equiparación.

Consentimiento

El titular de los datos debe dar su consentimiento libre, expreso e informado.

Excepciones

No se requiere consentimiento en casos como la obtención de datos de fuentes públicas (pero hay que ver licencias https://www.dataprovenance.org/) .

Información

Se debe informar al titular sobre la finalidad del tratamiento, los destinatarios de los datos y sus derechos.

8 of 73

Categoría de Datos Sensibles

La ley establece que ninguna persona puede ser obligada a proporcionar datos sensibles, como aquellos que revelan origen racial, opiniones políticas o información sobre la salud.

Datos Sensibles

Ejemplos

Origen racial y étnico

Raza, origen étnico

Opiniones políticas

Afiliación política, creencias políticas

Convicciones religiosas

Religión, creencias religiosas

Información sobre la salud

Condiciones médicas, historial médico

Vida sexual

Orientación sexual, prácticas sexuales

9 of 73

Seguridad y Confidencialidad

El responsable del archivo de datos debe adoptar medidas técnicas y organizativas para garantizar la seguridad y confidencialidad de los datos personales. Esto incluye evitar la adulteración, pérdida, consulta o tratamiento no autorizado de la información.

Seguridad

Medidas técnicas y organizativas para proteger los datos de accesos no autorizados.

Confidencialidad

Mantener la información privada y evitar su divulgación no autorizada.

Integridad

Garantizar la exactitud y la integridad de los datos.

Disponibilidad

Asegurar el acceso a los datos cuando sea necesario.

10 of 73

Deber de Confidencialidad

El responsable y las personas que intervengan en el tratamiento de datos personales están obligados al secreto profesional respecto de los mismos. Esta obligación subsiste incluso después de finalizada su relación con el titular del archivo de datos.

1

Tratamiento

Durante el proceso de tratamiento de datos personales.

2

Finalización

Incluso después de que la relación con el titular del archivo de datos haya terminado.

3

Excepciones

Se puede liberar del deber de secreto por resolución judicial o por razones de seguridad pública, defensa nacional o salud pública.

11 of 73

Derecho de Acceso, Rectificación y Supresión

El titular de los datos tiene derecho a solicitar y obtener información sobre sus datos personales incluidos en bancos de datos públicos o privados. También tiene derecho a que sean rectificados, actualizados y, cuando corresponda, suprimidos o sometidos a confidencialidad los datos personales de los que sea titular.

Derecho de Acceso

Solicitar y obtener información sobre sus datos personales.

Derecho de Rectificación

Solicitar la corrección de datos inexactos o incompletos.

Derecho de Supresión

Solicitar la eliminación de datos personales cuando corresponda.

12 of 73

LEGAL ÉTICO

13 of 73

Luciana Benotti

14 of 73

Luciana Benotti

15 of 73

Luciana Benotti

16 of 73

Preguntas fundamentales

17 of 73

El dilema del pollito

17

gallina

pollo

18 of 73

El dilema del pollito

18

gallina

pollo

Ético?

19 of 73

El dilema del pollito

19

  • Existen zonas grises. A menudo no tenemos respuestas fáciles.
  • La ética puede cambiar con el tiempo junto con los valores y creencias de las personas.
  • Legal ≠ Ético

20 of 73

El dilema del IQ

20

  • Intelligence Quotient: un número usado para expresar la aparente inteligencia relativa de una persona

21 of 73

El dilema del IQ

Podemos intentar entrenar un clasificador para predecir el CI a partir de fotos y textos. Discutamos si es ético construir esa tecnología y cuáles son los riesgos..

  • Quién se beneficiaría?
  • Quién podría sufrir daños? Se puede usar de forma incorrecta?
  • Cuáles son los riesgos de una solución?

Estas preguntas nos ayudan a ser concientes del impacto de nuestro trabajo sobre la gente

21

22 of 73

“AI Gaydar”, 2017

22

23 of 73

“AI Gaydar”

  • Pregunta a realizar a los datos
    • Identificar la orientación sexual segun los rasgos de la cara�
  • Datos
    • Fotos bajadas de una aplicación tipo Tinder
    • 35,326 fotos de 14,776 personas, blancas, homosexuales y heterosexuales, hombres, mujeres.�
  • Métodos
    • Un modelo de redes neuronales que usaban características de la cara, del peinado, la presencia de maquillaje, textura aparente de la piel etc, era basado en caracteristicas�
  • Precisión
    • 81% para hombres, 74% para mujeres

23

24 of 73

“AI Gaydar”

  • Pregunta a realizar a los datos
    • Identificar la orientación sexual segun los rasgos de la cara�
  • Datos
    • Fotos bajadas de una aplicación tipo Tinder
    • 35,326 fotos de 14,776 personas, blancas, homosexuales y heterosexuales, hombres, mujeres.�
  • Métodos
    • Un modelo de redes neuronales que usaban características de la cara, del peinado, la presencia de maquillaje, textura aparente de la piel etc, era basado en caracteristicas�
  • Precisión
    • 81% para hombres, 74% para mujeres

24

Qué salió mal?

25 of 73

25

25

Luciana Benotti

26 of 73

Qué pasa en las publicaciones científicas de LLMs?

27 of 73

Surgen para las ciencias de la salud, pero se extendieron a muchas otras ciencias, operacionalizan declaración de derechos humanos (ONU, 1948)

  • Respeto por las personas / Autonomía: las personas tienen derecho a decidir libremente y deben dar su consentimiento informado.
  • Beneficencia: maximizar beneficios y reducir daños.
  • No maleficencia: no hacer daño, incluso si hay posibles beneficios.
  • Justicia: distribuir beneficios y cargas de manera equitativa, evitando la explotación de grupos vulnerables (grupos minorizados).

Principios de las ciencias de la salud (Declaración Helsinki 1964)

28 of 73

29 of 73

30 of 73

31 of 73

32 of 73

33 of 73

Ética en tiempos de IA y LLMs

34 of 73

Recipe of a generative AI model

  1. Scrape as much data as possible
    1. Probably from the Internet (consentimiento?)
    2. You can also do some filtering (privacidad?)
  2. Pretrain a language model on this data
    • The model is trained to predict the next word in a sequence, e.g. “The cat in the …(veracidad?)
  3. Set the model up to ‘interact’ with humans and keep training it based on their inputs
    • This is called “Reinforcement Learning from Human Feedback”, if you want to sound fancy (pago?)

34

Luciana Benotti

35 of 73

  1. Data
  • The main way data is sourced from the Internet is via the Common Crawl, which provides “dumps” of text from the Internet every few months
  • These dumps are terabytes of data rom the Internet, which can then be used for extracting specific types of content depending on the type of model trained:
    • Raw text for language models
    • Images for computer vision models
    • Pairs of image URLs and alt-text for text-to-image models

35

Luciana Benotti

36 of 73

  • Data
  • Scraping (text and image) data from the Web raises questions of:
    • License: who does Web content belong to? How can we enforce licenses and author rights?
    • Content: which websites are “acceptable”? (according to whom?)
    • Consent: should we have ‘opt-out’ mechanisms for removing one’s data from training sets? Or ‘opt-in’ to allow our data to be used?
  • Most Web-scraped datasets ignore these issues, but we are starting to see more lawsuits and debate about the legality of data

36

Luciana Benotti

37 of 73

2. Pretraining

37

But also:

  • Models of increasing complexity without interpretability
  • Lack of documentation of models and datasets
  • Need for more expensive/specialized hardware to run AI models
  • Creation of a divide between those with skills and resources and those who lack this access

Luciana Benotti

38 of 73

2. Pretraining

38

Luciana Benotti

39 of 73

3. Human Interaction

  • Pretrained models are missing the interactive component that makes models like ChatGPT so popular
  • They need to continue to be trained for thousands of hours based on human feedback
  • This means that much of the machine ‘intelligence’ is actually explicitly instilled in AI models by humans

39

Luciana Benotti

40 of 73

What can be done?

(or rather, what is being done?)

Luciana Benotti

41 of 73

Data

Luciana Benotti

42 of 73

Data and Consent

42

Luciana Benotti

43 of 73

Understanding and Exploring Data

  • Understanding what datasets contain and where they come from is important for understanding the values they carry
  • There are toolkits (e.g. what-if) for evaluating dataset contents and helping users investigate anomalies and biases

43

Luciana Benotti

44 of 73

Es tu turno: Data statements

44

Luciana Benotti

45 of 73

Acceso a frameworks

Luciana Benotti

46 of 73

¿Qué tipos de análisis podemos realizar?

Fairness

Utilizar indicadores de fairness para detectar posibles inequidades en datos y modelos.

Explicabilidad

Dado un modelo nos ayuda a comprender mejor su comportamiento.

Luciana Benotti

47 of 73

¿Cómo se relacionan estos conceptos?

La gran mayoría de las técnicas de fairness se basan en la existencia de variables protegidas explícitas, que suelen ser datos demográficos.�

Muchas veces no vamos a contar con esta información pero el modelo podría tener comportamientos poco deseados o injustos de igual manera.

Luciana Benotti

48 of 73

¿Cómo se relacionan estos conceptos?

Poder entender y explicar el comportamiento del modelo es fundamental, muchas veces no basta con analizar/optimizar métricas de fairness.

Si entendemos sesgo como “errores sistemáticos” entender el comportamiento de nuestro modelo nos ayuda a detectar sesgos.

Luciana Benotti

49 of 73

¿Qué tipos de análisis podemos realizar?

Fairness

Utilizar indicadores de fairness para detectar posibles inequidades en datos y modelos.

¿Cómo definimos comportamiento injusto?

Explicabilidad

Dado un modelo nos ayuda a comprender mejor su comportamiento.

¿Que queremos entender?

Luciana Benotti

50 of 73

¡Depende de la aplicación y el contexto de uso!

Luciana Benotti

51 of 73

¿Porque utilizar frameworks orientados a ética?

  • Inclusión de expertos de dominio�
  • Minimizar tiempo de escritura de código�
  • ¡Debugger de modelos!�
  • Poder anticiparnos a comportamiento indeseado�
  • Calidad y robustez

Luciana Benotti

52 of 73

¿Porque utilizar frameworks orientados a ética?

  • Inclusión de expertos de dominio�
  • Minimizar tiempo de escritura de código�
  • ¡Debugger de modelos!�
  • Poder anticiparnos a comportamiento indeseado�
  • Calidad y robustez

Estas herramientas permiten que un experto de dominio pueda conducir análisis del modelo sin necesidad de saber programar, encontrando errores y facilitando el desarrollo iterativo.

Luciana Benotti

53 of 73

¿Porque utilizar frameworks orientados a ética?

  • Inclusión de expertos de dominio�
  • Minimizar tiempo de escritura de código�
  • ¡Debugger de modelos!�
  • Poder anticiparnos a comportamiento indeseado�
  • Calidad y robustez

Si bien hay partes del que se repiten el análisis depende tanto del contexto y los casos de uso que si se escribe código para cada parte del proceso puede volverse muy tedioso, gasta demasiado tiempo y esto dificulta el análisis.

Luciana Benotti

54 of 73

¿Porque utilizar frameworks orientados a ética?

  • Inclusión de expertos de dominio�
  • Minimizar tiempo de escritura de código�
  • ¡Debugger de modelos!�
  • Poder anticiparnos a comportamiento indeseado�
  • Calidad y robustez

Estas herramientas permiten acceder a comportamiento interno del modelo en el caso de modelos neuronales. Para todo tipo de modelo nos permiten encontrar casos borde, datos mal etiquetados, mala performance del modelo en grupos particulares, etc

Luciana Benotti

55 of 73

¿Porque utilizar frameworks orientados a ética?

  • Inclusión de expertos de dominio�
  • Minimizar tiempo de escritura de código�
  • ¡Debugger de modelos!�
  • Poder anticiparnos a comportamiento indeseado�
  • Calidad y robustez

Muchos de estos modelos nos permiten agregar datos artificiales de manera sencilla, incluyen procesos de data augmentation, agregan ruido, hacer análisis de ablacion, de causalidad, etc...

Luciana Benotti

56 of 73

¿Porque utilizar frameworks orientados a ética?

  • Inclusión de expertos de dominio�
  • Minimizar tiempo de escritura de código�
  • ¡Debugger de modelos!�
  • Poder anticiparnos a comportamiento indeseado�
  • Calidad y robustez

En muchos casos las métricas tradicionales no van a ser suficientes como medida de calidad de los modelos.

Es necesario entender en profundidad el comportamiento de los modelos, sobretodo cuando estos impactan en la vida de las personas.

Luciana Benotti

57 of 73

Algunos frameworks para python:

What-if tool: Orientado a métricas de fairness, exploración de datos tabulares y contrafácticos. Tiene soporte para imágenes y texto. UI interactiva, no hace falta escribir código.

Scikit Fairness: Ofrece herramientas para cada etapa del pipeline de datos: datos, preprocesamiento, modelo, post-procesamiento y métricas. Requiere escribir bastante código. Curva de aprendizaje alta.

Fairlearn: Métricas de fairness, algoritmos de mitigación, visualizaciones. Recursos educativos y buena documentación, pero requiere mucha escritura de código y tiene una complejidad técnica alta.

Luciana Benotti

58 of 73

Algunos frameworks para python:

What-if tool: Orientado a métricas de fairness, exploración de datos tabulares y contrafácticos. Tiene soporte para imágenes y texto. UI interactiva, no hace falta escribir código.

Scikit Fairness: Ofrece herramientas para cada etapa del pipeline de datos: datos, preprocesamiento, modelo, post-procesamiento y métricas. Requiere escribir bastante código. Curva de aprendizaje alta.

Fairlearn: Métricas de fairness, algoritmos de mitigación, visualizaciones. Recursos educativos y buena documentación, pero requiere mucha escritura de código y tiene una complejidad técnica alta.

Luciana Benotti

59 of 73

Algunos frameworks para python:

Shap-index/values: Orientado a explicabilidad. Los valores Shapley son un concepto del campo de teoría de juegos cooperativos cuyo objetivo es medir la contribución de cada jugador en el juego. Requiere escribir código.

AllenNLP: Orientado a explicabilidad de modelos de NLP. Complejidad técnica alta. Requiere mucho expertise en NLP, pero está bien documentado. Requiere escribir código.

LIT (Language Interpretability Tool): Orientado a explicabilidad de modelos de NLP. Complejidad técnica baja. Puede usarse a distintos niveles de profundidad técnica. Muy adaptable a casi cualquier tipo de modelo de texto. Buena documentación y soporte activo, sigue en desarrollo activo. Desarrollado por Google

Alibi: Orientado a explicabilidad, incluye técnicas para imágenes y texto. Requiere escribir código.

Luciana Benotti

60 of 73

Algunos frameworks para python:

Yellowbrick: Orientado a visualización de varias métricas de evaluacion de clusters. MInimiza escritura de código comparado a otras herramientas de visualizacion.

Presidio: Orientado a anonimización de datos. Provee analiticas y anonimización para textos sensible como números de tarjetas de cŕedito, nombres, lugares, números de seguridad social, billeteras de bitcoins, números de teléfono de EEUU y datos financieros.

Aequitas: toolkit para auditar modelos de AA orientado a desarrolladores, analistas, organizaciones gubernamentales y entes legislativos.

Luciana Benotti

61 of 73

Conclusión

Los frameworks nos dan libertad para realizar mucho análisis sin escribir código.� �Nos permiten formular hipótesis y descartarlas rápidamente.�

El análisis debe adaptarse a los distintos casos de uso de nuestras aplicaciones

Es fácil perderse en el análisis y no tener conclusiones claras

Inspección sencilla de los datos

¿Podría ser utilizado por personas no técnicas?

Luciana Benotti

62 of 73

More on privacy

Luciana Benotti

63 of 73

Trends in Language Modeling

  • Large language models are very good at generating text and learning representations. However:
    • They are extremely large models: high capacity for memorization
    • They are trained on huge, unvetted, scraped data: high potential for harmful/hateful/private content

63

E Bender et al. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. FAccT 2021

Luciana Benotti

64 of 73

Large Models are Leaky!

64

xkcd.com/2169/

Luciana Benotti

65 of 73

What does preserving privacy in language modeling require?

  • To claim a language model is privacy preserving, it must only reveal private information (aka “secrets”) in the right contexts and to the right people. We have to define the following:

  • Hard to identify on scraped/collected data

65

which people know the secret (the "in-group")?

what information is contained in the secret?

in what contexts a secret can be shared without violating privacy?

Brown, Hannah, et al. "What Does it Mean for a Language Model to Preserve Privacy?." FACcT 2022

Luciana Benotti

66 of 73

Challenges in Identifying Context

  • Privacy is not a 0-1 thing, it’s a spectrum
    • A phone number could be private in one context, public in another
    • Subject, sender, recipient, information type all determine the context

66

Luciana Benotti

67 of 73

Challenges in Identifying Secrets

67

Language evolves, and so does private information.

Repeated information can still be private information.

Form and Meaning: There are many ways to communicate any piece of information.

Luciana Benotti

68 of 73

Privacy Expectations: What Are We Doing Now?

Scrubbing:

    • Removal of Personally Identifiable Information (PII)
    • Challenges: Limited to well-defined secrets, hard to keep up with language evolution

Differential Privacy:

    • Designed to assure users that contributing their data to a dataset will not reveal much additional information about the use
    • Challenges: Requires a unified definition for secret boundaries, which is very hard if not impossible to achieve for language data

68

Luciana Benotti

69 of 73

What Can We Do?

  • Publicly accessible data?
    • No, publicly accessible data is not public-intended: leaked messages, deleted texts, personal blogs

  • Can users provide informed consent?
    • Mostly not . If such a consent mechanism were to exist, it would be challenging for users to reach an informed decision about the consequences of their actions.

69

Luciana Benotti

70 of 73

What Can We Do?

  • Train on publicly intended data
    • Such as books, articles, news

  • Finetune locally on user-contributed data if needed
    • As long as the personalized models/parameters are not shared with others, the private data remains protected
  • Privacy Preserving Methods

70

Luciana Benotti

71 of 73

AI Belongs to Everyone

  • Despite what you may read in the news, there is much more diversity in AI research than just generative AI and chatbots
  • Many of the less visible applications are also making AI more accessible and equitable for different communities
  • These efforts are not only interesting from a research perspective, but they can also enable AI systems to reach their full potential

71

Luciana Benotti

72 of 73

Costs of Generative AI

72

Answer all your burning questions

Chat about any topic

Generate realistic images

Do your homework for you

“AGI”

Exploitation of underpaid workers

Copyright infringement

Tonnes of carbon emissions

Huge quantities of energy/water

Rare metals for manufacturing hardware

Biases and hallucinations

Harmful and violent content

Private information

Crowdsourced via Twitter

Luciana Benotti

73 of 73

Thanks!

  • Sasha Luccioni
  • Laura Alonso Alemany
  • Min Yen Khan, Yulia Tsvetkov and Karen Fört
  • Fatemeh Mireshghallah
  • Sunipa Dev, Vinod Prabhakaran
  • Jorge Sanchez, and my students
  • Patrick Blackburn

73

Luciana Benotti