1 of 51

Julio Collado Vides

Bioinformática: “Welcome to the Welcome” Agosto, 2017

CCG-UNAM, México

U N A M

Universidad Nacional

Autónoma de México

2 of 51

 

Plan de plática-I

  1. Objetivo del curso

  1. Breve historia de la bionformática.

  1. Qué es la bioinformática? Ubicación.

  1. Elementos fundamentales del diálogo entre predicciones y observaciones.

  1. El conocimiento es representación.

3 of 51

 

Plan de plática-I

  1. Objetivo del curso

  1. Breve historia de la bionformática.

  1. Qué es la bioinformática? Ubicación.

  1. Elementos fundamentales del diálogo entre predicciones y observaciones.

  1. El conocimiento es representación.

4 of 51

 

Plan del curso

Objetivo:

El objetivo del curso es que el alumno se familiarice con el territorio de la bioinformática (también llamada biología computacional) aplicada a la genómica*.

Que se familiarice con los términos, conceptos, métodos y aplicaciones de la bioinformática.

Definición:

En las ciencias naturales hay varios usos del término “bioinformática”. Por ejemplo el análisis de datos ecológicos con herramientas computacionales se entiende como bioinformática.

* De aquí en adelante llamamos bioinformática a la aplicación de la computación a la genómica.

5 of 51

 

Plan de plática

  1. Objetivo del curso

  1. Breve historia de la bionformática.

  1. Qué es la bioinformática? Ubicación.

  1. Elementos fundamentales del diálogo entre predicciones y observaciones.

  1. El conocimiento es representación.

6 of 51

  • 1965 Se propone concebir al DNA como un documento histórico Zuckerkandl and Pauling.

Molecules as documents of evolutionary history”. J.Theor.Biol. 1965 8:357-366

  • 1981 Smith-Waterman algoritmo de comparación de secuencias.

“Identification of common subsequences” J.Mol.Biol. 1981 147:195-197)

  • 1982 Nacen EMBL y GENBANK (con cerca de 600 secuencias) .

  • 1985 FastP “the first fast algorithm”

  • 1986 Nace Swiss Prot

  • 1990 BLAST

 

Origen y breve historia de la bioinformática

7 of 51

  • 1995 Primer genoma completo (Haemophilus influenzae)

  • 1996 Genomas de E.coli y S.cerevisiae completos

  • 1999 Genoma de Drosophila melanogaster

  • 2001 Primer genoma humano completo

  • 2015 Genómica de poblaciones indígenas mexicanas

  • Hoy, hay más de 1600 bases de datos (nar.oupjurnals.org)

  • Genómica personalizada

  • La secuencia es ”lo barato” en un proyecto

 

Origen y breve historia de la bioinformática

8 of 51

08/04/11

Hoy: Explosión de datos, genomas completos

9 of 51

La primera revolución genómica:�Generación de datos

De: Stein LD (2010) Genome Biol. 11:207

El incremento de secuencias es más rápido que el de cómputo

10 of 51

 

Cuál sería la “segunda revolución genómica”?

Plan de plática

11 of 51

 

Cuál sería la “segunda revolución genómica”?

Y la tercera?

Plan de plática

12 of 51

 

Plan de plática

  1. Objetivo del curso

  1. Breve historia de la bionformática.

  1. Qué es la bioinformática? Ubicación.

  1. Elementos fundamentales del diálogo entre predicciones y observaciones.

  1. El conocimiento es representación.

13 of 51

14 of 51

Ubicación-1:¿Que es la Bioinformática?

15 of 51

La Bioinformática y sus vecinos

Computación

Biología

Matemáticas

Bayesiana

Estadística

Tecnología

de los

experimentos

Anatomía

Evolución

SER ?

Gene

ontologies

Genómica

Biología

de sistemas

Genómica

computacional

Biocomputing

Bases

de datos

Algoritmos

tiempo

BIOINFORMATICA

16 of 51

08/04/11

Ubicación-2: Dentro de la genómica

1.Interpretación de experimentos:

Datos masivos 🡪 Análisis 🡪 interpretación (1,2,..n)

2. Codificación de experimentos (“Biocuration”):

- Curacion de experimentos en bases de datos ->

parcialmente utilizables, entrada al ciclo de interpretación.

3. Bioinformática predictiva

17 of 51

08/04/11

Ubicación-2: Dentro de la genómica

1.Interpretación de experimentos:

Datos masivos 🡪 Análisis 🡪 interpretación (1,2,..n)

2. Codificación de experimentos ( “Biocuration”):

- Curacion de experimentos en bases de datos ->

parcialmente utilizables, entrada al ciclo de interpretación.

3. Bioinformática predictiva

ruido vs señal; análisis de datos; normalización,

significancia estadística, significancia biológica

modelos estadísticos acorde al problema;

18 of 51

08/04/11

Ubicación-2: Dentro de la genómica

1.Interpretación de experimentos:

Datos masivos 🡪 Análisis 🡪 interpretación (1,2,..n)

2. Codificación de experimentos ( “Biocuration”):

- Curacion de experimentos en bases de datos ->

parcialmente utilizables, entrada al ciclo de interpretación.

3. Bioinformática predictiva

ruido vs señal; análisis de datos;

significancia estadística, significancia biológica

modelos estadísticos acorde al problema;

Conceptos fundamentales de biología; Bases de datos;

clasificaciones y ontologías; Representación del conocimiento

19 of 51

08/04/11

Ubicación-2: Dentro de la genómica

1.Interpretación de experimentos:

Datos masivos 🡪 Análisis 🡪 interpretación (1,2,..n)

2. Codificación de experimentos ( “Biocuration”):

- Curacion de experimentos en bases de datos ->

parcialmente utilizables, entrada al ciclo de interpretación.

3. Bioinformática predictiva

ruido vs señal; análisis de datos;

significancia estadística, significancia biológica

modelos estadísticos acorde al problema;

Bases de datos; clasificaciones y ontologías;

Representación del conocimiento

Predicciones: de funciones, de elementos genómicos, redes..

20 of 51

08/04/11

Ubicación-3: Dentro de la investigación

Genómica –wet*

Bioinformática

* Secuenciar un genoma es hacer un experimento?

Genómica con matemáticas

Modelos predictivos

Modelos conceptuales

Validación

Nuevos experimentos;

consistencia

Biomatemáticas; biofísica

Biología de sistemas

Biología teórica

ontologías

Conocimiento computable ubicado en el

Genoma; Datos masivos computables

21 of 51

08/04/11

Ubicación-3: Dentro de la investigación

La investigación es un proceso … finito o infinito?

22 of 51

 

Plan de plática

  1. Objetivo del curso

  1. Breve historia de la bionformática.

  1. Qué es la bioinformática? Ubicación.

  1. Elementos fundamentales del diálogo entre predicciones y observaciones.

  1. El conocimiento es representación.

23 of 51

Ejemplos de “universos completos”? Distinguir lo real de

lo posible

24 of 51

“Universos completos”?

Yo le llamo: el Misterio completo.

El conocimiento completo = lo posible

25 of 51

26 of 51

27 of 51

28 of 51

29 of 51

Sensibilidad: Fracción de encontrados (predichos) del total que SI son.

O lo que es lo mismo: Encontrados verdaderos / Total de sitios verdaderos (Fracción verde del cubo morado o fracción atinada del total de conocidos)

Verdaderos Positivos

Sensibilidad =

Verdaderos Positivos + Falsos Negativos

Especificidad: Fracción de los que NO debió encontrar / atinadamente no encontró + asignado erróneamente como que sí es. (capacidad de rechazar los que no son)

Verdaderos Negativos

Especificidad =

Verdaderos Negativos + Falsos Positivos

Algunas métricas para evaluar la calidad de los métodos

Positive predictive value, curvas ROC (Gribskov, 1984)

30 of 51

Sensibilidad: (Sensitivity) Fracción de encontrados (predichos) del total que SI son.

O lo que es lo mismo: Encontrados verdaderos / (Total de sitios verdaderos)

Verdaderos Positivos

Sensibilidad =

Verdaderos Positivos + Falsos Negativos

Valor de Predicción Positivo o Precisión: (Positive Predicted Value) Fracción de sitios predichos que son verdaderos del numero total de predicciones aceptada.

(Fracción morado del cubo verde o fracción atinada del total de predicciones)

Verdaderos Positivos

Precisión =

Verdaderos Positivos + Falsos Positivos

Accuracyg: La media geométrica de la Sensibilidad y la Precisión. Permite identificar el valor de umbral que maximiza el compromiso entre la Sensibilidad y la Precisión.

Corrección = Sensibilidad * Precisión ( y no un promedio aritmético)

Métodos predictivos y su evaluación

31 of 51

08/04/11

Ver video

Agradecimientos: Araceli Huerta, Alejandra Medina

32 of 51

33 of 51

Predicción de operones

Frecuencia vs umbral

34 of 51

 

Algunos aspectos del diálogo

predicciones - observaciones

  1. Conocemos una pequeña fracción del universo biológico.

Un modelo se construye con pocos datos y proyecta un número mucho mayor de predicciones.

Las búsquedas suelen ser heurísticas y no exhaustivas (vs Smith-Waterman).

Los modelos requieren datos, ejemplos de lo conocido (casi no hay bioinfo “ab initio”)

Por lo que la calidad de los datos es muy importante: Shet in-shet out

Hacemos instrumentos (modelos) predictivos etiquetados por su capacidad o performance (Sensibilidad, especificidad, ppv..)

II. La calidad del trabajo-investigación no depende ni del modelo (elegancia, precisión),

ni de los datos (detalles) por separado, sino de lo óptimo de su combinación-diálogo (relevancia).

III. Y el siguiente paso: la validación

35 of 51

Como herramienta: visualización digital. �

Con bases de datos

36 of 51

 

Plan de plática

  1. Objetivo del curso

  1. Breve historia de la bionformática.

  1. Qué es la bioinformática? Ubicación.

  1. Elementos fundamentales del diálogo entre predicciones y observaciones.

  1. El conocimiento como representación.

37 of 51

Knowledge is always a representation

38 of 51

Knowledge is always a representation

39 of 51

Knowledge is always a representation

Somos arquitectos de

una forma de ver

Las imágenes se vuelven paradigmas

40 of 51

Knowledge is always a representation

Somos arquitectos de

una forma de ver

Las imágenes se vuelven paradigmas

Vivimos rodeados de representaciones

41 of 51

Knowledge is always a representation

Somos arquitectos de

una forma de ver

Las imágenes se vuelven paradigmas

Vivimos rodeados de representaciones

Somos animales simbólicos

42 of 51

Tools of representation:�Databases

Data base modeling

43 of 51

NCBI

08/04/11

44 of 51

Tools of representation:�Databases and ontologies

Data base modeling

Ontologies do not represent concepts in

people’s heads

From: Ontology of Classifications. Barry Smith

45 of 51

Engineering electronic �representation of knowledge

Lavoisier and Aristoteles are practically alive in the XXI

century: Open Biomedical Ontologies (OBO Foundry)

Ontologies do not represent concepts in

people’s heads

From: Ontology of Classifications. Barry Smith

46 of 51

National Center for Biomedical Ontology (NCBO)

47 of 51

Engineering of knowledge representation

Ontologies and databases

TOMORROWW

Modeling of the content

at detailed granularity

Modeling of the form

TODAY

48 of 51

Engineering of knowledge representation

universals of humans knowledge

Ontologies and databases

TOMORROWW

Modeling of the content

at detailed granularity

Modeling of the form

TODAY

Modeling of the content

49 of 51

On the form of human knowledge

Are there universals of humans knowledge?

Modified from: Ontology of Classifications. Barry Smith

50 of 51

Mis citas favoritas:

“Finding an adequate representation is like finding a universal physical constant”

51 of 51

Mis citas favoritas:

“Science is the combined dedication for details of nature and an equal passion for understanding”

Alfred North Whitehead