Julio Collado Vides
Bioinformática: “Welcome to the Welcome” Agosto, 2017
CCG-UNAM, México
U N A M
Universidad Nacional
Autónoma de México
Plan de plática-I
Plan de plática-I
Plan del curso
Objetivo:
El objetivo del curso es que el alumno se familiarice con el territorio de la bioinformática (también llamada biología computacional) aplicada a la genómica*.
Que se familiarice con los términos, conceptos, métodos y aplicaciones de la bioinformática.
Definición:
En las ciencias naturales hay varios usos del término “bioinformática”. Por ejemplo el análisis de datos ecológicos con herramientas computacionales se entiende como bioinformática.
* De aquí en adelante llamamos bioinformática a la aplicación de la computación a la genómica.
Plan de plática
“Molecules as documents of evolutionary history”. J.Theor.Biol. 1965 8:357-366
“Identification of common subsequences” J.Mol.Biol. 1981 147:195-197)
Origen y breve historia de la bioinformática
Origen y breve historia de la bioinformática
08/04/11
Hoy: Explosión de datos, genomas completos
La primera revolución genómica:�Generación de datos
De: Stein LD (2010) Genome Biol. 11:207
El incremento de secuencias es más rápido que el de cómputo
Cuál sería la “segunda revolución genómica”?
Plan de plática
Cuál sería la “segunda revolución genómica”?
Y la tercera?
Plan de plática
Plan de plática
Ubicación-1:¿Que es la Bioinformática?
La Bioinformática y sus vecinos
Computación
Biología
Matemáticas
Bayesiana
Estadística
Tecnología
de los
experimentos
Anatomía
Evolución
SER ?
Gene
ontologies
Genómica
Biología
de sistemas
Genómica
computacional
Biocomputing
Bases
de datos
Algoritmos
tiempo
BIOINFORMATICA
08/04/11
Ubicación-2: Dentro de la genómica
1.Interpretación de experimentos:
Datos masivos 🡪 Análisis 🡪 interpretación (1,2,..n)
2. Codificación de experimentos (“Biocuration”):
- Curacion de experimentos en bases de datos ->
parcialmente utilizables, entrada al ciclo de interpretación.
3. Bioinformática predictiva
08/04/11
Ubicación-2: Dentro de la genómica
1.Interpretación de experimentos:
Datos masivos 🡪 Análisis 🡪 interpretación (1,2,..n)
2. Codificación de experimentos ( “Biocuration”):
- Curacion de experimentos en bases de datos ->
parcialmente utilizables, entrada al ciclo de interpretación.
3. Bioinformática predictiva
ruido vs señal; análisis de datos; normalización,
significancia estadística, significancia biológica
modelos estadísticos acorde al problema;
08/04/11
Ubicación-2: Dentro de la genómica
1.Interpretación de experimentos:
Datos masivos 🡪 Análisis 🡪 interpretación (1,2,..n)
2. Codificación de experimentos ( “Biocuration”):
- Curacion de experimentos en bases de datos ->
parcialmente utilizables, entrada al ciclo de interpretación.
3. Bioinformática predictiva
ruido vs señal; análisis de datos;
significancia estadística, significancia biológica
modelos estadísticos acorde al problema;
Conceptos fundamentales de biología; Bases de datos;
clasificaciones y ontologías; Representación del conocimiento
08/04/11
Ubicación-2: Dentro de la genómica
1.Interpretación de experimentos:
Datos masivos 🡪 Análisis 🡪 interpretación (1,2,..n)
2. Codificación de experimentos ( “Biocuration”):
- Curacion de experimentos en bases de datos ->
parcialmente utilizables, entrada al ciclo de interpretación.
3. Bioinformática predictiva
ruido vs señal; análisis de datos;
significancia estadística, significancia biológica
modelos estadísticos acorde al problema;
Bases de datos; clasificaciones y ontologías;
Representación del conocimiento
Predicciones: de funciones, de elementos genómicos, redes..
08/04/11
Ubicación-3: Dentro de la investigación
Genómica –wet*
Bioinformática
* Secuenciar un genoma es hacer un experimento?
Genómica con matemáticas
Modelos predictivos
Modelos conceptuales
Validación
Nuevos experimentos;
consistencia
Biomatemáticas; biofísica
Biología de sistemas
Biología teórica
ontologías
Conocimiento computable ubicado en el
Genoma; Datos masivos computables
08/04/11
Ubicación-3: Dentro de la investigación
La investigación es un proceso … finito o infinito?
Plan de plática
Ejemplos de “universos completos”? Distinguir lo real de
lo posible
“Universos completos”?
Yo le llamo: el Misterio completo.
El conocimiento completo = lo posible
Sensibilidad: Fracción de encontrados (predichos) del total que SI son.
O lo que es lo mismo: Encontrados verdaderos / Total de sitios verdaderos (Fracción verde del cubo morado o fracción atinada del total de conocidos)
Verdaderos Positivos
Sensibilidad =
Verdaderos Positivos + Falsos Negativos
Especificidad: Fracción de los que NO debió encontrar / atinadamente no encontró + asignado erróneamente como que sí es. (capacidad de rechazar los que no son)
Verdaderos Negativos
Especificidad =
Verdaderos Negativos + Falsos Positivos
Algunas métricas para evaluar la calidad de los métodos
Positive predictive value, curvas ROC (Gribskov, 1984)
Sensibilidad: (Sensitivity) Fracción de encontrados (predichos) del total que SI son.
O lo que es lo mismo: Encontrados verdaderos / (Total de sitios verdaderos)
Verdaderos Positivos
Sensibilidad =
Verdaderos Positivos + Falsos Negativos
Valor de Predicción Positivo o Precisión: (Positive Predicted Value) Fracción de sitios predichos que son verdaderos del numero total de predicciones aceptada.
(Fracción morado del cubo verde o fracción atinada del total de predicciones)
Verdaderos Positivos
Precisión =
Verdaderos Positivos + Falsos Positivos
Accuracyg: La media geométrica de la Sensibilidad y la Precisión. Permite identificar el valor de umbral que maximiza el compromiso entre la Sensibilidad y la Precisión.
Corrección = Sensibilidad * Precisión ( y no un promedio aritmético)
Métodos predictivos y su evaluación
08/04/11
Ver video
Agradecimientos: Araceli Huerta, Alejandra Medina
Predicción de operones
Frecuencia vs umbral
Algunos aspectos del diálogo
predicciones - observaciones
Un modelo se construye con pocos datos y proyecta un número mucho mayor de predicciones.
Las búsquedas suelen ser heurísticas y no exhaustivas (vs Smith-Waterman).
Los modelos requieren datos, ejemplos de lo conocido (casi no hay bioinfo “ab initio”)
Por lo que la calidad de los datos es muy importante: Shet in-shet out
Hacemos instrumentos (modelos) predictivos etiquetados por su capacidad o performance (Sensibilidad, especificidad, ppv..)
II. La calidad del trabajo-investigación no depende ni del modelo (elegancia, precisión),
ni de los datos (detalles) por separado, sino de lo óptimo de su combinación-diálogo (relevancia).
III. Y el siguiente paso: la validación
Como herramienta: visualización digital. �
Con bases de datos
Plan de plática
Knowledge is always a representation
Knowledge is always a representation
Knowledge is always a representation
Somos arquitectos de
una forma de ver
Las imágenes se vuelven paradigmas
Knowledge is always a representation
Somos arquitectos de
una forma de ver
Las imágenes se vuelven paradigmas
Vivimos rodeados de representaciones
Knowledge is always a representation
Somos arquitectos de
una forma de ver
Las imágenes se vuelven paradigmas
Vivimos rodeados de representaciones
Somos animales simbólicos
Tools of representation:�Databases
Data base modeling
NCBI
08/04/11
Tools of representation:�Databases and ontologies
Data base modeling
Ontologies do not represent concepts in
people’s heads
From: Ontology of Classifications. Barry Smith
Engineering electronic �representation of knowledge
Lavoisier and Aristoteles are practically alive in the XXI
century: Open Biomedical Ontologies (OBO Foundry)
Ontologies do not represent concepts in
people’s heads
From: Ontology of Classifications. Barry Smith
National Center for Biomedical Ontology (NCBO)
Engineering of knowledge representation
Ontologies and databases
TOMORROWW
Modeling of the content
at detailed granularity
Modeling of the form
TODAY
Engineering of knowledge representation
universals of humans knowledge
Ontologies and databases
TOMORROWW
Modeling of the content
at detailed granularity
Modeling of the form
TODAY
Modeling of the content
On the form of human knowledge
Are there universals of humans knowledge?
Modified from: Ontology of Classifications. Barry Smith
Mis citas favoritas:
“Finding an adequate representation is like finding a universal physical constant”
Mis citas favoritas:
“Science is the combined dedication for details of nature and an equal passion for understanding”
Alfred North Whitehead