1 of 20

Construcción de pipelines aplicada a la bioinformática

MSc. Camila Castillo Vilcahuaman (en proceso)

2 of 20

Recapitulando sobre la clase anterior

Es importante gestionar los tantísimos archivos que son parte del análisis bioinformático.

Un pipeline es como un pastor de la generación y flujo de esos archivos.

3 of 20

Recapitulando de la clase anterior

Atributos principales:

  • Reproducible
  • Específico y escalable

Atributos secundarios:

  • Usuario final
  • Flexibilidad
  • Características

4 of 20

Figure 1 A DAG (Directed Acyclic Graph) depicting a trio analysis pipeline for detecting de novo mutations. �

Brief Bioinform, Volume 18, Issue 3, May 2017, Pages 530–536, https://doi.org/10.1093/bib/bbw020

The content of this slide may be subject to copyright: please see the slide notes for details.

5 of 20

Recapitulando sobre la clase anterior

6 of 20

Recapitulando sobre la clase anterior

¿Puede ser un script un pipeline?

7 of 20

Frameworks

  • Una “plantilla” o marco que simplifica el trabajo.
  • Un framework debería de acomodar los pasos, dependencias, softwares variados y tipos de archivos distintos para ser efectivo.

8 of 20

Scripts

  • La forma más básica de framework para pipelines.
  • Poco robustos:
    • Dependencias
    • Habilidad de “guardar” en caso de imprevistos.

9 of 20

Scripts

10 of 20

Make

  • Herramienta de compilado que dobletea de framework de pipelines.
  • No es paralelizable.
  • No es lo suficientemente sofisticado a nivel de lógica.

11 of 20

Frameworks modernos

Dimensiones en los frameworks

Sintaxis

Paradigma

Interacción

Implícito

Explícito

Configuración

Convención

Diseño basado en clase

Línea de

comandos

Interfase

12 of 20

Frameworks modernos

Brief Bioinform, Volume 18, Issue 3, May 2017, Pages 530–536, https://doi.org/10.1093/bib/bbw020

The content of this slide may be subject to copyright: please see the slide notes for details.

13 of 20

Sintáxis

Implícita

  • Patrones de filenames (nombre de archivo).
  • Deduce por dependencias el orden.
  • Piensas más en el filename que en el orden.

Explícita

  • Proponer las cosas de manera explícita.
  • En pipelines, se refiere a específicar el orden del flujo, por ejemplo.

14 of 20

Paradigma

  • Se basan en archivos de configuración para determinar tareas.
  • Requieren una estructura fija y detallada para ejecutarse.

Por Configuración

15 of 20

Paradigma

  • Se utiliza sin necesidad de un lenguaje especial adaptado al framework.
  • Importación de librerías.
  • Se usa programando en un lenguaje estándar.

Basados en clase

16 of 20

Paradigma

  • La lógica está escrita como código propio del framework.
  • Las dependencias y pasos se infieren muchas veces.

Por Convención

17 of 20

Interacción

Línea de comandos

  • Interacción mediante la terminal.
  • Ejecución mediante código.

Interfase (Server)

  • Permiten interactuar gráficamente con diferentes programas.
  • Drag & Drop

18 of 20

Workflow fijo en Server (ej. MOBHunter)

19 of 20

Consideraciones al elegir un framework para elegir un pipeline

20 of 20

Bibliografía

  • Jeremy Leipzig, A review of bioinformatic pipeline frameworks, Briefings in Bioinformatics, Volume 18, Issue 3, May 2017, Pages 530–536, https://doi.org/10.1093/bib/bbw020
  • Davis-Turak J, Courtney SM, Hazard ES, Glen WB Jr, da Silveira WA, Wesselman T, Harbin LP, Wolf BJ, Chung D, Hardiman G. Genomics pipelines and data integration: challenges and opportunities in the research setting. Expert Rev Mol Diagn. 2017 Mar;17(3):225-237. doi: 10.1080/14737159.2017.1282822. Epub 2017 Jan 25. PMID: 28092471; PMCID: PMC5580401.
  • Camila Rojas-Villalobos, Francisco J Ossandon, Camila Castillo-Vilcahuaman, et. Al., MOBHunter: a data integration platform for identification and classification of mobile genetic elements in microbial genomes, Nucleic Acids Research, Volume 53, Issue W1, 7 July 2025, Pages W398–W407, https://doi.org/10.1093/nar/gkaf396