1 of 13

Science Forum: Wikidata as a knowledge graph for the life sciences

Minerva María Romero Pérez

LABORATORIO DE BIOINFORMACIÓN

Journal Club

Wikidata como gráfico de conocimiento para las ciencias de la vida

2 of 13

3 of 13

Objetivo

Se explora el uso de Wikidata como plataforma para la integración del conocimiento en las ciencias de la vida, donde definen Wikidata como base de conocimientos de acceso abierto que cualquier persona puede editar.

Se describe el progreso en la expansión y el enriquecimiento del gráfico de conocimiento biomédico dentro de Wikidata. También describe varios casos de uso biomédico representativos sobre cómo Wikidata puede permitir nuevos análisis y mejorar la eficiencia de la investigación. Finalmente, se discute cómo los investigadores pueden contribuir a este esfuerzo para construir un gráfico de conocimiento actualizado continuamente y mantenido por la comunidad que personifique los principios FAIR.

4 of 13

Gráfico de conocimiento biomédico

La comunidad de Wikidata ha ampliado significativamente la profundidad y amplitud de la información biológica dentro de Wikidata, lo que ha dado como resultado un gráfico de conocimiento rico y heterogéneo.

  • Genes y proteínas
  • Variantes genéticas
  • Compuestos químicos, incluidas las drogas
  • Vías
  • Enfermedades
  • Referencias

5 of 13

Bots

Desarrollaron bots para recuperar, transformar, normalizar y cargar datos desde un recurso principal a Wikidata.

Generalizaron los módulos de código comunes en una biblioteca de Python, llamada Wikidata Integrator (WDI), para simplificar el proceso de creación de bots de Wikidata, que ayudan a la creación de elementos para artículos científicos como referencias, detección básica de conflictos de modelos de datos, detección automática de elementos que necesitan una actualización, registro detallado y manejo de errores, y detección y preservación de ediciones humanas conflictivas.

Utilizaron Jenkins, para automatizar todos los bots de Wikidata. Los bots se ejecutan en un horario predefinido (para recursos continuamente actualizados) o cuando se lanzan nuevas versiones de las bases de datos originales.

6 of 13

Aplicaciones

Servicio de traducción de identificadores: es una aplicación simple y directa del contenido biomédico en Wikidata. En función de las tablas de asignación que se han importado, los elementos de Wikidata se pueden asignar a bases de datos que se usan ampliamente y rara vez en la comunidad de ciencias de la vida. Debido a que todas estas asignaciones se almacenan en una base de datos centralizada y usan un modelo de datos sistemático, se pueden escribir fácilmente scripts de traducción genéricos y reutilizables. Estos scripts se pueden usar como base para consultas de Wikidata más complejas, o los resultados se pueden descargar y usar como parte de scripts o análisis más grandes.

7 of 13

Aplicaciones

Consultas: Wikidata contiene un conjunto de información mucho más amplio que solo referencias cruzadas de identificadores. En Wikidata se realizan consultas en SPARQL con resultados actualizados con la información más reciente en Wikidata.

8 of 13

Aplicaciones

Curación colaborativa:

La curación comunitaria se ha explorado en una variedad de tareas de curación y anotación de ontologías. Si bien la curación comunitaria ofrece el potencial de distribuir estas responsabilidades entre un conjunto más amplio de científicos, también tiene el potencial de introducir errores e inconsistencias.

9 of 13

Aplicaciones

Páginas de rutas interactivas:

Usaron Wikidata para crear visualizaciones y de acceso para datos mediante el uso de Scholia, una aplicación web que crea perfiles académicos visuales para temas, personas, organizaciones, especies, productos químicos, etc. utilizando información bibliográfica y de otro tipo en Wikidata.

10 of 13

Wikidata y los principios FAIR

Localizable: A los elementos se les asignan identificadores únicos con enlaces cruzados a otras Wikis.

Accesible: Brinda acceso a su gráfico de conocimiento a través de una interfaz gráfica de usuario en línea y una API, proporciona bases de datos al menos semanalmente y finalmente, también es multilingüe de forma nativa.

Interoperable: los elementos de Wikidata están ampliamente interrelacionados con otros recursos biomédicos mediante identificadores de recursos universales. Wikidata también está disponible en muchos formatos estándar en programación informática y gestión del conocimiento, incluidos JSON, XML y RDF.

Reutilizable: es abierto, pues, se publica bajo la Declaración de dominio público Creative Commons Zero ( CC0 )

11 of 13

Wikidata y los principios FAIR

Para ayudar a esta cultura de los principios FAIR y un gráfico abierto del conocimiento biomédico, los autores mencionan dos formas sencillas de contribuir a Wikidata.

  1. Si son propietarios de los recursos de datos, pueden publicar sus datos mediante la declaración CC0. Si hay recursos que tienen licencia restrictiva se recomienda la transición a CC0 (+BY). Si no es posible modificar la licencia, considerar la posibilidad de publicar un subconjunto de datos o versiones anteriores de datos mediante CC0.
  2. Se puede contribuir a Wikidata agregando los resultados del análisis de datos y los esfuerzos de integración como, por ejemplo, nuevos elementos, declaraciones o referencias. Actualmente, la vida útil del código de integración de datos generalmente no se extiende más allá del uso inmediato específico del proyecto. Como resultado, ese mismo proceso de integración de datos es probablemente realizado de manera repetitiva y redundante por otros informáticos en otros lugares.

12 of 13

Conclusiones

Los principios FAIR y el acceso abierto a la suma total del conocimiento biomédico mejorará la eficiencia de la investigación biomédica. Capturar esa información en un gráfico de conocimiento centralizado es útil para investigadores experimentales, desarrolladores de herramientas informáticas y científicos de datos biomédicos. Como un recurso comunitario que se actualiza continuamente y se mantiene en colaboración, creemos que Wikidata ha logrado avances significativos para lograr este ambicioso objetivo.

13 of 13

Agradecimientos

Bibliografía

  • Zotero. (2022).Retrieved 19 April 2022, from https://www.zotero.org/groups/4628198/wikibiodatabases
  • Waagmeester, A., Stupp, G., Burgstaller-Muehlbacher, S., Good, B. M., Griffith, M., Griffith, O. L., Hanspers, K., Hermjakob, H., Hudson, T. S., Hybiske, K., Keating, S. M., Manske, M., Mayers, M., Mietchen, D., Mitraka, E., Pico, A. R., Putman, T., Riutta, A., Queralt-Rosinach, N., … Su, A. I. (2020). Wikidata as a knowledge graph for the life sciences. eLife, 9, e52614. https://doi.org/10.7554/eLife.52614
  • Scholia. (2022). Retrieved 4 August 2022, from https://scholia.toolforge.org/

Esta presentación producto del trabajo realizado durante mi servicio social en el Laboratorio de Bioinformación de la Facultad de Ciencias, UNAM, gracias a Layla y al equipo del Laboratorio.