Recopilando métricas y estableciendo límites: Reutilización de colecciones como datos y el impacto de la Inteligencia Artificial.
Gathering Metrics and Setting Boundaries: Reusing Collections as Data and the impacts of AI
12-14 November 2024, Costa Rica and Online
RDA 23rd Plenary Meeting (RDA P23) | Sustainable Science
RDA 23rd Plenary Meeting
www.rd-alliance.org
Welcome new RDA members!
6 Guiding Principles are at the heart of the RDA community
OPENNESS
CONSENSUS
HARMONISATION
COMMUNITY-DRIVEN
NON-PROFIT AND TECHNOLOGY-NEUTRAL
INCLUSIVITY
RDA 23rd Plenary Meeting
www.rd-alliance.org
Recopilando métricas y estableciendo límites: Reutilización de colecciones como datos y el impacto de la Inteligencia Artificial.
Gathering Metrics and Setting Boundaries: Reusing Collections as Data and the impacts of AI
Moderadoras de la Reunión | Session Moderators
Trabajos previos sobre colecciones como datos.
Trabajos actuales sobre inteligencia artificial responsable.
Prior work on Collections-as-Data.
Current work on Responsible AI.
Grupo de interés Colecciones como datos | Collections as Data Interest Group
Este grupo está dirigido a profesionales de colecciones que desempeñan una variedad de funciones críticas: como expertos en garantizar el acceso, la preservación y la reutilización de registros, objetos, datos y colecciones digitales; como provocadores de buenas prácticas de curación de colecciones; y como defensores de la construcción de infraestructuras responsables y sostenibles para el intercambio de información.
Reconocemos que existe una presión cada vez mayor sobre las instituciones de la memoria para que establezcan modelos para el desarrollo responsable y culturalmente sensible de los recursos de datos mientras exploramos los desafíos y oportunidades que brindan las nuevas tecnologías (Declaración de Vancouver, Principios 2, 4, 9-11).
Este grupo busca proporcionar un espacio para examinar las alineaciones en valores, políticas y prácticas en el trabajo de colecciones, fomentando un intercambio de experiencia en áreas y dominios de práctica de recolección.
This group is aimed at collections professionals who serve in a range of critical roles: as experts in ensuring access, preservation, and reuse of digital records, objects, data, and collections; as provocateurs for good collections curation practices; and as advocates for the construction of responsible and sustainable infrastructures for information sharing.
We recognise that there is increasing pressure on memory institutions to establish models for responsible and culturally sensitive development of data resources while navigating the challenges and opportunities provided by new technologies (Vancouver Statement, Principles 2, 4, 9-11).
This group seeks to provide a space for examining alignments in values, policy, and practice in collections work, and encouraging an exchange of expertise across collecting areas and domains of practice.
Cómo unirse | How to join
Objetivos | Goals
A través de diversas presentaciones y discusiones, esta sesión tendrá como objetivo proporcionar información sobre cómo las instituciones están evaluando el uso de colecciones como datos y cómo la Inteligencia Artificial afecta los parámetros de este uso.
Through presentations and discussions, this session will aim to provide insight into how institutions are assessing use of collections as data and how AI impacts the parameters of that use.
Orden del Día | Agenda
Presentaciones:
Preguntas o comentarios
Discusión
Presentations:
Q&A
Discussion
Responsible AI:
Tools for values-driven AI in libraries and archives
IA responsable:
Herramientas para una IA basada en valores en bibliotecas y archivos
9
Equipo del proyecto | Project Team
10
Hannah Scates Kettler Iowa State University
Sara Mannheimer (PI)
Montana State University
Jason A. Clark
Montana State University
Bonnie Sheehey
Montana State University
Yasmeen Shorish
James Madison University
Doralyn Rossmann Montana State University
Scott W. H. Young
Montana State University
Natalie Bond
University of Montana
Objetivos del proyecto | Goals of the project
12
13
| International GLAM Labs Community
Una comunidad de instituciones culturales y de investigación innovadoras del mundo�84 instituciones y 354 miembros (a 7/11/2024)
A community of the world's innovative cultural and research institutions �84 institutions and 354 members (as of 7/11/2024)
Comunidad internacional GLAM Labs
Miembros | Members
Objetivos | Goals
Eventos | Events
SEPTIEMBRE 2018 �BUILDING LIBRARY LABS: 1º EVENTO�BRITISH LIBRARY, LONDRES
MARZO 2019 �BUILDING LIBRARY LABS: 2º EVENTO�ROYAL DANISH LIBRARY, COPENHAGUE
SEPBRE 2019 TIEM�DIGITAL CULTURAL HERITAGE �INNOVATION LABS BOOKSPRINT�DOHA, QATAR
OCTUBRE- 2019 - ABRIL 2024 �EN LÍNEA
MAYO 2024
TALLER GLAM LABS EN DHNB�NATIONAL AND UNIVERSITY LIBRARY OF ICELAND
SEPTEMBER 2018 �BUILDING LIBRARY LABS: 1ST EVENT�BRITISH LIBRARY, LONDON
MARCH 2019 �BUILDING LIBRARY LABS: 2ND EVENT�ROYAL DANISH LIBRARY, COPENHAGEN
SEPTEMBER 2019 �DIGITAL CULTURAL HERITAGE �INNOVATION LABS BOOKSPRINT�DOHA, QATAR
OCTOBER- 2019 - APRIL 2024 �ONLINE
MAY 2024
GLAM LABS WORKSHOP AT DHNB�NATIONAL AND UNIVERSITY LIBRARY OF ICELAND
Publicaciones | Publications
https://glamlabs.io/books/�7 idiomas (inglés, español, griego, ruso, búlgaro, serbio y árabe)
7 languages (English, Spanish, Greek, Russian, Bulgarian, Serbian and Arabic)
Talleres | Workshops
Acceso computacional | Computational access
https://glamlabs.io/checklist
Encuéntranos | Find us
https://twitter.com/GLAM_labs
Assessing Use and Reuse
of Digital Collections Using D-CRAFT
Esquema de presentación | Presentation Outline
Background
Información de fondo
Avanzando en la evaluación a través de D-CRAFT|
Advancing Assessment through D-CRAFT
Equipo D-CRAFT | D-CRAFT Team
Equipo del proyecto/Project Team
Consultores/Consultants
Grupo Asesor/Advisory Group
Recommended Practices
Prácticas Recomendadas
8 métodos + herramientas para la recopilación de datos|
8 methods + tools for data collection
Métodos de recopilación de datos/
Data Collection Methods
Herramientas de recopilación de datos seleccionadas/
Selected Data Collection Tools
Ethical Guidelines
Directrices éticas
Directrices éticas - Secciones|
Ethical Guidelines - Sections
Módulos educativos | Education Modules
| Evolving GLAM Labs�| LABORATORIOS GLAM EN EVOLUCIÓN
Mahendra Mahey�Universidad de Tallin, Museo Nacional de Estonia & Universidad de Strathclyde | Mahendra Mahey�Tallinn University, Estonian National Museum & �University of Strathclyde |
1. Dirigió los Laboratorios de la Biblioteca Británica (2013-2021), casi nueve años | 1. Ran British Library Labs (2013 - 2021), nearly nine years |
2. Primer Laboratorio de Becas Digitales en una Biblioteca Nacional - para reutilizar y remezclar colecciones y datos digitales - ahora «servicio habitual». | 2. First Digital Scholarship Lab in a National Library - for reusing and remixing digital collections and data - now ‘business as usual service’ |
3. Ejecutó los primeros experimentos de aprendizaje automático / IA con datos de 2013 en adelante..... | 3. Ran early machine learning / AI experiments on data from 2013 onwards… |
4. Apoyo y presentación de más de 450 proyectos con investigadores, artistas, empresarios, educadores, comunidades y personal | 4. Supported/showcased over 450 projects with researchers, artists, entrepreneurs, educators, communities and staff |
5. Concursos (residencias), proyectos, premios, exposiciones, programas educativos, laboratorios de ideas, exposiciones itinerantes y talleres de datos, Algorave, stand up, creación de redes y puesta en común. | 5. Competitions (Residences), Projects, Awards, Exhibitions, Educational Programmes, Ideas Labs, Roadshows, Data Workshops, Algorave, Stand up, Networking and Sharing |
6. Contribución a la creación de la comunidad GLAM Labs | 6. Helped establish the GLAM Labs community |
7. Lanzamiento del portal «colecciones como datos» (2015) con DOIs | 7. Launched ‘collections as data’ portal (2015) with DOIs |
8. Asesor principal de investigación y desarrollo en la Universidad de Tallin, redactor de proyectos, gestor de proyectos y red de proyectos | 8. Senior Research & Development Adviser at Tallinn University, project writer, project manager and project network |
Estonia
| PhD - Evolving GLAM Labs�| Doctorado - Laboratorios GLAM en evolución
Doctorando (24 oct-27 sep) Supervisores: Dra. Milena Dobreva y Profesor Ian Ruthven Departamento de Informática y Ciencias de la Información | PhD candidate (Oct 24-Sep 27) �Supervisors: Dr Milena Dobreva and Professor Ian Ruthven�Department of Computer and Information Science |
¿Qué lecciones podemos aprender de la creación, el impacto y la evolución de los Laboratorios de Galerías, Bibliotecas, Archivos y Museos (GLAM)? | What lessons can be learned from the establishment, impact and evolution of Gallery, Library, Archive and Museum (GLAM) Labs? |
1. Relatos personales, entrevistas, estudios de casos, encuestas, investigación y análisis | 1. Personal accounts, interviews, case studies, surveys, research and analysis |
2. Realizadas 26 entrevistas hasta la fecha con aquellos cuyos proyectos reutilizaban y remezclaban el patrimonio digital y personas que prestaban servicios a los usuarios en entornos GLAM Lab (desde 2013). | 2. Conducted 26 interviews so far with those whose projects reused and remixed digital heritage and people providing services for users in GLAM Lab settings (since 2013) |
3. Analizar y buscar patrones, impacto a largo plazo, sostenibilidad, ciclos de vida, evolución, uso e impacto de la IA | 3. Analyse and look for patterns, long term impact, sustainability, life cycles, evolution, use of and impact of AI |
4. Proporcionar recomendaciones para que los GLAM aumenten el uso del patrimonio digital de forma impactante y hagan crecer nuevos GLAM Labs | 4. Provide recommendations for GLAMs to increase use of digital heritage impactfully and to grow new GLAM Labs |
5. Póngase en contacto con: mahendra.mahey@strath.ac.uk | 5. Contact: mahendra.mahey@strath.ac.uk |
Glasgow, Scotland�United Kingdom
| Digital cultural heritage as a social resource�| El patrimonio cultural digital como recurso social
Investigador Junior (Ene 2024 - Dic 2026) Investigador principal Pille Runnel | Junior Researcher (Jan 2024 - Dec 2026) �Principal Investigator Pille Runnel |
El patrimonio cultural digital como recurso social | Digital cultural heritage as a social resource |
1. Trazar un mapa de las políticas actuales y las experiencias de los usuarios en relación con el uso del patrimonio cultural digital. Entrevistas/encuestas para comprender la situación actual e identificar posibles cuellos de botella en los que se necesite apoyo y nuevas soluciones para aumentar la aceptación del patrimonio digital como recurso social. | 1. Map current policies and user experiences related to the use of digital cultural heritage. Interviews / surveys to understand current situation and identify possible bottlenecks where support and new solutions are needed to increase the uptake of digital heritage as a social resource |
2. Desarrollar la capacidad del sector del patrimonio para utilizar el patrimonio digital y ampliar el uso de métodos de cocreación para dar sentido al compromiso con el patrimonio digital y transferir conocimientos sobre el patrimonio. | 2. Develop the heritage sector's capacity to use digital heritage and to expand the use of co-creation methods to make sense of engaging with digital heritage and to transfer knowledge about heritage |
3. Si conoce algún uso del patrimonio cultural digital que haya tenido repercusión social, póngase en contacto conmigo:�mahendra.mahey@strath.ac.uk | 3. If you know any uses of digital cultural heritage that have led to social impact, please contact me:�mahendra.mahey@strath.ac.uk |
Detección de idiomas para repositorios institucionales: inteligencia artificial y modelos de lenguaje
Language detection for institutional repositories: artificial intelligence and language models
Presentación del problema / Issue
El enorme volumen de recursos almacenados en los repositorios digitales representa una gran dificultad a la hora de supervisar y corregir errores o mejorar la calidad de los metadatos. Nos enfocamos en la corrección del metadato idioma en los registros de resúmenes del repositorio institucional SEDICI.
The huge volume of resources stored in digital repositories represents a great difficulty when it comes to monitoring and correcting errors or improving the quality of metadata. We focused on correcting the metadata for language in the abstract records of the SEDICI institutional repository.
Datos y metodología / Data and methodology
A partir de un dataset exportado del repositorio de unos 126.081 ítems se planificó una tarea de detección automática de idiomas utilizando diferentes librerías existentes compatibles con el método zero-shot (langdetect, CLD3, fastText, Polyglot, langid y TextCat). Luego se compararon los resultados obtenidos con los datos de los idiomas registrados por el personal de catalogación del repositorio. Para tratar de mejorar aún más la detección de idiomas se entrenó un modelo mBERT multilenguaje y se comparó su desempeño con el conjunto más pequeño de ítems cuya clasificación por idiomas era diferente entre humanos y la biblioteca Polyglot.
We explored a dataset of about 126,081 items of the repository. An automatic language detection task was planned using different existing libraries compatible with the zero-shot method (langdetect, CLD3, fastText, Polyglot, langid and TextCat). The results obtained were compared with the language data recorded by the repository's cataloging staff. In order to further improve language detection, a multilingual mBERT model was trained and its performance was compared with the smaller set of items whose language classification was different between humans and the Polyglot library.
Resultados/Results
En general, todas las librerías de detección de idiomas mostraron alrededor de un 95% de coincidencia con los idiomas identificados y catalogados por los humanos. En el caso de los modelos mBERT entrenados las coincidencias obtenidas son bajas tanto para los idiomas detectados automáticamente por Polyglot como los catalogados por humanos (37,2% y 18% respectivamente). Se encontraron errores de catalogación atribuibles a humanos pero también errores de las bibliotecas o de los modelos de lenguaje en la tarea de detección.
Overall, all language detection libraries showed around 95% agreement with the languages identified and catalogued by humans. In the case of the trained mBERT models, the agreement obtained is low both for the languages automatically detected by Polyglot and those catalogued by humans (37.2% and 18% respectively). There were errors in cataloging that could be made by humans but also errors from the libraries or language models in the detection task.
Necesidad de supervisión humana/Human supervising needed
En conclusión/To conclude
¡Gracias! | Thank you!
Q&A
Discusión | Discussion
Discusión | Discussion
Discusión | Discussion
Discusión | Discussion
Discusión | Discussion
THANK� YOU
RDA 23rd Plenary Meeting
www.rd-alliance.org