Request edit access
Campaña de recolección de corpus #Somos600M

Queremos modelos que entiendan y hablen el español de las 600M personas hispanohablantes. ¿Nos ayudas?

Estamos recolectando corpus de diferentes países, registros y dominios. ¡Cuantas más variedades de la lengua, mejor!

Son bienvenidos todos los tipos de corpus: entrenamiento y evaluación, todas las tareas de comprensión (NLU) y generación (NLG), todas las modalidades (texto, audio e imágenes con descripción). También buscamos corpus en otras lenguas habladas en países hispanohablantes (e.g., catalán, quechua).

Importante:

  • Si quieres compartir varios corpus, rellena este formulario una vez por corpus.
  • Intenta proveer información tan detallada como puedas, si no sabes la respuesta de algún campo escribe NSNC, ¡muchas gracias!

Más información sobre la campaña en somosnlp.org/donatucorpus.

Si tienes cualquier duda manda un email a info@somosnlp.org o contáctanos por Discord.

¡Muchas gracias por apoyarnos en nuestra misión de democratizar el PLN en español!

Email *
Acceso al dataset *
Enlace al dataset *
Puede ser el enlace al dataset, a las instrucciones para recrearlo o a la página de la organización correspondiente en caso de ser privado.
Si tu dataset no está subido a Hugging Face, ¿te gustaría que nos encargáramos de subirlo?
Clear selection
Modalidad *
Idioma(s) *
Required
País(es) *
País(es) de origen de los datos y/o personas que los anotaron. También se puede especificar la región si se conoce. Cuanta más información, mejor.
Tareas *
Required
Subtarea
Por ejemplo, subtareas de "clasificación de texto" pueden ser "análisis de sentimiento" o "detección de discurso de odio".
Dominio *
Required
Número de ejemplos
Escribe el número de ejemplos exacto si lo conoces, si no, un rango.
Tipo de licencia *
Enlace a la licencia
Enlace a la documentación del dataset o información adicional relevante sobre el mismo: descripción, proceso de anotación y limpieza, consideraciones éticas ... *
Enlace al script/repo en GitHub para descargar o procesar el dataset
¡Muchísimas gracias por tu contribución!
Para darte las gracias públicamente, puedes compartir tu nombre y/o afiliación para que figure en la web. Si se trata de una donación te contactaremos pronto, ¡gracias!
Nombre
Afiliación
¿Cómo podríamos mejorar esta campaña? ¿Con quién nos recomiendas que contactemos? ¿Algo más que nos quieras decir?
Submit
Clear form
Never submit passwords through Google Forms.
This content is neither created nor endorsed by Google. - Terms of Service - Privacy Policy

Does this form look suspicious? Report