Tongi
Proyecto Integrador III
Christian Rodriguez, Juan David Carvajal, Juan David Patiño, Jose Daniel Montero
2
01
Contenido de la presentación
02
03
04
05
Objetivos
Metodología
Marco conceptual
Modelos
3
OpenCV
EasyOCR
Google ML KIT
RapidOCR
OCR
(Reconocimiento óptico de caracteres)
https://github.com/RapidAI/RapidOCR
https://github.com/JaidedAI/EasyOCR
https://huggingface.co/facebook/nllb-200-distilled-600M
https://cloud.google.com/translate
MarianaMT
M2M100
NLLB
GCP Traslation API
DEEP API
Azure translator
Investigación de tecnologías
Traducción
Situación problema
06
Infraestructura
07
Ingeniería
08
Scrum
09
Aplicación
10
Conclusiones
Situación problema
La comunicación entre personas que hablan diferentes idiomas representa un desafío constante, dado que las barreras lingüísticas pueden generar malentendidos, limitar el acceso a información, y dificultar la interacción en contextos cotidianos. Por ello, contar con una herramienta de traducción adaptada a distintos dispositivos móviles se convierte en una necesidad para ayudar la comprensión lingüística tanto textual como auditiva y promover una mejor comunicación.
4
Objetivo general
Desarrollar una aplicación móvil que facilite la traducción de contenido visual, textual y auditivo mediante el uso de inteligencia artificial, utilizando técnicas como OCR y STT. La aplicación será compatible con dispositivos Android (versión 10 o superior) e iOS (versión 15 o superior), con el fin de apoyar la comunicación multilingüe.
5
Objetivos específicos
6
Diseñar la arquitectura del sistema, mediante la elaboración de diagramas UML (casos de uso, clases, secuencia), modelos de base de datos y demás representaciones estructurales necesarias, que permitan definir la integración de los módulos de reconocimiento de texto, imagen y audio y los flujos de interacción del sistema.
Desarrollar los módulos del sistema, desarrollando componentes encargados de la traducción automática de texto, voz e imágenes mediante técnicas de inteligencia artificial, junto con las interfaces gráficas necesarias para la interacción del usuario con cada funcionalidad.
Identificar las principales necesidades y desafíos que enfrentan los usuarios al interactuar con diferentes idiomas, con el fin de establecer los requerimientos funcionales y no funcionales de la aplicación.
Objetivos específicos
7
Evaluar el sistema a través de pruebas estructuradas, incluyendo pruebas unitarias, de integración, de sistema y de aceptación, con el propósito de evaluar la precisión y tiempo de respuesta de los módulos implementados en diversos escenarios, verificando el cumplimiento de los requisitos funcionales y no funcionales definidos.
Implementar servicios y modelos pre-entrenados como OCR (reconocimiento óptico de caracteres), TTS (texto a voz), STT (voz a texto) y traductores multilingües, garantizando su funcionamiento en dispositivos móviles y su operatividad.
Usando:
OCR, STT, TTS y Machine learning
Conecta con el mundo en la palma de tu mano.
3
Modos distintos de traducción
Traduce texto con tu cámara
Disponible
Translation Optimized Naturally Guided AI
Traduce sin necesidad de conexión a internet
Autoría: creación del equipo Tongi
Metodología
9
Figura 2. Metodología Prototipado. Autoría propia
Marco de trabajo
10
Figura 2. Representación SCRUM. Tomada de Freepik. Editada por Equipo propio[1]
11
Marco conceptual
1
2
3
4
5
6
7
Figura 3: Marco conceptual -Autoría : Creación del equipo Tongi
Modelos
Traducción de texto
Azure Translator (Online)
Google ML Kit (Offline)
https://developers.google.com/ml-kit?hl=es-419
https://github.com/flutter-ml/google_ml_kit_flutter
https://azure.microsoft.com/en-us/products/cognitive-services/speech-to-text
12
Azure Speech Service (Online)
Transcripción de voz
Síntesis de voz
Azure Speech Service (Online)
Google ML Kit (Offline)
OCR
[43]
[44]
Modelos
Traducción de texto
Azure Translator
Azure Speech Service
Google ML Kit
13
Azure Speech Service
Transcripción de voz
Síntesis de voz
Modelo vista controlador
Servers
Traducción
Figura 4, 5 , 6: Imágenes de azure cloud Tongi
[47]
CI / CD
Azure Translator
Azure Speech Service
Google ML Kit
14
Azure Speech Service
Modelo vista controlador
Servers
Traducción
[45]
[46]
[42]
CI / CD
Azure Translator
Azure Speech Service
Google ML Kit
15
Azure Speech Service
Modelo vista controlador
Servers
Traducción
Figura 8: Tongi Ci/ Cd imagen
CI / CD
Azure Translator
Azure Speech Service
Google ML Kit
16
Azure Speech Service
Modelo vista controlador
Servers
Traducción
Figura 9: Tongi Ci/ Cd imagen Merges
CI / CD
Azure Translator
Azure Speech Service
Google ML Kit
17
Azure Speech Service
Modelo vista controlador
Servers
Traducción
Figura 10: Azure con jenkins
Servicios Azure
Azure Translator
Azure Speech Service
Google ML Kit
18
Azure Speech Service
Azure Speech Service
Modelo vista controlador
Servers
Traducción
Figura 11: Tongi resource group
19
Texto a audio
Diagrama Arquitectura servidores
[49]
Figura 12: Diagrama despliegue server –Autoría: Tongi
20
Texto a audio
Diagrama Clases Backend
[50] [51]
Figura 13: Diagrama Clases backend–Autoría: Tongi
21
Texto a audio
Diagrama Clases Backend
22
Texto a audio
Diagrama Clases Backend
23
Texto a audio
Diagrama Clases Backend
Backend
24
Diagrama de Flujo CI/CD
[52]
Figura 13: Diagrama de flujo CI/CD–Autoría: Tongi
Backend
25
Diagrama de Flujo CI/CD
Backend
26
Diagrama de Flujo CI/CD
Backend
27
Diagrama de Flujo CI/CD
Modelos
Traducción de texto
https://developers.google.com/ml-kit?hl=es-419
https://github.com/flutter-ml/google_ml_kit_flutter
https://azure.microsoft.com/en-us/products/cognitive-services/speech-to-text
28
Transcripción de voz
Síntesis de voz
Diseño UX/UI
Cámara
Traducción de texto
[53] [54]
Figura 14: Ux de Tongi–Autoría: Tongi
29
Diagrama de clases Frontend
Figura 15: Diagrama de clases Frontend–Autoría: Tongi
30
Diagrama de clases Frontend
31
Diagrama de clases Frontend
32
Diagrama de clases Frontend
33
Diagrama de clases Frontend
34
Diagrama de clases Frontend
35
Diagrama de clases Frontend
36
Diagrama de clases Frontend
37
Diagrama de clases Frontend
38
Diagrama de clases Frontend
39
Diagrama de clases Frontend
Backend
40
Diagrama de despliegue
Figura 16: Diagrama despliegue Tongi–Autoría: Tongi
41
Diagrama de secuencia (STT)
Aplicación
Figura 17: Diagrama Secuencias STT –Autoría: Tongi
Entregables de Scrum
Azure Translator
Azure Speech Service
Google ML Kit
42
Azure Speech Service
Presupuesto
Actas daily
Azure Speech Service
Figura 18: Entregable Scrum I –Autoría: Tongi
Entregables de Scrum
Azure Translator
Azure Speech Service
Google ML Kit
43
Azure Speech Service
Azure Speech Service
Modelo vista controlador
Servers
Traducción
Presupuesto
Actas daily
Charts
Azure Speech Service
Velocidad Sprint
Epicas
S1(planning project). Work items
Figura 19: Entregable Scrum II –Autoría: Tongi
Entregables de Scrum
Charts
S1(planning project). Work items
44
Azure Speech Service
Velocidad Sprint
Epicas
Azure Speech Service
Modelo vista controlador
Servers
Traducción
Presupuesto
Actas daily
Figura 20: Entregable Scrum III –Autoría: Tongi
Entregables de Scrum
Charts
S2
Work items
45
Azure Speech Service
Velocidad Sprint
Epicas
Azure Speech Service
Modelo vista controlador
Servers
Traducción
Figura 21: Entregable Scrum IV–Autoría: Tongi
Entregables de Scrum
Charts
S3
Work items
Azure Translator
Azure Speech Service
Google ML Kit
46
Azure Speech Service
Velocidad Sprint
Epicas
Azure Speech Service
Modelo vista controlador
Servers
Traducción
Figura 22: Entregable Scrum V –Autoría: Tongi
Entregables de Scrum
Charts
S4
Work items
Azure Translator
Azure Speech Service
Google ML Kit
47
Azure Speech Service
Velocidad Sprint
Epicas
Azure Speech Service
Modelo vista controlador
Servers
Traducción
Figura 23: Entregable Scrum VI –Autoría: Tongi
Entregables de Scrum
Charts
Azure Translator
Azure Speech Service
Google ML Kit
48
Azure Speech Service
Velocidad Sprint
Epicas
Azure Speech Service
Modelo vista controlador
Servers
Traducción
Figura 24: Entregable Scrum VII –Autoría: Tongi
Entregables de Scrum
Charts
Azure Translator
Azure Speech Service
Google ML Kit
49
Azure Speech Service
Velocidad Sprint
Epicas
Azure Speech Service
Modelo vista controlador
Servers
Traducción
Figura 25: Entregable Scrum VIII –Autoría: Tongi
Entregables de Scrum
50
Resultados
Completado: 72%
Aplicación
Figura 26: Entregable Scrum IX –Autoría: Tongi
Entregables de Scrum
51
Aplicación
Resultados
Completado: 72%
Figura 27: Descarga Tongi Android –Autoría: Tongi
52
Diagrama de secuencia (STT)
Aplicación
Figura 28: Video Tongi
–Autoría: Tongi
Conclusiones
53
Conclusiones
54
Conclusiones
55
Referencias
[1] G. Adomavicius and A. Tuzhilin, "Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions," IEEE Trans. Knowl. Data Eng., vol. 17, no. 6, pp. 734–749, 2005.
[2] D. Bahdanau, K. Cho, and Y. Bengio, "Neural machine translation by jointly learning to align and translate," in Proc. ICLR, 2015.
[3] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, "BERT: Pre-training of deep bidirectional transformers for language understanding," in Proc. NAACL-HLT, 2019.
[4] G. Hinton, O. Vinyals, and J. Dean, "Distilling the knowledge in a neural network," arXiv preprint arXiv:1503.02531, 2015.
[5] B. Jacob et al., "Quantization and training of neural networks for efficient integer-arithmetic-only inference," in Proc. CVPR, 2018.
[6] M. Satyanarayanan, "The emergence of edge computing," Computer, vol. 50, no. 1, pp. 30–39, 2017.
[7] W. Shi, J. Cao, Q. Zhang, Y. Li, and L. Xu, "Edge computing: Vision and challenges," IEEE Internet Things J., vol. 3, no. 5, pp. 637–646, 2016.
[8] R. Smith, "An overview of the Tesseract OCR engine," in Proc. 9th Int. Conf. Document Anal. Recognit., 2007.
[9] L. Specia, S. Frank, K. Sima’an, and D. Elliott, "A shared task on multimodal machine translation and crosslingual image description," in Proc. WMT, 2016.
[10] W3C, "Web Accessibility Initiative (WAI): Introduction to Web Accessibility," World Wide Web Consortium, 2023. [Online]. Available: https://www.w3.org/WAI/fundamentals/accessibility-intro/
[11] I. Sutskever, O. Vinyals, and Q. Le, "Sequence to sequence learning with neural networks," in Proc. NIPS, 2014.
56
Referencias
[12] Google, "Google Translate," 2024. [Online]. Available: https://translate.google.com/
[13] DeepL, "DeepL Translator," 2024. [Online]. Available: https://www.deepl.com/translator
[14] Microsoft, "Microsoft Translator," 2024. [Online]. Available: https://www.microsoft.com/en-us/translator/
[15] Yandex, "Yandex Translate," 2024. [Online]. Available: https://translate.yandex.com/
[16] GeeksforGeeks.com, “Prototyping model - software engineering,” GeeksforGeeks, 05-abr-2018. [Online]. Available: https://www.geeksforgeeks.org/software-engineering/software-engineering-prototyping-model/. [Accessed: 27-Jul-2025]
[17] Lumitex.com, “Prototyping Methodology,” [Online]. Available: https://www.lumitex.com/hubfs/docs/prototyping-methodology-2.pdf. [Accessed: 27-Jul-2025]
[18] Indeed.com, “Prototype Model: A Definitive Guide,” [Online]. Available: https://www.indeed.com/career-advice/career-development/prototype-model. [Accessed: 27-Jul-2025]
[19] Atlassian, "What is Scrum?," 2018. [Online]. Available: https://www.atlassian.com/agile/scrum [Accessed: 27-Jul-2025]
[20] Scrum.org, "What is Scrum?," 2019. [Online]. Available: https://www.scrum.org/resources/what-is-scrum
[21] A. de Toro, "Scrum Image," 2022. [Online]. Available: https://www.escueladenegociosydireccion.com/revista/business/scrum-framework-agiliza-trabajo-equipo/
[22] Freepik.es, [Online]. Available: https://www.freepik.es/vector-gratis/infografia-scrum_8806106.htm#fromView=keyword&page=1&position=1&uuid=de7d4f6c-f1b7-415e-8322-151997ce04a8&query=Scrum. [Accessed: 27-Jul-2025]
57
Referencias
[23] Ecured.cu, “Modelo de prototipos,” [Online]. Available: https://www.ecured.cu/Modelo_de_prototipos. [Accessed: 27-Jul-2025]
[24] IBM, “¿Qué es el reconocimiento de voz?,” [Online]. Available: https://www.ibm.com/es-es/topics/speech-recognition. [Accessed: 28-Jul-2025]
[25] Stanford.edu, [Online]. Available: https://web.stanford.edu/~jurafsky/slp3/ed3book_Jan25.pdf. [Accessed: 28-Jul-2025]
[26] IBM, “¿Qué es machine learning?,” [Online]. Available: https://www.ibm.com/mx-es/think/topics/machine-learning. [Accessed: 28-Jul-2025]
[27] Q Blocks, “Natural language processing (NLP) and its use in machine translation,” [Online]. Available: https://www.qblocks.cloud/blog/natural-language-processing-machine-translation. [Accessed: 28-Jul-2025]
[28] A. Lee, “What is a pretrained AI model?,” NVIDIA Blog, [Online]. Available: https://blogs.nvidia.com/blog/what-is-a-pretrained-ai-model/. [Accessed: 28-Jul-2025]
[29] ISO/IEC 14882:2020, Programming Languages — C++, International Organization for Standardization, 2020.
[30] Pistache Team, “Pistache: A modern and elegant HTTP and REST framework for C++,” GitHub repository, 2025. [Online]. Available: https://github.com/pistacheio/pistache
[31] Google LLC, “Dart programming language,” 2025. [Online]. Available: https://dart.dev
[32] Google LLC, “Flutter — Build apps for any screen,” 2025. [Online]. Available: https://flutter.dev
[33] Figma Inc., “Figma — Collaborative interface design tool,” 2025. [Online]. Available: https://www.figma.com
58
Referencias
[34] Adobe Inc., “Adobe Illustrator,” 2025. [Online]. Available: https://www.adobe.com/products/illustrator.html
[35] Microsoft, “Microsoft Azure Cloud Platform,” 2025. [Online]. Available: https://azure.microsoft.com
[36] Jenkins Project, “Jenkins — Build great things at any scale,” 2025. [Online]. Available: https://www.jenkins.io
[37] GitHub Inc., “GitHub — Where the world builds software,” 2025. [Online]. Available: https://github.com
[38] Atlassian, “Jira Software,” 2025. [Online]. Available: https://www.atlassian.com/software/jira
[39] MongoDB Inc., “MongoDB — The application data platform,” 2025. [Online]. Available: https://www.mongodb.com
[40] Microsoft, “Microsoft Teams,” 2025. [Online]. Available: https://www.microsoft.com/microsoft-teams
[41] Google LLC, “Google Drive,” 2025. [Online]. Available: https://www.google.com/drive
[42] Google LLC, “Python programming language,” 2025. [Online]. Available: https://www.python.org
[43] Python Software Foundation, “Python — Programming language,” 2025. [Online]. Available: https://www.python.org
[44] Microsoft, “Microsoft Azure — Cloud platform,” 2025. [Online]. Available: https://azure.microsoft.com
[45] Atlassian, “Jira Software — Project management tool,” 2025. [Online]. Available: https://www.atlassian.com/software/jira
[46] Figma Inc., “Figma — The collaborative interface design tool,” 2025. [Online]. Available: https://www.figma.com
[47] Adobe Inc., “Adobe Illustrator — Vector graphics software,” 2025. [Online]. Available: https://www.adobe.com/products/illustrator.html
[48] Visual Paradigm International, “Visual Paradigm — Visual modeling and design tool,” 2025. [Online]. Available: https://www.visual-paradigm.com
[49] Draw.io, “draw.io — Free online diagram software,” 2025. [Online]. Available: https://www.draw.io
[50] Mustache, “Pystache — Logic-less templates for Python,” 2025. [Online]. Available: https://github.com/defunkt/pystache
[51] Jenkins Project, “Jenkins — Build great things at any scale,” 2025. [Online]. Available: https://www.jenkins.io
59
60