Creado el 12/01/2014

Última versión: 16/11/2014

Mikel L. Forcada Zubizarreta, Universitat d’Alacant

Comunidad moocTLH 

Esta obra está bajo una licencia de Creative Commons
Reconocimiento-CompartirIgual 3.0 Unported
.

Aplicaciones de las TLH
Traducción automática

Para empezar, explicaré a qué nos referimos cuando hablamos de la traducción automática.

La traducción automática es la producción, mediante un ordenador y el software adecuado, a partir de un texto escrito en la lengua origen, de otro texto en la lengua meta, que podemos llamar “traducción en bruto”.

La traducción automática fue una de las primeras aplicaciones que se quiso dar a los primeros ordenadores en los años 50. Es famoso el experimento de la Universidad de Georgetown de 1954 en el que un IBM 701 se usó para traducir de ruso escrito con caracteres latinos al inglés.

En el mismo año, en el Birkbeck College de Londres, un APEXC tradujo frases del francés al inglés.

Las aplicaciones de la traducción automática se pueden dividir en dos grandes grupos. Se dice que la traducción automática se usa para la diseminación cuando se usa para ayudar en la producción de textos que se publicarán. Por ejemplo, para producir el Periódico de Catalunya simultáneamente en español y en catalán.

Y se usa para la asimilación cuando sirve para comprender texto escrito en otra lengua. De ahí el uso del sistema de Georgetown para traducir el ruso: se pensó en usarlo para aplicaciones de inteligencia en plena guerra fría.

En general, la traducción en bruto no se puede usar como un producto profesional. Por tanto, no se puede publicar como está. En los mejores casos (no siempre), debe verse como un borrador. Es necesaria una postedición por parte de profesionales de la traducción.

Con la generalización del acceso a textos en Internet y la existencia de traductores automáticos en línea, la asimilación es hoy el uso más frecuente y popular de la traducción automática.

Si no sabemos irlandés, esta noticia sobre España nos dice poca cosa. Reconocemos el nombre de Alberto Ruiz-Gallardón, y podemos adivinar que Spáinn es España y que gCatalonia es Cataluña, y tal vez algo más.

Aunque la traducción no es perfecta, ahora ya sabemos de qué va la noticia. El titular es casi perfecto, y el texto está algo embrollado pero se entiende perfectamente de qué trata. Además, el formato se conserva muy bien.

Traducir textos automáticamente es muy difícil.

Los textos humanos tienen problemas como por ejemplo la ambigüedad: hay palabras u oraciones enteras que pueden tener más de una interpretación, y por lo tanto, quizás más de una traducción.

Por ejemplo, si digo "Me trajo noticias de Valencia", no queda claro si las noticias vienen de Valencia o son sobre Valencia.

Cada caso tiene una traducción diferente, por ejemplo, al inglés. En el primer caso, diríamos “He brought me news about Valencia”, mientras que en el segundo caso diríamos “from Valencia”

Decisiones que para las personas son muy fáciles de tomar, son muy difíciles para los sistemas informáticos.

Pero, ¿cómo funciona la traducción automática?

Las tecnologías más usuales de traducción automática se pueden dividir en dos grandes grupos. Por un lado, tenemos la denominada traducción automática estadística. Por otro lado, tenemos lo que se suele llamar traducción automática basada en reglas o en conocimiento.

Los sistemas de traducción automática estadística (cómo el más famoso de todos, el de Google) dividen cada oración en unidades más pequeñas (de todas las maneras posibles) y componen posibles traducciones de la oración a partir de las traducciones de estas unidades. Estas unidades y sus traducciones se han guardado en una base de datos muy grande. Después, entre todas las traducciones posibles, eligen la que estiman más probable de acuerdo con modelo estadísticos.

Estos modelos estadísticos se entrenan sobre un enorme corpus paralelo de textos bilingües en los que cada oración está alineada con su traducción, y sobre un gran corpus de texto en lengua meta.

Pero también hay sistemas de traducción automática basados en reglas o en conocimiento. Estos sistemas procesan el texto, aplicando reglas gramaticales y usando diccionarios (monolingües y bilingües). Los diccionarios y las reglas los escriben personas expertas y los formatean para que el sistema los entienda.

El sistema usa una cadena que contiene etapas típicas de muchas otras tecnologías del lenguaje humano: segmentación en unidades léxicas, análisis morfológico, desambiguación léxica categorial o part-of-speech tagging, análisis sintáctico...

Entre los sistemas de traducción automática basados en reglas está Apertium, que se empezó a desarrollar en la Universitat d'Alacant el 2004, y que ahora es mantenido por una amplia comunidad de desarrolladores.

Tanto el motor de traducción como las reglas y los diccionarios para decenas de pares de lenguas tienen licencias libres o de código fuente abierto. Están escritos en formatos estándares basados en XML para facilitar su intercambio con otros proyectos.

Muchos grupos y empresas desarrollan e investigan actualmente en traducción automática en España, en uno de los sectores más pujantes de las tecnologías del lenguaje humano. El multilingüismo de las sociedades española y europea y su reconocimiento legal es seguramente una de las causas de este auge.

La traducción automática es una de las corrientes más importantes en el vasto río de las tecnologías del lenguaje humano desde sus mismas fuentes. Es una herramienta crucial para la preservación de las lenguas del mundo y sus culturas frente a la tendencia uniformizadora de la globalización. En particular, es una tecnología clave en una Europa que se sabe y quiere seguir siendo multilingüe.