junio 1, 2020

¿Cuál es el mejor traductor?: probamos DeepL, Google Translate y Bing

Isabel Rubio
El País

Todos llevamos un traductor (o varios) en el bolsillo. Los smartphones permiten obtener en cuestión de milisegundos versiones de cualquier texto en decenas de idiomas ―desde inglés hasta chino, maorí o ruso. La opción más popular es el traductor de Google, utilizado por 500 millones de usuarios, según datos de la propia compañía. En número de idiomas y de funciones, su superioridad también es abrumadora: el programa de la compañía de Mountain View traduce más de 100 idiomas tanto por escrito como por voz, mientras que entre sus principales rivales figura Bing, de Microsoft, que traduce unas 70 lenguas y la alemana DeepL, solo nueve. El debate se centra entonces en la calidad. ¿Cuál de los tres programas ofrece versiones más cercanas a las que haría un (buen) traductor humano?

DeepL ha realizado algunos tests “a ciegas” para intentar demostrar su superioridad. El pasado enero, la compañía tradujo 119 pasajes extensos de diferentes ámbitos con su programa y con los de Microsoft y Google. Después, mostró los textos a traductores profesionales para que los evaluaran y escogieran el mejor. Ninguno sabía qué sistema se había utilizado en cada caso. Según la compañía, los expertos se decantaron por las traducciones de DeepL cuatro veces más que por las de cualquier otro sistema. La startup alemana también derrotó a Google en una prueba realizada por el medio digital estadounidense TechCrunch en 2017. Según su veredicto, el traductor de la compañía de Cupertino omite algunos matices, mientras que DeepL consigue resultados “más naturales”.

EL PAÍS ha decidido hacer su propia prueba y ha pedido a tres expertas que valoren varias traducciones hechas por los programas de Google, Bing y DeepL. Uno de los textos proviene del libro de J.K. Rowling Harry Potter y la piedra filosofal. Otro es de una noticia relacionada con el coronavirus de The Washington Post. El último es sobre una investigación publicada en la revista científica Nature sobre cómo la acidificación del océano por las emisiones de dióxido de carbono perjudica a los arrecifes.

Nuestro jurado está compuesto por Eugenia Arrés, traductora autónoma con más de 15 años de experiencia; Carolina Balsa Cirrito, CEO de CBLingua Traductores Jurados SL; y Celia Rico Pérez, catedrática de tecnologías de la traducción de la Universidad Europea de Madrid. Incluimos sus puntuaciones a las versiones de los tres programas e incluimos los comentarios de una de ellas para cada uno de los textos.

En el caso de Google, Eugenia Arrés, destaca que su propuesta de traducción es comprensible. Sin embargo, ahí acaban sus parabienes: “Además, tiene problemas de puntuación. Por ejemplo, fallos con los espacios, mayúsculas después de comas y una acentuación indebida”. En opinión de la traductora, tampoco está bien implementada la traducción propia de los textos literarios. “A esto se suma la falta naturalidad. Traduce se veía en lugar de parecía o fragmentos sin sentido como docenas de fiestas y fiestas”.

El resultado que se obtiene en Bing, asegura Arrés, “no tiene sentido en gran parte del texto”. A estas incoherencias -utiliza profesor en lugar de profesora- se suman problemas de puntuación y términos que directamente aparecen sin traducir, como ocurre con tabby. La traductora también detecta sinsentidos y repeticiones innecesarias en los artículos. “Le falta naturalidad cuando usa expresiones como olió airadamente e incluye traducciones literales”, señala. Un ejemplo de esto es la traducción disparar a estrellas en lugar de estrellas fugaces”.

Fallos en el estilo y la gramática estropean la traducción de DeepL, que por lo demás, Arrés clasifica como comprensible. “Cuenta con problemas similares de puntuación y de incoherencia. Le falta de naturalidad, especialmente al usar traducciones como se veía claramente arrugada, olfateó con rabia, sacudió su cabeza hacia atrás o ni siquiera vestida con ropa”, detalla la experta. Además, en el texto traducido se entremezclan expresiones propias del español latinoamericano como ¿cómo supo?.

Conclusión: “La primera traducción es la mejor [la de Google]. Se comprende en general y es la más coherente aunque sigue teniendo problemas de estilo y terminología. La peor es la segunda [la de Bing] porque el texto es incoherente y está plagado de sinsentidos”.

La propuesta de Google presenta, según Carolina Balsa, “expresiones poco naturales y que no se utilizan en el español de España”, como ocurre con luego de. Por lo demás, su balance es relativamente positivo: “Se capta bien el texto original porque se transmite correctamente el mensaje. El único error como tal de traducción es cuando se traduce cruise ship como cruceros, cuanto se refiere en realidad a un crucero en particular.

Por su parte, Bing es en esta ocasión la que, a jucio de la traductora, contiene expresiones “menos propias del lenguaje natural” y en la que se hace más evidente que se trata de una traducción automática. «Por ejemplo, con expresiones como bajo el cierre en lugar de bajo encierro, fue probada de nuevo en Malasia en lugar de se le hicieron pruebas de nuevo en Malasia o atraque por coronavirus”. En este último caso, no está redactado correctamente y no se entiende el significado. Debería ser “afectado por el coronavirus”.

La traducción de DeepL es la única que traduce correctamente crucero en singular y no cruceros, ya que la noticia se refiere a un crucero en particular. “Pese a esto, también incluye expresiones erróneas muy llamativas como virus coronario en lugar de coronavirus, lo cual invalida prácticamente el texto completo por ser el término principal de la noticia”, explica Balsa. Además, la experta detecta otros errores, como el uso del término americanos en lugar de estadounidenses.

Conclusión: “No podría indicarse cuáles son la mejor y la peor traducción claramente porque las tres transmiten la noticia, pero contienen errores importantes que hacen que no se vean como textos naturales, sino como traducciones automáticas”.

Los errores Celia Rico detecta en la traducción de Google “no son graves». Según explica, estos fallos afectan principalmente al orden de las palabras en las frases o resultan en a una redacción con un estilo forzado “muy ‘pegado’ al inglés”. “En un texto científico es clave que la terminología sea correcta y, en el caso de las dos primeras traducciones, esto se cumple”, señala.

Con la propuesta de Bing ocurre algo parecido: “Aunque la redacción en español resulta algo forzada, los errores detectados no son graves». Hay algunas frases que habría que revisar con el fin de mejorar el estilo. Por ejemplo, cuando pone “presentamos una estimación de la sensibilidad de calcificación a escala comunitaria a la acidificación de los océanos que, según nuestro conocimiento, es la primera que se basa en un experimento controlado en el entorno natural”.

En cambio, DeepL sí presenta errores difíciles de perdonar en este contexto: “Al ser una traducción científica, los errores son más graves porque sus consecuencias son mayores”, explica la experta. Es el caso de esta frase: “La adición de dióxido de carbono a las aguas de los arrecifes de coral suprime la calcificación de la comunidad neta” [en lugar de “la calcificación neta de la comunidad”]. Otro ejemplo sería cuando habla de “reducciones casi futuras del estado de saturación de la aragonita”.

Conclusión: “A la hora de valorar las traducciones que genera un programa de traducción automática debe tenerse en cuenta el uso final que se le va a dar al texto traducido. No es lo mismo valorar un texto que tiene un uso informativo y cuyo contenido es perecedero, como el de los foros de opiniones de usuarios en Internet o la descripción de un producto en plataformas de venta online, que valorar una publicación científica, una novela o un periódico. En estos últimos casos es imprescindible que un traductor profesional revise el texto final antes de que se publique y haga lo que se denomina ‘posedición’. Es decir, una revisión profesional de la traducción automática. Si yo tuviera que decidir si publicar o no alguna de estas traducciones tal cual salen de la máquina de traducir, mi decisión sería no hacerlo en ningún caso a no ser que antes fueran revisadas por un traductor profesional”.

Google se impone así en la traducción de uno de los textos propuestos, en otro empata en cabeza con Bing, y en el tercero gana DeepL. El traductor de Microsoft obtiene, globalmente, la peor puntuación. Las conclusiones de esta prueba no son científicas pero sí hay unanimidad entre las tres expertas en un detalle muy importante: al menos en los programas que están a disposición del gran público, la traducción es un ámbito en el que las máquinas aún están lejos de sustituir al humano.

DeepL está basado en los avances en aprendizaje profundo o deep learning, que incluyen tipos de redes neuronales como las de convolución o las redes neuronales recurrentes. José María Rosa Bastida, responsable del departamento de lengua española de la compañía, explica así el funcionamiento del sistema: “Usamos redes neuronales para traducir que funcionan de un modo similar a la estructura de nuestro cerebro. Encontramos neuronas conectadas entre sí. Una neurona recibe estímulos de otras neuronas y se activa. Cada una de ellas puede decidir qué estímulos la activan. Luego, tomamos una frase, que se convierte en activaciones de neuronas. Dejamos que estas activaciones fluyan por toda la red neuronal. Finalmente, las neuronas de salida convierten estas activaciones en la frase traducida”.

Al principio, “la calidad que se consigue es baja”. Pero a medida que se va entrenando a esas redes neuronales, las traducciones son mejores. Es un proceso que involucra a miles de millones de frases con cada lengua. El traductor de DeepL funciona, por ejemplo, con español, inglés, francés, portugués o ruso. “Cada idioma presenta particularidades y dificultades concretas”, explica el responsable del departamento de lengua española. La traducción a un idioma más simple a nivel sintáctico, según sostiene, facilita más la tarea que a un idioma más complejo, “en el que la relación entre las palabras puede depender más del contexto”.

DeepL nació en 2009. Por aquel entonces, llevaba el nombre de Linguee —uno de los buscadores de traducciones más utilizados del mundo—. Durante años, trató de identificar las traducciones de calidad de la web y diferenciarlas de las que no lo son. En 2016 comenzó a desarrollar este servicio de traducción. Cuando DeepL daba sus primeros pasos, contaba con 20 empleados. En la actualidad el equipo incluye a más de 60. Entre ellos hay científicos, matemáticos o físicos.

En el caso de Google Translate, se trata de un sistema de traducción automática neuronal que utiliza patrones de millones de traducciones existentes en la web para ayudar a decidir la mejor traducción. La cantidad de textos con los que ha sido entrenada la red neuronal condiciona la calidad de la traducción, según explicó a este periódico en diciembre Macduff Hughes, director de ingeniería de Google Translate: “Cuando dos idiomas son muy diferentes entre sí, se precisa una cantidad mayor de datos. Por ejemplo, gramaticalmente el inglés es muy diferente del chino y el japonés, por lo que se necesita una mayor cantidad de información para obtener la misma calidad que al hacer una misma traducción del inglés al español”.

En el caso de Bing, Microsoft también utiliza redes neuronales. Esta tecnología, según explica en su web, ha permitido en los últimos años importantes avances en la calidad de la traducción. Con ella, la compañía asegura que el traductor capta mejor el contexto de las frases completas antes de procesarlas.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *