Google Translate vs. ChatGPT: ¿Cuál es el mejor traductor de idiomas?


Con Google Translate, convertir cualquier oración a más de 100 idiomas es muy fácil, pero cualquiera que lo use regularmente sabe que hay margen de mejora.

En teoría, los modelos de idiomas grandes (LLM) como ChatGPT deberían marcar el comienzo de la próxima era de traducción de idiomas. Consumen grandes volúmenes de datos de entrenamiento basados ​​en texto, además de comentarios en tiempo real de millones de usuarios en todo el mundo, y aprenden rápidamente a «hablar» una amplia gama de idiomas con oraciones coherentes y parecidas a las humanas.

Pero hemos escuchado el estribillo «ChatGPT va a reemplazar todo» antes, solo para descubrir que a menudo es inexacto, el peor de los casos para la traducción. «Actualmente no tenemos resultados empíricos que respalden las afirmaciones de que los LLM conversadores funcionan mejor para la traducción», dice Nazneen Rajani, líder de investigación en Hugging Face.(Se abre en una nueva ventana)creador de Hugging Chat basado en IA.

Entonces, decidimos poner a prueba ChatGPT. ¿Tiene las habilidades para reemplazar a Google Translate como el servicio de traducción de referencia para viajes, trabajo, romance transfronterizo y cualquier otra necesidad de idioma? ¿Y cómo se compara con sus chatbots hermanos, Microsoft Bing y Google Bard?


Metodología e Idiomas Probados

idiomas del mundo

(Crédito: Wara1982 / Getty Images)

Pedimos a hablantes bilingües de siete idiomas que hicieran una prueba a ciegas. Todos ellos crecieron hablando idiomas distintos al inglés y ahora viven en los EE. UU. y/o trabajan para empresas estadounidenses.

Dado un párrafo en inglés, clasificaron la versión traducida para su idioma por Google Translate, ChatGPT y Microsoft Bing. Una vez que completaron el ejercicio, revelamos qué servicio produjo cada uno.

  • Idiomas probados: polaco, francés, coreano, español, árabe, tagalo, amárico

  • Servicios de traducción: Traductor de Google, Google Bard, ChatGPT, Microsoft Bing

Esto no es de ninguna manera un estudio completo. «Tenga en cuenta que las pruebas ciegas pequeñas son insuficientes; se necesitan pruebas más rigurosas para evaluar y comparar adecuadamente estas herramientas con significancia estadística», dice Federico Pascual, un veterano de la industria de la IA. Aún así, los resultados son sorprendentemente consistentes y brindan una visión fascinante de cómo funcionan los modelos de IA.


Creación de un párrafo para traducción

Yo en burbuja de palabras.

(Crédito: Vadim Sazhniev / Getty Images)

Con los idiomas y los modelos de IA seleccionados, elaboramos algunos párrafos en inglés que revelarían los límites de las capacidades de traducción de cada servicio. El primero incluía dos coloquialismos complicados: «Blow off steam», que significa relajarse después de un día estresante, y «¡Salud!» que significa «¡Gracias!» También tenía dos medidas que tendrían que convertirse en un escenario de la vida real: USD ($) y millas (en lugar de kilómetros).

  • Párrafo 1«¡Hola! ¿Hablas inglés? Necesito ayuda con las direcciones. Estoy tratando de encontrar un restaurante vegetariano porque mi hermana no come carne. ¿Qué me recomiendas? También queremos quedarnos a unas pocas millas de aquí, y no No quiero gastar más de $ 50. Si tienen cócteles, eso sería una ventaja. ¡Tuvimos un largo día de viaje y necesitamos desahogarnos! Eres bienvenido a unirte a nosotros. ¡Salud!»

El segundo párrafo era más sencillo, sin frases ni unidades de medida, pero tenía más jerga («hooligans» y «pop champagne»). Solo enviamos este a la segunda mitad de los participantes en un intento de ampliar la recopilación de datos a medida que refinamos el enfoque.

  • Párrafo 2 «¿Cómo compro boletos para la fiesta en el barco? ¿Debemos pagar por adelantado o podemos comprarlos en el muelle cuando lleguemos? Necesito estar en la cubierta superior porque a veces me mareo cuando estoy demasiado cerca al agua. Además, quiero estar lo más lejos posible de los jóvenes hooligans que quieren hacer estallar champán constantemente durante el viaje. ¡Eso es peligroso y no es mi tipo de diversión!»


Resultados: los chatbots de IA superan al traductor de Google

De los 12 ejemplos que enviamos a nuestros participantes, prefirieron los chatbots de IA (ChatGPT, Google Bard o Microsoft Bing) a Google Translate. ChatGPT los superó a todos.

La siguiente tabla contiene la clasificación de nuestros participantes para cada servicio. Aquellos que recibieron ambos párrafos de ejemplo están marcados con (1) y (2). Los demás sólo recibieron el primero.

«En mi opinión, [ChatGPT] es lo más cercano a una conversación normal”, dice Ana Romero, quien clasificó las traducciones al español. “El nivel de formalidad entre las dos preguntas clave es consistente (informal) y se usa la traducción correcta de ‘desahogarse’”.

Romero también agradeció que la traducción de ChatGPT brinde la opción de terminar ciertas palabras en masculino o femenino, en lugar de seleccionar una para usted. Por ejemplo, escribió: eres bienvenido/a unirte a nosotros—»usted es bienvenido a unirse a nosotros»—que variaría según el género del invitado del orador.

Google Bard rara vez funcionó, e incluso nos dijo: «No puedo traducir idiomas». En cambio, recomienda usar Google Translate, probablemente un esfuerzo de Google para no canibalizar sus propios productos. Pero aun así lo probamos, y las tres veces que funcionó (coreano, francés, español), nuestros participantes clasificaron sus resultados por encima de Google Translate.

Todos los chatbots no cumplieron nuestras altas expectativas para las medidas de moneda y distancia en el primer párrafo. Dada su naturaleza conversacional y su capacidad para hacer preguntas de seguimiento, esperábamos que preguntaran a qué moneda convertir y si preferíamos millas o kilómetros.

En cambio, los trataron de la misma manera que Google Translate; haciendo pequeños ajustes, a veces agregando «USD» después de $50, o avanzando para convertir millas en kilómetros. Era inconsistente entre idiomas y servicios e imperfecto en general.


Todo se reduce a dominar los matices

galleta y té

Se llama ‘cookie’ en los EE. UU., pero ‘galleta’ en el Reino Unido. (Crédito: olligha / Getty Images)

Un escollo constante para Google Translate fueron sus interpretaciones literales. «Fue la traducción más ‘palabra por palabra’ de las tres», dice Emile Saad, quien clasificó las traducciones al árabe. «Esto hizo que se perdiera parte del contexto. Por ejemplo, ‘pop’ [as in champagne] se tradujo como ‘hacer fuegos artificiales'».

En francés, Google Translate mantuvo la palabra «hooligans» en inglés, mientras que los chatbots supieron usar la jerga culturalmente apropiada. voraz.

Resulta que los chatbots están diseñados para sobresalir en los matices y el contexto. Los idiomas en los que los modelos tienen una gran cantidad de datos de origen y más usuarios que interactúan en ese idioma pueden identificar mejor las frases culturales y elegir la coincidencia más adecuada en el idioma de destino.

«La salsa secreta de los chatbots como ChatGPT es RLHF, que es aprendizaje reforzado con retroalimentación humana», dice Rajani de Hugging Face. «[They] recopilar preferencias humanas en respuestas modelo para dimensiones tales como veracidad, inocuidad, utilidad, etc. Las preferencias humanas ayudan a seleccionar las que son culturalmente más apropiadas, especialmente para hablantes no nativos».

Un portavoz de Google le dice a PCMag que Bard y Google Translate tienen «diferentes tecnologías subyacentes, por lo que no es sorprendente que puedan producir resultados diferentes». Bard es un modelo de lenguaje grande diseñado para realizar una variedad de tareas, mientras que Google Translate está optimizado específicamente para la tarea de traducción.

“Lo que importa es el tamaño, estos modelos son los más grandes y mejores que hay”, dice Pascual. «Están en la primera línea de la carrera armamentista de la IA. Por lo tanto, no sorprende que sean incluso mejores para traducir texto que Google Translate, ya que Google Translate probablemente usa tecnología más antigua, modelos más pequeños, [and are] probablemente optimizado para funcionar de la manera más rápida y económica posible».

Sin embargo, ninguna de las cuatro opciones fue un reemplazo uno a uno para un hablante fluido. Todos los chatbots todavía sufrían de una elección de palabras incómoda e inexacta a veces, solo que tenían menos instancias de ello. Por ejemplo, en polaco, Microsoft Bing tradujo «Le invitamos a unirse a nosotros [at the restaurant]a «Zapraszamy Cię do nas», que en realidad es una invitación a «venir a mi casa», dice Barbara Pavone, asociada sénior de crecimiento y participación de PCMag.

Recomendado por Nuestros Editores


Si hablas estos 2 idiomas, usa el traductor de Google

Cuencos coloridos

Cuencos etíopes tradicionales (Crédito: Evgenii Zotov / Getty Images)

En nuestra prueba, dos idiomas clasificaron a Google Translate en la parte superior: tagalo (Filipinas) y amárico (Etiopía). Tienen la población global estimada de hablantes más pequeña: el tagalo tiene 33 millones de hablantes globales que lo reclaman como su lengua materna, y el amárico tiene 25 millones, según WorldData.info(Se abre en una nueva ventana). (El español tiene 450 millones para el español y el coreano está en 80 millones).

«[AI models] no se generalizaría bien para los idiomas con pocos recursos o para los que no se recopilaron suficientes preferencias humanas», dice Rajani. Para el amárico y el tagalo, sospechamos que los chatbots carecían de suficientes datos para dar una respuesta matizada que se ajuste al contexto del párrafo. En cambio, , ellos aparecieron más literal que Google Translate, lo contrario de lo que vimos para los otros idiomas.

Colin Salao, quien clasificó las traducciones al tagalo, señaló que ChatGPT usó palabras que son «súper formales» y reservadas para anuncios públicos. Descubrió que Bing era «la traducción más literal» y la clasificó más abajo en comparación con ChatGPT y Google Translate.

Microsoft Bing luchó aún más por el amárico. Dejó una parte de cada párrafo en inglés. Esta fue la única vez que alguno de los servicios no pudo intentar una traducción, incluso para otros idiomas basados ​​en scripts como el coreano y el árabe:

  • Párrafo 1 – ሰላም! ¿Tienes un problema? በመጠን የተመረጡ መኪና ቤት የተጠቀሱ ምግቦች ይህ መሆኑ ስለ መጠየቅ ይፈል ጋሉ? እኔ በ $50 ብቻ መጠቀም እና የ cócteles ይጠቀማ? ከ 2-3 ሜ. ¡Hemos tenido un largo día de viaje y necesitamos desahogarnos! Eres bienvenido a unirte a nosotros. ¡Salud!

  • Párrafo 2 – እንዴት መገልገያ ይጠቀማል? ¿Está disponible el muelle? በ መጠን የ cubierta superior ይደርሳል እና በ ግራ ተጨማሪ የ champán መጠጥ የ jóvenes hooligans ከ ተጨማሪ በ ቀን ይጠቀማ? ¡Eso es peligroso y no es mi tipo de diversión!


La IA mejorará la traducción web

Para cualquier viaje de verano u otras necesidades lingüísticas, ChatGPT podría ser una mejor opción que Google Translate. Además, su nueva aplicación para iOS lo hace aún más accesible. Pero como vimos con el amárico y el tagalo, los chatbots aún no reemplazan por completo a los viejos recursos.

Sin embargo, con más datos de entrenamiento en cada idioma, los modelos de IA tienen el potencial de superar las capacidades de Google Translate en todos los ámbitos. «Estamos entusiasmados con el potencial de los LLM y cómo se pueden incorporar a nuestros productos», dice Google a PCMag.

Google también está probando una nueva página de resultados de búsqueda, denominada experiencia generativa de búsqueda (SGE). Está configurado para lanzarse en Google.com en una fecha no revelada y ofrecerá una respuesta a las consultas basada en párrafos, estilo ChatGPT. Pero Google enfatiza que Bard y SGE son experimentales y no comentaron si podrían reemplazar a Google Translate en el futuro.

Antes de que esto pueda suceder, Google debe tener una forma más definitiva de medir las capacidades de traducción de los chatbots y demostrar que es mejor que Google Translate. En términos más generales, todos los chatbots deberían poder interactuar en una amplia gama de idiomas, como el amárico, para mantener el futuro de la web accesible y lo más «mundial» posible.

«Todos estos [AI] Los sistemas son cajas negras y no comparten información específica sobre cómo se construyeron, qué datos se usaron para el entrenamiento, etc. «, dice Pascual. «Estamos empezando a ver lo que estos enormes modelos pueden hacer, y es igualmente emocionante y aterrador. !»


Obtenga más información sobre la tecnología detrás de ChatGPT y otros LLM en nuestro explicador.

¡Obtenga nuestras mejores historias!

Matricularse en ¿Qué hay de nuevo ahora? para recibir nuestras mejores historias en su bandeja de entrada todas las mañanas.

Este boletín puede contener publicidad, ofertas o enlaces de afiliados. Suscribirse a un boletín informativo indica su consentimiento a nuestros Términos de uso y Política de privacidad. Puede darse de baja de los boletines en cualquier momento.





Source link-38