¿Por qué la IA es tan mala en ortografía? Porque los generadores de imágenes en realidad no leen texto


Las IA son fácilmente superando el SAT, derrotando a grandes maestros del ajedrez y depurando código como si nada. Pero si comparas una IA con algunos estudiantes de secundaria en el concurso de ortografía, quedará eliminada más rápido de lo que puedes decir difusión.

A pesar de todos los avances que hemos visto en la IA, todavía no puede deletrear. Si pides a generadores de texto a imagen como DALL-E que creen un menú para un restaurante mexicano, es posible que detectes algunos platos apetitosos como “taao”, “burto” y “enchida” en medio de un mar de otras tonterías.

Y si bien ChatGPT podría escribir sus artículos por usted, es cómicamente incompetente cuando le pide que proponga una palabra de 10 letras sin las letras «A» o «E» (me dijo, «pasamontañas»). Mientras tanto, cuando un amigo intentó usar la IA de Instagram para generar una calcomanía que decía «nueva publicación», creó un gráfico que parecía decir algo que no podemos repetir en TechCrunch, un sitio web familiar.

Créditos de imagen: Diseñador de Microsoft (DALL-E 3)

«Los generadores de imágenes tienden a funcionar mucho mejor en artefactos como automóviles y rostros de personas, y menos en cosas más pequeñas como dedos y escritura», dijo Asmelash Teka Hadgu, cofundador de Lesan y miembro del Instituto DAIR.

La tecnología subyacente detrás de los generadores de imágenes y texto es diferente, pero ambos tipos de modelos tienen problemas similares con detalles como la ortografía. Los generadores de imágenes generalmente utilizan modelos de difusión, que reconstruyen una imagen a partir del ruido. Cuando se trata de generadores de texto, puede parecer que los modelos de lenguaje grandes (LLM) leen y responden a sus indicaciones como un cerebro humano, pero en realidad utilizan matemáticas complejas para hacer coincidir el patrón de la indicación con uno en su espacio latente. dejándolo continuar el patrón con una respuesta.

«Los modelos de difusión, el último tipo de algoritmos utilizados para la generación de imágenes, están reconstruyendo una entrada determinada», dijo Hagdu a TechCrunch. «Podemos asumir que las escrituras en una imagen son una parte muy, muy pequeña, por lo que el generador de imágenes aprende los patrones que cubren más de estos píxeles».

Los algoritmos están incentivados a recrear algo que se parece a lo que se ve en sus datos de entrenamiento, pero no conocen de forma nativa las reglas que damos por sentado: que «hola» no se escribe «heeelllooo» y que las manos humanas generalmente tienen cinco dedos.

«Incluso el año pasado, todos estos modelos eran realmente malos con los dedos, y ese es exactamente el mismo problema que el texto», dijo Matthew Guzdial, investigador de inteligencia artificial y profesor asistente en la Universidad de Alberta. “Se están volviendo muy buenos en eso a nivel local, así que si miras una mano con seis o siete dedos, podrías decir: ‘Oh, vaya, eso parece un dedo’. De manera similar, con el texto generado, se podría decir que parece una ‘H’ y otro que parece una ‘P’, pero son muy malos para estructurar todo esto en conjunto”.

Los ingenieros pueden mejorar estos problemas aumentando sus conjuntos de datos con modelos de entrenamiento diseñados específicamente para enseñar a la IA cómo deberían verse las manos. Pero los expertos no prevén que estos problemas ortográficos se resuelvan tan rápido.

Créditos de imagen: Adobe luciérnaga

“Puedes imaginarte hacer algo similar: si simplemente creamos un montón de texto, pueden entrenar un modelo para que intente reconocer lo que es bueno y lo que es malo, y eso podría mejorar un poco las cosas. Pero desafortunadamente, el idioma inglés es realmente complicado”, dijo Guzdial a TechCrunch. Y la cuestión se vuelve aún más compleja cuando se considera cuántos idiomas diferentes tiene que aprender la IA para trabajar.

A algunos modelos, como Adobe Firefly, se les enseña a simplemente no generar texto en absoluto. Si ingresa algo simple como «menú en un restaurante» o «cartel publicitario con un anuncio», obtendrá una imagen de un papel en blanco sobre una mesa o un cartel blanco en la carretera. Pero si incluye suficientes detalles en su mensaje, estas barreras son fáciles de sortear.

«Puedes pensar en ello casi como si estuvieran jugando Whac-A-Mole, como, ‘Está bien, mucha gente se está quejando de nuestras manos; agregaremos algo nuevo simplemente dirigiendo las manos al siguiente modelo’, y así y así sucesivamente”, dijo Guzdial. “Pero el texto es mucho más difícil. Debido a esto, ni siquiera ChatGPT puede deletrear”.

En Reddit, YouTube y X, algunas personas han subido videos que muestran cómo ChatGPT falla en la ortografía en arte ASCII, una de las primeras formas de arte de Internet que utiliza caracteres de texto para crear imágenes. En una reciente video, que fue llamado un «viaje rápido del héroe de la ingeniería», alguien intenta minuciosamente guiar a ChatGPT a través de la creación de arte ASCII que dice «Honda». Al final lo logran, pero no sin pruebas y tribulaciones odiseas.

«Una hipótesis que tengo es que no tenían mucho arte ASCII en su formación», dijo Hagdu. «Esa es la explicación más simple».

Pero en el fondo, los LLM simplemente no entienden qué son las letras, incluso si pueden escribir sonetos en segundos.

“Los LLM se basan en esta arquitectura transformadora, que en realidad no lee texto. Lo que sucede cuando ingresas un mensaje es que se traduce en una codificación”, dijo Guzdial. «Cuando ve la palabra «el», tiene esta codificación de lo que significa «el», pero no sabe acerca de ‘T’, ‘H’, ‘E'».

Es por eso que cuando le pides a ChatGPT que produzca una lista de palabras de ocho letras sin una «O» o una «S», es incorrecta aproximadamente la mitad de las veces. En realidad, no sabe qué es una “O” o una “S” (aunque probablemente podría citarle la historia de la letra en Wikipedia).

Aunque estas imágenes DALL-E de malos menús de restaurantes son divertidas, las deficiencias de la IA son útiles cuando se trata de identificar información errónea. Cuando intentamos ver si una imagen dudosa es real o generada por IA, podemos aprender mucho mirando señales de tráfico, camisetas con texto, páginas de libros o cualquier cosa donde una cadena de letras aleatorias pueda traicionar la síntesis de una imagen. orígenes. Y antes de que estos modelos mejoraran en la fabricación de manos, un sexto (o séptimo u octavo) dedo también podría ser un indicio.

Pero, dice Guzdial, si miramos lo suficientemente de cerca, no son sólo los dedos y la ortografía lo que la IA se equivoca.

«Estos modelos plantean estos pequeños problemas locales todo el tiempo; lo que pasa es que estamos particularmente bien preparados para reconocer algunos de ellos», afirmó.

Créditos de imagen: Adobe luciérnaga

Para una persona promedio, por ejemplo, una imagen de una tienda de música generada por IA podría ser fácilmente creíble. Pero alguien que sepa un poco de música podría ver la misma imagen y notar que algunas de las guitarras tienen siete cuerdas, o que las teclas blancas y negras de un piano están espaciadas incorrectamente.

Aunque estos modelos de IA están mejorando a un ritmo alarmante, es probable que estas herramientas todavía encuentren problemas como este, lo que limita la capacidad de la tecnología.

«Este es un progreso concreto, no hay duda al respecto», dijo Hagdu. «Pero el tipo de publicidad que está recibiendo esta tecnología es simplemente una locura».





Source link-48