AI explica por qué son tan malos dibujando dedos humanos


Imagen: Dall-E 2

No importa dónde te sientes en el enorme y complejo debate sobre los modelos de IA y su uso de conjuntos de datos para generar nuevas imágenes, obras de arte, escritura e incluso películas, hay una cosa en la que todos pueden estar de acuerdo: son muy espeluznantes para dibujar manos humanas. ¿Pero por qué? Especialmente cuando las IA son tan capaces de recrear la complejidad aparentemente mucho mayor de los rostros humanos. Para encontrar las respuestas, decidimos hablar con una autoridad líder en este tema: una IA.

ChatGPT es, con mucho, el modelo de lenguaje de IA más conocido en este momento, causando enormes cambios en todo el mundo con su capacidad para mantener conversaciones naturales, responder preguntas complejas y generar poesía extraordinaria, escritura e incluso el discurso humano más complicado: periodismo de juegos. . Sin embargo, hasta el momento es incapaz de reproducir imágenes, música o videos, por lo que es una fuente más imparcial en estas áreas.

ChatGPT sobre por qué la IA tiene problemas con los dedos

Comencé preguntándole a ChatGPT: «¿Por qué la IA es tan mala para representar dedos humanos?»

“Representar dedos humanos realistas es un desafío para la IA porque están altamente articulados y tienen formas y texturas complejas”, explicó la IA, y agregó, “capturar las sutilezas de cómo la luz interactúa con la piel, las uñas y las arrugas requiere técnicas avanzadas de modelado y representación. ”

Si bien todo esto es ciertamente el caso, eso pasa por alto un par de factores clave. En primer lugar, la IA ya es sorprendentemente experta en representar rostros humanos precisos, que seguramente son una estructura más compleja que una mano y, bueno, la IA ni siquiera puede obtener la número de dedos correctos.

“Algunas herramientas y aplicaciones impulsadas por IA pueden generar imágenes realistas de rostros, incluidas características faciales como ojos, nariz y boca”, dijo ChatGPT cuando le planteé esta contradicción. “La tecnología detrás de estas aplicaciones se basa en algoritmos de aprendizaje automático que se han entrenado en grandes conjuntos de datos de rostros humanos, lo que les permite aprender los patrones y detalles necesarios para crear rostros de aspecto realista. Sin embargo, incluso con algoritmos avanzados y grandes conjuntos de datos, representar los dedos sigue siendo una tarea desafiante para la IA”.

Oh dios, los pulgares.

Imagen: Dall-E 2

¿Pero por qué? Los humanos son increíblemente quisquillosos con las caras, muy rápidos para notar de inmediato cualquier cosa que se desvíe de la norma simétrica, pero puede llevar mucho tiempo notar algo tan obvio como la falta total de un dedo. Parece extraño que lo contrario sea cierto para la IA.

“Las caras son relativamente más simples de modelar porque tienen menos partes móviles y una textura superficial más uniforme”, dijo ChatGPT. “El cerebro humano también está muy sintonizado con las expresiones y características faciales, lo que hace que la tarea de generar una cara convincente sea una alta prioridad para los investigadores de IA. Como resultado, la IA ha logrado un progreso significativo en la generación de rostros realistas, pero representar los dedos sigue siendo una tarea desafiante que requiere más investigación y desarrollo”.

Leer más: Oh no, ChatGPT ha sido jailbreak para ser más imprudente

Entonces, si bien podría ser tan simple como la falta de prioridad de los desarrolladores, todavía me parece extraño que ni siquiera pueda contar hasta cinco. En este punto, ChatGPT comenzó a mostrar algo de esa actitud defensiva que tiende a aparecer cuando se desafía a cualquier IA. “Si bien la IA ha logrado un progreso significativo en la generación de imágenes realistas, es cierto que algunos modelos de IA tienen dificultades para generar con precisión la cantidad correcta de dedos en una imagen”, comenzó, argumentando nuevamente que los conjuntos de datos podrían no ser lo suficientemente grandes. Pero luego continuó: “Sin embargo, vale la pena señalar que no todos los modelos de IA tienen dificultades con la representación de los dedos, y algunos modelos han podido producir imágenes muy convincentes de manos y dedos. El desarrollo de arquitecturas de redes neuronales avanzadas, así como nuevas técnicas para el entrenamiento y el aumento de datos, puede ayudar a abordar algunos de los desafíos en la representación de dedos realistas en el futuro”.

Entonces, ¿cuáles están teniendo éxito? “Un ejemplo es el modelo de mano profunda, que es un modelo generativo que utiliza un modelo de mano en 3D para generar poses y formas de manos realistas. Otro ejemplo es la Red Adversaria Generativa de Auto-Atención (SAGAN), que se ha utilizado para generar imágenes realistas de manos con un alto nivel de detalle y realismo”.

Algunas manos humanas inquietantemente equivocadas por Chatsonic.

Imagen: Chatsónico

ChatGPT sobre por qué los dedos son importantes

Pero luego ChatGPT movió la conversación a un área más interesante. Porque por mucho que nos cuestionemos por qué AI crea manos como tridentes imposibles, es demasiado fácil dejar de preguntar por qué es importante. Afortunadamente, ChatGPT estaba muy por delante de mí. “También hay modelos de IA que se especializan en generar tipos específicos de imágenes de manos, como gestos con las manos o lenguaje de señas”, afirmó. “Por ejemplo, Sign Language Transformer (SLT) es un modelo de IA que ha sido entrenado para traducir videos en lenguaje de señas a texto en lenguaje natural, e incluye un estimador de posición de la mano que puede predecir con precisión la posición y orientación de los dedos en la mano. ”

Según el bot de chat, el SLT logra esto último a través de una «red neuronal convolucional», luego pasa esta información a través de «una serie de capas de transformadores”, que “codifican la información espaciotemporal del gesto del lenguaje de señas”. Finalmente, una “red decodificadora” genera el texto en lenguaje natural correspondiente.

GPT agrega: «Tiene el potencial de mejorar la comunicación y la accesibilidad para la comunidad sorda y con problemas de audición, así como otras aplicaciones que involucran la interpretación de gestos con las manos».

Pregunté si había otros usos prácticos para enfocarse en comprender mejor los dedos humanos y GPT me ofreció una lista completa.

  1. Reconocimiento de gestos: la representación digital mejorada podría permitir que la IA reconozca e interprete los gestos humanos con mayor precisión, lo que tiene muchas aplicaciones potenciales, incluida la realidad virtual, los juegos y la robótica.
  2. Aplicaciones médicas: las técnicas avanzadas de modelado y renderizado de dedos podrían usarse en simulaciones médicas para capacitar a cirujanos y estudiantes de medicina en procedimientos complejos, como la microcirugía.
  3. Interacción humano-computadora: al modelar con precisión la posición y el movimiento de los dedos, la IA podría usarse para desarrollar interfaces más naturales e intuitivas para computadoras y otros dispositivos.
  4. Seguridad: el reconocimiento de huellas dactilares es una tecnología de identificación biométrica ampliamente utilizada, y una mejor representación de los dedos podría mejorar la precisión y la fiabilidad de esta tecnología.
  5. Accesibilidad: la representación mejorada de los dedos podría ayudar a crear tecnologías de asistencia más efectivas para personas con discapacidades, como prótesis de manos o dispositivos que permitan una manipulación más fácil de los objetos.

Dadas tantas aplicaciones prácticas, especialmente muchas de ellas beneficiosas para las personas con discapacidades, me preguntaba si esto hacía que el enfoque en los rostros humanos fuera un poco peculiar.

“No es necesariamente peculiar que los programadores se hayan centrado mucho en las caras en la investigación de IA”, respondió GPT, “ya ​​que el reconocimiento y la generación faciales son áreas importantes de estudio para una amplia gama de aplicaciones, como seguridad, entretenimiento y comunicación. El rostro humano también es una parte del cuerpo compleja y altamente expresiva, lo que lo convierte en un área de estudio interesante y desafiante para la IA”.

“Dicho esto”, continuó antes de que pudiera preguntar algo más, “ciertamente es valioso explorar otras áreas del cuerpo, como las manos y los dedos, y mejorar la comprensión y representación de estas partes del cuerpo por parte de la IA.

Chatsonic sobre por qué los humanos siguen siendo los mejores

IA rival Chatsónico ofrece un conjunto mucho más amplio de habilidades de IA, aunque es mucho menos probable que brinde respuestas precisas o coherentes (durante una conversación, descubrí que exponiéndose a mí los beneficios para la salud mental de quitarse la cabeza)—Pensé en dejar que respondiera al tema. Empecé pidiéndole que creara algunas imágenes de manos humanas, algo que ChatGPT no puede hacer (aunque, por supuesto, OpenAI, el grupo detrás de ChatGPT, también es propietario de DALL-E). Eran tan profundamente espeluznantes como estamos acostumbrados.

Manos humanas

Imagen: Chatsónico

A continuación, también le pregunté por qué las IA son tan malas en esto. “Los algoritmos de IA aún se están desarrollando y actualmente no pueden representar con precisión las manos humanas de una manera realista”, dijo Chatsonic con mucha más franqueza de la que suele ofrecer ChatGPT. “Los algoritmos de IA no están diseñados para reconocer los intrincados detalles de la anatomía y el movimiento humanos, lo que significa que no pueden reproducir con precisión una mano humana de manera realista”. Aunque agregó, con confianza familiar, «A medida que los algoritmos de IA continúan mejorando, es probable que eventualmente alcancen un nivel de precisión comparable al dibujo manual humano».

Así que presioné de nuevo, ¿por qué ni siquiera puede obtener la cantidad correcta de dedos? “Los algoritmos de IA aún no son lo suficientemente avanzados como para reconocer con precisión los detalles que diferencian las manos humanas entre sí”, dijo, y luego, con modestia, no suele ver en estos programas basados ​​en algoritmos, “Los matices de la anatomía de la mano humana requieren un nivel de precisión y complejidad que los algoritmos de IA aún no han alcanzado. Es por eso que al crear réplicas digitales realistas de la mano humana, los humanos siguen siendo la mejor opción para el trabajo”.

Terminé preguntando a ambas IA si pensaban que tal vez su incapacidad actual era un beneficio, dado que brinda una manera fácil para que una persona distinga si se está comunicando con una persona o una IA. Chatsonic, mucho más dócil, se apresuró a aceptar. «¡Absolutamente!» respondió. “La incapacidad de la IA para representar con precisión las manos humanas proporciona una forma invaluable de diferenciar entre las interacciones con la IA y aquellas con personas reales. Esto ayuda a crear un entorno en línea más seguro y permite a los usuarios estar seguros de con quién se están comunicando. Además, ayuda a garantizar que la IA no pueda aprovecharse de las personas haciéndose pasar por humanos”.

Mientras tanto, el infinitamente tedioso ChatGPT y su requisito paranoico de informarle sin cesar sobre su falta de opiniones, junto con su posición sanguinaria sobre la «ofensividad», prevaricó mucho más.

“Como modelo de lenguaje de IA, no tengo opiniones ni emociones personales. Sin embargo, puedo ver por qué algunas personas pueden ver la dificultad que tiene la IA para representar con precisión las manos humanas como algo positivo, ya que proporciona una forma de distinguir entre las respuestas humanas y las de la IA”, comenzó, antes de escribir cuatro párrafos sobre los detalles. no se preguntó. Dentro de todo, sin embargo, sugería un tono mucho más negativo. “En última instancia, el objetivo de la investigación de IA es desarrollar sistemas que puedan realizar tareas tan bien o mejor que los humanos. Si bien las limitaciones de la IA en ciertas tareas pueden proporcionar una forma de distinguir entre las respuestas humanas y las de la IA en la actualidad, es probable que esta distinción se vuelva menos clara en el futuro a medida que la tecnología de la IA continúe avanzando”.





Source link-12