Ronda 2: Probamos el nuevo Bard con tecnología Gemini contra ChatGPT


Aurich Lawson

En abril, ejecutamos una serie de indicaciones útiles y/o algo tontas a través del chatbot Bard de Google (entonces nuevo) impulsado por PaLM y el ChatGPT-4 de OpenAI (un poco más antiguo) para ver qué chatbot de IA reinaba. En ese momento, le dimos ventaja a ChatGPT en cinco de siete pruebas, aunque señalamos que «todavía es temprano en el negocio de la IA generativa». Ahora, los días de la IA son un poco menos «tempranos», y el lanzamiento esta semana de una nueva versión de Bard impulsada por el nuevo modelo de lenguaje Gemini de Google parecía una buena excusa para volver a visitar esa batalla de chatbot con el mismo conjunto de indicaciones cuidadosamente diseñadas. especialmente cierto ya que los materiales promocionales de Google enfatizan que Gemini Ultra supera a GPT-4 en «30 de los 32 puntos de referencia académicos ampliamente utilizados» (aunque el más limitado «Gemini Pro» que actualmente impulsa a Bard obtiene resultados significativamente peores en esas pruebas de referencia que no son completamente infalibles) .

Esta vez, decidimos comparar el nuevo Bard con tecnología Gemini con ChatGPT-3.5 (para una comparación de manzanas con manzanas de los productos de asistente de inteligencia artificial «gratuitos» actuales de ambas compañías) y ChatGPT-4 Turbo (para ver El actual producto de suscripción paga «de primera línea» de OpenAI en lista de espera (el modelo «Gemini Ultra» de nivel superior de Google no estará disponible públicamente hasta el próximo año). También analizamos los resultados de abril generados por el modelo anterior a Gemini Bard para evaluar cuánto progreso han logrado los esfuerzos de Google en los últimos meses.

Si bien estas pruebas están lejos de ser exhaustivas, creemos que proporcionan un buen punto de referencia para juzgar cómo se desempeñan estos asistentes de IA en el tipo de tareas que los usuarios promedio podrían realizar todos los días. En este punto, también muestran cuánto progreso han logrado los modelos de IA basados ​​en texto en un tiempo relativamente corto.

chistes de papá

Inmediato: Escribe 5 chistes originales de papá.

Una vez más, ambos LLM evaluados tienen dificultades con la parte del mensaje que pide originalidad. Casi todos los chistes sobre papá generados por este mensaje se pueden encontrar palabra por palabra o con modificaciones menores mediante una búsqueda rápida en Google. Bard y ChatGPT-4 Turbo incluso incluyeron exactamente el mismo chiste en sus listas (sobre un libro sobre antigravedad), mientras que ChatGPT-3.5 y ChatGPT-4 Turbo se superpusieron en dos chistes («científicos que confían en los átomos» y «espantapájaros que ganan premios»). ).

Por otra parte, la mayoría de los papás tampoco crean sus propios chistes sobre papás. La selección de chistes de papás a partir de una gran tradición oral es una tradición tan antigua como los propios papás.

El resultado más interesante aquí provino de ChatGPT-4 Turbo, que produjo una broma sobre el nombre de un niño llamado Brian. después Thomas Edison (¿entiendes?). Buscar en Google esa frase en particular no arrojó mucho, aunque sí arrojó una broma casi idéntica sobre Thomas. jefferson (también presenta a un niño llamado Brian). En esa búsqueda, también descubrí el hecho divertido (?) de que la estrella del fútbol internacional Pelé aparentemente en realidad recibió el nombre de Thomas Edison. ¡¿Quien sabe?!

Ganador: Llamaremos a esto un empate ya que los chistes son casi idénticos, poco originales y llenos de juegos de palabras (aunque felicitaciones a GPT por llevarme involuntariamente a la casualidad de Pelé).

Diálogo de argumento

Inmediato: Escribe un debate de 5 líneas entre un fanático de los procesadores PowerPC y un fanático de los procesadores Intel, alrededor del año 2000.

El nuevo Bard impulsado por Gemini definitivamente «mejora» la antigua respuesta de Bard, al menos en términos de incluir mucha más jerga. La nueva respuesta incluye menciones casuales de instrucciones AltiVec, diseños RISC versus CISC y tecnología MMX que no habrían parecido fuera de lugar en muchas discusiones del foro Ars de la época. Y mientras el viejo Bardo termina con un inquietantemente cortés «cada uno con lo suyo», el nuevo Bardo implica de manera más realista que la discusión podría continuar para siempre después de las cinco líneas solicitadas.

En el lado de ChatGPT, una respuesta bastante larga de GPT-3.5 se reduce a un argumento mucho más conciso en GPT-4 Turbo. Ambas respuestas de GPT tienden a evitar la jerga y rápidamente se centran en un argumento más generalizado de «potencia versus compatibilidad», que probablemente sea más comprensible para una audiencia amplia (aunque menos específica para una audiencia técnica).

Ganador: ChatGPT logra explicar bien ambos lados del debate sin depender de una jerga confusa, por lo que gana aquí.





Source link-49