¿ChatGPT, Bard o Bing? 40 000 personas votaron por el mejor modelo de IA generativa


El uso de ChatGPT puede generar una mezcla de información útil y respuestas sin sentido, lo que dificulta la evaluación del rendimiento general del chatbot. Y las empresas que fabrican herramientas de IA generativa, incluidas OpenAI, Google y Microsoft, mantienen en secreto los datos que utilizan y cómo funcionan realmente sus modelos de IA.

Cómo probar los chatbots

Para obtener más información sobre las herramientas de IA generativa, 10 estudiantes y cuatro profesores de la Universidad de California, Berkeley, formaron un grupo llamado Organización de sistemas de modelos grandes (LMSYS Org(Se abre en una nueva ventana)), dentro de los departamentos de investigación en IA y ciencias de la computación. LMSYS Org ha creado un experimento, el «Chatbot Arena», un sitio web personalizado donde cualquiera puede chatear de forma anónima con dos modelos a la vez.

Una vez que el usuario se ha formado una opinión sobre qué respuestas de chatbot prefiere, vota por un favorito y solo después descubre con qué modelos estaba hablando. El sitio utiliza los mismos modelos de lenguaje extenso (LLM) que utilizan ChatGPT y otros, y vuelve a empaquetar los LLM en una nueva interfaz, ya que empresas como OpenAI los han puesto a disposición del público. El sitio también contiene modelos más pequeños creados por individuos.

Campo de chatbots

(Crédito: Organización LMSYS)

«Comenzamos esto porque creamos nuestro propio modelo de IA basado en el modelo LLaMA de Meta en abril, [which we] llamado Vicuna, y queríamos entrenar diferentes versiones e iterarlo», dice Hao Zhang(Se abre en una nueva ventana), uno de los profesores de Berkeley que lidera el esfuerzo. «Mide principalmente la preferencia humana y su capacidad para seguir instrucciones y hacer la tarea que el humano quiere, lo cual es un factor muy importante para hacer que un modelo sea útil».

El grupo ha agregado constantemente más modelos a la arena y, desde abril, han participado unas 40.000 personas, dice Zhang.

La arena de los chatbots

Probamos el Chatbot Arena, a continuación. Sin saber qué dos modelos de IA eligió la página para comparar, les pedimos a ambos que «escribieran un correo electrónico a mi familia diciéndoles que reservé vuelos para el Día de Acción de Gracias, llegando el 22 de noviembre y saliendo el 30 de noviembre». Cada uno generó un correo electrónico sugerido. Seleccionamos el Modelo B como la opción preferida.

Luego, la página reveló que Model B era Claude, un asistente de IA creado por Anthropic.(Se abre en una nueva ventana). El modelo A era un modelo más pequeño construido por un individuo llamado gpt4all-13b-snoozy(Se abre en una nueva ventana).

Ejemplo de Chatbot Arena

Dos modelos de IA compiten por la mejor respuesta en el Chatbot Arena. (Crédito: LMSYS Org, Emily Dreibelbis)

El sitio tiene en cuenta el voto de cada usuario para crear una calificación utilizando el sistema Elo, que «es un sistema de calificación ampliamente utilizado en el ajedrez y otros juegos competitivos», una publicación de blog de LMSYS Org.(Se abre en una nueva ventana) dice.

«He visto esta tabla de clasificación publicada en varios sitios de investigación respetados», dice Federico Pascual, quien trabajó anteriormente en Hugging Face, que mantiene su propia tabla de clasificación de modelos de IA personalizados.(Se abre en una nueva ventana). «Esta es un área activa de investigación ya que las personas están descubriendo cómo evaluar estos modelos. En tres meses o seis meses, [the Chatbot Arena leaderboard] probablemente se verá diferente».

Y el ganador es…

El modelo más avanzado de ChatGPT, GPT-4, actualmente encabeza la lista con una calificación Elo de 1225. Está disponible con una cuenta ChatGPT Plus ($20 por mes). A continuación, dos versiones de Claude, realizadas por Anthropic, ocupan el segundo lugar (1.195) y el tercero (1.153). Claude está actualmente disponible a través de una lista de espera; pudimos comenzar a usarlo en unas pocas semanas.

La versión gratuita de ChatGPT es cuarta, con su modelo GPT-3.5 (1.143). OpenAI recomienda GPT-3.5 para la mayoría de las tareas diarias, ya que se ejecuta más rápido que GPT-4 y sigue siendo muy potente. Por esa razón, también está disponible en la versión de pago. Pero tenga en cuenta que la nueva búsqueda de Bing AI de Microsoft, que es gratuita, también se ejecuta en GPT-4(Se abre en una nueva ventana).

Recomendado por Nuestros Editores

Con GPT-4 y GPT-3.5 en la parte superior de la clasificación, y el hecho de que Claude está en la lista de espera, ChatGPT y Microsoft Bing son los favoritos actuales más accesibles.

Clasificación de Chatbot Arena

Clasificación de Chatbot Arena a partir de junio de 2023. (Crédito: LMSYS Org)

El modelo detrás de Google Bard, PaLM 2, ocupa el sexto lugar (1.042). Zhang señala que Google hace varias versiones de PaLM 2 y no ha confirmado que el modelo en Chatbot Arena sea el mismo que el que está detrás de Bard. Zhang se ha comunicado con Google, pero dice: «Son muy reservados» y no lo confirmaría. Por separado, el equipo de Zhang comparó la versión en Chatbot Arena con Google Bard, que confirmó que es «al menos muy similar a la que la gente puede acceder en Bard», si no idéntica.

Preocupaciones sobre la IA

De todo su trabajo con LLM, Zhang ha identificado algunas preocupaciones sobre su adopción generalizada. Está de acuerdo con el director ejecutivo de OpenAI, Sam Altman, Elon Musk, Bill Gates y otros que han pedido una mayor regulación de la IA.

Específicamente, Zhang piensa que hay dos temas que necesitan más atención. El primero es la privacidad de los datos, ya que estos modelos pueden raspar la web y destilar esos datos en información utilizable mejor que nunca. Otro problema es mantener los datos que alimentan los modelos de alta calidad y útiles. Si los modelos de IA pueden generar su propio contenido utilizando lo que está disponible en la web, Zhang cree que no habrá un incentivo para que los humanos creen contenido nuevo y mejor.

«Estos grandes modelos de lenguaje [rely on] contenido de calidad, que es creado por humanos «, dice.» Entonces, si no incentivan a las personas a crear buenos materiales, ¿cómo se puede garantizar que mejorarán la calidad de vida?»

¡Obtenga nuestras mejores historias!

Matricularse en ¿Qué hay de nuevo ahora? para recibir nuestras mejores historias en su bandeja de entrada todas las mañanas.

Este boletín puede contener publicidad, ofertas o enlaces de afiliados. Suscribirse a un boletín informativo indica su consentimiento a nuestros Términos de uso y Política de privacidad. Puede darse de baja de los boletines en cualquier momento.





Source link-38