Sam Altman: El tamaño de los LLM no importará tanto en el futuro


Cuando el cofundador y director ejecutivo de OpenAI, Sam Altman, habla en estos días, tiene sentido escuchar. Su última aventura ha estado en boca de todos desde el lanzamiento de GPT-4 y ChatGPT, una de las interfaces basadas en modelos de lenguaje grande más sofisticadas creadas hasta la fecha. Pero Altman adopta un enfoque deliberado y humilde, y no necesariamente cree que cuando se trata de modelos de lenguaje extenso (LLM), más grande siempre será mejor.

Altman, quien fue entrevistado por Zoom en el evento Imagination in Action en el MIT ayer, cree que nos estamos acercando a los límites del tamaño de LLM por el bien del tamaño. “Creo que estamos al final de la era en la que serán estos modelos gigantes, y los mejoraremos de otras maneras”, dijo Altman.

Ve el tamaño como una medida falsa de la calidad del modelo y lo compara con las carreras de velocidad de chips que solíamos ver. “Creo que se ha centrado demasiado en el recuento de parámetros, tal vez el recuento de parámetros aumente con seguridad. Pero esto me recuerda mucho a la carrera de gigahercios en chips en las décadas de 1990 y 2000, donde todos intentaban apuntar a un gran número”, dijo Altman.

Como él señala, hoy en día tenemos chips mucho más potentes que ejecutan nuestros iPhones, pero en su mayor parte no tenemos idea de qué tan rápidos son, solo que hacen bien el trabajo. “Creo que es importante que nos mantengamos enfocados en aumentar rápidamente la capacidad. Y si hay alguna razón por la que el número de parámetros deba disminuir con el tiempo, o si debemos tener varios modelos trabajando juntos, cada uno de los cuales es más pequeño, lo haríamos. Lo que queremos entregar al mundo son los modelos más capaces, útiles y seguros. No estamos aquí para masturbarnos con el conteo de parámetros”, dijo.

Altman ha sido un tecnólogo tan exitoso en parte porque hace grandes apuestas y luego se mueve deliberadamente y piensa profundamente en sus empresas y los productos que producen, y OpenAI no es diferente.

“Hemos estado trabajando en ello durante mucho tiempo, pero cada vez tenemos más confianza en que realmente funcionará. Nosotros hemos estado [building] la empresa durante siete años. Estas cosas toman mucho, mucho tiempo. Diría en general en términos de por qué funcionó cuando otros no lo han hecho: es solo porque hemos estado trabajando duro sudando cada detalle durante mucho tiempo. Y la mayoría de la gente no está dispuesta a hacer eso”, dijo.

Cuando se le preguntó sobre la carta que solicitaba que OpenAI se detuviera durante seis meses, defendió el enfoque de su empresa, aunque estuvo de acuerdo con algunas partes de la carta.

“Hay partes del empuje [of the letter] con lo que estoy realmente de acuerdo. Pasamos más de seis meses después de que terminamos de entrenar GPT-4 antes de lanzarlo. Entonces, tomarse el tiempo para estudiar realmente el modelo de seguridad, obtener auditorías externas, equipos rojos externos para tratar de comprender realmente lo que está sucediendo y mitigar todo lo que pueda, eso es importante”, dijo.

Pero él cree que hay formas sustanciales en las que la carta no dio en el blanco.

“También estuve de acuerdo en que a medida que las capacidades se vuelven más y más serias, la barra de seguridad debe aumentar. Pero desafortunadamente, creo que a la carta le faltan la mayoría de los matices técnicos sobre dónde debemos hacer una pausa: una versión anterior de la carta afirmaba que estábamos entrenando GPT-5. No lo somos y no lo seremos por un tiempo, así que en ese sentido, fue un poco tonto, pero estamos haciendo otras cosas además de GPT-4 que creo que tienen todo tipo de problemas de seguridad que es importante abordar. y quedaron totalmente fuera de la carta. Así que creo que moverse con cautela y un rigor cada vez mayor en cuestiones de seguridad es realmente importante. no creo que el [suggestions in the] carta es la forma definitiva de abordarlo”, dijo.

Altman dice que está siendo abierto sobre los problemas de seguridad y las limitaciones del modelo actual porque cree que es lo correcto. Reconoce que a veces él y otros representantes de la empresa dicen “tonterías”, lo que resulta ser un error, pero está dispuesto a correr ese riesgo porque es importante tener un diálogo sobre esta tecnología.

“Una gran parte de nuestro objetivo en OpenAI es hacer que el mundo se involucre con nosotros y piense en [this technology], y gradualmente actualizar y construir nuevas instituciones, o adaptar nuestras instituciones existentes para poder descubrir cuál es el futuro que todos queremos. Así que por eso estamos aquí”.



Source link-48