{"id":638358,"date":"2023-05-21T03:09:56","date_gmt":"2023-05-21T03:09:56","guid":{"rendered":"https:\/\/magazineoffice.com\/siempre-mas-grande-siempre-mejor-que-esperar-de-gpt-5-6-y-7\/"},"modified":"2023-05-21T03:10:00","modified_gmt":"2023-05-21T03:10:00","slug":"siempre-mas-grande-siempre-mejor-que-esperar-de-gpt-5-6-y-7","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/siempre-mas-grande-siempre-mejor-que-esperar-de-gpt-5-6-y-7\/","title":{"rendered":"\u00bfSiempre m\u00e1s grande, siempre mejor? \u00bfQu\u00e9 esperar de GPT-5, -6 y -7?"},"content":{"rendered":"


\n<\/p>\n

<\/p>\n
\n
\n

La calidad de la IA del habla sigui\u00f3 mejorando como resultado del crecimiento y desarroll\u00f3 algunas habilidades sorprendentes. \u00bfLos modelos de lenguaje a\u00fan m\u00e1s grandes conducen a una inteligencia similar a la humana, o falta algo esencial?<\/p>\n

<\/div>\n<\/div>\n

<\/p>\n

\n
<\/div>
\n
\n

\u00bfLa IA del habla imita el habla como un loro sin comprender el contexto, o estos programas hacen inferencias?<\/h2>\n

Sim\u00f3n Tanner \/ NZZ<\/span><\/p>\n<\/div>\n<\/figcaption><\/figure>\n

<\/p>\n

\u00abEs hora de que lo llamemos un sistema inteligente\u00bb, dice S\u00e9bastien Bubeck de GPT-4, el sucesor de la inteligencia artificial ling\u00fc\u00edstica (IA) Chat-GPT de Open AI. El inform\u00e1tico de Microsoft Research y su equipo examinaron lo que puede hacer GPT-4.<\/p>\n

<\/p>\n

Algo ha cambiado con la llegada de esta inteligencia artificial, lo resume Bubeck en su conferencia en el Instituto Tecnol\u00f3gico de Massachusetts (MIT) en Boston para ver youtube<\/a> es. GPT-4 no solo marca una mejora gradual en la IA, sino un \u00absalto cualitativo\u00bb.<\/p>\n

<\/p>\n

Su equipo quiere haber reconocido las caracter\u00edsticas centrales de la inteligencia en GPT-4: razonamiento, comprensi\u00f3n de ideas abstractas y resoluci\u00f3n de problemas. En el video, explica esto usando varios ejemplos, por ejemplo, usando la diferencia en c\u00f3mo el generador de im\u00e1genes de IA Stable Diffusion y GPT-4 implementan una descripci\u00f3n de imagen. Se supone que la IA representa un desierto y una pir\u00e1mide a un lado de un r\u00edo y rascacielos al otro.<\/p>\n

<\/p>\n

Stable Diffusion ofrece estructuras piramidales en una especie de parque, pero sin r\u00edo ni rascacielos. GPT-4, por otro lado, produce un gr\u00e1fico que muestra todos los elementos claramente y en la disposici\u00f3n espacial correcta. \u00abEso es exactamente,<\/em> lo que quer\u00edamos\u00bb, se entusiasma Bubeck. \u00abGPT-4 entiende<\/em> T\u00fa\u201d, enfatiza.<\/p>\n

<\/p>\n

Microsoft es uno de los principales inversores en Open AI, por lo que la investigaci\u00f3n de Bubeck no es independiente. Y el ensayo de su equipo \u00abChispas de inteligencia artificial general: primeros experimentos con GPT-4\u00bb a\u00fan no ha sido revisado por cient\u00edficos externos. Pero Bubeck no est\u00e1 solo con sus ideas.<\/p>\n

<\/p>\n

La investigaci\u00f3n de IA se divide en dos campos: algunos est\u00e1n convencidos de que los chatbots como Chat-GPT est\u00e1n mostrando los primeros signos de inteligencia y piensan que incluso modelos m\u00e1s grandes y cantidades de datos pueden conducir a un pensamiento humano. Los otros son esc\u00e9pticos.<\/p>\n

<\/p>\n

T\u00edtulos de pel\u00edculas hechos a partir de emojis adivinados como se\u00f1al de emergencia<\/span><\/h2>\n

<\/p>\n

GPT-4 es el llamado modelo de lenguaje. Este tipo de IA encuentra la siguiente palabra m\u00e1s probable para un comienzo de texto dado. La aplicaci\u00f3n repetida de esta estimaci\u00f3n crea un nuevo texto palabra por palabra. Esto tambi\u00e9n puede ser un c\u00f3digo de programa, por ejemplo, para mostrar un gr\u00e1fico.<\/p>\n

<\/p>\n

Los modelos de lenguaje han existido durante d\u00e9cadas. Pero en los \u00faltimos a\u00f1os han hecho un r\u00e1pido progreso. Dos factores fueron decisivos para ello: en primer lugar, un nuevo m\u00e9todo de aprendizaje autom\u00e1tico llamado Transformer, que permite analizar muchas palabras de un texto en paralelo; segundo, redes neuronales de r\u00e1pido crecimiento.<\/p>\n

<\/p>\n

Las redes neuronales artificiales son grandes modelos computacionales con muchas variables.<\/a>, que est\u00e1n conectados entre s\u00ed de una manera muy compleja. Est\u00e1n inspirados en la red de neuronas y sinapsis del cerebro. GPT-3, lanzado en 2020, ten\u00eda 175 mil millones de variables. Cien veces m\u00e1s que los predecesores que hab\u00edan aparecido unos a\u00f1os antes. Con el sucesor GPT-4, el n\u00famero probablemente sea mucho mayor. Open AI los guarda para s\u00ed mismo.<\/p>\n

<\/p>\n

\n
\n
\n

As\u00ed han crecido los modelos de lenguaje<\/h3>\n

Modelos de lenguaje conocidos y el n\u00famero de sus par\u00e1metros, es decir, sus variables, en miles de millones\n <\/p>\n<\/p><\/div>\n<\/div>\n<\/div>\n

<\/p>\n

Esta ampliaci\u00f3n tambi\u00e9n se denomina \u00abescalado\u00bb. Y este progreso cuantitativo ha resultado en saltos de calidad sin ideas de investigaci\u00f3n realmente nuevas.<\/p>\n

<\/p>\n

Por ejemplo, al adivinar t\u00edtulos de pel\u00edculas a partir de emojis. \u00c9ste prueba<\/a> a los investigadores se les ocurri\u00f3 probar la comprensi\u00f3n del contenido de la IA del habla. Un rostro de ni\u00f1a con coletas, un pez payaso, un pez azul y un pez globo (\ud83d\udc67\ud83d\udc1f\ud83d\udc20\ud83d\udc21), por ejemplo, simbolizan a los personajes principales de \u00abBuscando a Nemo\u00bb. Los modelos de lenguaje peque\u00f1o adivinan algo como \u00abuna pel\u00edcula emoji\u00bb, los modelos de lenguaje grande adivinan correctamente.<\/p>\n

<\/p>\n

Algunos investigadores de IA lo llaman emergencia cuando aparecen nuevas cualidades imprevistas, aunque solo ha aumentado la cantidad de par\u00e1metros y datos de entrenamiento. Un ejemplo de emergencia en biolog\u00eda es el cerebro: una c\u00e9lula cerebral por s\u00ed sola no puede pensar ni planificar, cien o mil de ellas tampoco, pero las cien mil millones de c\u00e9lulas cerebrales de un ser humano juntas s\u00ed pueden.<\/p>\n

<\/p>\n

Siguiendo esta analog\u00eda, algunos investigadores creen que solo hay que escalar m\u00e1s los modelos de lenguaje para que surjan cualidades cada vez m\u00e1s altas, hasta que finalmente emerja una \u201cIA general\u201d que ser\u00eda inteligente de manera similar a un ser humano.<\/p>\n

<\/p>\n

Lo que funciona como \u00abemergencia\u00bb tambi\u00e9n se puede explicar de otra manera<\/span><\/h2>\n

<\/p>\n

Rico Sennrich, de la Universidad de Z\u00farich, lo duda, no le impresiona adivinar t\u00edtulos de pel\u00edculas con emojis. Con datos de entrenamiento adecuados, tambi\u00e9n puede entrenar un modelo de lenguaje peque\u00f1o para hacer este trabajo, dice el ling\u00fcista inform\u00e1tico. Dado que los ejemplos de adivinanzas de emoji rara vez aparecen en los datos de entrenamiento, Sennrich sospecha que esta habilidad solo surge cuando los modelos superan un cierto tama\u00f1o.<\/p>\n

<\/p>\n

Sennrich observ\u00f3 algo similar en su investigaci\u00f3n sobre la traducci\u00f3n autom\u00e1tica. Cuanto m\u00e1s grande es la inteligencia artificial de un idioma, m\u00e1s de los millones de palabras aprende. \u00abLos modelos m\u00e1s peque\u00f1os solo aprenden palabras comunes como ‘barco’ o ‘bote'\u00bb, explica Sennrich. Al escalar, las palabras que son menos comunes siguen paso a paso, y solo por \u00faltimo, palabras raras, como el tipo de barco \u00abdinghy\u00bb.<\/p>\n

<\/p>\n

Se podr\u00eda hablar de un salto de calidad cada vez que se aprende una nueva palabra, dice el ling\u00fcista inform\u00e1tico. Pero la explicaci\u00f3n es simple: el modelo es simplemente econ\u00f3mico con sus recursos. Lo que rara vez ocurre en los datos de entrenamiento, es ocultarlos hasta que tengan suficientes par\u00e1metros para almacenarlos, explica Sennrich.<\/p>\n

<\/p>\n

El investigador sospecha que esto es similar al escalar modelos de lenguaje. Por lo tanto, los datos de ejemplo para habilidades aparentemente emergentes ya est\u00e1n disponibles en los textos de capacitaci\u00f3n, pero rara vez, y el modelo solo los aprende cuando no tiene que sacrificar ninguna habilidad m\u00e1s importante. \u00abSi solo una peque\u00f1a parte de los datos de entrenamiento consiste en secuencias de emojis, entonces la finalizaci\u00f3n de esta secuencia de palabras solo se aprende al final\u00bb, dice Sennrich.<\/p>\n

<\/p>\n

La IA no aprender\u00e1 a calcular solo a partir de m\u00e1s datos<\/span><\/h2>\n

<\/p>\n

Hinrich Sch\u00fctze, de la Universidad Ludwig-Maximilians de M\u00fanich, tampoco cree en la aparici\u00f3n real de grandes modelos ling\u00fc\u00edsticos. Un ejemplo es la adici\u00f3n de n\u00fameros de varios d\u00edgitos; algunos discuten esto como una habilidad emergente de los modelos de lenguaje. No as\u00ed Sagitario: \u00abEl hecho de que chat GPT y compa\u00f1\u00eda puedan sumar n\u00fameros de tres d\u00edgitos no prueba que entiendan aritm\u00e9tica\u00bb.<\/p>\n

<\/p>\n

Debido a que hay relativamente pocos n\u00fameros de tres d\u00edgitos, sus adiciones rara vez aparecen en el material de capacitaci\u00f3n, explica. Sin embargo, hay muchos m\u00e1s n\u00fameros con seis o m\u00e1s d\u00edgitos, y todas las posibles adiciones con ellos no aparecen en Internet durante mucho tiempo. Si la IA obtuviera conocimientos profundos del material de capacitaci\u00f3n, habr\u00eda que esperar que la pr\u00f3xima generaci\u00f3n tambi\u00e9n pudiera agregar grandes n\u00fameros. Esto es exactamente lo que Sagitario duda.<\/p>\n

<\/p>\n

Estar limitado a lo que ya existe es lo que los expertos en IA llaman interpolaci\u00f3n. La IA puede crear algo nuevo que no existe en los datos de entrenamiento. Pero esta novedad siempre sigue siendo una aproximaci\u00f3n de patrones que ella conoce a partir de los datos de entrenamiento. Solo si ya conoce el patr\u00f3n \u00abcuatro emojis, luego el t\u00edtulo de una pel\u00edcula\u00bb, asignar\u00e1 un t\u00edtulo de pel\u00edcula a una nueva secuencia de emoji.<\/p>\n

<\/p>\n

Los humanos, por otro lado, tambi\u00e9n se llevan bien en contextos desconocidos. \u201cUna persona aprende r\u00e1pido cuando mover la cabeza significa aprobaci\u00f3n en otra cultura\u201d, da como ejemplo Sch\u00fctze. Los expertos llaman a este pensamiento fuera de la caja extrapolaci\u00f3n.<\/p>\n

<\/p>\n

La inteligencia artificial tambi\u00e9n podr\u00eda estar habilitada para hacer esto, cree Sch\u00fctze, pero la investigaci\u00f3n debe estar m\u00e1s orientada hacia la inteligencia humana. El escalado puro no es suficiente para este salto de calidad.<\/p>\n

<\/p>\n

El escalado podr\u00eda llegar pronto a sus l\u00edmites<\/span><\/h2>\n

<\/p>\n

S\u00e9bastien Bubeck, por otro lado, cree que GPT-4 ya est\u00e1 extrapolando. El equipo de Microsoft ide\u00f3 varias pruebas para la IA, similares a la de la pir\u00e1mide y el r\u00edo, que son tan inusuales que pensaron que no deber\u00edan aparecer en los datos de entrenamiento. Para la mayor\u00eda, GPT-4 funcion\u00f3 significativamente mejor que el chat GPT.<\/p>\n

<\/p>\n

La gran cantidad de variables en GPT-4 es decisiva para esto, dice Bubeck. \u00abPuedes hacer mucho con un bill\u00f3n de variables\u00bb, dice. La IA solo fue entrenada para reconocer patrones en textos. Pero aprendi\u00f3<\/em> En este proceso, tienen mucho m\u00e1s que eso.Gracias a la presumiblemente gran cantidad de datos de entrenamiento, GPT-4 podr\u00eda haber creado una representaci\u00f3n interna del mundo que utiliza al resolver tareas, cree el cient\u00edfico inform\u00e1tico.<\/p>\n

<\/p>\n

Bubeck usa el subjuntivo en su explicaci\u00f3n. C\u00f3mo funcionan los modelos de lenguaje en detalle es el tema de la investigaci\u00f3n actual. Los creadores de Open AI saben m\u00e1s sobre GPT-4, pero no le han proporcionado a Microsoft ninguna informaci\u00f3n sobre c\u00f3mo se construy\u00f3 el modelo o los datos de entrenamiento. Bubeck y su equipo analizaron la IA bas\u00e1ndose \u00fanicamente en los resultados.<\/p>\n

<\/p>\n

Si los modelos de lenguaje dan testimonio de un aprendizaje m\u00e1s profundo o solo reproducen sin rodeos los patrones de los datos de entrenamiento, tambi\u00e9n es una cuesti\u00f3n de creencia en este momento. Un mayor crecimiento de los modelos podr\u00eda demostrarlo.<\/p>\n

<\/p>\n

Pero hay una trampa: Rico Sennrich espera que la escala alcance pronto sus l\u00edmites. Porque m\u00e1s variables solo brindan un mejor rendimiento si la cantidad de datos de entrenamiento crece con \u00e9l. Ambos se han multiplicado por mil en los \u00faltimos a\u00f1os. \u00abUna parte importante de Internet ya se est\u00e1 utilizando como datos de entrenamiento\u00bb. Por lo tanto, es cuestionable si los modelos pueden seguir creciendo como antes.<\/p>\n

<\/p>\n

<\/div>\n


\n
Source link-58 <\/a><\/p>\n","protected":false},"excerpt":{"rendered":"

La calidad de la IA del habla sigui\u00f3 mejorando como resultado del crecimiento y desarroll\u00f3 algunas habilidades sorprendentes. \u00bfLos modelos de lenguaje a\u00fan m\u00e1s grandes conducen a una inteligencia similar…<\/p>\n","protected":false},"author":1,"featured_media":638359,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[756,91170,2805,84,166,111,2014],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/638358"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=638358"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/638358\/revisions"}],"predecessor-version":[{"id":638360,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/638358\/revisions\/638360"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/638359"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=638358"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=638358"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=638358"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}