Flower consigue 3,6 millones de dólares para hacer crecer su plataforma de aprendizaje federado


La dependencia de los datos públicos, en su mayoría datos web, para entrenar la IA está frenando el campo de la IA. Eso es según Daniel Beutel, emprendedor tecnológico e investigador de la Universidad de Cambridge, quien cofundó una startup, Flower, para resolver lo que él ve como un problema creciente en la investigación de IA.

“Los datos públicos centralizados son solo una pequeña fracción de todos los datos del mundo”, dijo Beutel a TechCrunch en una entrevista por correo electrónico. “En contraste, los datos distribuidos, los datos que están atrapados en dispositivos como teléfonos, dispositivos portátiles e Internet de las cosas o en silos organizacionales, como unidades de negocios dentro de una empresa, son mucho más grandes y completos, pero están fuera del alcance de la IA en la actualidad. ”

Flower, que Beutel co-empezó en 2020 con los colegas de Cambridge Taner Topal y Nicholas Lane, exjefe del Centro de IA de Samsung en Cambridge, es un intento de «descentralizar» el proceso de entrenamiento de IA a través de una plataforma que permite a los desarrolladores entrenar modelos en datos repartidos en miles de dispositivos y ubicaciones. Al confiar en una técnica llamada aprendizaje federado, Flower no proporciona acceso directo a los datos, lo que hace que sea aparentemente «más seguro» para entrenar en situaciones donde la privacidad o el cumplimiento son preocupaciones.

“Flower cree que, una vez que sea fácil y accesible debido a las ventajas fundamentales de los datos distribuidos, este enfoque de la IA no solo se convertirá en la corriente principal, sino también en la norma sobre cómo se realiza el entrenamiento de la IA”, dijo Beutel.

El aprendizaje federado no es un enfoque nuevo. Propuesta por primera vez en la academia hace años, la técnica implica entrenar algoritmos de IA en dispositivos descentralizados que contienen muestras de datos sin intercambiar esas muestras. Se puede usar un servidor centralizado para orquestar el entrenamiento del algoritmo, o la orquestación puede ocurrir de igual a igual. Pero en cualquier caso, los algoritmos locales se entrenan con muestras de datos locales y los pesos (los componentes que se pueden aprender de los algoritmos) se intercambian entre ellos para generar un modelo global.

La plataforma de Flower aprovecha el aprendizaje federado para ofrecer una alternativa descentralizada para el entrenamiento del modelo de IA. Créditos de imagen: Flor

Startups como DynamoFL, DataFleets y Sherpa están empleando el aprendizaje federado de alguna forma para entrenar modelos de IA, al igual que las grandes empresas tecnológicas como Google.

“Con Flower, los datos nunca necesitan abandonar el dispositivo de origen o la ubicación (p. ej., las instalaciones de una empresa) durante la capacitación”, explica Beutel. «En cambio, ‘el cálculo va a los datos’ y se realiza un entrenamiento parcial en cada ubicación donde residen los datos, y solo los resultados del entrenamiento y no los datos finalmente se transmiten y fusionan con los resultados de todas las demás ubicaciones».

Flower lanzó recientemente FedGPT, un enfoque federado para entrenar modelos de lenguaje extenso (LLM) comparable a ChatGPT y GPT-4 de OpenAI. Actualmente en versión preliminar, FedGPT permite a las empresas capacitar a los LLM en datos repartidos por todo el mundo y en diferentes dispositivos, incluidos centros de datos y estaciones de trabajo.

“FedGPT es importante porque permite a las organizaciones crear LLM utilizando datos confidenciales internos sin compartirlos con un proveedor de LLM”, dijo Beutel. “Las empresas también suelen tener datos repartidos por todo el mundo, o en diferentes partes de la organización, que no pueden moverse o abandonar una región geográfica. FedGPT permite que todos estos datos se aprovechen al capacitar a un LLM sin dejar de respetar las preocupaciones sobre la privacidad y la fuga de datos, y las leyes que restringen el movimiento de datos”.

Flower también se ha asociado con Brave, el navegador web de código abierto, para encabezar un proyecto llamado Dandelion. El objetivo es construir un sistema de aprendizaje federado de código abierto que abarque los más de 50 millones de clientes de navegador Brave que se usan hoy en día, dice Beutel.

“IA está entrando en un momento de regulación creciente y cuidado especial sobre la procedencia de los datos que utiliza”, dijo Beutel. “Los clientes pueden construir sistemas de inteligencia artificial utilizando Flower donde la privacidad del usuario está fuertemente protegida y, sin embargo, aún pueden aprovechar más datos que nunca. . . . Bajo Flower, debido a los principios de aprendizaje federado, un sistema de IA aún puede implementarse y entrenarse con éxito bajo diferentes limitaciones”.

Flower ha visto una aceptación impresionante en los últimos meses, con su comunidad de desarrolladores creciendo a poco más de 2300, según Beutel. Afirma que «docenas» de empresas Fortune 500 e instituciones académicas son usuarios de Flower, incluidos Porsche, Bosch, Samsung, Banking Circle, Nokia, Stanford, Oxford, MIT y Harvard.

Animado por esas métricas, Flower, miembro de una de las cohortes de 2023 de Y Combinator, ha atraído a inversores como First Spark Ventures, el director ejecutivo de Hugging Face, Clem Delangue, Factorial Capital, Betaworks y Pioneer Fund. En su ronda previa a la semilla, la startup recaudó $ 3.6 millones.

Beutel dice que la ronda se destinará a expandir el equipo central de Flower, hacer crecer su equipo de investigadores y desarrolladores y acelerar el desarrollo del software de código abierto que impulsa el marco y el ecosistema de Flower.

“La IA se enfrenta a una crisis de reproducibilidad, y esto es aún más grave para el aprendizaje federado”, dijo Beutel. “Debido a la falta de capacitación generalizada sobre datos distribuidos, carecemos de una masa crítica de implementaciones de software de código abierto de enfoques populares. . . . Al trabajar todos juntos, nuestro objetivo es tener el conjunto más grande del mundo de técnicas federadas de código abierto disponibles en Flor para la comunidad.”



Source link-48