Aplicación de productividad respaldada por YC. Pivotes superpoderosos para convertirse en una plataforma API de voz para bots.


Las aplicaciones de calendario son esenciales para la productividad, pero es difícil diferenciarlas lo suficiente como para tener un crecimiento sostenido solo del uso principal. Superpowered, respaldado por Y Combinator, que es un tomador de notas impulsado por inteligencia artificial para sus reuniones que no involucra robots de grabación, se topó con este obstáculo y ahora está girando para convertirse en Vapi, un proveedor de API para que cualquiera pueda crear fácilmente una voz con sonido natural. Asistente impulsado por IA.

Superpowered fue fundada en 2020 por Jordan Dearsley y Nikhil Gupta. Pero después de tres años de trabajar en ello, Dearsley dijo que el equipo quería trabajar en el producto más desafiante. La compañía no cerrará el producto inicial porque la startup dijo que Superpowered es rentable; está en el proceso de contratar a alguien para ejecutarlo. Y Combinator dijo en junio que más de 10.000 personas usaban el producto semanalmente, pero la compañía no proporcionó cifras actualizadas.

Créditos de imagen: vapi

Hasta la fecha, Superpowered/Vapi ha recaudado 2,1 dólares en capital inicial de inversores como Kleiner Perkins y Abstract Ventures.

Pivote hacia Vapi

La compañía ofrece Vapi como API para permitir a los desarrolladores crear un bot usando solo indicaciones y luego lo coloca detrás de un número de teléfono. Además, ofrece una integración de SDK para que los desarrolladores puedan integrar el bot en sitios web y aplicaciones móviles.

Dearsley le dijo a TechCrunch por correo electrónico que la idea de construir Vapi surgió de un problema personal. Se mudó a San Francisco y empezó a extrañar a sus amigos y familiares, que estaban en una zona horaria diferente. Construyó un robot de inteligencia artificial conectado a un número de teléfono en el otro extremo para hablar con alguien y ordenar sus pensamientos.

“Me gustó, pero continuamente me frustraba lo antinatural que era. No era como hablar con una persona. La voz sonaba apagada, había largas demoras antes de que respondiera y me interrumpía mientras hablaba”. él dijo.

“Así que seguí trabajando en ello y saliendo a caminar con él. Al final, nos fascinó este problema de conversación. Es realmente difícil hacer que algo se sienta humano. Asistentes de voz hoy son torpes y se basan en turnos, queremos construir algo que se sienta humano”.

Técnicamente, Vapi actualmente está implementando un conjunto de API de terceros para construir una plataforma sólida de conversación de voz. Por ejemplo, utiliza soluciones de Twilio para telefonía, Deepgram para transcripción, Daily para transmisión de audio, OpenAI para respuestas y PlayHT para conversión de texto a voz.

ScaleConvo, una startup del lote de invierno de YC para 2024, ya está utilizando Vapi para lanzar bots conversacionales para equipos de ventas y empresas de administración de propiedades. Sin embargo, Vapi no reveló sus otros clientes. La empresa está abriendo su API con Productos Vapi Phone y Vapi Web hoy.

Desafíos para Vapi

Uno de los mayores desafíos que tiene la startup es reducir la latencia, según Magnus Revan, ex analista de Gartner y director de producto de la startup de conversación multimodal Openstream.ai.

“Los modelos OpenAI necesitan entre 2 y 10 segundos para generar una respuesta, mientras que en el teléfono el estándar de oro es tener 700 ms entre que el usuario termina de hablar y luego el ‘bot’ comienza a hablar. Y llegar a una latencia inferior a 1 segundo con modelos capaces (modelos de código abierto con un alto número de parámetros como el LLaMA2 70B) es realmente difícil”, dijo Revan.

Actualmente, Vapi tiene una latencia de 1,2 a 2 segundos dependiendo de varios factores. Dearsley espera reducir la latencia a menos de un segundo durante el próximo mes gracias al trabajo de Vapi y las mejoras de OpenAI.

Mohamed Musbah, un inversor ángel de Vapi, también dijo que la solución de la startup mejorará con los avances generales en API.

“A medida que OpenAI y otros mejoren sus modelos, la plataforma de Vapi se volverá más poderosa, equipada con mejores bases de conocimiento, capacidades de ejecución de código y ventanas de contexto más grandes. El enfoque de Vapi en resolver las áreas de mayor fricción en la comunicación de voz será su ventaja a medida que crezca la demanda de asistentes de voz por parte de los usuarios”, dijo.

Sin embargo, esto hace que la responsabilidad de mejorar otras soluciones recaiga en lugar de la propia Vapi. Dearsley dijo que la dependencia de otras API reduce la defensa de Vapi si las grandes empresas comienzan a mudarse a esa área. Sin embargo, el equipo dijo que tiene una ventaja en términos de haber construido una infraestructura para manejar miles de llamadas simultáneamente. Dearsley enfatizó que con el lanzamiento de la API web y telefónica de Vapi para el público, el equipo también buscará construir sus propios modelos para soluciones de audio a audio.



Source link-48