Mientras que los LLM como ChatGPT le darán el texto que desee y los generadores de gráficos como Stable Diffusion crearán una imagen basada en un aviso, la IA de texto a video sigue siendo un campo emergente. A principios de esta semana, informamos sobre un comercial de pizza con IA que utilizaba una herramienta de texto a video llamada Runway Gen-2. (se abre en una pestaña nueva) por su video. Sin embargo, en la actualidad, Runway Gen-2 se encuentra en una versión beta solo por invitación. Entonces, a menos que haya sido invitado, no puede probarlo.
Afortunadamente, hay una herramienta completamente gratuita y fácil de usar en Hugging Face (el portal líder para desarrolladores de IA) llamada NeuralInternet Text-to-Video Playground, pero está limitada a solo dos segundos, lo suficiente para un GIF animado. Ni siquiera necesita tener una cuenta de Hugging Face para usarla. Así es cómo.
Cómo generar un videoclip de texto AI de 2 segundos
1. Navegar a la Patio de juegos de texto a video (se abre en una pestaña nueva) en tu navegador.
2. Ingrese un aviso en el cuadro de aviso o pruebe uno de los ejemplos de avisos en la parte inferior de la página (por ejemplo: «Un astronauta montando a caballo»)
3. Ingrese su número de semilla. La Semilla es un número (de -1 a 1,000,000) que la IA usa como punto de partida para generar la imagen. Esto significa que si usa una semilla de 1, debería obtener el mismo resultado cada vez con el mismo aviso. Recomiendo usar una semilla de -1, que le da un número de semilla aleatorio cada vez.
4. Haga clic en Ejecutar.
Luego, Text-to-Video Playground tardará unos minutos en generar su resultado. Puede ver el progreso mirando la ventana de resultados. Dependiendo de la cantidad de tráfico que tenga el servidor, puede tardar más.
5. Haga clic en el botón de reproducción para reproducir tu video.
6. Haga clic derecho en su video y seleccione Guardar video como para descargar el video (como MP4) a su PC.
El modelo que está usando y los resultados
El área de juegos de texto a video utiliza un modelo de texto a video de una empresa china llamada ModelScope, que afirma que su modelo tiene 1700 millones de parámetros. (se abre en una pestaña nueva). Al igual que muchos modelos de IA que se ocupan de las imágenes, el modelo ModelScope tiene algunas limitaciones, más allá del tiempo de ejecución de dos segundos.
En primer lugar, está claro que el conjunto de datos de entrenamiento se obtiene de una amplia variedad de imágenes web, incluidas algunas que tienen derechos de autor y marcas de agua. En varios ejemplos, mostró parte de un Shutterstock (se abre en una pestaña nueva) marca de agua en los objetos del video. Shutterstock es un proveedor líder de imágenes libres de regalías que requiere una membresía paga, pero parece que los datos de capacitación tomaron sus imágenes sin permiso.
Además, no todo se ve como debería. Por ejemplo, los fanáticos astutos del kaiju notarán que mi video de Godzilla comiendo pizza a continuación muestra un monstruo que es un lagarto verde gigante pero que no tiene ninguna de las características distintivas del monstruo japonés favorito de todos.
Finalmente, y tal vez esto sea evidente, pero no hay audio en estos videos. El mejor uso para estos podría ser convertirlos en GIF animados que puede enviar a sus amigos. La imagen de arriba es un GIF animado que hice a partir de uno de mis videos de Godzilla comiendo pizza de dos segundos.
Si desea obtener más información sobre cómo crear en IA, consulte nuestros artículos sobre cómo usar Auto-GPT para crear un agente autónomo o cómo usar BabyAGI.