Como en el circo, acaba de llegar ‘el más difícil y emocionante todavía’. Para los ingenieros de OpenAi no existen imposibles y así lo demuestran con la creación de un nuevo modelo de Inteligencia Artificial Generativa capaz de interpretar indicaciones de texto para convertirlas en vídeo de hasta un minuto de duración. El prodigio atiende por Sora y su principal habilidad consiste en crear escenas realistas e imaginativas a través de los prompts (términos de texto) introducidos. A modo de ejemplo, ante una instrucción como “Quiero ver en vídeo a Sancho Panza subido en el mismo caballo de don Quijote, y cabalgando entre aerogeneradores, en lugar de molinos de viento”, el resultado es un vídeo realmente fiel a lo solicitado. Pero además de lo que el usuario ha pedido en el prompt, el software también incorpora de su cosecha imágenes de cosas que existen en el mundo físico.
La inteligencia artificial generativa de Sora está entrenada para crear un video al instante desde una foto fija, lo que resulta interesante para aquellos que pretendan incorporar fotogramas allá donde falten. El anuncio de Open Ai se realizó la noche del pasado jueves, a través de X: “Presentamos a Sora, nuestro modelo de texto a vídeo. Sora puede crear vídeos de hasta 60 segundos con escenas altamente detalladas, un movimiento de cámara complejo y múltiples personajes con emociones vibrantes. Acto seguido, la compañía acompaña el mensaje con varios vídeos. En uno de ellos se pide una pieza inspirada en el siguiente texto: “Varios mamuts lanudos gigantes se acercan caminando a través de un prado nevado, su largo pelaje se mueve ligeramente con el viento mientras caminan, árboles cubiertos de nieve y espectaculares montañas en la distancia, luz de media tarde con nubes tenues y un sol alto en la distancia crea un brillo cálido, la vista baja de la cámara es impresionante y captura al gran mamífero con hermosas fotografías y profundidad de campo”. Dicho y hecho, el resultado lo hubiera firmado Pixar.
Otro vídeo muestra a una pareja de jóvenes paseando de la mano por un bucólico paisaje urbano nevado, creada por Sora con las siguientes instrucciones: “Hermosa y nevada ciudad de Tokio, la cámara se mueve por la bulliciosa calle City, siguiendo a varias personas que disfrutan del clima nevado y de puestos de compras. Los pétalos de Sakura vuelan con el viento junto con los copos de nieve”.
Antes de que la comunidad tecnológica ponga la voz en grito, la propia compañía dirigida por el visionario Sam Altman ha informado de la adopción de varias medidas relevantes de seguridad, desde antes de que Sora esté disponible en el catálogo de servicios de OpenAi. “Estamos trabajando con miembros del equipo rojo (expertos en asuntos de desinformación y de contenidos que incitan al odio y la violencia) que están probando el modelo de manera adversa.
OpenAi cuida hasta los más pequeños detalles, como el hecho de generar vídeos enteros de un tirón o de ampliar los vídeos generados, para hacerlos más largos. “Al dotar al modelo de previsión de muchos fotogramas a la vez, hemos resuelto el difícil problema de asegurarnos de que un sujeto sigue siendo el mismo aunque se pierda de vista temporalmente”, explican desde OpenAi.
La compañía estadounidense también detalla, a través de su página corporativa, que está construyendo herramientas para ayudar a detectar contenidos engañosos, capaz de desvelar los vídeos generados por Sora o los productos que utilizan DALL-E 3 (su inteligencia artificial generativa que transforma texto en imágenes), con la intención de incluir metadatos que desvelen su origen y trazabilidad. “No podemos predecir todas las formas beneficiosas en que la gente utilizará nuestra tecnología, ni todas las formas en que abusará de ella”, advierten desde su sitio web.
OpenAI: “No podemos predecir todas las formas beneficiosas en que la gente utilizará nuestra tecnología, ni todas las formas en que abusará de ella”
Por lo pronto, y sin necesidad que existan leyes que regulen, el clasificador de texto de Open Ai “comprobará y rechazará las solicitudes de entrada de texto que infrinjan las políticas de uso, como las que solicitan violencia extrema, contenido sexual, imágenes que inciten al odio, imágenes de famosos o la propiedad intelectual de terceros”. Al mismo tiempo, “la compañía ha desarrollado potentes clasificadores de imágenes que se utilizan para revisar los fotogramas de todos los vídeos generados y garantizar que cumplen nuestras políticas de uso antes de mostrarlos al usuario”. Hasta el momento, no hay referencia a la protección de los derechos de autor de los vídeos, por lo que el asunto seguirá orbitando en la misma nebulosa de siempre.
En un alarde de honestidad, OpenAi reconoce sus limitaciones iniciales: “El modelo actual tiene puntos débiles: Puede que le cueste simular con precisión la física de una escena compleja y que no entienda casos concretos de causa y efecto. Por ejemplo, una persona puede dar un mordisco a una galleta, pero después la galleta puede no tener la marca del bocado”. Asimismo, Sora también puede “confundir detalles espaciales de una indicación, por ejemplo, confundir izquierda y derecha, y puede tener problemas con descripciones precisas de acontecimientos que tienen lugar a lo largo del tiempo, como seguir una trayectoria específica de la cámara”.