Cómo los nuevos modelos de inteligencia artificial amplían los límites en la generación de videos

23 de septiembre de 2024

Cómo los nuevos modelos de inteligencia artificial amplían los límites en la generación de videos

La doctora Tali Dekel, del Instituto Weizmann de Ciencias, es una de las principales investigadoras del mundo en IA generativa. En qué consta su trabajo centrado en las capacidades de los modelos de aprendizaje profundo a gran escala. Las increíbles imágenes

>Hace apenas unos aÃ±os, difÃcilmente podrÃamos haber imaginado que millones de personas en todo el mundo tendrÃan acceso a aplicaciones de inteligencia artificial generativa fÃ¡ciles de usar que producen textos, imÃ¡genes y videos. Estas aplicaciones pueden generar resultados que parecen creados por seres humanos, asÃ como crear cosas que nunca han existido en la realidad.

Ahora estos modelos pueden generar vÃdeos realistas de una calle concurrida de una ciudad o de una ardilla caminando por la Luna, y todo lo que el usuario tiene que hacer es introducir una breve descripciÃ³n textual o imÃ¡genes que sirvan como fuente visual.

El equipo del laboratorio de la doctora Tali Dekel para el estudio de la visiÃ³n artificial en el Departamento de InformÃ¡tica y MatemÃ¡ticas Aplicadas del Instituto de Ciencias Weizmann, espera superar las limitaciones de estas mÃ¡quinas generativas y llevarlas al nivel humano, o incluso mÃ¡s allÃ¡.

Dekel aÃ±ade: â€œNuestra investigaciÃ³n plantea preguntas fascinantes, como por ejemplo: ¿QuÃ© aprende un modelo generativo sobre el mundo y cÃ³mo codifica esta informaciÃ³n? ¿CÃ³mo podemos representar de forma eficaz la informaciÃ³n visual en el espacio y el tiempo para poder modificarla y, en Ãºltima instancia, poder interactuar con nuestro mundo dinÃ¡mico a travÃ©s de vÃdeos?â€.

AdemÃ¡s de su trabajo en el Instituto Weizmann, Dekel tambiÃ©n es investigadora en Google. Mientras que sus estudios en Weizmann se centran en superar las limitaciones de los modelos de IA existentes, su trabajo en Google implica el desarrollo de nuevos modelos, como el innovador modelo de texto a vÃdeo Lumiere, cuyo resultado se dio a conocer recientemente al pÃºblico.

Cuando a Lumiere se le presentÃ³ una imagen de un viejo tren de vapor que echaba humo sobre una vÃa fÃ©rrea y los investigadores resaltaron la parte de la imagen que contenÃa el humo, el modelo creÃ³ una imagen parcialmente animada en la que solo se movÃa el humo. Lo hizo de una manera muy realista, manteniendo el resto de la imagen sin cambios. Los investigadores incluso se divirtieron un poco con LumiÃ¨re, pidiÃ©ndole que generara una Mona Lisa bostezando y poniendo una sonrisa en el rostro de la niÃ±a en La joven de la perla de Vermeer.

â€œLumiere [es] un modelo de difusiÃ³n de texto a vÃdeo diseÃ±ado para sintetizar vÃdeos que retratan un movimiento realista, diverso y coherente, un desafÃo fundamental en la sÃntesis de vÃdeoâ€, Lumiere es Ãºnico en su capacidad de generar una serie completa de fotogramas sin espacios entre ellos, mientras que los modelos anteriores comenzaban generando fotogramas clave distantes en la escala espacio-temporal y solo entonces completaban el movimiento entre los fotogramas clave. Es por eso que los modelos anteriores tenÃan dificultades para generar un movimiento convincente y natural; Lumiere puede generar secuencias completas de movimiento de alta calidad.

Y aunque la mejora en las capacidades de autoaprendizaje de estos modelos es evidente, todavÃa no sabemos exactamente cÃ³mo funcionan. â€œGrandes secciones de redes neuronales son una especie de â€˜caja negraâ€™ para nosotrosâ€, aÃ±ade Dekel.

Para Dekel, las â€œcajas negrasâ€ que hay dentro de estos modelos ofrecen excelentes oportunidades de investigaciÃ³n. â€œDurante el proceso de autoaprendizaje, los modelos adquieren una enorme cantidad de informaciÃ³n sobre el mundo. Como parte de nuestra investigaciÃ³n sobre la reproducciÃ³n de la realidad mediante herramientas digitales, estamos tratando de producir resultados diferentes a partir de modelos existentes, casi sin alterarlos en absoluto. En lugar de eso, estamos tratando de entender mejor cÃ³mo funcionan mientras intentamos descubrir nuevas tareas que sean capaces de completarâ€, dice Dekel sobre la investigaciÃ³n que llevÃ³ a cabo con su colega de Weizmann, el doctor Shai Bagon, el doctor Yoni Kasten de NVIDIA Research y los estudiantes de Weizmann Omer Bar-Tal, Narek Tumanyan, Michal Geyer, Rafail Fridman y Danah Yatim.

Los investigadores del laboratorio de Dekel tambiÃ©n estÃ¡n buscando mÃ©todos sofisticados para procesar vÃdeos, que incluyen la descomposiciÃ³n del contenido en componentes mÃ¡s simples, como una imagen que presenta el fondo de un vÃdeo y otras imÃ¡genes, cada una de las cuales representa objetos que cambian a lo largo del vÃdeo.

Otro desafÃo al que se enfrentan los investigadores es el hecho de que muchas imÃ¡genes y vÃdeos generados por modelos no parecen realistas, ya que presentan objetos que se mueven de forma diferente a lo que cabrÃa esperar, dada nuestra experiencia en el mundo real.

Como parte de sus esfuerzos por enseÃ±ar a los modelos a generar vÃdeos en los que el movimiento sea coherente y lÃ³gico, Dekel y su equipo demostraron cÃ³mo se pueden ampliar las capacidades de los modelos de texto a imagen para que tambiÃ©n puedan generar y editar vÃdeos.

Pero al comprender mejor cÃ³mo el modelo procesa y representa las imÃ¡genes durante la ediciÃ³n, los investigadores lograron que editara todos los fotogramas de la misma manera, lo que dio como resultado un vÃdeo en el que el muÃ±eco lobo se movÃa de forma natural y convincente.

Notas Relacionadas

La justicia falló a favor del Nantes en el caso por la muerte del argentino Emiliano Sala: la cifra que deberá pagar el Cardiff

El Tribunal mercantil de Francia cerró un nuevo capítulo del juicio que se inició por el fallecimiento del delantero en 2019 en un accidente de avión

El hijo de Arnold Schwarzenegger debutó en una competencia de fisicoculturismo y la diferencia con su padre causó furor

Joseph Baena participó por primera vez en una competencia oficial y ganó el primer puesto en tres categorías de un evento

Por qué el Alpine de Gasly le saca diferencia al de Colapinto tras las primeras carreras de la Fórmula 1

Qué le faltó a Franco para igualar el francés: algunos problemas en su coche y circunstancias de competencia lo perjudicaron

Comentarios

Escribir un comentario

Nombre

Comentario

Los comentarios se envían y quedan pendientes de moderación.

Comentarios

Aun no hay comentarios, sé el primero en escribir uno.

Domingo

5 de Abril de 2026

Estamos Escuchando

El Dominguero

de 08.00hs. a 13.00hs.

OFICIAL COMPRA	OFICIAL VENTA

Facebook

VER MÁS TAPAS