Lunes 30 de Junio de 2025

Hoy es Lunes 30 de Junio de 2025 y son las 17:43 -

23 de septiembre de 2024

Cómo los nuevos modelos de inteligencia artificial amplían los límites en la generación de videos

La doctora Tali Dekel, del Instituto Weizmann de Ciencias, es una de las principales investigadoras del mundo en IA generativa. En qué consta su trabajo centrado en las capacidades de los modelos de aprendizaje profundo a gran escala. Las increíbles imágenes

>Hace apenas unos años, difícilmente podríamos haber imaginado que millones de personas en todo el mundo tendrían acceso a aplicaciones de inteligencia artificial generativa fáciles de usar que producen textos, imágenes y videos. Estas aplicaciones pueden generar resultados que parecen creados por seres humanos, así como crear cosas que nunca han existido en la realidad.

Ahora estos modelos pueden generar vídeos realistas de una calle concurrida de una ciudad o de una ardilla caminando por la Luna, y todo lo que el usuario tiene que hacer es introducir una breve descripción textual o imágenes que sirvan como fuente visual.

El equipo del laboratorio de la doctora Tali Dekel para el estudio de la visión artificial en el Departamento de Informática y Matemáticas Aplicadas del Instituto de Ciencias Weizmann, espera superar las limitaciones de estas máquinas generativas y llevarlas al nivel humano, o incluso más allá.

Dekel añade: “Nuestra investigación plantea preguntas fascinantes, como por ejemplo: ¿Qué aprende un modelo generativo sobre el mundo y cómo codifica esta información? ¿Cómo podemos representar de forma eficaz la información visual en el espacio y el tiempo para poder modificarla y, en última instancia, poder interactuar con nuestro mundo dinámico a través de vídeos?”.

Además de su trabajo en el Instituto Weizmann, Dekel también es investigadora en Google. Mientras que sus estudios en Weizmann se centran en superar las limitaciones de los modelos de IA existentes, su trabajo en Google implica el desarrollo de nuevos modelos, como el innovador modelo de texto a vídeo Lumiere, cuyo resultado se dio a conocer recientemente al público.

Cuando a Lumiere se le presentó una imagen de un viejo tren de vapor que echaba humo sobre una vía férrea y los investigadores resaltaron la parte de la imagen que contenía el humo, el modelo creó una imagen parcialmente animada en la que solo se movía el humo. Lo hizo de una manera muy realista, manteniendo el resto de la imagen sin cambios. Los investigadores incluso se divirtieron un poco con Lumière, pidiéndole que generara una Mona Lisa bostezando y poniendo una sonrisa en el rostro de la niña en La joven de la perla de Vermeer.

“Lumiere [es] un modelo de difusión de texto a vídeo diseñado para sintetizar vídeos que retratan un movimiento realista, diverso y coherente, un desafío fundamental en la síntesis de vídeo”, Lumiere es único en su capacidad de generar una serie completa de fotogramas sin espacios entre ellos, mientras que los modelos anteriores comenzaban generando fotogramas clave distantes en la escala espacio-temporal y solo entonces completaban el movimiento entre los fotogramas clave. Es por eso que los modelos anteriores tenían dificultades para generar un movimiento convincente y natural; Lumiere puede generar secuencias completas de movimiento de alta calidad.

Y aunque la mejora en las capacidades de autoaprendizaje de estos modelos es evidente, todavía no sabemos exactamente cómo funcionan. “Grandes secciones de redes neuronales son una especie de ‘caja negra’ para nosotros”, añade Dekel.

Para Dekel, las “cajas negras” que hay dentro de estos modelos ofrecen excelentes oportunidades de investigación. “Durante el proceso de autoaprendizaje, los modelos adquieren una enorme cantidad de información sobre el mundo. Como parte de nuestra investigación sobre la reproducción de la realidad mediante herramientas digitales, estamos tratando de producir resultados diferentes a partir de modelos existentes, casi sin alterarlos en absoluto. En lugar de eso, estamos tratando de entender mejor cómo funcionan mientras intentamos descubrir nuevas tareas que sean capaces de completar”, dice Dekel sobre la investigación que llevó a cabo con su colega de Weizmann, el doctor Shai Bagon, el doctor Yoni Kasten de NVIDIA Research y los estudiantes de Weizmann Omer Bar-Tal, Narek Tumanyan, Michal Geyer, Rafail Fridman y Danah Yatim.

Los investigadores del laboratorio de Dekel también están buscando métodos sofisticados para procesar vídeos, que incluyen la descomposición del contenido en componentes más simples, como una imagen que presenta el fondo de un vídeo y otras imágenes, cada una de las cuales representa objetos que cambian a lo largo del vídeo.

Otro desafío al que se enfrentan los investigadores es el hecho de que muchas imágenes y vídeos generados por modelos no parecen realistas, ya que presentan objetos que se mueven de forma diferente a lo que cabría esperar, dada nuestra experiencia en el mundo real.

Como parte de sus esfuerzos por enseñar a los modelos a generar vídeos en los que el movimiento sea coherente y lógico, Dekel y su equipo demostraron cómo se pueden ampliar las capacidades de los modelos de texto a imagen para que también puedan generar y editar vídeos.

Pero al comprender mejor cómo el modelo procesa y representa las imágenes durante la edición, los investigadores lograron que editara todos los fotogramas de la misma manera, lo que dio como resultado un vídeo en el que el muñeco lobo se movía de forma natural y convincente.

COMPARTIR:

Comentarios

  • Desarrollado por
  • RadiosNet