La semana pasada, investigadores de Microsoft presentaron un nuevo modelo de inteligencia artificial que puede tomar una imagen fija de una cara y un clip de audio de alguien hablando y crear automáticamente un video realista de esa persona hablando. Los videos -que pueden hacerse a partir de rostros fotorrealistas, dibujos animados o ilustraciones- se completan con una convincente sincronización labial y movimientos naturales de la cara y la cabeza.
En un video de demostración, los investigadores mostraron cómo animaban a la Mona Lisa para que recitara un rap cómico de la actriz Anne Hathaway.
Los resultados del modelo de IA, llamado VASA-1, son tan divertidos como un poco chocantes por su realismo. Según Microsoft, esta tecnología podría utilizarse en educación o para «mejorar la accesibilidad de personas con problemas de comunicación», o incluso para crear compañeros virtuales para humanos. Pero también es fácil ver cómo se podría abusar de la herramienta y utilizarla para suplantar a personas reales.
Es una preocupación que va más allá de Microsoft: a medida que surgen más herramientas para crear imágenes, videos y audio convincentes generados por IA, a los expertos les preocupa que su uso indebido pueda dar lugar a nuevas formas de desinformación. A algunos también les preocupa que la tecnología pueda perturbar aún más las industrias creativas, desde el cine hasta la publicidad.
De momento, Microsoft no tiene previsto hacer público el modelo VASA-1 de forma inmediata. La medida es similar a la forma en que OpenAI, socio de Microsoft, está gestionando las preocupaciones en torno a su herramienta de video generado por IA, Sora. OpenAI presentó Sora en febrero, pero hasta ahora solo la ha puesto a disposición de algunos usuarios profesionales y profesores de ciberseguridad con fines de prueba.
El nuevo modelo de inteligencia artificial de Microsoft se entrenó con numerosos videos de caras de personas hablando, y está diseñado para reconocer los movimientos naturales de la cara y la cabeza, incluidos «el movimiento de los labios, la expresión (no labial), la mirada y el parpadeo, entre otros», explicaron los investigadores. El resultado es un video más realista cuando VASA-1 anima una foto fija.