Nvidia的研究团队刚刚开发了一种新的AI,可以使用现有的
视频和一个图像来使图像中的人模仿
视频中的动作。从技术上讲,称为视频到视频合成的方法将输入视频(如分割蒙版或人体姿势)使用图像转换为逼真的视频。研究团队表示,当前的AI模型试图实现相同目标存在两个主要问题:首先,这些模型需要大量目标图像才能将它们转换为视频。其次,这些模型概括输出的能力受到限制。
为了克服这些障碍,研究人员训练了一种新的模型,该模型学会仅使用其中的一些图像来生成以前看不见的人或场景的视频(训练数据集中不存在的图像)。然后,团队在各种场景(例如舞步和会说话的头)上对此进行了测试。您可以在下面的视频中查看正在运行的AI:该模型还可用于绘画或街道上以创建实时化身或数字化掌握的街道场景。这对于制作
电影和游戏非常方便。
就像在“黑客新闻”主题中讨论的人们所指出的那样,人工智能还不是很完美,很难分辨这些低分辨率视频中的所有细节是否正确。但是,对制作合成视频进行研究非常有用。