尽管效果相当粗糙,但该系统提供了生成式人工智能的早期前景,这也是今年掀起了巨大热潮的从文本到图像的人工智能系统的下一步。
meta 发布的 Make-A-Video 可能会促使其他人工智能实验室发布他们自己的版本。这也引发了一些重大的伦理问题。
上个月,人工智能实验室 OpenAI 开始向所有人提供其最新的文本到图像 AI 系统 DALL-E,另一家人工智能初创公司 Stability.AI 也推出了开源的文本到图像生成系统 Stable Diffusion。
但从文本到视频的人工智能面临着一些更大的挑战。首先,这些模型需要大量的计算能力。
它们所需的算力,比大型文本到图像的人工智能模型多得多,因为它们使用数百万张图像来训练,生成一个短视频就需要用到数百张图像。
这意味着,在可预见的未来,只有大型科技公司才真正有能力建造这些系统。它们的训练也比较困难,因为没有与文本匹配的高质量视频数据集。
为了解决这个问题,meta 整合了来自三个开源图像和视频数据集的数据来训练其模型。
经过标注的静态图像(标准文本图像数据集)可以帮助人工智能掌握物体的名称和样子。
视频数据库可以帮助它理解这些物体如何在真实世界中行动。这两种方法的结合有助于实现基于文本生成视频并最终用于制作 Make-A-Video 模型。该模型的详细介绍发表于一篇未经同行评议的论文中。
艾伦人工智能研究所的计算机视觉研究科学家坦梅尔·古普塔(Tanmay Gupta)说,meta 的研究结果看起来很有前景。
meta 发布的视频显示,该模型可以随着相机的旋转捕捉到三维形状。该模型也对深度和光照的概念有着一定的理解。古普塔表示,许多细节和动作都做得很不错,而且令人信服。
然而他也补充说,“技术层面仍有很大的进步空间,特别是如果这些系统要用于视频编辑和专业内容创作,比如我们仍然很难在物体之间建立复杂的交互模型。”
在使用“艺术家用画笔在画布上绘画”这段文字生成视频时,我们可以看到画笔在画布上移动,但画布上的笔触并不真实。古普塔说:“我希望看到这些模型能够成功地产生一系列的互动,比如‘男人从书架上拿起一本书,戴上眼镜,一边坐下来一边喝咖啡’。”
就 meta 而言,它将这项技术视为是“为创作者和艺术家打开新的机会”。
但随着技术的发展,人们担心它可能会被用来作为一种制造和传播虚假信息和深度造假的强大工具。这可能会使区分网络内容的真假变得更加困难。
合成媒体专家亨利·阿杰德(Henry Ajder)说,meta 的模型提高了生成式人工智能的技术和创造性,但同时也带来了风险,因为“生成视频而不是静止图像可能造成独特的伤害”。
古普塔说:“至少在今天,创造出人们可能相信的虚假内容需要花费一些努力。但在未来,可能只要点几下鼠标,就有可能产生误导性的内容。”
meta 的一位发言人表示,他们还未计划向公众提供该模型,“作为本研究的一部分,我们将继续探索进一步完善模型和降低潜在风险的方法。”