《科创板日报》9月30日讯meta近期抛出了一个文字转视频(T2V)的AI模型——Make-A-Video(做个视频),输入几句话就能生成一段原创视频,该模型还可以把图片变成视频、从原视频得到多个衍生视频。
文字描述为:一艘登陆火星的宇宙飞船
文字描述为:机器人在时代广场跳舞
把图片变成视频
根据原视频生成新视频
该模型建立在文字转图像(T2I)模型的基础上,即meta的Make-A-Scene。研究人员通过对Make-A-Scene进行调整和训练,然后把它应用于视频生成模型,省去了文本-视频对训练这一环节,节省了大量的成本。
其实,在Make-A-Video之前,已经出现了多个T2V模型,其中就包括清华大学和智源研究院研发的CogVideo,它也是目前唯一一个开源的T2V模型。更早之前,GODIVA和微软的“女娲”也都实现过根据文字描述生成视频。
meta的研究人员采取了数据测试和人类打分两种方法对模型进行评估,与“前辈们”相比,Make-A-Video生成的视频质量更高,与文本更贴切。
值得注意的是,CogVideo与Make-A-Video的发布时间仅相差三个月。与此同时,一度爆红的T2I模型“Stable Diffusion”的母公司Stability AI已经跃跃欲试,其创始人Emad表示将很快发布一个比Make-A-Video更好的模型。
T2V 模型,为什么让大家趋之若鹜?
由文本生成影像,展示了自然语言处理技术与计算机视觉技术结合的潜力,可以理解为多项热门AI技术的交汇点。
其最直接的应用场景在于艺术、影视行业,如电影剧本编写、创意营销、教学视频,以及公共安全等众多领域。
对于曾“改名明志”的meta来说,与文字转图像/视频有关的AI技术还连接着元宇宙,meta已将AI团队并入AR/VR部门。
正如meta所说,“我们在这个领域取得了进展,但这仅仅是开始。我们将继续使用这类新的生成创意工具来突破可能的界限,以构建在2D/3D中更丰富、更具表现力的消息传递以及混合现实和虚拟世界中人们之间的通信方式。”
值得注意的是,在T2V模型方面,尽管已有多家科技公司展现雄心,但它们依然面临不小的技术、伦理问题。
从meta公布的作品来看,Make-A-Video生成的视频多少存在失真、掉帧的问题;因AI技术引发的争论性话题可谓层出不穷,前有Deepfake换脸术制造假新闻,后有AI绘画工具Midjourney生成画作获奖遭传统艺术家批评。
meta甚至提前打起了预防针,在Make-A-Video的发布页面,这家公司声明:由于该模型可以创建看起来逼真的内容,因此我们为所有视频添加了水印,这将有助于确保观众认识到视频是假的。