可通过文字生成连贯动作视频，谷歌推出 AI 扩散模型 Lumiere

日期：2024-01-30 来源：IT之家评论：0

标签： AI 科技创新

　　IT之家1月29日消息，谷歌研究院日前推出了一款名为Lumiere的“文生视频”扩散模型，主打采用自家最新开发的“Space-Time U-Net”基础架构，号称能够一次生成“完整、真实、动作连贯”的视频。

▲图源谷歌官方新闻稿（下同）

　　谷歌表示，业界绝大多数“文生视频”模型无法生成时间长、质量佳、动作连贯逼真的内容，这是因为此类模型通常“分段生成视频”，首先产生几张关键帧，接着用“时间超级分辨率（Temporal Super-Resolution）”技术，生成关键帧之间的视频文件，这种方法虽然能够节省RAM，但难以生成“连贯逼真”的视频。

　　谷歌提到，他们的新模型Lumiere相对于业界模型最大的不同是采用了全新“Space-Time U-Net”基础架构，该架构能够在空间和时间上同时“降采样（Downsample）”信号，从而在“更紧凑的时空中进行更多运算”，令Lumiere生成持续时间更长、动作更连贯的视频。

　　IT之家注意到，Lumiere一次可以生成80帧视频（16FPS下5秒视频/24FPS下约3.34秒视频），虽然这一数据看起来很短，不过研究人员提到，5秒视频长度实际上“已经超过大多数媒体作品中的平均镜头时长”。

　　除了应用“Space-Time U-Net”基础架构外，谷歌还介绍了Lumiere的基础特性，该AI建立在一个经过预先训练的“文生图”模型基础上，研究人员首先让基础模型生成视频分帧的基本像素草稿，接着通过空间超分辨率（SSR）模型，逐步提升分帧分辨率及细节，并利用“Multidiffusion”通用生成框架提升模型稳定性，从而保证了最终输出的视频一致性和连续性。

声明：凡开云电子链接来源注明为其他媒体来源的信息，均为转载自其他媒体，并不代表本网站赞同其观点，也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑，请立即与开云客户(www.www.wykobounce.com)联系，本网站将迅速给您回应并做处理。
电话：021-39553798-8007

更多> 相关开云电子链接

0条 相关评论

推荐图文

加州大学科学家发明了	深圳又一制造业总部基
水下机器人在渔业中的	哈工程水下机器人再夺
里程碑！荆州市首台机	超维科技精彩亮相电力

推荐开云电子链接

点击排行

• 机器人能用AI加速发现化学分子	• xAI 融资 60 亿美元挑战 OpenAI？马斯克回应：
• 印度首家 AI 独角兽企业诞生：初创公司 Krutrim	• 约 8000 个岗位受影响，企业软件巨头 SAP 向商
• OpenAI 阿尔特曼访韩：参观三星半导体生产线，	• MIT CSAIL最新研究表明人工智能不会抢走那么多
• AI 致命弱点：科学家首次用数学方法证明无法开	• 推动人工智能技术赋能社会
• 估值飙升！马斯克公司首个AI大模型产品即将发布	• 百度文心大模型落地吉利银河 L6 车型，支持 AI

恰佩克奖	机器人高峰论坛	机气林	ITES深圳工业展	机器人研究院	库卡机器人	中国传动网
索比光伏网	数控机床市场网	国家标准化委员会