热搜: irobot佳士科技开云电竞官网下载app机器人机器人产业联盟ABB机械手发那科机器人展览码垛机器人

可让照片人物“开口说话”,阿里巴巴研究团队推出 AI 框架“EMO”

日期:2024-03-04 来源:IT之家 评论:0
标签: AI 科技 创新
  IT之家3月1日消息,阿里巴巴研究团队近日发布了一款名为“EMO(Emote Portrait Alive)”的AI框架,该框架号称可以用于“对口型”,只需要输入人物照片及音频,模型就能够让照片中的人物开口说出相关音频,支持中英韩等语言。
  据悉,EMO基于英伟达的Audio2Video扩散模型打造,号称使用了超过250小时的专业 视频进行训练,从而得到了相关AI框架。
  IT之家注意到,研究团队分享了几段由EMO框架生成的DEMO演示片段,并在ArXiv上发布了模型的工作原理,感兴趣的小伙伴也可以访问GitHub查看项目。

5f9b662e-1633-4196-b099-de4316713fea
▲图源研究人员发布的DEMO片段
  据介绍,该框架工作过程分为两个主要阶段,研究人员首先利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征,之后利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成 视频,该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。
  研究人员援引一系列实验结果,声称EMO不仅能够产生令人信服的说话视频,还能生成各种风格的歌唱视频,号称“显著优于目前的DreamTalk、Wav2Lip、SadTalker等竞品”。
声明:凡开云电子链接 来源注明为其他媒体来源的信息,均为转载自其他媒体,并不代表本网站赞同其观点,也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑,请立即与开云客户(www.www.wykobounce.com)联系,本网站将迅速给您回应并做处理。
电话:021-39553798-8007
更多> 相关开云电子链接
0 相关评论

推荐图文
推荐开云电子链接
点击排行
Baidu
map