热搜： 佳士科技 irobot 开云电竞官网下载app 机器人机器人产业联盟 ABB 发那科机械手码垛机器人机器人展览

Meta开源多感官人工智能模型，整合文本、音频、视觉等六类数据

日期：2023-05-10 来源：IT之家评论：0

标签： 人工智能科技创新

　　IT之家5月9日消息，me ta公司发布了一个新的开源人工智能模型ImageBind，该模型能够将多种数据流，包括文本、音频、视觉数据、温度和运动读数等整合在一起。该模型目前只是一个研究项目，还没有直接的消费者或实际应用，但它展示了未来生成式人工智能系统的可能性，这些系统能够创造出沉浸式、多感官的体验。同时，该模型也表明了me ta公司在人工智能研究领域的开放态度，而其竞争对手如OpenAI和谷歌则变得越来越封闭。

　　该研究的核心概念是将多种类型的数据整合到一个多维索引（或用人工智能术语来说，“嵌入空间”）中。这个概念可能有些抽象，但它正是近期生成式人工智能热潮的基础。例如，人工智能图像生成器，如DALL-E、Stable Diffusion和Midjourney等，都依赖于在训练阶段将文本和图像联系在一起的系统。它们在寻找视觉数据中的模式的同时，将这些信息与图像的描述相连。这就是为什么这些系统能够根据用户的文本输入生成图片。同样的道理也适用于许多能够以同样方式生成视频或音频的人工智能工具。

　　me ta公司称，其模型ImageBind是第一个将六种类型的数据整合到一个嵌入空间中的模型。这六种类型的数据包括：视觉（包括图像和视频）；热力（红外图像）；文本；音频；深度信息；以及最有趣的一种——由惯性测量单元（IMU）产生的运动读数。（IMU存在于手机和智能手表中，用于执行各种任务，从手机从横屏切换到竖屏，到区分不同类型的运动。）

　　未来的人工智能系统将能够像当前针对文本输入的系统一样，交叉引用这些数据。例如，想象一下一个未来的虚拟现实设备，它不仅能够生成音频和视觉输入，还能够生成你所处的环境和物理站台的运动。你可以要求它模拟一次漫长的海上旅行，它不仅会让你置身于一艘船上，并且有海浪的声音作为背景，还会让你感受到甲板在脚下摇晃和海风吹拂。

　　me ta公司在博客文章中指出，未来的模型还可以添加其他感官输入流，包括“触觉、语音、气味和大脑功能磁共振成像信号”。该公司还声称，这项研究“让机器更接近于人类同时、全面、直接地从多种不同的信息形式中学习的能力。”

　　当然，这很多都是基于预测的，而且很可能这项研究的直接应用会非常有限。例如，去年，me ta公司展示了一个人工智能模型，能够根据文本描述生成短而模糊的视频。像ImageBind这样的研究显示了未来版本的系统如何能够整合其他数据流，例如生成与视频输出匹配的音频。

　　对于行业观察者来说，这项研究也很有趣，因为IT之家注意到me ta公司是开源了底层模型的，这在人工智能领域是一个越来越受到关注的做法。

声明：凡开云电子链接来源注明为其他媒体来源的信息，均为转载自其他媒体，并不代表本网站赞同其观点，也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑，请立即与开云客户(www.www.wykobounce.com)联系，本网站将迅速给您回应并做处理。
电话：021-39553798-8007

更多> 相关开云电子链接

0条 相关评论

推荐图文

加州大学科学家发明了	深圳又一制造业总部基
水下机器人在渔业中的	哈工程水下机器人再夺
里程碑！荆州市首台机	超维科技精彩亮相电力

推荐开云电子链接

点击排行

• 腾讯公布机器人技术新进展：已能实现花式调酒	• Spotify删除数万首AI歌曲，环球音乐怀疑有人用
• 摘得世界级荣誉！深圳实验学校中学部机器人社团	• 站在商用服务机器人应用场景创新的潮头——云迹
• 美媒：NASA研发蛇形机器人，希望去土星探究地质	• 张赛：做机器人行业的追梦人
• 全球市场竞争加剧，国产开云电竞官网下载app 亟待发力	• 美媒：“缺芯”难阻中企加速推进尖端人工智能
• 无人驾驶卡车将在特别军事行动区用于运送弹药和	• 性别视角下的人工智能与照料劳动

恰佩克奖	机器人高峰论坛	机气林	ITES深圳工业展	机器人研究院	API数据	库卡机器人
中国传动网	索比光伏网	数控机床市场网	国家标准化委员会