在周一发布的更新中,Google分享了有关通用语音模型(USM)的更多信息,Google称这一系统是实现其目标的"关键第一步"。
去年11月,该公司宣布其计划创建一个支持全球1000种最常用语言的语言模型,同时还披露了其USM模型。Google将USM描述为"一个最先进的语音模型系列",它有20亿个参数,在1200万小时的语音和超过300种语言的280亿个句子中进行训练。
YouTube已经使用USM来生成封闭式字幕,它还支持自动语音识别(ASR),这可以自动检测和翻译语言,包括英语、中文普通话、阿姆哈拉语、宿务语、阿萨姆语等等。
现在,Google USM支持超过100种语言,并将作为"基础"来建立一个更加广泛的系统。与此同时,me
ta公司正在开发一个类似的人工智能翻译工具,但目前仍处于早期阶段。
您可以在Google发布的研究论文中阅读更多关于USM和它如何工作的信息:
https://arxiv.org/abs/2303.01037
该技术的一个目标可能是在增强现实的眼镜内,就像Google去年在I/O活动中展示的概念一样,能够检测并提供实时翻译,不过,这项技术似乎还有点遥远,Google在I/O大会期间对阿拉伯语的错误表述证明了它是多么容易出错。