亚马逊开发出有史以来最大的文本转语音模型，展现“涌现能力”

日期：2024-02-19 来源：IT之家评论：0

标签： AI 科技创新

　　IT之家2月18日消息，亚马逊人工智能研究团队宣布开发了一个据称是史上最大的文本转语音模型，该模型拥有最多的参数，并使用了最大的训练数据集。研究人员已经在arXiv预印本服务器上发表了一篇论文，详细描述了模型的开发和训练过程。

　　近年来，像ChatGPT这样的“大型语言模型”凭借其智能回答问题和生成高级文本的能力而备受关注。然而，人工智能也在逐步融入其他主流应用领域。在这个新项目中，研究人员尝试通过增加参数数量和扩充训练数据集来提升文本转语音应用的能力。

　　据IT之家了解，这个名为“可扩展流式文本转语音模型”（ba se TTS）的新模型拥有9.8亿个参数，并使用10万小时的录音（来自公共网站）进行训练，其中大部分为英语语音。研究人员还向模型提供了其他语言的单词和短语示例，使其能够正确发音一些常见的表达，例如“au contraire”和“adios,amigo”。

　　亚马逊团队还测试了使用较小数据集的模型，希望能从中发现人工智能领域所说的“涌现能力”。这种能力是指人工智能应用，无论是大型语言模型还是文本转语音模型，突然突破到更高智能水平的现象。他们发现，对于文本转语音应用而言，这种飞跃发生在参数量达到1.5亿的中型数据集上。

　　研究人员还指出，这种飞跃涉及一系列语言属性，例如使用复合名词、表达情感、使用外语词、应用语音学和标点符号以及正确强调句子中的关键词等能力。

　　研究团队表示，出于对潜在滥用风险的担忧，ba se TTS将不会向公众开放，他们计划将其作为学习应用，并期望将学到的知识应用于改善文本转语音应用的整体音质。

声明：凡开云电子链接来源注明为其他媒体来源的信息，均为转载自其他媒体，并不代表本网站赞同其观点，也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑，请立即与开云客户(www.www.wykobounce.com)联系，本网站将迅速给您回应并做处理。
电话：021-39553798-8007

更多> 相关开云电子链接

0条 相关评论

推荐图文

加州大学科学家发明了	深圳又一制造业总部基
水下机器人在渔业中的	哈工程水下机器人再夺
里程碑！荆州市首台机	超维科技精彩亮相电力

推荐开云电子链接

点击排行

• 阿尔特曼要融 8 万亿美元重塑 AI 芯片行业，“	• 科技创新世界潮\|人类与AI共跳“圆舞曲”，混合
• AI加速药物发现，前景尚需实践检验\|科技创新世	• 两大巨头联手！微软、OpenAI计划1亿美元投向人
• 人工智能或成全球芯片行业复苏关键动力	• AI对齐：让人工智能拥抱人类的价值观
• 以“社会实验”助推人工智能高质量发展	• 人工智能或是中国经济下一个爆发点
• 英伟达继续称霸 AI 市场，2024 年数据中心业务	• OpenAI 悄悄升级 ChatGPT：可在对话中调用不同

恰佩克奖	机器人高峰论坛	机气林	ITES深圳工业展	机器人研究院	库卡机器人	中国传动网
索比光伏网	数控机床市场网	国家标准化委员会