热搜： irobot 机器人佳士科技开云电竞官网下载app 机器人产业联盟 ABB 发那科机械手机器人展览码垛机器人

研究发现：AI 越聪明就越有可能“胡编乱造”

日期：2024-09-30 来源：IT之家评论：0

标签： AI 科技创新

IT之家 9 月 29 日消息，一项新研究发现，随着大型语言模型（LLM）变得越来越强大，它们似乎也越来越容易编造事实，而不是避免或拒绝回答它们无法回答的问题。这表明，这些更聪明的 AI 聊天机器人实际上变得不太可靠。

图源 Pexels

IT之家注意到，该研究发表在《自然》杂志上，研究人员研究了一些业界领先的商业 LLM：OpenAI 的 GPT 和 meta 的 LLaMA，以及由研究小组 BigScience 创建的开源模型 BLOOM。

研究发现，虽然这些 LLM 的回答在许多情况下变得更加准确，但总体上可靠性更差，给出错误答案的比例比旧模型更高。

瓦伦西亚人工智能研究所在西班牙的研究员 José Hernández-Orallo 对《自然》杂志表示：“如今，它们几乎可以回答一切。这意味着更多正确的答案，但也意味着更多错误的答案。”

格拉斯哥大学的科学和技术哲学家 Mike Hicks 对此进行了更严厉的评价，Hicks（未参与该研究）告诉《自然》杂志：“在我看来，这就像我们所说的胡说八道，它越来越擅长假装知识渊博。”

测试中，这些模型被问及了从数学到地理等各种主题，并被要求执行诸如按指定顺序列出信息等任务。总体而言，更大、更强大的模型给出了最准确的答案，但在更难的问题上表现不佳，其准确率较低。

研究人员称，一些最大的“撒谎者”是 OpenAI 的 GPT-4 和 o1，但所有被研究的 LLM 似乎都呈这种趋势，对于 LLaMA 系列模型，没有一个能够达到 60% 的准确率，即使是最简单的问题。

而当被要求判断聊天机器人的回答是准确还是不准确时，一小部分参与者有 10% 到 40% 的概率判断错误。

总之研究表明，AI 模型越大（就参数、训练数据和其他因素而言），它们给出错误答案的比例就越高。

研究人员称，解决这些问题最简单的方法是让 LLM 不那么急于回答一切。Hernández-Orallo 称：“可以设置一个阈值，当问题具有挑战性时，让聊天机器人说‘不，我不知道’。”但如果聊天机器人被限制为只回答它们知道的东西，可能会暴露技术的局限性。

声明：凡开云电子链接来源注明为其他媒体来源的信息，均为转载自其他媒体，并不代表本网站赞同其观点，也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑，请立即与开云客户(www.www.wykobounce.com)联系，本网站将迅速给您回应并做处理。
电话：021-39553798-8007

更多>相关开云电子链接

0 条相关评论

推荐图文

加州大学科学家发明了	深圳又一制造业总部基
水下机器人在渔业中的	哈工程水下机器人再夺
里程碑！荆州市首台机	超维科技精彩亮相电力

推荐开云电子链接

点击排行

• 中国电信 AI 研究院完成首个全国产化万卡万参大	• 当电视不再是电视，长虹AI TV把科幻电影变为现
• 一键屏蔽恶意 AI 模型爬虫机器人，Cloudflare	• 中控技术发布 Plantbot 方案：基于“AI + 机器
• “稚晖君”创业项目，智元自主研发的机器人中间	• AI+双向奔赴！月之暗面 Kimi 携手用友YonSuite
• GBFA亚洲数字经济投资论坛将于9月27日登陆深圳	• 英国警方测试 AI 工具：可短时间分析大量数据，
• 全球科技早参 \| OpenAI全面发布类人ChatGPT语音	• 空客AIRBUS与飞思德携手：虚拟验证技术引领航空

恰佩克奖	机器人高峰论坛	机气林	开云入口网页版生态大会	ITES深圳工业展	优气压缩机（上海）有限公司	机器人研究院
库卡机器人	中国传动网	索比光伏网	数控机床市场网	国家标准化委员会	国际现代工厂/过程自动化技术与装备展览会