专家创建“新图灵测试”能够更好评估人工智能的隐秘能力

日期：2022-06-21 来源：参考消息网作者：支艳蓉评论：0

标签：

　　据英国《新科学家》周刊网站6月14日报道，包括美国谷歌公司多名专家在内的400多位人工智能（AI）研究者建议升级著名的图灵测试，以提高为人工智能技术评分的能力。

　　报道称，近年来，人工智能语言模型表现出惊人的与人对话的能力，这要归功于实验规模不断扩大——我们有了更强的算力和庞大的训练数据集。谷歌公司的一名工程师近日对一个模型印象深刻，甚至宣称这个模型已经有了意识（虽然遭到很多人的质疑）。有科研人员预计这些模型的规模仍将继续扩大，并在今后几年里展现出新的能力。

　　为评估目前的技术水平并为迎接未来更强大的模型做好准备，来自132家机构的442名研究者花费两年时间，创造出一套取代图灵测试的方法，用于评估人工智能模型的隐秘能力，且可在必要时扩展评估范围。这套方法名为“超越模仿游戏基准”（BIG-bench），包含204项不同的任务，覆盖语言学、数学、棋类等一系列主题。根据设计，这些任务将无法被当前最先进的模型完全解决。

　　科研人员在一篇介绍“超越模仿游戏基准”的论文中指出，它将成为一项重要工具，可以启发未来的研究，以及识别和预见新兴人工智能的任何颠覆性新能力或潜在的有害影响。

　　人类专家完成了这204项任务，为每项任务确定了平均分和最高基准分。科研人员发现，虽然算力的提高帮助人工智能模型取得越来越好的成绩，但人工智能在大多数任务中的表现仍然不如人类。

　　科研人员还发现，扩大人工智能模型的规模并没有提高其在某些任务中的表现，比如涉及长文本的逻辑推理。这等于暗示说，对于一些智力领域而言，单单扩大规模并不能解决问题。事实上，这项研究还表明，规模甚至可能带来问题，比如在某些情况下，衡量社会偏好的一些测试会给较大的模型打出较低的分数。

　　该研究团队的核心成员包含多位谷歌专家，但该公司没有回应记者的采访请求。

　　英国萨里大学的阿德里安·希尔顿认为，图灵测试未必过时，但对现代人工智能而言不够有效，或者说覆盖面不够广。图灵测试最初还被用来评估智力，尽管其是否能够评估智力是值得商榷的。希尔顿怀疑此次公布的新基准恐怕也无法衡量真正的智力。

　　他说：“我认为这是一种有效的测试，但我不会据此认为，说一台机器很聪明与说它有意识是一回事。我相信，设置一组基准是比较一种机器学习算法与另一种算法的一个办法，也是比较一种人工智能与另一种人工智能的一个办法。但我并不认为这一定能解答关于智力的问题。有了机器学习技术，机器就能谱写乐曲，甚至回答问题、写散文，且是以一种比较有说服力、比较接近人类的方式做这些事情。但这真的是智力吗？我认为并非如此。”

声明：凡开云电子链接来源注明为其他媒体来源的信息，均为转载自其他媒体，并不代表本网站赞同其观点，也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑，请立即与开云客户(www.www.wykobounce.com)联系，本网站将迅速给您回应并做处理。
电话：021-39553798-8007

更多> 相关开云电子链接

0条 相关评论

推荐图文

机器人赋能产业，智赢	机器人也会创造英国
2018年中国智慧机场行	智能工厂全面解读！
艾猫早教机器人亮相20	360智能硬件助力美国

推荐开云电子链接

点击排行

• 2022世界人工智能大会延期至9月初举办	• 世界智能大会“科创中国”技术路演人工智能大数
• “全国青少年编程与人工智能计划”列入未成年人	• “钢铁侠”送上机器人涨停潮这一次改变世界的
• 腾讯教育“开花”：“腾班”迎首届毕业生	• 中国队伍夺得世界人工智能围棋赛冠军打败5国18
• 百度AI寻人	• 科大讯飞拟出资5800万元投设基金投资方向为人
• AI筑底新基建拓维信息签订累计近4亿元人工智能	• 用大数据手段填志愿你怎么看？

恰佩克奖	机器人高峰论坛	北大机器人	金属加工在线	AI中国网	机气林	工博会
赶考网	中国机床网	ITES深圳工业展	电气自动化网	高压电气网	人工智能机器人	亚洲工业网
二手设备网	库卡机器人	中国传动网	索比光伏网	数控机床市场网	国家标准化委员会