人类面临的不仅有诸多技术问题,还有许多问题需要我们在社会和经济中进行协调处理,从而实现更大的效益。如何在社会中重新分配资源一直是经济学家、政治学家等长期关注的问题。
要想让AI能够在资源分配领域提供助力,AI需要直接了解人类的价值观念。
近日,DeepMind开发了一个“民主AI”,并使用强化学习(ReinforcementLearning,RL)方法来让该AI设计一种大多数人都喜欢的社会机制。
在一个有关保留金钱还是与他人分享以获取集体利益的在线投资游戏里,通过设计不同的收入分配方法(其中一种由AI设计,其他由人类设计)让玩家选择,最终AI设计的机制赢得多数选票,并可以避免财富失衡、“搭便车者”(不出力但从中获利的人)等问题。
7月4日,相关论文以《采用“民主AI”进行以人为中心的机制设计》()为题发表在NatureHumanBehavior上,该论文提供了一个概念验证证明,通过针对人类偏好进行优化,深度RL可以在简单游戏中设计以多数票支持的经济政策。
当一群人决定汇集资金进行投资,获利后的收益应如何分配?若简单地按平均原则分配收益,很可能有失公平,因为每个人的具体贡献多少并不相同。
▲图|游戏和实验的说明(来源:NatureHumanBehavior)
为了训练“民主AI”,DeepMind记录了来自大量人类群体(4000多人)的数据,以让AI复制人们玩游戏的方式进行训练,同时让其在在线四人经济游戏中进行模拟学习。这种模拟的群体可以生成无限的数据,从而能够使用数据密集型机器学习方法来训练RL智能体。
然后,招募真实人类参与者,并将“民主AI”设计的机制与通常的基线(自由意志主义政策)进行对比。
最终,在玩家的投票中,发现AI设计的政策要更受欢迎。
▲图|整体投票比例(来源:NatureHumanBehavior)
该方法的一个优点是,AI直接学习最大化一群人的偏好(或投票),这可能有助于确保AI系统不会学习不安全或不公平的政策。
“民主AI”在选择将资金重新分配给人们时,会考虑每个人的初始手段和他们的贡献意愿,它会更偏向那些相对贡献更大的玩家。值得一提的是,该AI只是通过学习最大化人类选票来提出这些政策。因此,该方法能产出与人类兼容的解决方案。
事实上,当分析“民主AI”的政策时,发现它融合了人类思想家和专家以前提出的解决再分配问题的想法,反映出了来自各个政治派别的混合观点。
据了解,AI系统有时因学习可能与人类价值观不相容的政策而受到批评,而这种“价值一致性”的问题已成为AI研究中的主要问题。为了价值的一致性,可以利用与更广泛的人类社会相同的民主工具来达成共识,这些工具用于选举代表,决定公共政策或做出法律判断。
在该研究中,通过要求人们投票,利用多数民主的原则来决定人们想要什么。
但是,DeepMind在论文中也提到,需要更多的研究来了解,如何通过设计来权衡多数和少数群体的相对偏好,以考虑到所有人的意愿。
研究人员也对AI驱动的“多数人的暴政”表示担忧,在这种情况下,少数群体的需求被忽视了。并表示,该工作并不代表“AI政府”的解决方案,也不会打造专业的政策制定AI工具。
这或许是由于与人类提出的一些建议相比,AI提案并不一定是独一无二的。另外,使用AI的部署方式可能会加剧社会中现有的偏见、歧视或不公平。
如今,AI越来越擅长解决从商业到生物医学等各个方面的复杂挑战,故尔使用它进一步来帮助设计社会问题的解决方案是一个有吸引力的想法。
本次DeepMind开发的新方法,将AI与人类民主审议相结合,或能为社会困境提供更好的解决方案。但“民主AI”只是设计一些更好政策的潜在方法,并不是在公共领域部署AI的“良药”。
目前来说,我们距离能帮助制定公共政策的机器还有很长一段路要走,但AI有一天可能会帮助人类找到超越既定意识形态的新解决方案。