新一代人工智能聊天机器人的大部分学习数据是从互联网上抓取的——从社交媒体帖子到大约25万本书,以及几乎所有公开的信息。它们可以预测句子中最有可能出现的下一个单词,对我们的每一个提问给出流利的答案。问题在于,人工智能聊天机器人的工作方式意味着,当它们学到一些东西时,就无法忘记。
澳大利亚联邦科学与工业研究组织研究员大卫·张表示,这种语言模型依据汇总的数据生成回答,因此不容易忘记或“删除”特定的信息,甚至个人也无法准确追踪人工智能程序对他们的了解。他强调,这将在隐私方面造成一个重大问题,人工智能公司遵守“被遗忘权”将非常困难。 欧盟在2014年提出“被遗忘权”。根据欧盟的通用数据保护条例,人们有权要求从网络记录中删除他们的个人信息,比如撤回信息、删除帖子,或要求网络公司删除关于他们的数据。但大卫·张表示,这些解决方案与人工智能聊天机器人不兼容,“无法提供从模型记忆中删除或忘记数据的方法”。
苏黎世联邦理工学院计算机科学家特拉梅尔表示,人工智能公司必须找到方法来处理这个问题,尤其是在大语言模型开始接受更敏感个人信息的培训之际,比如医疗数据和电邮等。人工智能也会被黑客植入代码,以索要用户账户密码等信息。英国政府通信总部已呼吁关注这一问题。
人工智能公司目前依赖于“机器沉默”等方法阻止访问某些信息并拒绝回应。例如,当我要求人工智能建立我的个人档案时,它会说,“很抱歉我不能协助这个请求。”耶鲁大学数字伦理中心主任弗洛里迪说,这种方法在一定程度上可行,但目标数据仍然存在,如果出现故障或恶意干预,它就有可能在回应中出现。
伦敦政治经济学院人工智能研究学者阿里·博伊尔表示,人类的健忘倾向通常被视为一种认知故障,但有时是有益的,因为我们不需要记住我们学到的每一条信息。我们通过忘记某些事情,使检索有用记忆的过程更有效。人工智能系统可能也是如此。博伊尔认为,这一原理在2017年得到了证明,当时谷歌人工智能实验室开发了一种可以玩多款电子游戏的人工智能。它能够将游戏玩法的记忆储存起来,以便以后回忆和学习。研究人员随后对模型进行了改进,使其优先存储与回忆“令人惊讶”的玩法,忘记其余的数据,结果发现系统的性能有所提高。如果人工智能研究人员的最终目标是建立像人类一样学习和思考的系统,我们需要设计它们有选择性地忘记。博伊尔说,遗忘不是一个设计缺陷,而是一个高效、功能良好的记忆系统的特征。(作者舒巴姆·阿加瓦尔,陈欣译)
作者:舒巴姆·阿加瓦尔,陈欣译