9月7日,在2023 Inclusion•外滩大会上,中国科学院院士何积丰以《大模型时代的安全问题》为题,与大家共同探讨大模型发展所带来的安全问题以及应对之道。
人工智能拥有超强的自主学习能力,进化速度极快,在数次迭代升级后,是否有可能在多个方面超越人类?
何积丰提到:“人类与机器都在学习。人类指导机器,机器不断学习变得更加智能;在这一过程中人类也要学习指导方法,使机器所生成的内容能够更符合人类需要。”何积丰表示,在人工智能技术发展过程中,要牢记人类的核心角色,人工智能技术将成为人类的助手,而不是替代人类创造未来。
谈及当前大模型带来的安全隐患,何积丰认为,问题主要集中在隐私泄露以及对齐两方面。
保护隐私安全至关重要
何积丰指出,隐私问题,即未经本人同意的情况下,收集、使用和泄露个人信息,是大模型发展过程中最受关注的问题。
具体来看,他认为,隐私问题在大模型的训练、与用户对话和结果生成三个阶段都有所涉及。
首先,大模型与传统机器学习不同,其训练需要大量数据,在这一过程中,尽管研究人员早已采取相关措施,但是提示技术仍然使得大量用户的个人信息和数据被大模型吸入,从而造成隐私泄露。
其次,大模型在与用户对话过程中,可能涉及到众多用户私密信息,而这类信息往往没有受到应有的隐私保护。如在使用大模型的过程中,数据控制键将要求用户选择“结束对话”或“继续对话并允许获取数据”。这意味着如果选择继续对话,将可能造成隐私泄露;如果选择保护隐私,将会失去使用权。
再次,大模型在产出结果时,其强大的生成力也让隐私泄露的方式变得更加多元,用户隐私获取将更加容易,而这也将隐私保护变得更加困难。
反馈强化学习是实现对齐的技术途径
而对齐问题,即引导智能系统的目标和人类价值观一致,使其符合设计者的利益和预期,不会产生意外的有害后果,是大模型发展过程中的另一大安全问题。
“如果将人工智能的能力比做《西游记》中的孙悟空,那么对齐技术就是唐僧口中的紧箍咒,它可以保证孙悟空不会随意使用他的能力为所欲为。因此,对齐技术是控制人工智能安全的核心技术。”谈及对齐技术的重要作用,何积丰抛出上述比喻。
那么,对齐问题将会带来哪些安全挑战?
何积丰表示,对齐的基础是人类价值观,而人类价值观处于动态变化中,且具有多元化特征。这样的特点可能导致对齐成为一项眼花缭乱的跨学科研究,这不仅考验技术,也审视着人类不同的文化。
此外,大模型有着“有用性”与“无害性”两个目标的冲突。在使用大模型的过程中,研发人员无法保证大模型是否会提供“错误”观点,那么要如何纠正这类“错误”观点,就是大模型发展过程中的重要挑战。
对于这些问题,何积丰指出,反馈强化学习是实现对齐的技术途径。
反馈技术的第一重含义,即通过反馈给模型不同的“奖励”信号,来引导其高质量的输出。但是,每个人喜好不同,这种反馈也可能存在主观因素,从而影响反馈的客观性。
第二重含义,是基于给大模型提供明确的原则,使得系统自动训练模型对所有生成的输出结果提供初始排序。这样的反馈可以使得大模型生成效率更高,生成的内容更加透明,每个人都可以看到系统受到什么样的指令,将会生成怎样的“答案”。
总体来看,人类与大模型都在进步,人类与机器持续共同学习,将更好地使技术转化为生产力,服务于经济社会发展。