在生成式AI崛起的当下,开源再次成为话题焦点:meta的开源大模型Llama 2公开商用,几乎一夜之间重塑了大模型的发展路线;开源社区Github上的生成式AI项目,一年同比增加248%;Hugging Face预言,2024年开源大模型的能力会与闭源持平。
但就和开源软件诞生时一样,开源AI的安全性备受争议。不同的是,它还面临着定义模糊、巨头游戏等新生问题。要不要对开源AI“开绿灯”?不同开放程度的AI都算开源吗?如何理解它们的价值和风险?
带着这些问题,近日多位学界和业界专家参加了“清华伍舜德楼行政法学工作坊·人工智能立法之开源发展与法律规制”会议,一同讨论开源AI的规制问题。本次会议由清华大学科技发展与治理研究中心及清华大学公共管理学院政府法制研究中心共同举办,清华大学公共管理学院院长朱旭峰教授、清华大学公共管理学院于安教授致欢迎辞。
现状:开源豁免
尽管生成式AI的风险一直处于风口浪尖,但不管是从业者还是监管者,目前都对开源AI更为包容。
以欧盟为例,即将发布的两部法律为开源AI明确亮了“绿灯”。同济大学法学院助理教授、上海市人工智能社会治理协同创新中心研究员朱悦介绍,一部是接近全文定稿的欧盟《人工智能法案》,目前的版本将不会监管免费、开源的AI系统;另一部则是《产品责任指令》。这一指令将AI产品纳入了适用范围,也就是当AI系统里的软件、硬件作为产品投向市场时,需要遵守相应条款,但“在商业活动之外研发、提供自由且开源的软件”除外。
中美也有类似的探索。比如中国社科院与南财合规科技研究院共同起草的《人工智能示范法(专家建议稿)》拟定,“免费且开源提供人工智能的个人、组织能证明已经采取足够安全措施的,可以减轻或不承担责任。”最近两位美国议员的《人工智能基础模型透明度法案》提案备受关注,当中开源模型也享有豁免权。
这种普遍宽松的态度,朱悦认为主要目的是鼓励创新、促进技术交流。从整条人工智能产业链来看,无论是框架性的代码,还是数据、预训练模型、评估基准,开源都发挥了难以替代的作用。以评估基准为例,“如果做出了AI大模型,要看它达到了怎样的性能水平,就需要跟其他大模型的基准比较。但这种评估基准存在于哪里?很多时候离不开开源平台,比如Hugging Face。可以说,大部分AI组件都是在开源的生态里发生的。”朱悦说。
中国信息通信研究院的人工智能研究中心高级业务主管呼娜英同样表示,相比于工业时代的封闭产业模式,开源的分工效率更高。开源AI在建设一个开放的产业生态上有重要作用,在产业经济的贡献上,它的作用也是显而易见的。
而更直接的原因是,开源本身就意味着更透明。朱悦指出,在GitHub、hugging face这些开源社区上传AI组件时,开发者需要披露权重、参数、架构等详细信息,来帮助其他人更好地使用,实际上已经履行了监管者期待的大部分义务。所以,“已经有很好的自我监督、社群监督,还有没有必要再施加硬性监管?需要考虑。”
难题:开源“留一手”
更透明、更创新是开源的固有优势,但碰上生成式AI,开源有新的问题要面对。
多位专家都提到,要警惕AI“假开源”的现象:目前的开源AI往往是“有限的开放”,只公开模型架构,很少公开训练数据和过程。除此之外,它可以限制使用者身份,限制核心功能的使用,还可以选择旧版本开源、新版本闭源。比如开源界的明星Llama2大模型,其实就限制了月活跃用户超过7亿的公司使用。
究其原因,21世纪经济报道合规科技部副主任王俊指出,开源站在法律、技术、商业的交叉口,开源AI更多时候是一种商业选择。
星纪魅族集团数据合规执行总监朱玲凤进一步解释,目前有些开源AI由头部公司主导,“越多人使用,就越能强化网格效应,而且不是真正的开放,后续需要使用它们的配套工具、配套服务。头部公司还可能利用监管豁免的方式,获得寻租空间。”换言之,以开源为噱头的巨头游戏,可能会进一步强化大公司的垄断地位,反而不利于产业竞争。
呼娜英还提到,国际科技巨头在用开源AI扩大影响力的同时,潜移默化地推行了一套自己的规则。产业自主性、国际依赖性的问题必须要谨慎考虑,国内应当尝试发展自己的开源生态。
不过限制竞争的隐忧,已经得到了一定缓解。朱悦表示,上文提到的欧盟两部法律,都强调公益性的、社群性的、自律性的开源。具体来说,它们明确限定了“开源”的附加条件,如果是通过开源换取货币对价,绑定额外的服务,或者出于安全、兼容之外的目的获得个人信息,进行商业变现,那就不能享受豁免。此外,法规还鼓励通过数据卡、模型卡、系统卡等信息披露的方式,进一步促进行业互助。
因此,朱悦认为更重要的问题可能是:如何运用立法技术厘清开源AI的边界?需不需要设定,如何设定最基本的义务?
治理:定义与安全风险评估难
是否要对开源豁免,与会专家们有了基本共识:有必要给予支持。但具体如何支持,难点主要来自两个方面:怎么定义开源AI,以及如何看待开源AI的安全风险。
朱玲凤发现,对于开源软件,通过读取源代码和技术文档,基本能够复现软件。但对于开源AI,只是开放源代码没办法复现能力,因为AI是由代码、模型、数据、算力等多个组件构成的复杂系统,传统的开源定义没法沿用。
作为参照,可以看看开源鼻祖是如何理解这一问题的。写下《大教堂与集市》、掀起开源运动的程序员,后来创立了著名的开放源代码促进会(OSI)。该组织正在召集全球专家讨论开源AI的定义,其最新报告认为开源AI需要提供四种自由:一,为任何目的使用该系统,无需征得许可;二,研究系统如何工作,并检查其组件;三,出于任何目的修改系统,包括改变其输出;四,为任何目的共享系统供他人使用,无论修改与否。
朱玲凤分析,OSI的定义明确了开源AI不仅仅指公开模型的源代码。但仍然不清楚的是,具体开源的对象是什么,是否会设计不同的开源许可证。
“在完全封闭和完全开放之间,AI有很多可选路径,可以有使用限制、完全没有使用限制,也可以完全封闭、完全不封闭。”安远 AI 资深研究经理方亮补充。在他看来,开源AI需要有更精确的定义,这样才能理解不同层次的风险。
值得思考的是,开源是否会放大AI的固有安全风险。朱玲凤注意到,OSI认为“如何开发符合道德规范、值得信赖或负责任的人工智能系统”不属于定义的讨论范围。她担忧的是,尽管开源社群的创新价值一再被强调,但社群、协会并不保证能安全使用开源AI,因此需要同时考虑开放与可信。
开源的安全性确实一直饱受争议。《大教堂与集市》一书曾提出名言:“如果有足够多的眼睛,错误将无处遁形。” 简单来说,就是开源可以利用集体的力量审查技术、发现漏洞、修复缺陷。许多AI科学家也因此认为,长远来看,开源是保障AI安全的唯一办法。
但呼娜英也指出,不能忽视“目前AI开源的安全风险依然非常高,而且与日俱增。我们看到大型的网络安全事件基本都与开源有关,对于高风险行业,尤其要注意安全和发展问题。”
针对开源AI的定义,中国人民公安大学教授、数据法学研究院院长苏宇认为,可以先豁免完全免费、允许所有人自由访问和利用的开源AI组件。苏宇指出,这样的开源AI组件对人工智能的研发有着基础性作用,而且被大量使用者反复打磨和完善,相对于信息不对称、不透明的闭源组件和应用更安全。“这种情况下,坚持完善透明度义务就好。其他带商业性质的开源、不完全开源组件及软件等的豁免条件,可以待制度实践更成熟之后逐步确定。”
保持透明度的基础义务,分层治理开源AI,也是专家们的共识。比如属于通用目的、高风险,或者基础模型的开源AI,专家认为仍然需要规制安全风险。
“对于开源AI,要认清哪些是固有风险,哪些是因为开源而增减、缩放的风险。尽可能用精准敏捷的治理措施,代替一刀切。”苏宇总结。