今年早些时候,OpenAI广受欢迎但备受争议的聊天机器人ChatGPT在意大利遭遇了一个重大的法律障碍,意大利数据保护局(GPDP)指控OpenAI违反欧盟数据保护规则。为了试图解决问题,该公司同意限制在意大利使用该服务。
4月28日,ChatGPT重新在意大利上线,OpenAI轻松解决了意大利数据保护局的担忧,而没有对其服务做出重大改变。这对OpenAI来说是一次明显的胜利。
虽然意大利数据保护局对ChatGPT所做的改变表示“欢迎”,但OpenAI以及其他开发聊天
机器人公司所面临的法律挑战可能才刚刚开始。多个国家的监管机构正在调查这些人工智能工具收集数据和生成信息的方式,理由包括收集未经许可的培训数据、聊天机器人倾向于发出错误信息等。
欧盟已经开始执行《通用数据保护条例》(GDPR),这是世界上最强大的隐私法律框架之一,其影响可能会远远超出欧洲。与此同时,欧盟立法者正在制定一项专门针对人工智能的法律,这也很可能会开启对ChatGPT等系统进行监管的新时代。
ChatGPT成为多方关注目标
ChatGPT是生成式人工智能(AIGC)中备受关注的
应用之一,涵盖了根据用户提示生成文本、图像、
视频和音频等多种工具。据报道,ChatGPT在2022年11月推出仅两个月后,月活跃用户就达到了1亿人,成为历史上增长最快的消费者应用之一。
借助ChatGPT,人们可以将文本翻译成不同的语言、撰写大学论文,甚至生成代码。但一些批评者,包括监管机构在内,指出ChatGPT输出的信息并不可靠,存在版权问题,并且在保护数据方面有缺陷。
意大利是第一个对ChatGPT采取行动的国家。3月31日,意大利数据保护局指控OpenAI违反了《通用数据保护条例》:允许ChatGPT提供不准确或误导性信息、未向用户通知数据收集做法、未遵守个人数据处理的法规,以及未能充分防止13岁以下儿童使用该服务。意大利数据保护局命令OpenAI立即停止在ChatGPT的训练数据中使用从意大利公民那里收集的个人信息。
目前,其他国家尚未采取类似的大动作。但自3月份以来,至少有三个欧盟国家——德国、法国和西班牙,对ChatGPT展开了自己的调查。与此同时,在大西洋彼岸,加拿大正在根据其《个人信息保护和电子文件法案》(PIPEDA)评估ChatGPT的隐私问题。欧洲数据保护委员会(EDPB)甚至成立了专门的工作组来协调调查。如果这些机构要求OpenAI做出改变,可能会影响该公司为全球用户提供服务的方式。
监管机构有两大担忧
监管机构对ChatGPT的最大担忧主要分为两类:训练数据从何而来?OpenAI如何向用户传递信息?
为了支持ChatGPT,OpenAI需要使用GPT-3.5和GPT-4大型语言模型(LLM),这些模型是针对大量人工生成的文本进行训练的。OpenAI对究竟使用了哪些训练文本始终保持谨慎,但表示利用了“各种授权的、公开可用的数据源,其中可能包括公开可用的个人信息”。
根据《通用数据保护条例》的规定,这可能会带来巨大问题。该法律于2018年颁布,涵盖了收集或处理欧盟公民数据的所有服务,无论提供服务的组织总部设在哪里。《通用数据保护条例》要求公司在收集个人数据之前必须获得用户的明确同意,收集这些数据必须有法律上的正当理由,并对这些数据的使用和存储方式保持透明。
欧洲监管机构声称,OpenAI训练数据的保密性意味着他们无法确认其使用的个人信息是否最初获得了用户的同意。意大利数据保护局辩称,OpenAI从一开始就没有收集这些信息的“法律依据”。到目前为止,OpenAI和其他公司几乎没有受到审查。
另一个问题是《通用数据保护条例》的“被遗忘权”,它允许用户要求公司更正他们的个人信息或将其完全删除。OpenAI提前更新了其隐私政策,以方便回应这些请求。但考虑到一旦将特定数据输入到这些大型语言模型中,分离可能会非常复杂,是否在技术上可行始终存在争议。
OpenAI还直接从用户那里收集信息。就像其他互联网平台一样,它会收集一系列标准的用户数据,例如姓名、联系方式和信用卡详细信息等。但更重要的是,OpenAI会记录用户与ChatGPT的互动。正如官网所述,OpenAI的员工可以查看这些数据,并将其用于培训其模型。考虑到人们向ChatGPT提出的私人问题,例如将该机器人视为治疗师或医生,这意味着该公司正在收集各种敏感数据。
在这些数据中,可能包括未成年人的信息。尽管OpenAI的政策规定,它“不会故意从13岁以下的儿童那里收集个人信息”,但没有严格的年龄验证门槛。这不符合欧盟的规定,该规定禁止从13岁以下未成年人那里收集数据,并且在某些国家要求搜集16岁以下未成年人的信息需获得其父母的同意。在输出方面,意大利数据保护局声称,ChatGPT缺乏年龄过滤器,使未成年人“在他们的发育程度和自我意识方面得到了绝对不合适的回应”。
OpenAI在使用这些数据方面拥有很大的自由度,这让许多监管机构感到担忧,而且存储这些数据存在安全风险。三星和摩根大通等公司已经禁止员工使用AIGC工具,因为担心他们会上传敏感数据。实际上,在意大利发布禁令前,ChatGPT曾遭遇严重数据泄露事件,导致大量用户的聊天历史和电子邮件地址曝光。
此外,ChatGPT提供虚假信息的倾向也可能带来问题。《通用数据保护条例》规定,所有个人数据必须准确,意大利数据保护局在公告中强调了这一点。这可能会给大多数人工智能文本生成器带来麻烦,因为这些工具很容易出现“幻觉”,即对查询给出事实不正确或无关的回应。这在其他地方已经引起了一些现实问题,例如澳大利亚一名市长威胁要起诉OpenAI诽谤,因为ChatGPT谎称他曾因贿赂入狱。
专门的监管规则即将出台
ChatGPT因其受欢迎程度和人工智能市场的主导地位,特别容易成为监管目标。但与谷歌的Bard和微软与OpenAI支持的Azure AI等竞争对手和合作伙伴一样,它没有理由不接受审查。在ChatGPT之前,意大利已禁止聊天机器人平台Replika收集未成年人信息。到目前为止,该平台仍被禁止。
虽然《通用数据保护条例》是一套强大的法律,但它并不是为了解决人工智能特有的问题而制定的。然而,专门的监管规则可能即将出台。2021年,欧盟提交了其《人工智能法案》(AIA)首个版本的草案,该法案将与《通用数据保护条例》一起实施。《人工智能法案》将根据人工智能工具的风险大小对其进行监管,从“最小风险”(如垃圾邮件过滤器)到“高风险”(用于执法或教育的人工智能工具)再到“不可接受风险”(如社会信用体系)。
在像ChatGPT这样的大型语言模型出现爆炸式增长后,立法者现在正争先恐后地为“基础模型”和“通用人工智能系统(GPAI)”增加规则。这两个术语指的是包括LLM在内的大规模人工智能系统,并可能将它们归类为“高风险”服务。
《人工智能法案》的规定超出了数据保护的范畴。最近提出的一项修正案将迫使公司披露用于开发AIGC工具的任何受版权保护的材料。这可能会暴露曾被保密的数据集,并让更多公司容易受到侵权诉讼的影响,这些诉讼已经对部分服务造成影响。
专门AI法律或到2024年底通过
目前来看,实施这项法案可能还需要一段时间。欧盟立法者已于4月27日达成了一项临时人工智能法案协议,但还需要一个委员会在5月11日对草案进行投票,最终提案预计将于6月中旬公布。然后,欧洲理事会、欧盟议会和欧盟委员会将不得不在实施该法律之前解决任何剩余的争端。如果一切顺利,它可能会在2024年下半年通过。
就目前而言,意大利和OpenAI之间的争执让我们初步了解了监管机构和人工智能公司可能会如何谈判。意大利数据保护局表示,如果OpenAI在4月30日之前满足几项提议的决议,它就会解除禁令。
这些决议包括告知用户ChatGPT如何存储和使用他们的数据,要求征得用户明确同意才能使用这些数据,为纠正或删除ChatGPT生成的虚假个人信息提供便利,并要求意大利用户在注册账户时确认自己已超过18岁。尽管OpenAI没有达到这些规定,但它已经满足了意大利监管机构的要求,并恢复了在意大利的访问权限。
OpenAI仍需满足其他条件,包括在9月30日之前建立更严格的年龄门槛,过滤掉13岁以下的未成年人,并要求年龄较大的未成年青少年获得父母同意。如果失败,OpenAI可能会再次被封禁。不过,OpenAI似乎已经做出了榜样,表明欧洲认为人工智能公司的行为是可以接受的,至少在新法律出台之前是这样的。