尽管人们对快速发展的人工智能抱有很大的预期,但是我们也看到了这一高风险的领域正面临巨大的挑战。例如在刑事司法中,非盈利媒体ProPublica的调查小组发现,法庭和执法部门用于预测刑事被告再犯的算法,可能对非裔美国人存在一定的偏见。这一现象随后被许多学者证实。在医疗保健领域,匹兹堡大学医学中心的研究发现,一种用于治疗肺炎患者的 AI 系统,缺失了一项对严重并发症的风险评估。在教育领域,德克萨斯州的评教算法被暴露出存在严重的缺陷,教师们也成功起诉了他们所在的学区。
或许这些例子仅仅是一个开始,未来还会有更大的挑战。其中一部分原因在于,目前的 AI 领域缺少标准化的测试模式和审核方法,无法完全避免算法偏差,保障绝对的安全。
然而,这些早期的 AI 系统正被应用到多个行业,包括医疗、金融、法律、教育以及各种办公场地。这些系统也已经渗透到我们生活的方方面面,它们可以用于预测我们的音乐爱好、生病的概率、适合的工作以及借贷的数额等。
这里的问题不是蓄意对人工智能的滥用。而是人们在使用 AI 技术的过程中,没有用于确保公平公正的流程和标准,更没有思考它们所带来的社会效应。当研发的药品在推向市场之前,它必须要经过严格的科学测试,并持续检测其中长期的效果。其实高风险 AI 的应用也当如此。谨慎是非常必要的,因为如果一旦出错,许多人会受到严重的伤害。
作为报告的一部分,AI Now 还为 AI 产业的研究人员和政策制定者提供了 10 条建议。这些建议并不是完整的解决方案,只是进一步工作的起点。AI Now 称:「尽管 AI 产品正在迅速发展,但对算法偏见和公正的研究仍处于起步阶段,如果我们想要确保 AI 系统得以被负责任地部署与管理,需要做的事情还很多。」
建议一:刑事司法、医疗、福利和教育等高风险领域内的核心公共机构不应再使用具有「黑箱」特性的 AI 技术及算法系统,包括未经审核和验证的情况下使用预训练模型,采用由第三方供应商授权的 AI 系统及内部创建的算法。
公共机构使用这类系统会严重引起人们对这类法定诉讼程序的担忧。这些系统至少要经历公共审计、测试及审查的过程,符合相应的问责标准。
这将带来一个重大的转变:提出的这项建议反映了 AI 及相关系统已经对部分重大决策产生影响。过去的一年里,也有许多能够作证这一点的研究报告。人们在朝着这个方向迈进,本月,纽约市议会就开展了一项关于保障算法决策系统的透明度和测试的相关法案。
建议二:在发布 AI 系统之前,企业应该进行严格的预发布测试,以便确保系统不会因训练数据、算法或其他系统设计的原因导致任何错误及偏差的发生。
AI 是一个发展迅猛的领域,开展测试的方法、假设以及测试结果,都应该是公开透明、有明确版本的,这有助于应对更新升级以及新的发现。
那些开发系统并从中获利的人应该肩负起相应的测试及保障环节的责任,包括预发布版本的测试。AI 领域距离标准化方法的实现还有很长的路要走,这也是建议这些方法和假设需要公开审核和讨论的原因。如果随着时间的推移,AI 领域能够制定出具有鲁棒性的测试准则,那么这种开放性是至关重要的。另外,即便在标准化方法中,实验室测试也不能捕捉到所有的错误和盲区,这也是建议三出现的原因。
建议三:在 AI 系统发布之后,企业需要继续监测其在不同环境和社区中的使用情况。
监测方法和结果的定义需要一个公开、严谨的学术过程,要对公众负责。特别是在高风险决策环境中,应该优先考虑传统边缘化社区的看法和经验。
确保 AI 算法系统的安全性问题是非常复杂的,是一个针对给定系统生命周期的持续过程,而不是一个完成后就可以遗忘的短期检验。只有在动态的使用案例和环境中进行监测才能确保 AI 系统不会在假设和领域发生改变时引入错误和偏差。同样值得注意的是,许多 AI 模型和系统都有通用性,产品可能会采用一些即插即用的附加功能,如情感检测或面部识别等。这意味着那些提供通用 AI 模型的企业也可以考虑选择已经批准使用的功能,这些经过许可的功能已经把潜在的负面影响和风险等因素考虑在内。
建议四:需要进行更多的研究并制定相应的政策让 AI 系统用于工作场所管理和监测中,包括招聘和人力资源环节。
这项研究将补充目前自动化取代工人的这一研究焦点,应该特别注意对劳工权利和行为的潜在影响,以及操纵行为的潜力以及在招聘和晋升过程中无意强化的偏见。
围绕 AI 和劳动力的争论通常会集中在工人流离失所的问题上,这是一个非常严重的问题。然而,了解 AI 算法系统在整个工作场所中的使用情况也同样重要,包括行为推动,到检测环节,再到绩效评估过程。例如,一家名为 HireVue 的公司最近部署了一项基于 AI 的
视频面试服务,可以分析求职者的讲话、肢体语言、语调,从而确定求职者是否符合一家给定公司的「优秀」模型。鉴于这些系统存在降低多样性并巩固现有偏见的可能性,人们需要做更多的工作来充分理解 AI 是如何融入管理、招聘、调度以及日常工作场所中的实践中的。
建议五:制定标准,跟踪系统整个生命周期的启动、开发过程和训练数据集的使用情况。
这是为了更好地了解和监控偏差及代表性曲解问题。除了更好地记录训练数据集的创建和维护过程,AI 偏差领域的社会科学家和测量研究员应该继续检验现有的训练数据集,并努力理解已经存在在实际工作中的潜在盲区和偏差。
依赖于大规模数据,AI 才能发现模式并作出预测。这些数据反映人类历史的同时,也不可避免地反映了训练数据集的偏差和成见。机器学习技术山擅长提取统计模式,常常会在试图概括常见案例的过程下省略不同的异常值,这也是不根据数据表面价值进行偏差研究的重要原因。这样的研究要从理解训练 AI 系统的数据来自哪里开始,追踪这些数据是如何在系统中使用的,而且要随着时间推移验证给定数据集的形态。在掌握这一点的基础上,人们可以更好地理解数据中反映出的错误和偏差,进而研发出能够在数据的开发和采集中识别这种情况并将其削弱的方法。
建议六:以跨学科视角看待 AI 的偏差研究与缓解策略的研究。
偏差问题长期以来一直存在,并且是一个结构性问题,深度的跨学科研究是解决偏差问题的必要途径之一。在技术层面,研究者们往往希望能一劳永逸地彻底解决问题,这严重低估了问题放在社会层面时的复杂性。在教育、医疗、刑事司法等领域,偏差问题的趋势源于其自身的历史进程和过往实践,如果不结合相应的领域知识,偏差问题就不能被彻底解决。要解决偏差问题,一定需要跨学科的合作,并尊重不同学科的规则。
最近,人工智能以及偏差算法领域有了一些喜人的进展。但在这里,我们还是要提醒诸位不要闭门造车。否则,很有可能出现这样的情况——系统虽然一直在优化,但我们却不知道怎样用这个越来越优化的系统解决问题。计算机科学家能够通过与诸如法律、医学、社会学、人类学和交流学等领域的专家合作,在 AI 数据形成以及上下文集成之前,更好地理解数据底层的结构性不平等问题。
建议七:亟需 AI 系统落地时的审查标准与规范。
该标准的制定应结合不同学科及联盟的观点,以公开、严谨的学术态度进行,并须定期审查和修订。目前,还没有确定的能够评估 AI 系统在其应用的社会领域中所产生的影响的理论体系。考虑到目前尚处于早期的人工智能系统已经给一些危险程度较高的的社会领域造成了影响,这一问题必须被重视起来,甚至可以说是当务之急。
建议八:AI 领域的公司、大学、会议以及其他利益相关者应该公布参与其工作的女性、少数族裔、以及其他边缘群体的人数。
现在有很多人已经意识到,AI 领域研究人员缺乏多样性这一问题,但还没有细粒度数据论证该问题的严重性。为了建立真正的多元文化工作场所,我们需要对科技行业的工作文化进行更深层次的评估。这需要数据的支撑,而不仅仅是多雇佣女性和少数族裔这样简单。
创造 AI 系统的人本身持有的假设和观点必会影响到 AI 系统的走向。目前,人工智能的开发者多为男性白人,他们有着相似的教育背景。目前已经有足够多的证据表明这会造成问题,比如语音助手对女性声音的辨识度不如男性,又或是 AI 助手在为女性提供健康信息时所表现出的乏力。文化的多样性研究在泛科技领域已经有一定的进展,但在 AI 领域,目前成果寥寥。如果 AI 希望朝着安全、公平、能够被广泛应用的方向发展,我们的动作就不能仅停留在 AI 公司文化多样性的调查中层面,更要深入改变、确保 AI 公司是欢迎女性、少数族裔、以及其他边缘群体的。
建议九:AI 行业应该聘请来自计算机科学以外的学科的专家,并确保他们拥有决策权。
随着 AI 在不同社会和机构领域的应用日益增加,并能够影响越来越多的高风险决策,我们必须努力将社会科学家、法律学者和其他具有领域专长的人结合起来,共同指导人工智能的创建和整合,以形成长期的实践规范。
举个例子,我们不应该期望 AI 研究者能够成为刑事司法专家,就像我们不应该让律师为深度神经网络调参一样。这一例子可以被扩展到所有需要整合信息技术的行业。因此,在诸如法律、健康、教育等领域,我们需要领域专家参与进来,帮助领导决策,确保 AI 不会幼稚地低估该领域中复杂的流程、历史、环境。
建议十:AI 需要强力的道德监管以及问责机制来确保其行驶在正确的道路上。
对于如何将高水平的道德原则和指导方针与日常的开发过程、推广和产品发布周期联系起来,我们还有很多功课要做。
为了确保 AI 的安全与平等,一些 AI 机构在开发程序的过程中优先考虑道德相关问题。然而,这样的考虑往往出于团队的自愿,而且只有相对高端的组织才会将公众利益放在较高的优先级。而且,问题是,公众利益将怎样决定?将由谁决定?除了谁代表公众利益这一问题,AI 代码在道德方面还需要连接明确的问责制度,而且还须时刻意识到,AI 行业在激励模式和权利分配方面存在不对称的情况。