机器学习算法的应用越来越广泛,比如信用卡申请,医疗诊断,个性化推荐,广告和求职等领域,但究竟如何使用机器算法,对大多数人来说依然是个迷。不过,这个谜底可能即将揭晓,来自卡耐基·梅隆大学的研究人员开发了全新的评估方法,能够充分了解机器算法流程。
在做决策的时候,一个人的年龄、性别、或是受教育水平是否起到关键作用?某些因素的特别组合是否也会影响决策?根据卡纳基·梅隆大学的计算机科学和电子计算机工程专业助理教授Anupam Datta表示,该校开发的量化输入影响(Quantitative Input Influence,QII)系统能够对影响最终决策的每一个因素进行权重评估。
“随着算法决策系统的使用增多,对算法透明度的需求也有所增加,当人们意识到这些系统有可能会引起一些种族主义问题,性别歧视问题,或是其他对社会产生危害的问题。”Datta说道。
“一些公司已经开始提供透明度报告,但是,支持这些报告形成的计算基础似乎还非常落后,”他补充说,“我们的目标,就是要开发一套评估方法,针对每一个对系统产生影响的因素,评估它们的影响程度,使之能够帮助企业生成透明度报告。”
之所以要生成这些透明度报告,是因为要对某些特殊事件作出回应,比如为什么你的个人贷款会被银行拒绝,或者为什么警察会对某个人进行详细审查,又或医生需要对某个病人给出特殊诊断或治疗。当然啦,也有些组织会前瞻性地使用这种方式去评估人工智能系统是否按照预期执行相关操作;甚至政府监管机构可以利用它来判断某个决策制定系统是否不恰当地歧视了一部分群体。
本月23-25日,Datta和计算机科学专业博士生Shayak Sen,计算机科学学院博士后研究员Yair Zick在加州圣何塞市举办的IEEE安全与隐私会议上展示了他们在QII系统上的报告。
据Datta透露,生成这些QII系统评估报告,需要QII系统访问相关机器学习系统,但是QII系统不会分析评估对象系统的内部代码和其他内部运作情况。此外,它还需要对最先训练机器学习系统的输入数据集有一定了解。
QII评估系统的一个突出功能,就是它可以解释很大一类机器学习系统做出的决策。在这个过程中,之前的工作成为了一个重要主体,采用了一个互补的解决方案,重新设计的机器学习系统会做更多解释,有时也会失去预测精准度。
在评估机器学习系统影响时,QII会仔细考虑相关输入项。举个例子,假设一个帮助搬家公司做出招聘决策的机器学习系统,那么两个输入项是和招聘决策正相关的,一个是应聘者的性别,另一个是举起重物的能力。此时,透明度评估会去看这个机器学习系统在判断举重能力和性别做招聘决策时,是否会有实质性影响,并且在整个过程中,是否会有歧视应聘者的成分存在。
“这就是为什么我们在定义QII的时候要考虑因果关系评估,”Sen说道,“粗略来看,在上面举的例子中,评估某个特定个体性别的影响,我们会保持举重能力为一个固定值,然后再通过改变性别来看机器学习系统做出的最终决策是否会发生变化。”
在评估机器学习系统是否会有高影响力的时候,观察单个因素可能会比较片面,QII系统评估还可以量化一组输入,综合考虑这些因素带来的共同影响,比如年龄和收入,然后看集合中的每个输入产生的边际影响。一个独立输入项可能会成为多重影响集合的一部分,之前应用在收入分配和投票的原则博弈伦聚合影响力评估方法,将用来计算输入项的平均边际影响。
“为了获得这些影响力评估的一种感觉,不妨可以考虑下美国总统选举,”Zick说道,“加利福尼亚州和德克萨斯州在选举中影响力很大,因为他们的选民很多,但宾夕法尼亚州和俄亥俄州却是最有权力的两个州,因为他们一直都是选举摇摆州。我们的影响力聚合评估就是同时考虑到这两种类似的力量。”
针对一些标准机器学习算法,研究人员测试了他们的评估方法,这些机器学习算法都是应用于训练决策系统的,上面运行的都是真实的数据集。他们发现,相比于许多场景下的标准关联评估,比如预测策略和预测收入的示例应用程序,QII评估系统在许多情况下能提供更好的解释。
现在,他们正在寻求与工业伙伴合作,这样他们可以在机器学习系统上大范围部署QII评估系统。