虽然计算机可能是中性的,但人类的偏见可能无意识地体现在对语言进行分析的机器学习算法。这种偏见被证明已产生影响,如对求职者进行分类的基本计算机程序,可能会基于关键词而对某些求职者产生歧视。但美国有一个研究小组在正试图打破这种偏见。
微软研究院(Microsoft Research)的程序员亚当·卡莱(Adam Kalai)正与波士顿大学的研究人员合作,试图从计算机中删除这种偏见。
该研究小组正在利用一种被称为“词向量(Word Embedding)”的技术,教育机器如何通过寻找单词之间的关系来处理语言。使用该方法,机器可以通过比较单词“她”和“他”来了解上下文。具体在应用时,机器会找到合适的配对,如“姐妹-兄弟”或“女王-王”。但是,当计算机搜索现实世界资源时,词向量方法可能根据固有的性别成见而进行配对。例如,寻找工作职位时,对于“她-他”配对,计算机会联想到“缝纫工-木工”或“室内设计师-建筑师”。
向计算机输入来自谷歌新闻的文章,正如所预料的,对于“她-他”单词配对,能产生了一些良性的关联,如母亲-父亲和自己(herself)-自己(himself)。而一些配对更不常见,如“子宫-小肠”或“未婚夫-室友”。但一些基于性别偏见而产生的配对可能有问题。例如,“可爱”被认为是一个女性专用词,而“辉煌”等于男性,同样还有“家庭主妇”与“计算机程序员”配对。
在职业上,这种性别歧视最极端的例子是,哲学家、战斗机飞行员、上司和架构师等这些工作通常与“他”有关。而与“她”相关的职业包括家庭主妇、社交名媛、接待员和理发师。
卡莱在接受NPR(美国全国广播公司)采访时表示:“我们试图避免出现性别歧视的现象,尤其是在新闻文章中……但你发现,这些单词配对存在相当严重的性别歧视性质。”
在网上最近公布的一篇研究报告中,该研究小组发现,他们可以训练机器忽略单词的某些关联,同时保持了所需的关键信息。他们解释称:“我们的目标是减少单词配对的性别偏见,同时保留其有用的属性。”
通过调整他们的算法,该小组能够去除单词之间的某些关联,如“前台”和“女性”,同时保持合适的单词配对,如“女王”和“女性”。
虽然其算法仍基于性别产生配对,但忽略了某些潜在的关联——即某些词被视为更男性化或女性化。他们认为这种方法或许能通过“词向量”技术改进机器学习,在保持有用关联的同时摆脱单词固有的偏见。
根据NPR的报道,问题是并不一定要用“词向量”算法来处理语言,这种算法可以区分性别和种族,但只有当研究人员希望专注于某一特定性别或群体时,才可能需要这种算法。
当这种技术被打算作为一种不偏不倚的方法对数据进行分类,而不考虑性别或种族偏见时,这种技术可能会有问题。对此,研究人员解释称:“理解基于种族、民族和文化的固有成见而产生的直接和间接偏见,是一项微妙的工作。今后这项工作的一个重要方向将是量化和消除这些偏见。”