热搜: 佳士科技irobot开云电竞官网下载app机器人ABB机器人产业联盟发那科机器人展览机械手码垛机器人

数据集拥有自己的世界观吗?

日期:2022-03-10 来源:雷锋网 评论:0
伴随深度学习的不断日常化,数据集中的偏见(bias)和公正性(fairness)已经成为一个热门研究方向。

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">偏见在AI领域是一个很棘手的话题:有些偏见是有益的,例如噪声数据可以增加模型的鲁棒性,有些偏见是有害的,例如倾向对有色人种识别错误。

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">而且,当我们得到一个不完美的模型的时候,其中的数据集到底存在什么偏见?这些偏见是如何产生的?

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">谷歌的PAIR (People + AI Research)团队最近发表了一篇博文,用一个很简单有趣的例子讨论了这些问题。

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">
1、有偏见的分类

portant; overflow-wrap: break-word !important;">假设我们拥有如下所示的不同形状的数据集,它们对应的标签是有无阴影,如下图。

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">利用页面上的交互式分类器,可以分类出如下的结果,并得出相应的准确性。

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">模型并不完美,为了对结果进行纠正,你可能想知道模型正在犯什么错误,或者,数据存在哪种类型的偏见?

portant; overflow-wrap: break-word !important;">

2、公正性分析

portant; overflow-wrap: break-word !important;">由于各个图形的主要区别在于形状,一个可能的偏见存在于形状的差别。通过观察你可能认为三个最主要的形状主要是圆、三角形和矩形。为了证实这个假设,你要确信你的模型在面对圆、三角形和矩形的时候模型的表现能力的一样的。接下来我们来做公正性分析(fairness analysis)。

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">首先我们需要对每个的形状进行标注,但是一个问题是,有些形状并不能很肯定地确定是什么形状,这时候有两种策略,一是把这种形状判断为最有可能是圆、三角形和矩形(with their best guess);一种是给出一个选项:上述三种形状都不是(as "other")。之后我们分析模型对于每一类形状的分类准确率。该交互式页面给了两种策略的结果:

portant; overflow-wrap: break-word !important;">策略一:寻找最有可能的形状:

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">第一种策略表明分类器对于矩形分类的结果最好,圆次之,三角形最差。不过这可以表明模型对三角形存在偏见吗?我们在页面上切换第二种策略。

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">策略二:上述都不是:

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">结果发生了变化!第二种策略则表明分类器对于三角形和矩形分类结果都最好,圆却最差。我们对于偏见的理解因为我们制定分类的策略不同而不同,换言之,每一种分类方式代表着采取不同的角度看待哪些是重要的分类特征。而决定数据集和最终模型决策的是你——制定策略的人。也就是每个数据集都代表一种“世界观”,其收集背后莫不代表着人的意志。

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">所以,再回过头来想想,还有哪些策略或者规则的指定可能会影响我们的对于公正性的判断?

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">对,我们当初对于分类的标准是依照形状,比如圆、三角形或者矩形,这也是我们人为定的标准,如果换成”尖的“或者”圆的“呢?或者“小的”或者“大的”呢?下图给出了不同评价标准下,正确和错误分类的个体:

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">

portant; overflow-wrap: break-word !important;">图注:当类别标准是“尖的”或者“圆的”,以及其它模糊类别是“寻找最有可能的形状”的时候的分类结果

portant; overflow-wrap: break-word !important;">
portant; overflow-wrap: break-word !important;">
声明:凡开云电子链接 来源注明为其他媒体来源的信息,均为转载自其他媒体,并不代表本网站赞同其观点,也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑,请立即与开云客户(www.www.wykobounce.com)联系,本网站将迅速给您回应并做处理。
电话:021-39553798-8007
更多> 相关开云电子链接
0 相关评论

推荐图文
推荐开云电子链接
点击排行
Baidu
map