近日,加拿大麦吉尔大学的 Haji Mohammad Saleem 及其团队,通过让 AI 软件学习仇恨言论社区成员的说话方式,从而可以自动识别出仇恨言论。他们在一个数据库中训练机器学习系统,该数据库包含了 2006 年至 2016 年间 Reddit 的大部分帖子,比之前基于关键字标记的系统准确率更高。
因为语言的灵活性和模糊性,识别出真正的仇恨言论并不容易。有时人们只是随口说一些粗鲁的词汇,并不能表明他们心里就是这么想的。日常生活中,人们会为了各种原因而骂人,甚至朋友之间也会互爆粗口。
目前论坛等网络平台获取仇恨言论的途径,大都来自用户举报。时刻紧盯住那些层出不穷的负面言论,是人力无法完成的。
今年年初,谷歌开发了 Perspective 软件,它可以快速地甄别辱骂性评论,便于人工审核。它的工作原理是基于在线评论与被贴上“有毒”标签的评论的相似度。但随后该软件技术的不成熟开始显露,评分机制出现了诸多弊端,比如:有的言论是“作为一个女孩,你真是太聪明了”,它和恶意言论的相似性达到18%;而“我喜欢希特勒”这样的言论却只有2%。
不同于这种基于关键字标记的方法,此次加拿大研究人员研发的系统另辟蹊径。
该系统主要研究针对非洲裔美国人、肥胖人群以及女性的言论。在 Reddit 或 Voat(一个和 Reddit 类似的网站)上,以这些人群为主题的言论俯拾皆是。该团队找到其中最活跃的两种社区:一种社区爱发恶评,一种社区爱发友好的言论。他们锻炼 AI 软件学习这两种社区成员的言论特点,提高该系统正确识别负面言论的能力。
研究结果证明,该方法比基于关键字标记的系统更加精准,并且几乎不会误判。有些言论中并不包含常规的侮辱性词汇,但它也属于仇恨言论。如果使用以前的方法是识别不了的,但现在就可以了。比如:“我没觉得这有什么问题,动物之间总是互相攻击。”这句话就被该系统标记为仇恨言论,因为这里的“动物”一词带有种族侮辱的含义。
目前该 AI 软件能够成功抓取 Reddit 平台上的仇恨言论,但其研究团队未表示该系统是否在其他平台,如 Twitter 或 Facebook 上也有同样的水准。
“这个方法虽然行得通,但它抓取的结果并不全面,有时还会遗漏。”英国巴斯大学的 Joanna Bryson 说。
正如他所言,该系统会错过一些很明显的仇恨言论,如“黑人都很糟糕”等具有明显种族歧视或肥胖歧视的言论。然而对于此类言论,基于关键词监测的旧办法却能轻而易举地识别出来。
但是不可否认,这些工具确实能成为平台管理人员的“得力助手”。“基本上,仇恨言论是一种主观现象,需要人们发挥自己的判断力去甄别。”一名研究人员说。