据报道,这些合同工来自Appen和埃森哲等公司,他们只接受了最低限度的培训,时薪只有14美元(IT之家备注:当前约100元人民币)。他们的工作是评估Bard的回答是否可靠和准确。
虽然像Bard和ChatGPT这样的聊天机器人依赖于底层的大型语言模型来生成回答,但是人类也参与了回答的审核过程,以确保它们是可靠和准确的。然而据彭博社报道,根据内部文件和六名合同工的说法,审核Bard回答的人类工作量变得越来越大和复杂。
一名合同工称,“就目前情况而言,人们感到害怕、压力大、工资低,不知道发生了什么。这种恐惧文化不利于我们提高质量和团队合作。”
合同工的任务之一就是根据回答来评价其“有用性”,并在“一点也没有用”到“非常有用”的范围内打分。
谷歌发言人在一份声明中称:“让人们获得高质量的信息是我们使命的核心。我们进行了大量的工作来负责任地构建我们的人工智能产品,包括多年来我们不断完善的严格测试、培训和反馈过程,以强调事实性和减少偏见。人工评估,包括来自谷歌内部和外部的个人,是我们用来改进产品的众多方法之一。”
该发言人还称,“评分并不直接影响我们模型的输出,它们也绝不是我们提高准确性的唯一方式。”