图源 Pixabay
来自维尔茨堡、杜伊斯堡、柏林和图卢兹的研究人员探讨了 AI 在检测谎言方面的有效性及其对人类行为的影响。这项研究的主要发现可以总结如下:
在基于文本的谎言检测中,AI 的准确性优于人类。
没有 AI 的支持,人们不愿指责他人撒谎。
在 AI 的支持下,人们更有可能表达对遇到谎言的怀疑。
只有大约三分之一的研究参与者会利用向 AI 询问评估的机会。然而,大多数人会遵循算法的建议。
在为这项研究做准备时,研究团队要求近 1000 人写下他们即将到来的周末计划。除了真实的陈述,他们还被要求写一篇关于他们计划的虚构陈述。为了使他们的虚构陈述“尽可能有说服力”,研究团队还向他们提供了酬金。经过质量检查,团队最终得到了一份包含 768 位作者 1536 篇陈述的数据集。
基于这个数据集,研究团队利用谷歌的开源语言模型 BERT 开发并训练了一个谎言检测算法。经过训练,该算法实际上识别了数据集中将近 81% 的谎言。
在主要研究中,团队随机抽取了 510 份陈述,并招募了另外 2040 名参与者。这些受试者被分成四组,要求他们评估收到的语句是真是假。
第一组:需要在没有 AI 支持的情况下评估陈述。
第二组:在做出判断之前,始终会看到算法的评估。
第三组 / 第四组:可主动请求 AI 的评估,但需要为此支付少量费用。
IT之家注:实际情况则是第三组没有主动请求 AI 提供建议,而第四组则向 AI 提出了评估要求,且有求必应。
实验结果如下:
第一组成员判断准确率为 46.5%(大致与随机猜测相当)。
第二组成员判断准确率为 60.1%。
人们通常不愿指责他人撒谎:第一组中,不到 20%的成员选择指出谎言;第二组成员自动收到 AI 的评估,指出谎言人数为 30%;第四组成员的“指责率”显著上升到约 58%。
只有大约三分之一的人要求谎言检测算法提供辅助。要求预测的人群非常倾向于遵循算法的建议,遵循率约为 88%。
在自动接受 AI 评估的人中,只有 57% 的人遵从其建议。
当 AI 判定一项陈述为“谎言”时,这种差异变得更加明显:85%请求 AI 评估的人同意 AI 作出的判断;而在自动收到 AI 评估的人中,只有 40%遵循 AI 的建议。
IT之家附论文地址:https://doi.org/10.1016/j.isci.2024.110201.