在冠状病毒大流行的早期,一些研究人员、创业公司和机构开发了人工智能系统,他们声称可以从一个人的咳嗽声中诊断出COVID-19。当时,我们自己对人工智能的前景充满热情,认为它可以作为对抗病毒的武器;在一个标题中,我们赞同咳嗽诊断人工智能是"有希望的"。
但是最近的一项研究表明,一些咳嗽分析算法没有我们--以及公众--所相信的那么准确。它是医疗领域机器学习技术的一个失败案例,并且其缺陷并不总是立即显现。
来自艾伦-图灵研究所和皇家统计学会的研究人员受英国卫生服务机构委托,对基于音频的人工智能技术作为COVID-19筛查工具进行了独立审查。他们与来自牛津大学、伦敦国王学院、伦敦帝国学院和伦敦大学学院的成员一起发现,即使是最准确的咳嗽检测模型,也比基于用户报告系统和人口数据(如年龄和性别)的模型表现更差。
"其含义是,许多应用程序使用的人工智能模型在用户报告的症状所提供的预测准确性之外,几乎没有增加任何价值,"该报告的共同作者在一次电子邮件采访中表示。
在这项研究中,研究人员检查了通过国家卫生服务机构的测试和跟踪以及REACT-1项目招募的6.7万多人的数据,该项目要求参与者将COVID-19的鼻咽拭子测试结果以及他们咳嗽、呼吸和说话的录音寄回。利用这些录音和测试结果,研究人员训练了一个人工智能模型,试图了解咳嗽是否可以作为一个准确的生物标志物。
最终,他们发现人工智能并不能做到这一点,在控制混杂因素的情况下,人工智能模型的诊断准确性并不比机会好多少。
部分原因是"测试与追踪"系统的招募偏见,该系统要求参与者至少有一个COVID-19症状才能参加。但该研究的主要作者、艾伦-图灵研究所健康和医学科学项目主任克里斯-霍姆斯教授说,研究结果显示,咳嗽在总体上对COVID-19的预测效果不佳。
"令人失望的是,这项技术对COVID-19不起作用,"他在一份电子邮件声明中表示,"找到新的方法来快速和容易地诊断像COVID-19这样的病毒对阻止它的传播真的很重要"。
这项研究对富士通的"Cough in a Box"等商业努力是一个打击,该应用由英国卫生和社会保健部资助,用于收集和分析COVID-19症状的音频记录,它的一些科学主张一开始就受到怀疑。麻省理工学院的研究人员共同撰写的一篇论文将分析COVID-19咳嗽算法的准确率定为98.5%,回想起来,这个百分比似乎高得令人怀疑。
这并不是说图灵研究所的研究是有关COVID-19的咳嗽检测的最后结论,霍姆斯留下了一种可能性,即该技术在未来可能适用于其他呼吸道病毒。
但这并不是第一次医疗保健人工智能的过度承诺和交付不足。2018年,STAT报道说,IBM的Watson超级计算机吐出了错误的癌症治疗建议,这是对少数合成病例进行训练的结果。在最近的一个例子中,2021年对医疗系统供应商Epic识别败血症患者的人工智能算法的审计被发现错过了近70%的病例。