当地时间12月27日,谷歌公布了一个新的医疗AI模型“Med-PaLM”。在经历一系列考核后,该模型被证实“几乎达到”了人类医生的水平。
具体来看,研究团队准备了一个医学问题问答数据集“MultiMedQA”,涵盖医学考试、医学研究和消费者医学问题,该“题库”收集了MedQA(USMLE,美国医师执照考试题),还引入了他们自己的新数据集HealthSearchQA,它由搜索过的健康问题组成。
该团队又请来一组临床医生作答。这些临床医生分布于美国和英国,在初级保健、外科、内科和儿科方面具有专业经验。
最后,研究人员将模型和人类医生的答案匿名后交给9名分别来自美国、英国和印度的临床医生进行评估。
结果显示,Med-PaLM在科学常识方面的正确率在92%以上,在理解、检索和推理能力方面,也几乎达到了人类医生的水平,并在克服隐性偏见方面略胜一筹。
不过,该研究负责人也表示,Med-PaLM给出的答案在整体上仍然不如临床医生,该模型在实际应用前有待进一步完善。
追根溯源,Med-PaLM是怎么诞生的呢?
这里不得不提谷歌在今年发布的转换器语言模型——PaLM,该模型基于Pathways架构、拥有5400亿参数,是Google迄今为止研发的最大规模的模型,全名为Pathways Language Model。
PaLM模型在语言理解等各种方面的评估测试中的表现十分出色,甚至还在语言和推理类的测评中超过了人类。
Med-PaLM正是PaLM的衍生品。谷歌研究团队首先在上文提及的医学问题问答数据集“MultiMedQA”上评估了PaLM及微调变体Flan-PaLM,然后,基于此提出了指令提示x调整,让Flan-PaLM进一步与医学接轨,进一步产生了Med-PaLM。
值得注意的是,AI模型的每一次突破,都预示着更聪明的机器人即将到来。指挥机器人干活不是什么新奇的事,但要让机器人能够理解你的命令背后的意图,那就要考验它的“大脑”好不好用了。将AI模型应用到机器人身上相当于给机器人“开智”。
据了解,今年8月份,谷歌就将大型语言模型首次集成到机器人中,有了AI模型的加持,机器人能像人类一样响应完整的命令。
谷歌研究人员就此做了演示。当对机器人说:“我饿了,你能给我点零食吗?”机器人在自助餐厅中搜索一番后,打开了一个抽屉,找到一袋薯片并将它拿给研究人员。
可以预见的是,通过进一步的训练、优化,Med-PaLM模型的回答准确率将进一步提高,基于此模型的机器人医生也有望更快出现。