图片来源:NUANCE
■见习记者 任芳言
各国布局医疗人工智能(AI)的脚步越来越快。除了批准世界首例AI医疗设备外,美国食品药品监督管理局还在2018年批准了首个使用电子健康记录数据的AI算法产品,该产品集成了实时生命体征数据,可识别体征不稳定的住院患者。
截至2018年11月,我国国家药品监督管理局收到创新医疗器械审批申请1054项,51项创新医疗器械已通过特别程序获准上市。医疗AI器械审批通道也于同年12月开放。
基于新一代算法的医疗AI愈发强大,能做的事也越来越多。但业内人士也有了一个不得不面对的问题:对此类设备的监管。而这既要从算法设计者角度入手,也应考虑临床医生的使用需求。
技术与用户相互磨合
今年2月,美国宾夕法尼亚大学肿瘤学研究员Ravi B.Parikh与合作者在《科学》杂志上刊文,指出新一代AI医疗产品的监管标准似乎略显宽松。
Parikh在文章中提到,早先较为初级的算法大多基于固定的规则和模型,对变量数有限制。相应的医疗产品也仅限于肺栓塞识别等场景较为局限的临床诊断。
但在过去几年中,基于AI的现代算法可容纳的变量数激增。跟一般的静态设备或者药品不同,算法可以随着变量和数据而变化,预测结果也会随着时间的推移而改变。相应的,这为设定监管其安全性和稳定性的标准增加了难度。
如果说AI需要大量的训练,那么在临床使用时,医生或许是AI最好的训练者。然而一名临床经验丰富的医生,未见得能理解新一代AI算法详细的运行过程,也无法用传统临床试验的评估标准做检验。
如此一来,基于新一代算法的AI能否明显改善患者护理效果,也需要更确凿的证据。
北京大学医学院教授王月丹对《中国科学报》表示,目前基于图像识别的AI在国内外相对更常见,对CT图像的诊断准确率甚至高于人工。但AI医疗设备的定位仍需明确。
“如果是辅助医生做出诊断,那么临床医生对其基本原理及使用规则应有基本了解。在后续培养医生的过程中,也要有相应的训练。”王月丹表示。
另外,王月丹指出,医学研究不断会有新的发现和认知,对迅速迭代的AI算法来说,也有可能遇到类似情况。“谁有权力修正和评定这些标准,也是需要考虑的问题。”
高标准审批门槛
目前在国内,含有AI算法的医疗器械可分为两类。使用传统AI算法的如肺结节、乳腺癌等辅助识别软件,仅提供辅助诊断功能,属于第二类医疗器械,目前已有产品注册上市。
而基于新一代AI技术的医疗器械产品,如病理图像识别、利用眼底照片筛查糖尿病性视网膜病变等疾病,能给出较明确的诊断提示的,划为第三类医疗器械。
2018年12月,国家药监局开放了AI医疗器械申报审批通道,依照软件类型或用途划分具体种类。目前还未有相关产品正式通过审批上市。
除了算法上的差异,二类和三类医疗器械的盈利模式也不相同。医疗AI产品作为医用软件单次出售,还是作为检查设备按次收费、分成,对开发者来说,显然获得第三类医疗器械审批许可,商业前景更为广阔。
比如眼底疾病筛查,国内糖尿病患者数量过亿,糖尿病性视网膜病变筛查工作量大、需求多,需要利用技术手段为眼科医生及三甲医院分流。目前国内已有通过AI设备辅助医生进行筛查的先例,且
应用前景良好。
依未科技CEO柯鑫告诉《中国科学报》,针对医疗AI产品设立严格的审批流程是一件好事。“这拉高了行业准入标准,对行业发展也有好处。”
“AI产品的标准由人设定,其中既有医生,也有相关的技术专家。”柯鑫指出,缺乏交叉性的专业Kaiyun官方网站app登录 ,是当前医疗AI领域存在的问题之一。医疗AI产品若想扩大影响力,还须开发者本身有过硬的医疗知识储备。
柯鑫还提到,目前的医疗AI产品大多起辅助作用而非完全替代医生。而检测产品可靠性的手段之一是“向医生看齐”——将诊断结果与医生的诊断标准相比较。
以该公司旗下的眼底筛查产品为例,在阅片平台上,有问题的眼底图像会传送到医生手中进行辨别。除了医院外,面对体检中心、社区等应用场景,业内专家的评价结果是推广产品时重要的认证手段。
算法迭代
按目前国内对于医疗AI器械的审批流程,临床试验设计应考虑到产品预期用途、使用场景和核心功能。
而为鼓励创新并降低临床试验成本,临床试验可使用回顾性数据。对于中风险等级软件,可采用临床预试验或替代临床试验;高风险等级的软件,可采取临床预试验或临床试验补充。
在软件更新方面,审批内容包括重大软件更新和轻微软件更新。前者涵盖算法和数据驱动型软件更新,须进行许可事项变更,开展算法性能再评估和临床再评价。
针对算法的评估,Parikh等人也提到,如果是基于临床医生主观数据的预测算法,主观数据对某一类患者产生的偏见也可能被纳入运行标准。因此除了疗效指标,对AI算法的评估还应考虑是否会对这些偏差进行有效干预。
此外,只有提供适当的数据训练算法,才有可能更准确地掌握其性能。
比如一种可以识别败血症的AI算法反应速度比医生还快,但医生识别出相应症状后会作出让患者服用抗生素的决定,要完成上述动作,就需要进一步迭代算法,相应的训练数据也会发生变化。
因此,Parikh等人指出,训练和评估算法不仅应根据临床医生的最佳判断,还应在多种环境下进行测试。在评估标准中,除了临床医生和AI的单独表现外,或许还应加设一类,即将二者结合起来。这也凸显了医疗AI与临床医生之间相辅相成的关系。
此外,Parikh等人还提到,随着申报审批的AI设备增多,监管机构需要在透明度和知识产权间权衡。这就像新药研发与新药审批,通常会找到一个适当的平衡点。