阻碍医院AI正常调用的环节非常多。PACS系统接口、医院电脑等软硬件的兼容能力、工作站与电子病历数据传输限制等因素,都有可能降低AI在实际使用中的推理速度,甚至出现多AI系统不兼容的问题。
近日,NVIDIA将TensorRT、Triton两个工具用之于医疗AI的部署环节。这位人工智能计算的引领者曾助力大量医疗AI企完成AI模型训练与构建,现又继续向AI落地的下游延伸,尝试解决医院各科室与AI企业之间的部署纠缠。
一方面,新的工具将帮助医疗AI企业把握充分利用GPU硬件资源、充分发挥GPU的算力进行AI推理;高效部署、优化计算资源实用;安全、高效调度GPU等细节,加速院端AI推理过程,提高医疗AI的实际使用体验。
另一方面,在当前以单病种AI为主流的时代下,许多科室通常会向某AI公司采购多种AI,并在诊断时进行多个AI间切换。在这种情况下,NIVIDA能够为AI公司提供一种通用的支持框架,帮助企业在各种环境下部署多个人工智能。
当医疗人工智能进入精细化竞争时代,NVIDIA的新工具或将帮助医疗AI企业重构竞争力。
新一代TensorRT 8入驻医疗,
AI推理效率数倍提升
推理(Inference)意为把深度学习从影像AI训练中学习到的诊断能力应用到实际中去,是医疗人工智能模拟医生进行辅助诊断的关键。
对于医学这样一门严肃的学科,AI诊断的速度与精度必须满足高要求。这意味着,医学AI的模型及推理过程总是非常复杂,以至于我们很难窥探AI推理的过程。
为了使医疗AI的推理变为更易把控,NIVIDA将TensorRT的适用范围拓展至医疗场景。作为一种高性能深度学习推理(Inference)的优化器和运行引擎,TensorRT以TensorFlow框架训练得到的模型作为输入,为CUDA GPU生成优化了的模型运行时间,减少推理的时间来降低应用程序的延迟,减少计算和内存访问,并利用稀疏张量核心提供额外的性能提升。
此外,TensorRT可以将研发人员训练好的模型分解再进行融合,融合后的模型具有高度的集合度。例如,将卷积层和激活层进行融合后,计算速度可获得显著提升。
2021年7月,最新一代TensorRT 8.0版本将上述的优势进行了极致提升。
TensorRT 8.0使用量化感知训练,实现与 FP32 相当的精度和 INT8 精度,相比7.0版本运行速度和精准度都提升了1倍。此外,TensorRT 8.0加速支持大量推理模型,其中基于BERT模型的推理速度提高 2 倍。
由于采用了稀疏性技术,TensorRT 8.0可显著提升 Ampere GPU性能,将 Ampere GPU 的吞吐量提高多达 50%,加速2:4细粒度结构。数据显示,通过消除神经网络中不必要的计算,用户可以获得超过30%的性能增长。
更为高效推理能够解决现阶段部署的众多问题。譬如,由于医疗信息化系统对于医院计算机系统的限制,许多医院的软件系统版本相对滞后,难以支撑医疗人工智能对于软硬件的要求,TensorRT 8.0的介入则能更为充分的运用有限的计算资源,有效降低AI部署成本。
此外,高效推理、低延迟能够优化线上流程的流畅性。无纸化时代,TensorRT 8.0将极大提升医生的AI使用体验。
抽丝剥茧,Triton支持下,
GPU实现极致利用
TensorRT 8.0的入驻优化了医疗AI的推理,但在实际之中,NVIDIA还需解决同一环境下多种类AI部署这一关键问题。
NVIDIA Triton推理服务器是一款开源软件,提供单一标准化推理平台,可支持在多框架模型、CPU 和 GPU 以及不同部署环境(例如数据中心、云、嵌入式设备和虚拟化环境)中运行推理。
对于所有推理模式,Triton都可以简化模型在任一框架中以及任何 GPU或CPU上的运行方式,从而在生产环境中使用 AI。结合 NVIDIA AI部署框架的最新版本NVIDIA TensorRT 8,Triton可以进一步提高神经网络的推理效率,在不损失精度的前提下减少计算和存储成本,实现高效推理。
目前,Triton支持多模型ensemble,以及TensorFlow、PyTorch、ONNX等多种深度学习模型框架,可以很好的支持多模型联合推理的场景,构建起视频、图片、语音、文本整个推理服务过程,大大降低多个模型服务的开发和维护成本。
在金融行业,蚂蚁集团借助NVIDIA Triton 推理服务器,配合T4GPU、DALI的图像预处理能力,将多模型推理性能整体提升2.4倍,延迟降低20%,既满足了业务的低延时需求,成本也降低了50%。这意味着,在多模态业务场景中,蚂蚁集团以更低的成本构建了高性能的推理服务,同时以更低的延迟降低了整条系统链路的响应时间,优化了用户体验。
同样的成功也有可能复制于医疗之中。一方面,Triton支持下,医学AI企业的研究人员可以自由地为他们的项目选择合适的框架,最大化利用GPU,帮助其尽快进行推理型;另一方面,Triton的多环境支持功能及安全保障能够保证医疗AI在任何一家医院顺利部署,帮助部署人员更为轻松地满足不同医院对于不同部署环境的偏好。
解锁TensorRT和Triton
在医疗影像诊断中的应用
为了进一步帮助大家理解TensorRT和Triton在医疗影像诊断中的应用,英伟达将在10月13日14:00-15:20召开网络研讨会《解锁TensorRT和Triton在医疗影像诊断中的应用》,详解医疗中的TensorRT和Triton。
讲解实际真实应用环境下的模型部署和调度。