作为快速增长的计算工作负载,人工智能(AI)也是英特尔认为将对世界产生变革性影响的超级技术力量之一。然而,数据显示,有超过一半的AI和数据科学项目无法真正部署到现实
应用中,均以失败告终。海量数据、无法完全兼容的设备加之各异的数据环境,无疑为AI的应用和落地设置了重重关卡。
基于此,秉承推动AI无处不在的美好愿景,英特尔全面打造基于大数据AI开源项目BigDL,旨在助力从笔记本到云,无缝扩展大数据AI。日前,英特尔院士、英特尔大数据技术全球首席技术官戴金权应邀出席ChinaApacheHadoopMeetup2022,并在会上深入解析英特尔如何从如下三个领域着手,创新BigDL,助力开源发展。
打造高可扩展性
对数据科学家和开发者而言,高可扩展性不仅意味着如何能高效、快速地构建出端到端的分布式数据和AI的流水线,也同样需要注重基础架构部署。与理论不同,实践中的科学家们更关注如何将AI技术应用部署到实际场景,其中包括建模、训练、推理和对模型的优化等全流程,这意味着需要考虑端到端的流水线。基于此,英特尔在底层就开始进行数据切分、模型复制、参数同步等工作,让数据科学家们能够有统一的体验,同时,英特尔亦将大规模分布式的工作透明化、抽象化,让数据科学家们能够高效开发AI流水线。而对于基础架构,英特尔亦通过类似BigDL的项目,为用户提供统一的大数据AI集群/基础架构。在同一个集群、流水线、工作程序当中,对这些大数据系统进行数据访问、分布式处理,在同一个流水线里以内存计算的形式进行大规模分布式数据分割,再由这些深度学习、机器学习的系统对其进一步分析。
提升每个节点的性能效率
每当提及AI性能时,大多数人的第一反应是GPU或AI芯片,然而软件优化能够带来的AI性能提升却极易被忽视。英特尔通过软件层面优化,如TensorFlow、PyTorch、MXNet等,可以带来几十倍、上百倍的性能提升,能够更加高效地集成这些软件。因此,可以认为构建一个免费的AI软件加速器,在笔记本、CPU集群上都能够带来性能上的极大提升。而且,现如今有大量的现代化CPU加速技术,如内存分配、指令集等,将这些技术整合在AI流水线中,也能够大大提升AI性能。值得注意的是,英特尔不仅通过软件大幅提升每个节点性能,亦能实现集成过程的透明性,使数据科学家的实操更加便捷。
构建安全可靠的数据处理环境
将AI应用从笔记本扩展到诸如云环境中时,安全也是数据科学家非常关注的另一大问题。对当下大部分应用场景而言,隐私保护机器学习与大数据分析是运行在云中非常重要的需求。这个安全保障不仅囊括了如同态加密、远程验证等软件方面的安全保障,也需要类似可信执行环境等硬件安全保障,如英特尔?SGX技术具备持续增强的安全能力,可在内存等硬件中构建一个安全“飞地”,帮助保护代码和数据,防止数据在处理期间遭受恶意软件攻击和权限提升型攻击。因此,基于英特尔?SGX技术打造的BigDLPPML,能够让用户即使没有处于极度信任的公有或私有云中也仍然可以进行非常安全的数据分析和AI应用。
得益于高扩展性、性能提升和安全可靠的特性,BigDL能够通过端到端大数据人工智能管道,降低AI的准入门槛,不仅能够让数据科学家、工程师等更便捷、简易地构建大规模分布式人工智能解决方案,从而加速AI应用和部署,亦有助于挖掘更多AI潜力,为各行业发展注入新动能。