将Kubernetes添加到Microsoft用来扩展基于云的人工智能边界的不断增长的技术中。流行的开源容器编排平台Kubernetes 在2017年取得了突破性的发展。现在,除了帮助企业在云或本地管理其
应用程序容器部署外,还招募了Kubernetes,以便为基于云的AI工作负载提供在需求回升时完成工作所需的空间。
微软推出了一种新的自动扩展系统,该系统使用Kubernetes来扩展或缩减学习培训工作负载所需的云计算资源量。该系统是与加利福尼亚州圣何塞市的技术初创公司Litbit合作开发的,该公司使用物联网数据创建“ AI角色”,工作场所可根据其集体经验和专有技术来增强员工的能力。
例如,组织可以创建和培训角色,以帮助其现场技术人员在跳上工作卡车并亲自拜访正在起作用以节省时间和费用的机械之前,检测并诊断设备问题。
事实证明,这是一个艰巨的任务,而且是一个不可预测的任务。Litbit发现,由于客户在不同时间训练其角色,因此AI训练工作负载的变化很大。
“其中一些训练工作(例如Spark ML)大量使用CPU,而其他一些工作(例如TensorFlow)大量使用GPU。在后一种情况下,某些工作会重新训练神经网络的单个层并很快完成,而其他人则需要训练整个新的神经网络,这可能需要数小时甚至数天。”微软代表在博客中解释道。
微软和Litbit选择了Kubernetes,部分原因是因为其成熟的集群管理技术,而且还因为该项目在短短几年内吸引了社区的大力支持。尽管该项目始于Google,但仍被视为Linux基金会的Cloud Native Computing Foundation(CNCF)的头等大事。
两家公司着手通过使用适用于Kubernetes的Azure CNI网络插件在具有GPU支持的Azure上配置Kubernetes群集来解决高度可变的机器学习工作负载的问题。然后,他们使用用于Kubernetes的Helm软件包管理器应用了节点级自动缩放器,随后进行了一些配置更改,以启动和运行系统。
该项目是成功的。该系统已经运行了四个月,它使Litbit一次可以扩展到40个节点,并且在需求减少时可以无缝缩减规模。微软已经在其开发者博客上发布了Kubernetes自动缩放器的完整演练。
反映出困扰企业DevOps团队的容器热潮,微软对Kubernetes的支持增加了一倍。
在今年12月初的KubeCon会议上,微软宣布其Azure容器服务现已缩写为AKS,这表示该公司以客户为中心,以Kubernetes为中心的云原生应用程序开发方法。该公司还推出了一个名为Virtual Kubelet的新连接器,该连接器使用户可以定位该公司的快速容器创建和部署服务Azure容器实例(ACI)。