Google推出深度学习专用的容器测试版,这是一个预先打包的容器,经过效能最佳化以及相容性测试,供开发者开箱即用,深度学习容器内含资料科学常用的工具包含Python 3环境,以及GPU用的Nvidia堆叠。深度学习容器提供多种版本,Google也为硬件最佳化了内含的TensorFlow,能使用者在GPU进行训练,也可以在CPU上部署。
Google提到,启动并执行机器学习专案,所花的时间通常出乎意料,开发者的目标迭代并改善机器学习模型,但是却要花费不少的时间,管理软件堆叠的相容性或是其他复杂的环境设定,以维持环境的一致性,确保实验结果正确且可重复,而且当机器学习专案开发跨本地端以及云端,要维持相依专案正确打包,并可以在其他Runtime上执行,更是一项不容易的工程。
为此,Google推出了一系列深度学习容器,提供可移植且一致的开发与测试环境,这些Docker映象档支援了经过调校的热门开发框架,可让使用者随时部署使用。
深度学习容器不只可以部署在本地端,还能在需要的时候部署到云端,以获得更强而有力的运算资源,深度学习容器提供了跨Google各云端服务一致的开发环境,让使用者可以灵活地在云端扩充套件,或是与企业内部部署互通转移。
不过,在云端又可能会缺乏本地端资料以及套件的支援,而Google解决了这个问题,让使用者以本地档案扩充深度学习容器,使用者可以将这些客制化的容器部署到Cloud AI Platform Notebooks例项以及GKE上。深度学习容器可以自由地部署在GKE、AI Platform、Cloud Run、Compute Engine,甚至是Docker Swarm上。
所有的深度学习容器都拥有预先配置的Jupyter环境,因此每个容器都可以作为开发雏形空间,而且也都拥有与相对应的深度学习虚拟机器器相同的Python 3环境,包括资料科学框架Conda,以及GPU映象档Nvidia堆叠,像是UDA、cuDNN和NCCL。Google提到,要使用支援GPU的容器,使用者电脑必须安装兼容于CUDA 10的GPU,以及相关的驱动程式和nvidia-docker。
目前在深度学习容器初始版本,提供了TensorFlow 1.13、TensorFlow 2.0、PyTorch和R语言容器,Google接下来会补齐所有深度学习虚拟机器器有提供的型别。