GPU Kubernetes架构
NVIDIA Container Tookit

结合 Kubernetes技术,实现大规模CPU计算集群:

轻量级运行环境,减少底层(虚拟化)消耗
快速调度、大规模部署
NVIDIA容器运行时
NVIDIA容器运行时(Container Runtime)是一种GPU aware容器运行时,与 Docker , cri-o容器运行时 以及其他流行的容器技术使用的开放容器倡议(Open Containers Initiative, OCI)规范兼容。NVIDIA Container Runtime简化了构建容器化GPU加速应用程序,并且方便部署到桌面、云或数据中心。
NVIDIA容器堆栈(Container Stack)架构目标是支持容器生态系统中的任何容器运行时,堆栈组件包括:
nvidia-docker
包装器(wrapper) (注意,现在nvidia-docker
已经被替换为 NVIDIA Container ToolkitNVIDIA容器运行时(
nvidia-container-runtime
)NVIDIA容器运行时Hook(
nvidia-container-toolkit
/nvidia-container-runtime-hook
)NVIDIA容器库和CLI(
libnvidia-container1
,nvidia-container-cli
)
除了 nvidia-docker
包装器之外,NVIDIA容器堆栈的组件都打包为 NVIDIA Container Toolkit。
对于 Docker 使用
nvidia-docker
wrapper ,组件流程图如下:

nvidia-docker wrapper组件流程图
对于 containerd运行时(runtime) ,组件流程图如下:

containerd组件流程图
对于 cri-o容器运行时 和 LXC 组件流程图如下:

cri-o和LXC组件流程图