升级 docker19.03 使用 nvidia-container-toolkit
docker 升级到 19.03 以后,nvidia 将提供原生的显卡支持,只需要安装 nvidia-container-toolkit 工具包即可, 不再像使用 nvidia-docker/2 那样复杂配置,而且不支持用 docker-compose
安装步骤 1. 确认本机 nvidia 驱动安装正确,cuda 和 cudnn 配置正常,官方文档说可以不需要在 host 配置 cuda, 2. 安装 docker,可以参考,主要安装 19.03 以后的版本 https://docs.docker.com/engine/install/ubuntu/ 3. 添加 nvidia-docker 的源
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | \
sudo apt-key add -
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | \
sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update
4. 使用以下命令安装 nvidia-container-toolkit,重启 docker
sudo apt-get install -y nvidia-container-toolkit
#restart docker
sudo systemctl restart docker
5. 如果本机已安装 nvidia-docker2,可以单独完成安装 nvidia-container-toolkit,且相互不影响, 官方虽然已经宣布 nvidia-docker2 deprecated 了,但是继续使用是没问题的
使用上的主要区别 使用 nvidia-container-toolkit
#使用 nvidia-container-toolkit
docker run --gpus "device=1,2"
使用 nvidia-docker2
#使用 nvidia-docker2, 已 deprecated,但是还能继续用
docker run --runtime=nvidia
使用 nvidia-docker
#使用 nvidia-docker
nvidia-docker run
几个坑 1. nvidia-container-toolkit 和 nvidia-docker2 的容器 image 位置不一样且不通用,如果要混用,需要根据需要选择不同版本的容器 2.nvidia-container-toolkit 的多显卡支持目前测试没成功,容器跑最好还是单个显卡吧。可能跟 host 配置有关
参考 https://docs.nvidia.com/deeplearning/frameworks/user-guide/index.html https://docs.nvidia.com/ngc/ngc-aws-setup-guide/running-containers.html#preparing-to-run-containers https://github.com/NVIDIA/nvidia-docker https://nvidia.github.io/nvidia-docker/