搭建深度学习环境需要完整的考虑到各种版本的对应关系,本篇博客会较为详细记录我的整个搭建过程,先附上我目前的深度学习环境基本信息:

  • Ubuntu: 24.04
  • NVIDIA: GeForce GTX 1080TI
  • Driver Version: 570.133
  • CUDA: 12.8
  • cuDNN: 9.10
  • pytorch: 2.7

显卡驱动

这部分由于当时深度了解更改了一下,具体可以参考这篇帖子 显卡,显卡驱动安装完毕后应当可以通过 nvidia-smi 指令来查看对应的显卡显卡输出如下图所示:nvidia.png

由此可以看到我们显卡驱动对应的 Cuda 版本是 12.8 版本的,为此我们下载的 Cuda 版本也要与之对应

Cuda

官网 下载 CUDA12.8,进入 CUDA 所在文件夹,赋予文件执行权限后安装

1
2
chmod +x cuda_12.8.1_570.124.06_linux.run
sudo ./cuda_12.8.1_570.124.06_linux.run

开始安装后需要按空格键阅读条款,时间比较长。阅读完使用条款后开始配置,一步一步慢慢来,已经安装过驱动的就不要再安装驱动了,此外同意创建软连接,安装完毕之后加入环境变量:

1
2
3
4
export CUDA_HOME=/usr/local/cuda
export PATH=$CUDA_HOME/bin:$PATH
export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH
export CUDA_LAUNCH_BLOCKING=1 # 限制单张显卡

保存退出后重启终端,或者执行 source ~/.zshrc 来加载环境变量,输入 nvcc -V 来验证是否安装成功

cuDNN

官网 上下载 cuDNN 相应版本的压缩包,按照官网提供的操作步骤来操作即可:

1
2
3
4
5
wget https://developer.download.nvidia.com/compute/cudnn/9.10.1/local_installers/cudnn-local-repo-ubuntu2404-9.10.1_1.0-1_amd64.deb
sudo dpkg -i cudnn-local-repo-ubuntu2404-9.10.1_1.0-1_amd64.deb
sudo cp /var/cudnn-local-repo-ubuntu2404-9.10.1/cudnn-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cudnn

使用 ls /usr/lib/x86_64-linux-gnu/libcudnn* 来验证安装,再次路径下的动态库会被系统自动加载

PyTorch

我们通过 Anaconda 来管理 python 的深度学习环境,以防止出现冲突,首先执行下述指令创建基础环境 conda create -n torch27 python=3.9,而后参考 官方文档 指导,在激活 conda 环境的终端中执行对应命令以完成 torch 环境的安装 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

最后可以编写一段代码来进行验证 torch 的安装情况,检查输出即可

1
2
3
4
5
6
7
import torch

print(torch.cuda.is_available())
print(torch.cuda.current_device())
print(torch.cuda.device(0))
print(torch.cuda.device_count())
print(torch.cuda.get_device_name(0))
1
2
3
conda install -c bottler nvidiacub
# RuntimeError: CUDA error: CUBLAS_STATUS_NOT_SUPPORTED when calling `cublasSgemm( handle, opa, opb, m, n, k, &alpha, a, lda, b, ldb, &beta, c, ldc)`
# illegal hardware instruction (core dumped)