保姆级教程：Ubuntu上配置PyTorch/TensorFlow GPU环境(CUDA与cuDNN)

保姆级教程：在Ubuntu上为PyTorch/TensorFlow配置CUDA与cuDNN环境

对于进行深度学习研究或开发的同学来说，利用 NVIDIA GPU 的强大并行计算能力加速模型训练和推理是必不可少的。然而，配置一个能让 PyTorch 或 TensorFlow 顺利调用 GPU 的环境，尤其是处理好 NVIDIA 驱动、CUDA Toolkit 和 cuDNN 之间的版本兼容性问题，常常让新手甚至一些有经验的用户感到头疼。任何一个环节版本不匹配，都可能导致 GPU 无法被框架识别或程序运行出错。

本教程的目标就是提供一份“保姆级”的详尽指南，手把手带您在 Ubuntu Linux 系统上，通过官方推荐的方式，一步步安装和配置 NVIDIA 驱动、CUDA Toolkit 以及 cuDNN，最终成功搭建可供 PyTorch 或 TensorFlow 使用的 GPU 加速环境。我们将重点强调版本兼容性的检查，并采用相对稳定可靠的安装方法。

Table of Contents

核心概念：驱动、CUDA、cuDNN 与框架的关系

在开始安装前，我们先理清这几个关键组件的关系：

NVIDIA 驱动 (Driver): 这是最基础的层，负责让操作系统能够识别并与您的 NVIDIA GPU 硬件通信。没有驱动，GPU 就是一块“废铁”。
CUDA Toolkit: 这是 NVIDIA 提供的并行计算平台和编程模型。它包含 CUDA 驱动 API、运行时库、编译器 (nvcc)、开发工具等。深度学习框架需要调用 CUDA API 来执行 GPU 上的计算任务。
cuDNN (CUDA Deep Neural Network library): 这是 NVIDIA 专门为深度神经网络设计的高性能基础库。它提供了针对卷积、池化、归一化、激活函数等常用操作的高度优化实现。cuDNN 运行在 CUDA 之上，能显著提升深度学习框架的运行速度。几乎所有主流框架都依赖它获取最佳性能。
PyTorch / TensorFlow: 这是我们最终使用的深度学习框架。它们通过调用 cuDNN 和 CUDA 的接口，将计算任务卸载到 GPU 上执行，从而实现加速。

它们之间存在严格的依赖关系：框架 → cuDNN → CUDA Toolkit → NVIDIA 驱动 → GPU 硬件。安装时必须确保版本相互兼容。

第一步：确定兼容版本 (关键！)

这是整个过程中最重要的一步！ 在下载和安装任何东西之前，必须先确定好一套相互兼容的版本组合。顺序通常是反向的：从你需要的框架版本开始，倒推所需的 cuDNN、CUDA 和驱动版本。

1. 确定你要使用的 PyTorch / TensorFlow 版本

首先明确您项目需要或希望使用的深度学习框架版本。您可以访问它们的官网获取信息：

PyTorch: 访问 PyTorch 官网，通常首页就有安装命令选择器 (Install Helper)。
TensorFlow: 访问 TensorFlow GPU 支持文档，查看“经过测试的构建配置”(Tested build configurations)。

2. 根据框架版本查找兼容的 CUDA 版本

PyTorch: 官网的安装命令选择器会明确列出当前稳定版支持的 CUDA 版本（例如，可能会显示支持 CUDA 11.8 和 CUDA 12.1）。
TensorFlow: GPU 支持文档的“经过测试的构建配置”表格会将 TensorFlow 版本与特定的 CUDA 和 cuDNN 版本对应起来。

行动: 根据您选择的框架版本，确定一个它支持的、您希望安装的 **CUDA Toolkit 版本**。例如，我们假设选择了 **CUDA 12.1** 作为本教程的目标版本。

3. 根据 CUDA 版本查找兼容的 cuDNN 版本

访问 NVIDIA cuDNN 的官方文档或下载归档页面 (developer.nvidia.com/cudnn – 可能需要登录开发者账号)。
查找与您上一步选定的 CUDA 版本 (如 CUDA 12.1) **明确兼容**的 cuDNN 版本。通常文档会有一个兼容性列表。

行动: 记下所需的 **cuDNN 主版本和次版本** (例如，假设与 CUDA 12.1 兼容的是 cuDNN 8.9.x)。

4. 根据 CUDA 版本查找兼容的 NVIDIA 驱动版本

访问您选定的 CUDA Toolkit 版本的官方文档或发布说明 (Release Notes) (docs.nvidia.com/cuda/)。
在文档中找到该 CUDA 版本所要求的**最低 NVIDIA 驱动版本**。

行动: 记下所需的**最低驱动版本**（例如，CUDA 12.1 可能要求驱动版本 >= 530.xx）。通常建议安装满足此最低要求的**最新稳定版驱动**。

总结: 完成这一步后，您应该清晰地知道：您要安装的框架版本需要哪个版本的 CUDA，该 CUDA 版本又需要哪个版本的 cuDNN 和最低哪个版本的驱动程序。

[ 框架版本 → CUDA 版本 → cuDNN 版本 → 最低驱动版本 ]

第二步：安装 NVIDIA 显卡驱动

推荐使用 NVIDIA 官方提供的 `.deb` 仓库源进行安装，这样可以方便地获取更新且不易与系统包管理冲突。（不推荐使用 `.run` 文件安装，除非特殊情况，因为它可能在内核更新后导致驱动失效）。

1. 移除可能存在的旧驱动

如果您之前安装过其他方式的 NVIDIA 驱动，最好先彻底卸载：


sudo apt-get purge nvidia* libnvidia*
sudo apt autoremove

2. 添加 NVIDIA CUDA `.deb` 软件源

这个软件源同时包含了 CUDA Toolkit 和对应的驱动程序。

访问 NVIDIA CUDA Toolkit 下载页面 (NVIDIA CUDA Downloads)。
依次选择：Linux -> x86_64 -> Ubuntu -> 您的 Ubuntu 版本 (如 22.04) -> **deb (network)** 安装方式。
页面会给出几条命令，**严格按照页面上的指示**执行，以下仅为示例结构（版本号、文件名会变化！）：


# --- 示例命令结构，请务必从NVIDIA官网复制最新命令！ ---
# (假设是为 Ubuntu 22.04 安装 CUDA 12.x 仓库)
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
# 可能需要删除旧的 keyring: sudo rm /etc/apt/trusted.gpg.d/cuda-archive-keyring.gpg
sudo apt-get update
# --- 结束示例 ---

3. 安装满足最低版本要求的最新驱动

添加完软件源后，您可以通过 `apt` 安装驱动。推荐安装源中为您的 CUDA 版本推荐的最新驱动，它通常能满足兼容性要求。

方法一 (推荐): 通常可以直接安装 `cuda-drivers` 元软件包，它会自动选择合适的版本： sudo apt-get install cuda-drivers
方法二 (指定版本): 如果需要特定版本，可以先搜索 `apt search nvidia-driver-`，找到满足最低版本号（第一步确定的）的最高版本号 `XXX`，然后安装 `sudo apt-get install nvidia-driver-XXX`。

4. 重启服务器

安装完驱动后，**必须重启**服务器以加载新的内核模块。


sudo reboot

5. 验证驱动安装

重启后，登录服务器，打开终端，执行：


nvidia-smi

如果安装成功，您应该能看到类似如下的输出，包含您的 GPU 型号、驱动版本 (Driver Version) 以及该驱动最高支持的 CUDA 版本 (CUDA Version)。请确认显示的**驱动版本**满足或高于您在第一步确定的最低要求。


+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.xx.xx Driver Version: 535.xx.xx   CUDA Version: 12.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA GeForce RTX 4090    Off  | 00000000:01:00.0 Off |                  N/A |
|  0%   30C    P8    15W / 450W |      4MiB / 24564MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
... (可能有多块卡) ...
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

注意: nvidia-smi 输出的 CUDA Version 是驱动能支持的最高版本，不代表您已安装的 CUDA Toolkit 版本。

第三步：安装 CUDA Toolkit

现在驱动已经就绪，我们可以安装在第一步中确定的那个特定版本的 CUDA Toolkit。

1. 使用 apt 安装指定版本的 CUDA Toolkit

切勿直接 `sudo apt-get install cuda`，这会安装仓库中最新的 CUDA 版本，可能与您的框架不兼容。应该安装您需要的特定版本包。


# 示例：安装 CUDA 12.1 (请使用 'apt search cuda-toolkit' 查找确切包名)
# 包名通常是 cuda-toolkit-主版本号-次版本号，例如：
sudo apt-get install cuda-toolkit-12-1 -y

安装过程会下载并设置 CUDA 工具包。

2. 设置环境变量

为了让系统能找到 CUDA 的编译器 (nvcc) 和库文件，需要将 CUDA 的路径添加到环境变量中。推荐编辑用户个人的 ~/.bashrc 文件，或者为所有用户创建配置文件 `/etc/profile.d/cuda.sh`。

编辑 ~/.bashrc：


nano ~/.bashrc

在文件末尾添加以下行 (假设安装的是 CUDA 12.1，请根据实际安装路径 /usr/local/ 下的文件夹名修改):


# Add CUDA paths to environment variables
export PATH=/usr/local/cuda-12.1/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

保存文件后，执行 source ~/.bashrc 或重新登录使环境变量生效。

3. 验证 CUDA 安装

打开新终端，执行：


nvcc --version

应该会显示您安装的 CUDA Toolkit 版本信息，例如：


nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Tue_Feb__7_19:32:13_PST_2023
Cuda compilation tools, release 12.1, V12.1.66
Build cuda_12.1.r12.1/compiler.32415258_0

还可以尝试编译运行 CUDA Samples (如果安装了 cuda-samples-12-1 包的话) 来进一步验证。

第四步：安装 cuDNN

安装 cuDNN 需要从 NVIDIA 官网下载，通常需要注册并登录 NVIDIA Developer 账号。

1. 下载 cuDNN Library

访问 NVIDIA cuDNN 下载页面 (NVIDIA cuDNN)，登录您的开发者账号。
找到并点击 “Download cuDNN”。
同意协议后，会看到下载列表。请选择与您**已安装的 CUDA Toolkit 版本**（如 12.1）兼容的那个 **cuDNN 版本**（如 8.9.x）。
在展开的下载选项中，找到适用于您的 **Linux 发行版和架构** (如 Ubuntu 22.04 x86_64) 的 **`.deb` 安装包**。通常会有 Runtime Library, Developer Library, 和 Code Samples 三个包。至少需要 Runtime 和 Developer 包。
下载所需的 .deb 文件到您的服务器。

2. 安装 cuDNN `.deb` 包

NVIDIA 提供 `.deb` 包的安装方式可能会随版本变化，有时是提供一个本地仓库包，有时是直接提供库文件包。请优先参考下载页面或包内说明。以下是常见的安装模式：


# 示例包名，具体名称会不同! 请替换为您下载的文件名。
# 可能先安装一个本地源包
sudo dpkg -i cudnn-local-repo-ubuntu2204-8.9.x.x_1.0-1_amd64.deb
# 然后导入 key (如果需要，dpkg 安装时可能会提示)
# sudo cp /var/cudnn-local-repo-*/cudnn-local-*-keyring.gpg /usr/share/keyrings/

# 更新 apt 列表
sudo apt-get update

# 然后安装运行时库和开发库 (版本号需匹配!)
sudo apt-get install libcudnn8=8.9.x.x-1+cuda12.1 -y
sudo apt-get install libcudnn8-dev=8.9.x.x-1+cuda12.1 -y

# (可选) 安装代码示例
# sudo apt-get install libcudnn8-samples=8.9.x.x-1+cuda12.1 -y

再次强调: 上述包名和版本号 (8.9.x.x-1+cuda12.1) 仅为示例，请务必根据您下载的文件和 NVIDIA 的指示进行安装。

3. 验证 cuDNN 安装

安装完成后，可以通过检查库文件是否存在来初步验证：


ls -l /usr/lib/x86_64-linux-gnu/libcudnn*
# 或者查看头文件
ls -l /usr/include/cudnn*.h

如果安装了 Samples 包，可以尝试编译并运行其中的 `mnistCUDNN` 示例来深度验证。

第五步：安装 PyTorch / TensorFlow (使用虚拟环境)

为了避免不同项目之间的 Python 包冲突，强烈建议在 Python 虚拟环境中安装深度学习框架。

1. 创建并激活虚拟环境

这里使用 Python 内置的 `venv` 模块：


# 创建名为 my_dl_env 的虚拟环境
python3 -m venv my_dl_env

# 激活环境 (注意路径和命令前的点)
source my_dl_env/bin/activate

# 激活后，命令行提示符前会出现 (my_dl_env)

2. 安装 PyTorch (针对特定 CUDA 版本)

访问 PyTorch 官网安装助手 (pytorch.org/get-started/locally/)。
选择适合您需求的选项：Stable (稳定版)、Linux、Pip、Python、以及**您刚才安装的 CUDA 版本**（如 12.1）。
网站会自动生成对应的 `pip` 安装命令，复制该命令。

在**已激活**的虚拟环境中执行复制的命令：


# 示例命令，请务必从 PyTorch 官网获取最新命令！
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

3. (或者) 安装 TensorFlow

访问 TensorFlow 官网 GPU 安装指南 (tensorflow.org/install/pip#linux-setup)。
现代 TensorFlow 的 `pip` 包通常能更好地处理 GPU 库依赖，但也请仔细阅读文档，确认是否有针对您安装的 CUDA/cuDNN 版本的特定安装说明或要求。
确保 `pip` 是最新版本：pip install --upgrade pip。

在**已激活**的虚拟环境中执行安装命令（请参考 TensorFlow 官网文档）：


# 示例命令，请务必参考 TensorFlow 官网！
pip install tensorflow

4. 验证框架 GPU 支持

在**已激活**的虚拟环境中，启动 Python 解释器：


python

然后执行以下代码进行验证：

验证 PyTorch:


import torch

# 检查 GPU 是否可用
print(f"Is CUDA available? {torch.cuda.is_available()}")

if torch.cuda.is_available():
    # 获取 GPU 数量
    print(f"CUDA device count: {torch.cuda.device_count()}")
    # 获取当前 GPU 设备索引
    current_device = torch.cuda.current_device()
    print(f"Current CUDA device index: {current_device}")
    # 获取当前 GPU 设备名称
    print(f"Current CUDA device name: {torch.cuda.get_device_name(current_device)}")
    # 检查 PyTorch 链接的 CUDA 版本
    print(f"PyTorch CUDA version: {torch.version.cuda}")
    # 检查 PyTorch 链接的 cuDNN 版本
    if torch.backends.cudnn.is_available():
        print(f"PyTorch cuDNN version: {torch.backends.cudnn.version()}")
    else:
        print("PyTorch cuDNN backend not available.")
else:
    print("CUDA not available for PyTorch.")

quit()

如果输出显示 CUDA available 为 True，并能正确打印出 GPU 名称、CUDA 版本和 cuDNN 版本，则 PyTorch GPU 环境配置成功！

验证 TensorFlow:


import tensorflow as tf

# 列出物理 GPU 设备
gpus = tf.config.list_physical_devices('GPU')
print(f"Num GPUs Available: {len(gpus)}")

if gpus:
  try:
    # 打印每个 GPU 的详细信息 (可选)
    for gpu in gpus:
      print(f"Name: {gpu.name}, Type: {gpu.device_type}")
    # 尝试在 GPU 上执行简单操作 (确保运行时能分配显存)
    tf.random.set_seed(1234)
    a = tf.random.normal((2,2))
    b = tf.random.normal((2,2))
    c = tf.matmul(a, b)
    print("TensorFlow GPU computation successful.")
  except RuntimeError as e:
    print(e)
else:
    print("TensorFlow cannot find any GPU device.")

print(f"TensorFlow version: {tf.__version__}")

quit()

如果输出了 GPU 设备的数量和名称，并且没有报错，则 TensorFlow GPU 环境配置成功！

常见问题与排查 (Troubleshooting)

nvidia-smi 命令找不到: 驱动未成功安装，或者 /usr/bin 不在 PATH 环境变量中。检查驱动安装步骤，尝试重启。
nvcc 命令找不到: CUDA Toolkit 未成功安装，或者 CUDA 的 bin 目录未添加到 PATH 环境变量。检查 CUDA 安装和环境变量设置步骤，source ~/.bashrc 或重新登录。
PyTorch/TensorFlow 无法找到 GPU (e.g., torch.cuda.is_available() is False):
- 最常见原因：**版本不兼容！** 仔细核对框架、CUDA、cuDNN、驱动版本是否匹配。
- 驱动或 CUDA 安装不完整或损坏。尝试重新安装。
- 环境变量设置错误或未生效。
- 安装框架时未选择正确的 CUDA 版本（尤其 PyTorch）。
cuDNN 相关错误: 可能是 cuDNN 版本与 CUDA 版本不匹配，或者 cuDNN 库文件未正确安装到系统路径。检查 cuDNN 安装步骤。
权限问题: 确保运行 Python 脚本的用户有权限访问 NVIDIA 设备 (通常属于 video 或 render 组可能有帮助，但一般驱动安装后可访问)。

总结

在 Ubuntu 上为 PyTorch 或 TensorFlow 配置 GPU 加速环境的核心在于**严格的版本匹配**和**遵循正确的安装顺序**：

规划: 确定框架 -> CUDA -> cuDNN -> 驱动的版本链条。
安装驱动: 使用官方源安装并验证。
安装CUDA Toolkit: 安装规划好的特定版本并设置环境变量。
安装cuDNN: 下载与 CUDA 匹配的版本并安装。
安装框架: 在虚拟环境中安装，并选择与已安装 CUDA 匹配的版本（PyTorch）或遵循 TensorFlow 的指导。
验证: 使用框架提供的接口检查 GPU 是否可用。

虽然过程略显繁琐，且容易因版本问题出错，但只要耐心按照步骤操作，仔细检查版本兼容性，并参考官方文档，您就能成功解锁 GPU 的强大算力，为您的深度学习之旅插上翅膀！

{{userData.name}}已认证

保姆级教程：在Ubuntu上为PyTorch/TensorFlow配置CUDA与cuDNN环境