Nvidia Tesla T10 vs T4 GPU运算卡

Tesla T10

Tesla T10 16GB是NVIDIA于2020年推出的专业图形卡,采用12nmg工艺制造,基于TU102图形处理器,其 TU102-890-KCD-A1 版本支持 DirectX 12 Ultimate。

TU102图形处理器芯片面积为 754 mm²,包含18600 million(186亿)晶体管。

与完全解锁的TITAN RTX(使用相同的GPU,但启用了所有4608个着色器(shader),NVIDIA禁用了Tesla T10 16GB上的某些着色单元,以达到产品的目标着色器数量:

  • 3072个着色单元(shading units)

  • 192个纹理单元(texture mapping units)

  • 92个ROP

  • 384个tensor cores(机器学习加速)

  • 48个光线追踪加速核心(raytracing acceleration cores)

  • 16 GB GDDR6 内存,使用 256 位内存接口连接

  • GPU工作频率为 1065 MHz, 可提升(bootst up)到 1395MHz

  • 内存运行频率 1575MHz(12.6 Gbps有效)

  • 使用1x8针电源获取电力,最大额定功耗为 150w

  • PCI-Express 3.0 x16

  • 尺寸: 267mm长, 111mm宽,单插槽被动冷却

备注

Tesla T10实际上就是 NVIDIA GeForce RTX 2080 ,所以如果在普通台式机上使用,可以考虑安装第三方RTX 2080散热器。

实际使用

2025年春节 入手了 Tesla T10 (最后因为购买的二手硬件问题 在 QEMU运行GPU passthrough的虚拟机安装NVIDIA CUDA 没有成功,最终退货),采用以下方案实践:

Tesla T4

Tesla T4 16GB是NVIDIA于2018年9月13日发布的专业图形卡,采用12nm工艺制造,基于TU104图形处理器,其TU104-895-A1 版本支持DirectX 12 Ultimate。

TU04图形处理器芯片面积 545 mm²,包含13600 million(136亿)晶体管。

与完全解锁的 GeForce RTX 2080 SUPER 不同(使用相同的 GPU,但启用了所有 3072 个着色器),NVIDIA 已禁用 Tesla T4 上的一些着色单元,以达到产品的目标着色器数量:

  • 2560个着色单元(shading units)

  • 160个纹理单元(texture mapping units)

  • 64个ROP

  • 320个tensore cores(机器学习加速)

  • 40个光线追踪加速核心(raytracing acceleration cores)

  • 16GB GDDR6 内存,使用 256 位内存接口连接

  • GPU工作频率为 585 MHz, 可提升(bootst up)到 1590MHz

  • 内存运行频率 1250MHz(10 Gbps有效)

  • 无需额外电源连接,最大额定功耗为 70W

  • PCI-Express 3.0 x16

  • 尺寸: 168mm长,单插槽被动冷却

对比

  • Tesla T10 可以看成 T4 在 2020年 的重制版本,但是产品定位不同,增加了芯片面积(晶体管),但限制了FP16性能:

    • 增加晶体管 +36.8%

    • 增加着色单元 +20%

    • 增加ROP +43.8%

    • 增加tensor cores +20%

    • 增加光线追踪加速核心 +20%

  • 带来的不利点(也可以忽略): 功耗翻倍

    • GPU工作频率 +82.1%

    • 内存频率 +26%

  • 由于 T10 和 T4 的 GPU核心架构 都是 Turing , GPU处理器 都是 Volta,所以两者其实是同一代产品:

    • 具备Tensor Cores (第一代)

    • 从NVIDIA 510.39 驱动开始,NVIDIA激活了基于Ampere和Turing架构的Tesla数据中心GPU卡的GSP功能: GSP功能可以将传统由CPU执行的GPU初始化和管理功能offload到GPU上处理(默认启用,由 /lib/firmware/nvidia/510.39.01/gsp.bin firmware驱动),提升了GPU性能(降低了GPU硬件访问延迟)

  • 差别在于:

    • T4更为节能(低功耗),适合特定的运行场合进行训练推理

    • T10的晶体管数量比T4增加36.8%,主要是在着色单元、tensore cores和光线追踪加速核心上,更适合虚拟化渲染、游戏领域

    • T10的FP16半精度性能只有T4的1/4,有较大限制,训练和推理速度不如T4

    • 二手市场T4的售价大约是T10的2倍

      • T10 和 Nvidia Tesla P10 GPU运算卡 类似,网上资料极少,似乎是数据中心大批量采购用于 云游戏

      • Google云计算使用了 L4, T4 和 P4 作为云桌面(NVIDIA RTX Virtual Workstation, vWS),可能更看中GPU节能

技术规格

Tesla T10 vs. T4 vs. P100 vs. P10

Tesla T10

Tesla T4

Tesla P10

Tesla P100

发布日

2020

2018/9/13

2016/9/13

2016/6/20

系列

Tesla

Tesla

Tesla

Tesla

接口

PCIe 3.0 x16

PCIe 3.0 x16

PCIe 3.0 x16

PCIe 3.0 x16

GPU

TU102

TU104

GP102

GP100

架构

Turing

Turing

Pascal

Pascal

工艺

12 nm

12 nm

16 nm

16 nm

晶体管数

18600 million

13600 million

11800 million

15300 million

GPU裸片面积

754 mm²

545 mm²

471 mm²

610 mm²

时钟频率(Clock Speeds)

基准主频

1065 MHz

585 MHz

1025 MHz

1190 MHz

Boost主频

1395 MHz

1590 MHz

1493 MHz

1329 MHz

内存主频

1575 MHz 12.6 Gbps

1250 MHz 10 Gbps

1808 MHz 14.5 Gbps

715 MHz 1430 Mbps

内存(Memory)

内存大小

16 GB

16 GB

24 GB

16 GB

内存类型

GDDR6

GDDR6

GDDR5X

HBM2

内存总线

256 bit

256 bit

384 bit

4096 bit

内存带宽

403.2 GB/s

320.0 GB/s

694.3 GB/s

732.2 GB/s

渲染配置(Render Config)

着色单元(Shading Units)

3072

2560

3840

3584

纹理映射单元(Texture Mapping Units/TMUs)

192

160

240

224

ROPs

96

64

96

96

SM Count

48

40

30

Tensor Cores

384

320

光线追踪RT Cores

48

40

L1 缓存(L1 Cache)

64 KB(per SM)

64 KB(per SM)

48 KB(per SM)

24 KB (per SM)

L2 缓存(L2 Cache)

6 MB

4 MB

3 MB

4 MB

主板设计

主板插槽

单插槽

单插槽

单插槽

双插槽

长度

267 mm

168 mm

267 mm

267 mm

宽度

111 mm

97 mm

112 mm

厚度

20 mm

20 mm

20mm

40mm

TDP

150 W

70 W

250 W

250 W

建议电源

450 W

250 W

600 W

600 W

显示输出

电源连接

1x 8-pin

无需

1x 8-pin

1x 8-pin

主板编号

PG611 SKU 50

PG610 SKU 210

PH400 SKU 201

图形功能

DirectX

12 (12_1)

12 (12_2)

12 (12_1)

12 (12_1)

OpenGL

4.6

4.6

4.6

4.6

OpenCL

3.0

3.0

3.0

3.0

Vulkan

1.3

1.3

1.3

1.3

CUDA

7.5

7.5

6.1

6.0

Shader Model

6.8

6.8

6.4

6.0

理论性能

Pixel Rate

133.9 GPixel/s

101.8 GPixel/s

143.3 GPixel/s

127.6 GPixel/s

Texture Rate

267.8 GTexel/s

254.4 GTexel/s

358.3 GTexel/s

297.7 GTexel/s

FP16 (half) performance

17.14 TFLOPS (2:1)

65.13TFLOPS (8:1)

179.2 GFLOPS (1:64)

19.05 TFLOPS (2:1)

FP32 (float) performance

8.571 TFLOPS

8.141 TFLOPS

11.47 TFLOPS

9.526 TFLOPS

FP64 (double) performance

267.8 GFLOPS (1:32)

254.4 GFLOPS (1:32)

358.3 GFLOPS (1:32)

4.763 TFLOPS (1:2)

参考