Nvidia Tesla T10 vs T4 GPU运算卡

Tesla T10

Tesla T10 16GB是NVIDIA于2020年推出的专业图形卡，采用12nmg工艺制造，基于TU102图形处理器，其 TU102-890-KCD-A1 版本支持 DirectX 12 Ultimate。

TU102图形处理器芯片面积为 754 mm²，包含18600 million(186亿)晶体管。

与完全解锁的TITAN RTX(使用相同的GPU，但启用了所有4608个着色器(shader)，NVIDIA禁用了Tesla T10 16GB上的某些着色单元，以达到产品的目标着色器数量:

3072个着色单元(shading units)
192个纹理单元(texture mapping units)
92个ROP
384个tensor cores(机器学习加速)
48个光线追踪加速核心(raytracing acceleration cores)
16 GB GDDR6 内存，使用 256 位内存接口连接
GPU工作频率为 1065 MHz, 可提升(bootst up)到 1395MHz
内存运行频率 1575MHz(12.6 Gbps有效)
使用1x8针电源获取电力，最大额定功耗为 150w
PCI-Express 3.0 x16
尺寸: 267mm长， 111mm宽，单插槽被动冷却

备注

Tesla T10实际上就是 NVIDIA GeForce RTX 2080 ，所以如果在普通台式机上使用，可以考虑安装第三方RTX 2080散热器。

实际使用

2025年春节入手了 Tesla T10 (最后因为购买的二手硬件问题在 QEMU运行GPU passthrough的虚拟机安装NVIDIA CUDA 没有成功，最终退货)，采用以下方案实践:

BLFS QEMU 在QEMU中运行debian
QEMU运行GPU passthrough的虚拟机安装NVIDIA CUDA 在虚拟机直接运行环境安装 CUDA
基于QEMU+Docker使用Tesla T10 在QEMU虚拟机中运行docker容器化使用Tesla T10，分别安装 CUDA driver 和 CUDA
NVIDIA Virtual GPU (vGPU) 方式将 Nvidia Tesla P10 GPU运算卡和 Tesla T10 划分为多块vGPU，分别提供给不同虚拟机
构建 Kubernetes 集群，实现规模化部署以及监控维护

Tesla T4

Tesla T4 16GB是NVIDIA于2018年9月13日发布的专业图形卡，采用12nm工艺制造，基于TU104图形处理器，其TU104-895-A1 版本支持DirectX 12 Ultimate。

TU04图形处理器芯片面积 545 mm²，包含13600 million(136亿)晶体管。

与完全解锁的 GeForce RTX 2080 SUPER 不同(使用相同的 GPU，但启用了所有 3072 个着色器)，NVIDIA 已禁用 Tesla T4 上的一些着色单元，以达到产品的目标着色器数量:

2560个着色单元(shading units)
160个纹理单元(texture mapping units)
64个ROP
320个tensore cores(机器学习加速)
40个光线追踪加速核心(raytracing acceleration cores)
16GB GDDR6 内存，使用 256 位内存接口连接
GPU工作频率为 585 MHz, 可提升(bootst up)到 1590MHz
内存运行频率 1250MHz(10 Gbps有效)
无需额外电源连接，最大额定功耗为 70W
PCI-Express 3.0 x16
尺寸: 168mm长，单插槽被动冷却

对比

Tesla T10 可以看成 T4 在 2020年的重制版本，但是产品定位不同，增加了芯片面积(晶体管)，但限制了FP16性能:
- 增加晶体管 +36.8%
- 增加着色单元 +20%
- 增加ROP +43.8%
- 增加tensor cores +20%
- 增加光线追踪加速核心 +20%
带来的不利点(也可以忽略): 功耗翻倍
- GPU工作频率 +82.1%
- 内存频率 +26%
由于 T10 和 T4 的 GPU核心架构 都是 Turing ， GPU处理器 都是 Volta，所以两者其实是同一代产品:
- 具备Tensor Cores (第一代)
- 从NVIDIA 510.39 驱动开始，NVIDIA激活了基于Ampere和Turing架构的Tesla数据中心GPU卡的GSP功能: GSP功能可以将传统由CPU执行的GPU初始化和管理功能offload到GPU上处理(默认启用，由 /lib/firmware/nvidia/510.39.01/gsp.bin firmware驱动)，提升了GPU性能(降低了GPU硬件访问延迟)
差别在于:
- T4更为节能(低功耗)，适合特定的运行场合进行训练推理
- T10的晶体管数量比T4增加36.8%，主要是在着色单元、tensore cores和光线追踪加速核心上，更适合虚拟化渲染、游戏领域
- T10的FP16半精度性能只有T4的1/4，有较大限制，训练和推理速度不如T4
- 二手市场T4的售价大约是T10的2倍
  - T10 和 Nvidia Tesla P10 GPU运算卡类似，网上资料极少，似乎是数据中心大批量采购用于云游戏
  - Google云计算使用了 L4, T4 和 P4 作为云桌面(NVIDIA RTX Virtual Workstation, vWS)，可能更看中GPU节能

技术规格

Tesla T10 vs. T4 vs. P100 vs. P10
	Tesla T10	Tesla T4	Tesla P10	Tesla P100
发布日	2020	2018/9/13	2016/9/13	2016/6/20
系列	Tesla	Tesla	Tesla	Tesla
接口	PCIe 3.0 x16	PCIe 3.0 x16	PCIe 3.0 x16	PCIe 3.0 x16
GPU	TU102	TU104	GP102	GP100
架构	Turing	Turing	Pascal	Pascal
工艺	12 nm	12 nm	16 nm	16 nm
晶体管数	18600 million	13600 million	11800 million	15300 million
GPU裸片面积	754 mm²	545 mm²	471 mm²	610 mm²
时钟频率(Clock Speeds)
基准主频	1065 MHz	585 MHz	1025 MHz	1190 MHz
Boost主频	1395 MHz	1590 MHz	1493 MHz	1329 MHz
内存主频	1575 MHz 12.6 Gbps	1250 MHz 10 Gbps	1808 MHz 14.5 Gbps	715 MHz 1430 Mbps
内存(Memory)
内存大小	16 GB	16 GB	24 GB	16 GB
内存类型	GDDR6	GDDR6	GDDR5X	HBM2
内存总线	256 bit	256 bit	384 bit	4096 bit
内存带宽	403.2 GB/s	320.0 GB/s	694.3 GB/s	732.2 GB/s
渲染配置(Render Config)
着色单元(Shading Units)	3072	2560	3840	3584
纹理映射单元(Texture Mapping Units/TMUs)	192	160	240	224
ROPs	96	64	96	96
SM Count	48	40	30
Tensor Cores	`384`	320
光线追踪RT Cores	`48`	40
L1 缓存(L1 Cache)	64 KB(per SM)	64 KB(per SM)	48 KB(per SM)	24 KB (per SM)
L2 缓存(L2 Cache)	6 MB	4 MB	3 MB	4 MB
主板设计
主板插槽	单插槽	单插槽	单插槽	双插槽
长度	267 mm	168 mm	267 mm	267 mm
宽度	111 mm		97 mm	112 mm
厚度	20 mm	20 mm	20mm	40mm
TDP	150 W	70 W	250 W	250 W
建议电源	450 W	250 W	600 W	600 W
显示输出	无	无	无	无
电源连接	1x 8-pin	无需	1x 8-pin	1x 8-pin
主板编号		PG611 SKU 50	PG610 SKU 210	PH400 SKU 201
图形功能
DirectX	12 (12_1)	12 (12_2)	12 (12_1)	12 (12_1)
OpenGL	4.6	4.6	4.6	4.6
OpenCL	3.0	3.0	3.0	3.0
Vulkan	1.3	1.3	1.3	1.3
CUDA	7.5	7.5	6.1	6.0
Shader Model	6.8	6.8	6.4	6.0
理论性能
Pixel Rate	`133.9 GPixel/s`	101.8 GPixel/s	143.3 GPixel/s	127.6 GPixel/s
Texture Rate	`267.8 GTexel/s`	254.4 GTexel/s	358.3 GTexel/s	297.7 GTexel/s
FP16 (half) performance	`17.14 TFLOPS (2:1)`	65.13TFLOPS (8:1)	179.2 GFLOPS (1:64)	19.05 TFLOPS (2:1)
FP32 (float) performance	`8.571 TFLOPS`	8.141 TFLOPS	11.47 TFLOPS	9.526 TFLOPS
FP64 (double) performance	`267.8 GFLOPS (1:32)`	254.4 GFLOPS (1:32)	358.3 GFLOPS (1:32)	4.763 TFLOPS (1:2)

参考

techpowerup GPU Database - NVIDIA Tesla T10 16 GB
techpowerup GPU Database - NVIDIA Tesla T4 16 GB
reddit: Why T4's price is similar to 4070?
reddit: Tesla T10 Server GPU
NVIDIA enables GPU System Processor (GSP) on select Tesla/Data Center accelerators 提到了Tesla T10使用了GPU System Processor可以写在GPU初始化和管理任务(将传统的CPU执行任务卸载到GPU上提升性能和降低延迟)
NVIDIA官网: Tesla T4 提供 T4 信息