Nvidia Tesla T10 vs T4 GPU运算卡
Tesla T10
Tesla T10 16GB是NVIDIA于2020年推出的专业图形卡,采用12nmg工艺制造,基于TU102图形处理器,其 TU102-890-KCD-A1 版本支持 DirectX 12 Ultimate。
TU102图形处理器芯片面积为 754 mm²,包含18600 million(186亿)晶体管。
与完全解锁的TITAN RTX(使用相同的GPU,但启用了所有4608个着色器(shader),NVIDIA禁用了Tesla T10 16GB上的某些着色单元,以达到产品的目标着色器数量:
3072个着色单元(shading units)
192个纹理单元(texture mapping units)
92个ROP
384个tensor cores(机器学习加速)
48个光线追踪加速核心(raytracing acceleration cores)
16 GB GDDR6 内存,使用 256 位内存接口连接
GPU工作频率为 1065 MHz, 可提升(bootst up)到 1395MHz
内存运行频率 1575MHz(12.6 Gbps有效)
使用1x8针电源获取电力,最大额定功耗为 150w
PCI-Express 3.0 x16
尺寸: 267mm长, 111mm宽,单插槽被动冷却
备注
Tesla T10实际上就是 NVIDIA GeForce RTX 2080 ,所以如果在普通台式机上使用,可以考虑安装第三方RTX 2080散热器。
实际使用
2025年春节 入手了 Tesla T10 (最后因为购买的二手硬件问题 在 QEMU运行GPU passthrough的虚拟机安装NVIDIA CUDA 没有成功,最终退货),采用以下方案实践:
QEMU运行GPU passthrough的虚拟机安装NVIDIA CUDA 在虚拟机直接运行环境安装
CUDA
基于QEMU+Docker使用Tesla T10 在QEMU虚拟机中运行docker容器化使用Tesla T10,分别安装
CUDA driver
和CUDA
NVIDIA Virtual GPU (vGPU) 方式将 Nvidia Tesla P10 GPU运算卡 和 Tesla T10 划分为多块vGPU,分别提供给不同虚拟机
构建 Kubernetes 集群,实现规模化部署以及监控维护
Tesla T4
Tesla T4 16GB是NVIDIA于2018年9月13日发布的专业图形卡,采用12nm工艺制造,基于TU104图形处理器,其TU104-895-A1 版本支持DirectX 12 Ultimate。
TU04图形处理器芯片面积 545 mm²,包含13600 million(136亿)晶体管。
与完全解锁的 GeForce RTX 2080 SUPER 不同(使用相同的 GPU,但启用了所有 3072 个着色器),NVIDIA 已禁用 Tesla T4 上的一些着色单元,以达到产品的目标着色器数量:
2560个着色单元(shading units)
160个纹理单元(texture mapping units)
64个ROP
320个tensore cores(机器学习加速)
40个光线追踪加速核心(raytracing acceleration cores)
16GB GDDR6 内存,使用 256 位内存接口连接
GPU工作频率为 585 MHz, 可提升(bootst up)到 1590MHz
内存运行频率 1250MHz(10 Gbps有效)
无需额外电源连接,最大额定功耗为 70W
PCI-Express 3.0 x16
尺寸: 168mm长,单插槽被动冷却
对比
Tesla T10 可以看成 T4 在 2020年 的重制版本,但是产品定位不同,增加了芯片面积(晶体管),但限制了FP16性能:
增加晶体管 +36.8%
增加着色单元 +20%
增加ROP +43.8%
增加tensor cores +20%
增加光线追踪加速核心 +20%
带来的不利点(也可以忽略):
功耗翻倍
GPU工作频率 +82.1%
内存频率 +26%
由于 T10 和 T4 的
GPU核心架构
都是 Turing ,GPU处理器
都是 Volta,所以两者其实是同一代产品:具备Tensor Cores (第一代)
从NVIDIA 510.39 驱动开始,NVIDIA激活了基于Ampere和Turing架构的Tesla数据中心GPU卡的GSP功能: GSP功能可以将传统由CPU执行的GPU初始化和管理功能offload到GPU上处理(默认启用,由
/lib/firmware/nvidia/510.39.01/gsp.bin
firmware驱动),提升了GPU性能(降低了GPU硬件访问延迟)
差别在于:
T4更为节能(低功耗),适合特定的运行场合进行训练推理
T10的晶体管数量比T4增加36.8%,主要是在着色单元、tensore cores和光线追踪加速核心上,更适合虚拟化渲染、游戏领域
T10的FP16半精度性能只有T4的1/4,有较大限制,训练和推理速度不如T4
二手市场T4的售价大约是T10的2倍
T10 和 Nvidia Tesla P10 GPU运算卡 类似,网上资料极少,似乎是数据中心大批量采购用于 云游戏
Google云计算使用了 L4, T4 和 P4 作为云桌面(NVIDIA RTX Virtual Workstation, vWS),可能更看中GPU节能
技术规格
Tesla T10 |
Tesla T4 |
Tesla P10 |
Tesla P100 |
|
---|---|---|---|---|
发布日 |
2020 |
2018/9/13 |
2016/9/13 |
2016/6/20 |
系列 |
Tesla |
Tesla |
Tesla |
Tesla |
接口 |
PCIe 3.0 x16 |
PCIe 3.0 x16 |
PCIe 3.0 x16 |
PCIe 3.0 x16 |
GPU |
TU102 |
TU104 |
GP102 |
GP100 |
架构 |
Turing |
Turing |
Pascal |
Pascal |
工艺 |
12 nm |
12 nm |
16 nm |
16 nm |
晶体管数 |
18600 million |
13600 million |
11800 million |
15300 million |
GPU裸片面积 |
754 mm² |
545 mm² |
471 mm² |
610 mm² |
时钟频率(Clock Speeds) |
||||
基准主频 |
1065 MHz |
585 MHz |
1025 MHz |
1190 MHz |
Boost主频 |
1395 MHz |
1590 MHz |
1493 MHz |
1329 MHz |
内存主频 |
1575 MHz 12.6 Gbps |
1250 MHz 10 Gbps |
1808 MHz 14.5 Gbps |
715 MHz 1430 Mbps |
内存(Memory) |
||||
内存大小 |
16 GB |
16 GB |
24 GB |
16 GB |
内存类型 |
GDDR6 |
GDDR6 |
GDDR5X |
HBM2 |
内存总线 |
256 bit |
256 bit |
384 bit |
4096 bit |
内存带宽 |
403.2 GB/s |
320.0 GB/s |
694.3 GB/s |
732.2 GB/s |
渲染配置(Render Config) |
||||
着色单元(Shading Units) |
3072 |
2560 |
3840 |
3584 |
纹理映射单元(Texture Mapping Units/TMUs) |
192 |
160 |
240 |
224 |
ROPs |
96 |
64 |
96 |
96 |
SM Count |
48 |
40 |
30 |
|
Tensor Cores |
|
320 |
||
光线追踪RT Cores |
|
40 |
||
L1 缓存(L1 Cache) |
64 KB(per SM) |
64 KB(per SM) |
48 KB(per SM) |
24 KB (per SM) |
L2 缓存(L2 Cache) |
6 MB |
4 MB |
3 MB |
4 MB |
主板设计 |
||||
主板插槽 |
单插槽 |
单插槽 |
单插槽 |
双插槽 |
长度 |
267 mm |
168 mm |
267 mm |
267 mm |
宽度 |
111 mm |
97 mm |
112 mm |
|
厚度 |
20 mm |
20 mm |
20mm |
40mm |
TDP |
150 W |
70 W |
250 W |
250 W |
建议电源 |
450 W |
250 W |
600 W |
600 W |
显示输出 |
无 |
无 |
无 |
无 |
电源连接 |
1x 8-pin |
无需 |
1x 8-pin |
1x 8-pin |
主板编号 |
PG611 SKU 50 |
PG610 SKU 210 |
PH400 SKU 201 |
|
图形功能 |
||||
DirectX |
12 (12_1) |
12 (12_2) |
12 (12_1) |
12 (12_1) |
OpenGL |
4.6 |
4.6 |
4.6 |
4.6 |
OpenCL |
3.0 |
3.0 |
3.0 |
3.0 |
Vulkan |
1.3 |
1.3 |
1.3 |
1.3 |
CUDA |
7.5 |
7.5 |
6.1 |
6.0 |
Shader Model |
6.8 |
6.8 |
6.4 |
6.0 |
理论性能 |
||||
Pixel Rate |
|
101.8 GPixel/s |
143.3 GPixel/s |
127.6 GPixel/s |
Texture Rate |
|
254.4 GTexel/s |
358.3 GTexel/s |
297.7 GTexel/s |
FP16 (half) performance |
|
65.13TFLOPS (8:1) |
179.2 GFLOPS (1:64) |
19.05 TFLOPS (2:1) |
FP32 (float) performance |
|
8.141 TFLOPS |
11.47 TFLOPS |
9.526 TFLOPS |
FP64 (double) performance |
|
254.4 GFLOPS (1:32) |
358.3 GFLOPS (1:32) |
4.763 TFLOPS (1:2) |
参考
NVIDIA enables GPU System Processor (GSP) on select Tesla/Data Center accelerators 提到了Tesla T10使用了GPU System Processor可以写在GPU初始化和管理任务(将传统的CPU执行任务卸载到GPU上提升性能和降低延迟)
NVIDIA官网: Tesla T4 提供 T4 信息