Nvidia Tesla P4 GPU运算卡

eGPU(外置GPU)使用Tesla P4

很久以前我在考虑如何让自己能够移动工作中使用GPU来完成 Machine Learning 学习,考虑使用外置GPU(eGPU):

不过,常规显卡非常沉重庞大,功耗惊人,所以上述想法可能性较低。

NVIDIA的低功耗产品线 P4/T4/A2 给这个想法带来一些希望:

  • 淘宝上能够买到比较廉价的 OCuLink Dock,大约只需要300RMB

  • 二手的P4价格较低,虽然显存和主频受限,但是低功耗(70W)也为配合树莓派运行带来便利(省电呀)

我发现类似的想法其实国外网友已经有一些实践案例,例如 Jeff Geerling博客: #gpu 有几篇关于外置显卡(eGPU)的文章,提供了借鉴。而我的想法是不求最高性能,力求在有限的功耗下实现基本的 LLM 大型语言模型 推理。

最终我购买了 Tesla P4 + 散热风扇,和 Nvidia Tesla P10 GPU运算卡 一同安装在 纳斯NASSE C246 ITX主板 所使用的ITX小机箱中:

NVIDIA Tesla P4

Tesla P10 vs. P4

Tesla P10

Tesla P4

发布日

2016/9/13

2016/9/13

系列

Tesla

Tesla

接口

PCIe 3.0 x16

PCIe 3.0 x16

GPU

GP102

GP104

架构

Pascal

Pascal

工艺

16 nm

16 nm

晶体管数

118亿

72亿

GPU裸片面积

471 mm²

314 mm²

基准主频

1025 MHz

886 MHz

Boost主频

1493 MHz

1114 MHz

内存主频

1808 MHz 14.5 Gbps

1502 MHz 6 Gbps

内存大小

24 GB

8 GB

内存类型

GDDR5X

GDDR5

内存总线

384 bit

256 bit

内存带宽

694.3 GB/s

192.3 GB/s

着色单元

3840

2560

纹理映射单元

240

160

ROP

96

64

L1 缓存

48 KB(per SM)

48 KB (per SM)

L2 缓存

3 MB

2 MB

主板插槽

单插槽

单插槽

长度

267 mm

168 mm

宽度

97 mm

厚度

20 mm

TDP

250 W

75 W

建议电源

600 W

250 W

显示输出

电源连接

1x 8-pin

主板编号

PG610 SKU 210

PG414 SKU 200

DirectX

12 (12_1)

12 (12_1)

OpenGL

4.6

4.6

OpenCL

3.0

3.0

Vulkan

1.3

1.3

CUDA

6.1

6.1

Shader Model

6.4

6.8

Pixel Rate

143.3 GPixel/s

71.30 GPixel/s

Texture Rate

358.3 GTexel/s

178.2 GTexel/s

FP16 (half) performance

179.2 GFLOPS (1:64)

89.12 GFLOPS (1:64)

FP32 (float) performance

11.47 TFLOPS

5.704 TFLOPS

FP64 (double) performance

358.3 GFLOPS (1:32)

178.2 GFLOPS (1:32)

参考