NVIDIA H100

NVIDIA H100 Tensor Core GPU 基于Hopper架构，是第九代数据中心GPU:

基于5nm工艺
GH100图形处理器
Hopper架构
800亿晶体管
两种接口形式
- PCIe Gen5: 连接高性能x86 CPUs以及SmartNICs/DPUs(Data Processing Units)
  - NVIDIA BlueField-3 DPUs for 400 Gb/s Ethernet
  - NDR (Next Data Rate) 400 Gb/s InfiniBand networking acceleration
- SXM5
内存带宽: 2 TB/s
支持 Sigle Root I/O Virtualization(SR-IOV)
- 单PCIe连接的GPU虚拟化成多个处理器或虚拟机
- 从一个SR-IOV PCIe连接的GPU虚拟出的VF/PF 能够直接通过NVLink访问对端GPU
Transformer引擎
- 软件和定制的 NVIDIA Hopper Tensor Core 技术，加速基于 Transformer 构建的模型的训练
- 动态精度: 定制的、NVIDIA 调校的启发式算法可以实现 FP8 和 FP16 之间动态选择，并自动处理每层中这些精度之间的re-casting 和 scaling
- 针对PyTorch 代码无缝集成的自动化混合精度 API
- 与框架无关的 C++ API 为 Transformer 提供 FP8 支持
NVIDIA Multi-Instance GPU(MIG) 技术
- 适应不需要完整 GPU 的工作负载(有利于土里负载)
- 第二代 MIG 分区技术: 每个 GPU 实例的计算能力提升了约 3 倍，内存带宽提升了近 2 倍
- 支持动态更改 MIG 配置文件，无需重置 GPU
NVIDIA Multi-Instance GPU(MIG) 级可行执行环境(Trusted Execution Environments, TEE)机密计算
- 最多支持七个独立的 GPU 实例，每个实例都配备专用的 NVDEC 和 NVJPG 单元
- 每个实例包含一组独立的性能监视器，可与 NVIDIA 开发者工具配合使用
- CPU 和 GPU 之间进行加密传输
- GPU 硬件虚拟化通过 PCIe SR-IOV 实现: 每个 MIG 实例对应一个 Virtual Function ( VF )
- 基于硬件的安全功能确保机密性和数据完整性
- 硬件防火墙在 GPU 实例之间提供内存隔离

../../../_images/mig_sr-iov.png — MIG结合sr-iov实现虚拟机的vGPU隔离

备注

MIG提供了硬件级别的隔离，能够加强虚拟化的数据安全性

NVIDIA H100

参考