.. _nvidia_h100:
====================
NVIDIA H100
====================
``NVIDIA H100 Tensor Core GPU`` 基于Hopper架构,是第九代数据中心GPU:
- 基于5nm工艺
- GH100图形处理器
- Hopper架构
- 800亿晶体管
- 两种接口形式
- PCIe Gen5: 连接高性能x86 CPUs以及SmartNICs/DPUs(Data Processing Units)
- NVIDIA BlueField-3 DPUs for 400 Gb/s Ethernet
- NDR (Next Data Rate) 400 Gb/s InfiniBand networking acceleration
- SXM5
- 内存带宽: 2 TB/s
- 支持 :ref:`sr-iov`
- 单PCIe连接的GPU虚拟化成多个处理器或虚拟机
- 从一个SR-IOV PCIe连接的GPU虚拟出的VF/PF 能够直接通过NVLink访问对端GPU
- Transformer引擎
- 软件和定制的 NVIDIA Hopper Tensor Core 技术,加速基于 Transformer 构建的模型的训练
- 动态精度: 定制的、NVIDIA 调校的启发式算法可以实现 FP8 和 FP16 之间动态选择,并自动处理每层中这些精度之间的re-casting 和 scaling
- 针对PyTorch 代码无缝集成的自动化混合精度 API
- 与框架无关的 C++ API 为 Transformer 提供 FP8 支持
- :ref:`nvidia_mig` 技术
- 适应不需要完整 GPU 的工作负载(有利于土里负载)
- 第二代 MIG 分区技术: 每个 GPU 实例的计算能力提升了约 3 倍,内存带宽提升了近 2 倍
- 支持动态更改 MIG 配置文件,无需重置 GPU
- :ref:`nvidia_mig` 级可行执行环境(Trusted Execution Environments, TEE)机密计算
- 最多支持七个独立的 GPU 实例,每个实例都配备专用的 NVDEC 和 NVJPG 单元
- 每个实例包含一组独立的性能监视器,可与 NVIDIA 开发者工具配合使用
- CPU 和 GPU 之间进行加密传输
- GPU 硬件虚拟化通过 PCIe SR-IOV 实现: 每个 MIG 实例对应一个 **Virtual Function** ( ``VF`` )
- 基于硬件的安全功能确保机密性和数据完整性
- 硬件防火墙在 GPU 实例之间提供内存隔离
.. figure:: ../../../_static/machine_learning/hardware/nvidia_gpu/nvidia_mig/mig_sr-iov.png
MIG结合sr-iov实现虚拟机的vGPU隔离
.. note::
MIG提供了硬件级别的隔离,能够加强虚拟化的数据安全性
参考
=======
- `NVIDIA H100 Tensor Core GPU Product `_
- `NVIDIA H100 NVL GPU Product Brief `_
- `NVIDIA H100 Tensor Core GPU Datasheet `_
- `NVIDIA H100 GPU Whitepaper `_
- `techpowerup: GPU Database>H100 PCIe 80 GB Specs `_