【AI算力介绍 - 英伟达Nvidia A100与 RTX 4090的核心区别】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2024-5-6 19:25

AI算力介绍 - 英伟达Nvidia A100与 RTX 4090的核心区别

作者：AI智能保
根据目前市场的表现，发现在很多实际AI推理场景中用户更希望用Nvidia RTX 4090（或4090D）来进行支撑，而不去使用A100，V100等系列加速卡，实际就是想用最高性价比支撑业务，毕竟目前经济形势下大家都需要精打细算。尽管4090在推出的时候将其定位为一款高性能、高性价比的高端显卡，旨在满足中国市场中对顶级游戏和AI性能有需求的玩家群体，但实际在AI推理中的表现可圈可点，估计Nvidia也不想这种产品的错误定位。（附官网定位：NVIDIA® GeForce RTX™ 4090 D 在性能、效率和 AI 驱动的图形效果方面实现了质的飞跃。通过它可体验到高性能游戏，虚拟世界中由光线追踪技术带来的纤毫毕现，叹为观止的工作效率，以及革新的创作方式。这款 GPU 采用 NVIDIA Ada Lovelace 架构，配备 24 GB 的 G6X 显存，可为游戏玩家和创作者带来卓尔不凡的体验）

https://mmbiz.qpic.cn/mmbiz_png/vujsNySct4ynSlsvY9Y7GdxSD7ibvPRUfzAwjOv2WnefLdMjFnQBEvnWazDSQTmRUkFXrHpZJpgBVicVq54qDlzg/640?wx_fmt=png

那么今天就和各位说明一下本质上的区别，主要是在互联技术支撑、价格、产品定位存在区别，如果使用得当，实际有些场景4090也可以表现得不错。

1加速卡互联技术支撑程度区别：也就是指NVLink支撑技术的区别，因为4090不支持NVLink技术（毕竟是定位高性能游戏卡），使在模型训练任务中4090不能发挥多卡集群的训练优势。A100作为NVIDIA的旗舰数据中心GPU，支持NVLink技术，这使得它能够通过高速链路与其他A100 GPU相连，从而实现更高的数据传输速率和更低的延迟。这种多GPU互联能力对于需要大量并行计算的高性能计算（HPC）和AI训练任务至关重要，它允许不同GPU之间的快速数据交换，这对于加速训练过程和提高整体系统性能非常有用。相比之下，RTX 4090作为一款面向消费者的图形卡，并不支持NVLink技术。这意味着RTX 4090无法与其他RTX 4090或任何其他型号的GPU通过NVLink进行互连。这主要影响那些需要多GPU协同工作的应用，尤其是在深度学习模型训练等高计算密集型任务中。因此，在NVLink的支持上，A100提供了更多的灵活性和扩展性，而RTX 4090则在这方面有所限制。

2实际价格区分度：这个实际上是很多用户关注的重点，业界都在提AI技术、生成式技术对业务的正向影响，但如果价格无法降低或者摊平，那么实际上传统AI技术、生成式AI技术始终无法正常落地，但4090这类高性价比的推理卡却将生成式AI落地的可能性大大增加。根据目前调查结果，在京东上普通4090的报价为1.5w至2w，而A100的报价高达15w到19w，这中间的差别造成如果只是推理场景，显示出4090的性价比极高。

3实际性能区别：实际官方未给出这两款AI加速卡的实际算力区别，但通过各类渠道的对比中RTX 4090表现不逊于A100的各类基础算力能力，如FP16算力水平，甚至FP32更是超出其它AI加速卡，更多的应当是代际的区别，毕竟A100是上一代的主力训练加速卡，但是回归到NV的定位又不太可能代替企业级数据中心的A100产品。引用互联网中的一张对比图：

对比项

H100

A100

4090

FP16 Tensor TFLOPS with FP16 Accumulate1

989 Tflops

312 Tflops

330 Tflops

FP16 Tensor TFLOPS with FP32 Accumulate1

989 Tflops

312 Tflops

165 Tflops

TF32 Tensor TFLOPS

495 Tflops

156 Tflops

83 Tflops

FP16 TFLOPS (non-Tensor)

134 Tflops

78 Tflops

83 Tflops

FP32 TFLOPS (non-Tensor)

67 Tflops

19.5 Tflops

83 Tflops

内存容量

80 GB

80 GB

24 GB

内存带宽

3.35 TB/s

2 TB/s

1 TB/s

通信带宽

900 GB/s

900 GB/s

64 GB/s

通信时延

1 us

1Us

10us



下面附相关产品的实际性能指标：

A100与V100训练速度对比

https://mmbiz.qpic.cn/mmbiz_png/vujsNySct4ynSlsvY9Y7GdxSD7ibvPRUf0YQQdjSWUlDEtOJg6yz67VVLtPyaROibLk26bIQLgiafWdibA2ObmVC9g/640?wx_fmt=png

A100基础参数



A100 80GB PCIe`

A100 80GB SXM

BFLOAT16 Tensor Core

312 TFLOPS | 624 TFLOPS*

FP16 Tensor Core

312 TFLOPS | 624 TFLOPS*

INT8 Tensor Core

624 TOPS | 1248 TOPS*

GPU 显存

80GB HBM2

80GB HBM2e







GPU 显存带宽

1935 GB/s

2039 GB/s

最大热设计功耗 (TDP)

300W

400W ***

多实例 GPU

最大为 7 MIG @ 5GB

最大为 7 MIG @ 10GB

外形规格

PCIe
双插槽风冷式或单插槽液冷式

SXM

互连

NVIDIA® NVLink® 桥接器
2 块 GPU：600 GB/s **
PCIe 4.0：64 GB/s

NVLink：600 GB/s
PCIe 4.0：64 GB/s

服务器选项

合作伙伴及配备 1 至 8 个 GPU 的 NVIDIA 认证系统™

NVIDIA HGX™ A100 合作伙伴和配备 4、8 或 16 块 GPU 的 NVIDIA 认证系统配备 8 块 GPU 的 NVIDIA DGX™ A100



A100详细参数

Peak FP641

9.7 TFLOPS

Peak FP64 Tensor Core1

19.5 TFLOPS

Peak FP321

19.5 TFLOPS

Peak FP161

78 TFLOPS

Peak BF161

39 TFLOPS

Peak TF32 Tensor Core1

156 TFLOPS | 312 TFLOPS2

Peak FP16 Tensor Core1

312 TFLOPS | 624 TFLOPS2

Peak BF16 Tensor Core1

312 TFLOPS | 624 TFLOPS2

Peak INT8 Tensor Core1

624 TOPS | 1,248 TOPS2

Peak INT4 Tensor Core1

1,248 TOPS | 2,496 TOPS2



对算力感兴趣可链接AI算力小百科，微信号为 AIDC001，或者扫描下方二维码

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI算力介绍 - 英伟达Nvidia A100与 RTX 4090的核心区别