艾达·洛夫莱斯微架构

Nvidia設計的圖形處理單元微架構

Ada LovelaceNvidia开发的图形处理单元(GPU) 微架构,用于取代上一代安培架构,于 2022 年 9 月 20 日正式宣布。架构名称首次同时包含名字和姓氏,它以英国数学家Ada Lovelace [1]的名字命名,她通常被认为是第一位计算机程序员。 Nvidia 同时发布了使用该架构的GeForce 40 系列消费级显卡 [2]和 RTX 6000 Ada Generation 专业工作站显卡。 [3]据透露,新的 GPU 使用台积电新的5 纳米“4N”工艺,与 Nvidia 用于上一代安培架构的三星8 纳米和台积电N7工艺相比,效率更高。 [4]

NVIDIA Ada Lovelace
发布于  (2022 年 10 月 12 日12)
设计者 Nvidia
制造商
制造工艺 TSMC 4N
产品系列
台式机系列
专业级/

工作站系列

  • RTX 4000 Ada
  • RTX 6000 Ada
服务器/

数据中心系列

技术规格
时钟频率 735 MHz - 2640 MHz
一级缓存 128 KB (每组 SM)
二级缓存 32 MB - 96 MB
显存类型
显存频率 21 - 22.4 Gbps
PCIe版本 PCIe 4.0
图形API
DirectX DirectX 12 Ultimate (12.2)
Direct3D Direct3D 12
Shader Model Shader Model 6.7
OpenCL OpenCL 3.0
OpenGL OpenGL 4.6
CUDA Compute Capability 8.9
Vulkan Vulkan 1.3
通用计算API
CUDA CUDA Toolkit 11.6
DirectCompute 支持
媒体编解码引擎
编码引擎
解码引擎
色彩深度
  • 8-bit
  • 10-bit
编码器 NVENC
显示输出
历史
前代产品 Ampere
变体 Hopper (数据中心)
艾达·洛夫莱斯

背景

编辑

Nvidia 首席执行官黄仁勋在 2022 年 9 月 20 日的 GTC 2022 主题演讲中宣布了 Ada Lovelace 架构,该架构为 Nvidia 的游戏、工作站和数据中心 GPU 提供动力。 [5]

微架构详解

编辑

Ada Lovelace 架构的架构改进包括以下内容: [6]

  • CUDA 计算能力(版本) 8.9 [7]
  • 台积电4N 工艺(NVIDIA 定制工艺)- 与台积电N4节点不同
  • 第 4 代 Tensor Cores,支持 FP8、FP16、bfloat16、TensorFloat-32 (TF32) 和稀疏加速
  • 第三代光线追踪核心,并发光线追踪,着色与计算
  • 着色器执行重新排序 (SER) [8]
  • 视频编解码器(NVENC/NVDEC) 支持 8K 10 Bit 60FPS AV1
  • 不支持NVLink [9]

流处理器 (SM)

编辑

CUDA 核心

编辑

每个 SM 单元包含 128 个 CUDA 核心。

光线追踪单元 (RT)

编辑

Ada Lovelace 采用第三代光追单元。 其中,RTX 4090 具有 128 个光追单元,而上一代 RTX 3090 Ti 为 84 个。这 128 个光追单元可以提供高达 191 TFLOPS 的计算能力,其中每个光追单元 1.49 TFLOPS。 [10] 全新的光线追踪管线引入了着色器执行重排序 (SER),Nvidia 声称它在光追工作负载中能提供 2 倍的性能提升。 [5]

张量核心 (Tensor)

编辑

第四代张量核心引入了基于 AI 的 DLSS 3 帧生成技术。Ada Lovelace 中每个 SM 单元包含 4 个张量核心,与上代安培架构非常相似。但是由于包含了更多的 SM 单元,张量核心的总数对比上代有所增加。

核心频率

编辑

Ada Lovelace 架构的核心频率显著提高,RTX 4090 的基础频率甚至高于 RTX 3090 Ti 的加速 (Boost) 频率。

RTX 2080 Ti RTX 3090 Ti RTX 4090
架构 图灵 安培 埃达·洛夫莱斯
基础频率 (MHz) 1350 1560 2235
加速频率 (MHz) 1635 1860 2520

缓存与内存

编辑
RTX 2080 Ti RTX 3090 Ti RTX 4090
架构 图灵 安培 埃达·洛夫莱斯
一级缓存 6.375 MB

(每组SM 96 KB)

10.5 MB

(每组SM 128 KB)

16 MB

(每组SM 128 KB)

二级缓存 5.5 MB 6 MB 72 MB

完整版的 AD102 核心拥有高达 96 MB 的二级缓存,相比基于安培架构的 GA102 核心,有着十六倍的提升。 [11]相较于那些通过较慢GDDR显存读取数据的GPU,新的GPU能够快速访问大量二级缓存,这有利于复杂的操作,例如光线追踪。与此同时,通过减少需要频繁访问的重要数据对显存的依赖,较低位宽的显存也可以和大容量二级缓存协同工作。

每个内存控制器占用一个 32 位连接,最高 12 个连接,组合得到内存总线位宽为 384 位。 Ada Lovelace 架构支持GDDR6GDDR6X显存。台式机 GeForce RTX 40 系列采用 GDDR6X 显存,而相应的移动版本和 RTX A6000 工作站 GPU 则使用更节能的 GDDR6 显存。

效率和工艺

编辑

与上一代相比,Ada Lovelace 架构能够使用更低的电压。 [5] Nvidia 声称,RTX 4090 在与上一代旗舰 RTX 3090 Ti 使用相同 450W 功耗的情况下,性能提高了 2 倍。 [12]

能耗比的提升归功于更先进的制造工艺。 Ada Lovelace 架构采用TSMC为Nvidia定制的顶尖4N工艺制造。上一代安培架构从 2018 年开始使用三星基于 8nm 的8N工艺节点,在该架构推出时已经是两年前的制造工艺。 [13] [14] 此外,具有 763 亿个晶体管的 AD102 芯片,晶体管密度为 1.255 亿/mm 2 ,比 GA102 的 4510 万/mm 2密度增加了 178%。

媒体引擎

编辑

Ada Lovelace 架构采用了新的第 8 代 Nvidia NVENC视频编码器,以及从安培架构沿用下来的第 7 代 NVDEC 视频解码器。 [15]

NVENC AV1硬件编码的加入,使得新架构支持高达 8K 60FPS 10 位色深。与H.264H.265编解码器相比,能够以更低的比特率实现更高的视频保真度。 [16] Nvidia 声称其采用 Ada Lovelace 架构的 NVENC AV1 编码器比采用安培架构的 H.264 编码器效率高 40%。 [17]

输出接口

编辑

Ada Lovelace 架构因仍旧使用 32Gbps 的旧 DisplayPort 1.4a,不支持具备更高数据带宽的DisplayPort 2.0接口而受到批评。 [18]因此,尽管 GPU 的性能能够达到更高的帧率,但依然会受到 DisplayPort 1.4a 的刷新率限制。反观同样于 2022 年 10 月发布的英特尔Arc GPU 却带有 DisplayPort 2.0 接口。在 Ada Lovelace 发布的两个月后, AMD对标的 RDNA 3 架构发布,RDNA 3 甚至支持 DisplayPort 2.1[19]

核心参数

编辑
Ada Lovelace 核心对比
芯片[20] AD102 [21] AD103 [22] AD104 [23] AD106 [24] AD107 [25]
尺寸 608 mm2 378.6 mm2 295 mm2 190 mm2 146 mm2
晶体管 763亿 459亿 358亿 未知
晶体管密度 1.255 亿/mm2 1.211 亿/mm2 1.214 亿/mm2
图形处理集群

(GPC)

12 7 5 3 2
流处理器

(SM)

144 80 60 36 24
CUDA

核心

18432 10240 7680 4608 3072
纹理映射单元 576 320 240 144 96
渲染输出单元 192 112 80 64 32
张量核心 576 320 240 144 96
光追单元 144 80 60 36 24
一级缓存 18 MB 10 MB 7.5 MB 4.5 MB 3 MB
每个 SM 单元 128 KB
二级缓存 96 MB 64 MB 48 MB 32 MB

基于 Ada Lovelace 架构的产品

编辑

消费级

编辑
  • GeForce 40 系列
    • GeForce RTX 4050(移动端)(AD107)
    • GeForce RTX 4060(移动端)(AD107)
    • GeForce RTX 4070(移动端)(AD106)
    • GeForce RTX 4070 (AD104)
    • GeForce RTX 4070 Ti (AD104)
    • GeForce RTX 4080(移动端)(AD104)
    • GeForce RTX 4080 (AD103)
    • GeForce RTX 4090(移动端)(AD103)
    • GeForce RTX 4090 (AD102)

专业级

编辑
  • 桌面工作站
    • RTX 4000 SFF Ada Generation
    • RTX 6000 Ada Generation
  • 移动工作站
    • RTX 2000 Max-Q Ada Laptop
    • RTX 2000 Ada Laptop
    • RTX 3000 Ada Laptop
    • RTX 3500 Ada Laptop
    • RTX 4000 Ada Laptop
    • RTX 5000 Ada Laptop
  • 数据中心
    • L4
    • L40
    • L40G
    • L40 CNX
  1. ^ Mujtaba, Hassan. NVIDIA's Next-Gen Ada Lovelace Gaming GPU Architecture For GeForce RTX 40 Series Confirmed. Wccftech. September 15, 2022 [November 18, 2022]. (原始内容存档于2022-10-01) (美国英语). 
  2. ^ NVIDIA Delivers Quantum Leap in Performance, Introduces New Era of Neural Rendering with GeForce RTX 40 Series. NVIDIA Newsroom (新闻稿). September 20, 2022 [September 20, 2022]. (原始内容存档于2023-03-15) (美国英语). 
  3. ^ NVIDIA's New Ada Lovelace RTX GPU Arrives for Designers and Creators. Nvidia Newsroom. September 20, 2022 [November 18, 2022]. (原始内容存档于2023-05-29) (美国英语). 
  4. ^ Machkovec, Sam. Nvidia's Ada Lovelace GPU generation: $1,599 for RTX 4090, $899 and up for 4080. Ars Technica. September 20, 2022 [November 18, 2022]. (原始内容存档于2023-04-03) (美国英语). 
  5. ^ 5.0 5.1 5.2 Chiappetta, Marco. NVIDIA GeForce RTX 40 Architecture Overview: Ada's Special Sauce Unveiled. HotHardware. September 22, 2022 [April 8, 2023]. (原始内容存档于2023-06-28) (美国英语). 
  6. ^ NVIDIA Ada Lovelace Architecture. NVIDIA. September 20, 2022 [September 20, 2022]. (原始内容存档于2023-07-02) (美国英语). 
  7. ^ CUDA C++ Programming Guide. docs.nvidia.com. [April 15, 2023]. (原始内容存档于2021-05-03). 
  8. ^ Improve Shader Performance and In-Game Frame Rates with Shader Execution Reordering. NVIDIA Technical Blog. October 13, 2022 [April 6, 2023]. (原始内容存档于2023-05-25) (美国英语). 
  9. ^ btarunr. Jensen Confirms: NVLink Support in Ada Lovelace is Gone. TechPowerUp. September 21, 2022 [November 18, 2022]. (原始内容存档于2022-10-18) (美国英语). 
  10. ^ Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance (PDF). Nvidia: 30. [April 5, 2023]. (原始内容存档 (PDF)于2023-07-04) (美国英语). 
  11. ^ Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance (PDF). Nvidia: 12. [April 6, 2023]. (原始内容存档 (PDF)于2023-07-04) (美国英语). 
  12. ^ Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance (PDF). Nvidia: 12. [April 5, 2023]. (原始内容存档 (PDF)于2023-07-04) (美国英语). 
  13. ^ James, Dave. Nvidia confirms Samsung 8nm process for RTX 3090, RTX 3080, and RTX 3070. PC Gamer. September 1, 2020 [April 5, 2023]. (原始内容存档于2023-04-13) (美国英语). 
  14. ^ Bosnjak, Dominik. Samsung's old 8nm tech at the heart of NVIDIA's monstrous Ampere cards. SamMobile. September 1, 2020 [April 5, 2023]. (原始内容存档于2023-04-07) (美国英语). 
  15. ^ Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance (PDF). Nvidia: 25. [April 5, 2023]. (原始内容存档 (PDF)于2023-07-04) (美国英语). 
  16. ^ Muthana, Prathap; Mishra, Sampurnananda; Patait, Abhijit. Improving Video Quality and Performance with AV1 and NVIDIA Ada Lovelace Architecture. Nvidia Developer. January 18, 2023 [April 5, 2023]. (原始内容存档于2023-05-20) (美国英语). 
  17. ^ Nvidia Ada Science: How Ada advances the science of graphics with DLSS 3 (PDF). Nvidia: 13. [April 5, 2023]. (原始内容存档 (PDF)于2023-03-24) (美国英语). 
  18. ^ Garreffa, Anthony. NVIDIA's next-gen GeForce RTX 40 series lack DP2.0 connectivity, silly. TweakTown. September 25, 2022 [April 5, 2023]. (原始内容存档于2023-04-06) (美国英语). 
  19. ^ Judd, Will. AMD announces 7900 XTX and 7900 XT graphics cards with FSR 3. Eurogamer. November 3, 2022 [April 5, 2023]. (原始内容存档于2023-04-05) (英国英语). 
  20. ^ NVIDIA confirms Ada 102/103/104 GPU specs, AD104 has more transistors than GA102. VideoCardz. September 23, 2022 [September 23, 2022]. (原始内容存档于2023-06-03) (美国英语). 
  21. ^ NVIDIA AD102 GPU Specs. TechPowerUp. [December 17, 2022] (美国英语). 
  22. ^ NVIDIA AD103 GPU Specs. TechPowerUp. [December 17, 2022] (美国英语). 
  23. ^ NVIDIA AD104 GPU Specs. TechPowerUp. [October 18, 2022] (美国英语). 
  24. ^ NVIDIA AD106 GPU Specs. TechPowerUp. [December 17, 2022] (美国英语). 
  25. ^ NVIDIA AD107 GPU Specs. TechPowerUp. [December 17, 2022] (美国英语).