电脑功耗软件(电脑功耗测试软件)

前沿拓展:

电脑功耗软件

呵呵,下载财控武每行出眼个鲁**,挺好用的。我就在用,不仅仅挂机,平时玩的时候也能自动调整保护电脑硬件。


HBM3 为显著加快内存和处理器之间的数据移动打开了大门,降低了发送和接收信号所需的功率,并提高了需要高数据吞吐量的系统性能。但是使用这种内存既昂贵又复杂,而且这种情况在短期内可能会继续存在。

HBM3是 JEDEC 开发的 HBM 规范的最新补充,用于在单个模块内堆叠 DRAM 层。它于 2022 年 1 月推出,被视为 2.5D 封装的重大改进。但 HBM3 仍然很昂贵,部分原因是内存本身的价格,以及硅中介层等其他组件的成本以及开发 2.5D 设计所需的工程。这限制了它在容量最大的设计或价格不敏感的应用程序(例如数据中心的服务器)中的使用,在这些应用程序中,内存的成本可以通过更多和更宽的数据通道以及更少的功耗来提高性能来抵消在处理元件和 DRAM 之间来回驱动信号。

这有助于解释为什么 HBM3 第一出现在英伟达的“Hopper”H100 企业级 GPU 中,紧随其后的是英特尔和AMD的产品。HBM3 在 HBM2E 的基础上提供了多项增强功能,最显著的是将 HBM2E 的带宽从 3.6 Gbps 翻倍到 HBM3 的6.4Gbps,或者每个设备的带宽为 819 Gbps。

“带宽是支持更大计算引擎所需要的,”AMD 客户端PC 业务高级副总裁CTO Joe Macri 说。“如果你看看我们正在解决的许多问题,它们都非常占用带宽,无论是机器学习还是 HPC 类型的解决方案。因此,即使我们只选择适度增加引擎尺寸,我们仍然会从带宽增加中获益匪浅。”

除了增加容量和速度之外,能源效率的提高也值得注意。HBM3 的核心电压为 1.1V,而 HBM2E 的核心电压为 1.2V。HBM3 还将 I/O 信号降低至 400mV,而 HBM2E 为 1.2V。后代也会有进一步的改进。

执行副总裁 Jim Elliot 表示:“一旦进入 10 纳米时代,就必须考虑不同的缩小技术——例如高 K 金属栅极——我们必须不断增加内存带宽。”在最近的一次演示中,介绍了三星半导体的内存产品。“有低电阻材料,因为我们必须突破 DRAM 组件的单元尺寸限制。还有宽带隙材料,因为我们正在寻找 10 倍的泄漏改进,以及用于 DRAM 的 finFET,这将使我们能够继续将功率扩展到 0.9 伏以上。”

电脑功耗软件(电脑功耗测试软件)

图 1:三星的新 HBM3。来源:三星

不过,这一切都不容易。制造这项技术和充分利用它都将面临重大挑战。与过去不同的是,当一种先进的架构可以在数十亿个单元中得到利用时,其中许多设计都是定制的。例如,在 AI 世界中,几乎每个人都在构建自己的定制 AI 训练芯片并专注于 HBM。它以两种方式之一使用——作为系统中唯一的内存,或与随附的 DRAM 一起使用。

富士通基于 Arm 的 A64fx 是前者的一个例子。在 Fugaku 中使用,A64fx 曾一度是世界上最快的超级计算机,在 CPU 旁边的芯片上有 32GB 的 HBM2,但没有其他系统内存。其他产品,如 AMD Instinct、英伟达的 H100 GPU 以及英特尔的 CPU Max 和 GPU Max,都配备了 HBM 和标准 DRAM,其中 HBM 就像 DRAM 的海量缓存。

第一大问题:热量

使用 HBM 的最大挑战是热量。众所周知,内存和热量不能并存,但 HBM3 将与世界上最热的芯片和系统一起使用。例如,英伟达的 H100 的热设计功率 (TDP) 限制为 700 瓦。

Macri 表示,橡树岭国家实验室的超级计算机 Frontier 是 Epyc CPU 和 Instinct GPU(使用 HBM2E)的混合体,需要 AMD 进行一些创造性的负载平衡,以将温度控制在限制范围内。

电脑功耗软件(电脑功耗测试软件)

图 2:Frontier 超级计算机。资料来源:橡树岭国家实验室

Frontier 上的一些工作负载是内存密集型的,一些是 CPU 密集型的,平衡工作负载以避免过热是在芯片中完成的,而不是软件。“有一些微处理器,它们的全部工作就是管理这些控制回路,使系统保持在最佳状态,”Macri 说。

Frontier 由 HPE 的 Cray 部门与 AMD 合作构建,用于管理热量的负载平衡在系统设计级别处理。“我们共同设计了解决方案,”他说,“根据正在进行的工作进行动态**作以产生最佳性能。”

Rambus 产品管理高级总监 Frank Ferro 表示,HBM 和控制器中的硬件功能允许它节流内存并将其置于不同的性能状态,甚至转移到较低的频率。“如果那里开始成为热点,而你想降低频率或降低功率并将内存置于空闲模式,这些基本上都在 IP 级别和 DRAM 级别。在 DRAM 级别,你拥有这种能力,但如何使用它取决于系统架构师。”

密度限制

HBM3 面临的第二个热挑战来自内存本身。与 HBM2E 的 12 层限制相比,HBM3 标准允许多达 16 层。但马克里认为,由于高温,它会停在 12 层。尽管如此,对于定制设计,这可能因供应商而异,也可能因用例而异。

堆叠中底部的 DRAM 具有最高的热阻,这是堆叠的主要限制因素。HBM 使用微凸块连接不同的 DRAM 芯片,微凸块有其缺点。随着内存产生热量,热量会在每一层积聚,而微凸起无法有效地将热量散发出去。这反过来又限制了 DRAM 的实际层数。因此,即使 HBM3 可以支持 16 层,在大多数情况下也会使用更少的层。

DRAM 的每一层都需要自己的电力传输,并且需要足够的电力才能获得足够的性能。推动电力传输会增加每一层的热量。

现状

为 2.5D HBM 中介层一直保持在 2.5D,并不是因为热挑战。2.5D 设计是内存位于处理器旁边的原因。在真正的 3D 设计中,内存位于 CPU/GPU 之上并直接与芯片通信。CPU 最高可达 300 瓦,GPU 最高可达 700 瓦,热量太大了。

“挑战在于,如果你产生大量热量,你就会遇到微凸起的顶部,这些凸起确实不能很好地将热量传递出去。这就是几乎每个人都采用 2.5D 的原因,因为微点技术确实限制了您可以投入到它下面的芯片中的功率,”Macri 说。

其中一些将改变 3D-IC 的实现。“如果你是 3D 的,这个物理层会变得不那么复杂,所以有很多优势,”Ferro 说。“你摆脱了中介层。芯片之间的物理接口变得不那么复杂,因为您不需要通过另一种介质进行连接。所以有很多优势,但也有很多挑战。”

例如,使用现有技术冷却 3D-IC 很困难,因为位于芯片顶部的内存实际上隔离了其下方的 ASIC 或 GPU。在平面 SoC 中,热量由硅本身散发。但在 3D-IC 中,需要使用更精细的方法,部分原因是热量可能被困在层之间,部分原因是这些设备中使用的减薄芯片无法消散太多热量。

“当你把内存芯片堆栈放在GPU顶部的那一刻,GPU的热量需要在它消散之前或碰到冷板之前穿过内存。所以你现在突然遇到了一个不同的挑战,”美光科技 HPM 产品管理高级总监 Girish Cherussery 说。“我认为我不会看到采用现有 HBM 并将其直接堆叠在 GPU 或 ASIC 之上的东西,这些东西会消耗 400、500 瓦的功率。但它会在未来发生吗?这是一个可以实现的解决方案。”

Dunking chips

这是一个更大的问题和挑战的一部分,即如何让这些数据中心保持凉爽和节能,而散热解决方案是保持环境可持续发展的瓶颈之一。“浸入式冷却似乎是业界正在关注的解决方案之一,”Cherussery 指出。

浸入式冷却可能是唯一真正的解决方案,因为它不像空气和液体冷却那样使用冷却板。它涉及将主板连同 CPU 和内存一起浸入非导电的辩证流体(通常是矿物油)中,只有 NIC、U** 和其他端口从流体中伸出。

这在数据中心尤为重要,服务器冷却机架每年可能花费数百万美元。美国数据中心的平均电源使用效率 (PUE) 评级约为 1.5。分数越低,数据中心的效率越高,但不能低于 1.0。高于 1.0 的每一点都是用于冷却数据中心的功率,因此在 PUE 为 1.5 时,数据中心在冷却上花费了总功率的一半。

沉浸可以非常有效。**数据中心的 PUE 评级为 1.01。液冷数据中心已降至 1.1 范围,但 1.01 是闻所未闻的。该数据中心仅使用其 1% 的功率用于冷却。

浸入式冷却长期以来一直处于冷却技术的边缘,只在极端情况下使用,但它正在慢慢成为主流。**数据中心背后的公司 LiquidStack 获得了一些风险投资资金,微软已经记录了其在一个数据中心对 LliquidStack 产品进行的实验。微软提高了电源使用效率,但它也发现它可以在不损坏芯片的情况下对芯片进行超频。因此,未来真正 3D 堆叠 HBM 的路径很有可能是通过装满矿物油的油箱。

供应商之间的差异

Macri 指出,DRAM 供应商正在相互竞争,就像 SoC 供应商一样,这意味着一些 HBM 功耗较低,而一些则功耗较高。“到处都有很好的竞争。这很重要,因为它推动创新,”他说。这种回旋余地也会导致问题。他说,在指定功率方面没有标准。每个 DRAM 制造商都在想出设计内存的最佳方法,以实现最佳最终结果,其中功率和价格是关键变量。“更好的东西比不太好的东西成本更高,这也很重要,因为有不同的系统目标,这取决于公司和他们使用它的目的,”Macri 说。但是,DRAM 本身确实符合 JEDEC 标准。因此从理论上讲,您应该能够从一家供应商处获取 DRAM 并将其替换为另一家供应商,从而限制这种差异。“我们所做的事情有很多重叠和相似之处吗?当然,”费罗说。“它们完全一样吗?也许有点不同,但并没有本质上的不同。你必须与每个供应商一起完成这个过程,因为可能会有一点差异。”

自 HBM2E 以来,可测试性和 RAS(可靠性、可用性、可扩展性)能力有了显著提高。HBM3 还处理在 DRAM 中具有片上 ECC 的需求,只是为了使 DRAM 非常可靠。“这非常重要,因为产生的任何错误都需要您返回或修复它,这会增加延迟,”他说。

其他挑战

由于 HBM 暂时与 2.5D 并列,这增加了内存的大小限制。SoC 的尺寸,加上 HBM 芯片的数量,加起来需要更大的散热面积。

“这是我们应对的另一个挑战,”Ferro 说。“你不能变大。所以我们必须非常注意确保我们的宽高比是正确的,并且我们不会超过任何这些尺寸限制。”

在使用 HBM 时,您想利用其最大的属性,即带宽。但是利用该带宽进行设计并不容易。“你需要非常密集的浮点单元,这很有挑战性,”Macri 说。“DRAM 不喜欢随机访问。所以你想设计你的参考板,使其对 HBM 非常友好。你要从中提取最大的效率,这非常困难。”

结论

HBM3 对 HBM2E 标准进行了多项改进。有些是预期的(带宽增加),有些是意外的(RAS 改进、更新的时钟方法)。总而言之,新标准为用户提供了对下一代 SoC 的 HBM 内存的重大改进。但至少到目前为止,它不是一个即插即用的解决方案。

拓展知识:

前沿拓展:

电脑功耗软件

呵呵,下载财控武每行出眼个鲁**,挺好用的。我就在用,不仅仅挂机,平时玩的时候也能自动调整保护电脑硬件。


HBM3 为显著加快内存和处理器之间的数据移动打开了大门,降低了发送和接收信号所需的功率,并提高了需要高数据吞吐量的系统性能。但是使用这种内存既昂贵又复杂,而且这种情况在短期内可能会继续存在。

HBM3是 JEDEC 开发的 HBM 规范的最新补充,用于在单个模块内堆叠 DRAM 层。它于 2022 年 1 月推出,被视为 2.5D 封装的重大改进。但 HBM3 仍然很昂贵,部分原因是内存本身的价格,以及硅中介层等其他组件的成本以及开发 2.5D 设计所需的工程。这限制了它在容量最大的设计或价格不敏感的应用程序(例如数据中心的服务器)中的使用,在这些应用程序中,内存的成本可以通过更多和更宽的数据通道以及更少的功耗来提高性能来抵消在处理元件和 DRAM 之间来回驱动信号。

这有助于解释为什么 HBM3 第一出现在英伟达的“Hopper”H100 企业级 GPU 中,紧随其后的是英特尔和AMD的产品。HBM3 在 HBM2E 的基础上提供了多项增强功能,最显著的是将 HBM2E 的带宽从 3.6 Gbps 翻倍到 HBM3 的6.4Gbps,或者每个设备的带宽为 819 Gbps。

“带宽是支持更大计算引擎所需要的,”AMD 客户端PC 业务高级副总裁CTO Joe Macri 说。“如果你看看我们正在解决的许多问题,它们都非常占用带宽,无论是机器学习还是 HPC 类型的解决方案。因此,即使我们只选择适度增加引擎尺寸,我们仍然会从带宽增加中获益匪浅。”

除了增加容量和速度之外,能源效率的提高也值得注意。HBM3 的核心电压为 1.1V,而 HBM2E 的核心电压为 1.2V。HBM3 还将 I/O 信号降低至 400mV,而 HBM2E 为 1.2V。后代也会有进一步的改进。

执行副总裁 Jim Elliot 表示:“一旦进入 10 纳米时代,就必须考虑不同的缩小技术——例如高 K 金属栅极——我们必须不断增加内存带宽。”在最近的一次演示中,介绍了三星半导体的内存产品。“有低电阻材料,因为我们必须突破 DRAM 组件的单元尺寸限制。还有宽带隙材料,因为我们正在寻找 10 倍的泄漏改进,以及用于 DRAM 的 finFET,这将使我们能够继续将功率扩展到 0.9 伏以上。”

电脑功耗软件(电脑功耗测试软件)

图 1:三星的新 HBM3。来源:三星

不过,这一切都不容易。制造这项技术和充分利用它都将面临重大挑战。与过去不同的是,当一种先进的架构可以在数十亿个单元中得到利用时,其中许多设计都是定制的。例如,在 AI 世界中,几乎每个人都在构建自己的定制 AI 训练芯片并专注于 HBM。它以两种方式之一使用——作为系统中唯一的内存,或与随附的 DRAM 一起使用。

富士通基于 Arm 的 A64fx 是前者的一个例子。在 Fugaku 中使用,A64fx 曾一度是世界上最快的超级计算机,在 CPU 旁边的芯片上有 32GB 的 HBM2,但没有其他系统内存。其他产品,如 AMD Instinct、英伟达的 H100 GPU 以及英特尔的 CPU Max 和 GPU Max,都配备了 HBM 和标准 DRAM,其中 HBM 就像 DRAM 的海量缓存。

第一大问题:热量

使用 HBM 的最大挑战是热量。众所周知,内存和热量不能并存,但 HBM3 将与世界上最热的芯片和系统一起使用。例如,英伟达的 H100 的热设计功率 (TDP) 限制为 700 瓦。

Macri 表示,橡树岭国家实验室的超级计算机 Frontier 是 Epyc CPU 和 Instinct GPU(使用 HBM2E)的混合体,需要 AMD 进行一些创造性的负载平衡,以将温度控制在限制范围内。

电脑功耗软件(电脑功耗测试软件)

图 2:Frontier 超级计算机。资料来源:橡树岭国家实验室

Frontier 上的一些工作负载是内存密集型的,一些是 CPU 密集型的,平衡工作负载以避免过热是在芯片中完成的,而不是软件。“有一些微处理器,它们的全部工作就是管理这些控制回路,使系统保持在最佳状态,”Macri 说。

Frontier 由 HPE 的 Cray 部门与 AMD 合作构建,用于管理热量的负载平衡在系统设计级别处理。“我们共同设计了解决方案,”他说,“根据正在进行的工作进行动态**作以产生最佳性能。”

Rambus 产品管理高级总监 Frank Ferro 表示,HBM 和控制器中的硬件功能允许它节流内存并将其置于不同的性能状态,甚至转移到较低的频率。“如果那里开始成为热点,而你想降低频率或降低功率并将内存置于空闲模式,这些基本上都在 IP 级别和 DRAM 级别。在 DRAM 级别,你拥有这种能力,但如何使用它取决于系统架构师。”

密度限制

HBM3 面临的第二个热挑战来自内存本身。与 HBM2E 的 12 层限制相比,HBM3 标准允许多达 16 层。但马克里认为,由于高温,它会停在 12 层。尽管如此,对于定制设计,这可能因供应商而异,也可能因用例而异。

堆叠中底部的 DRAM 具有最高的热阻,这是堆叠的主要限制因素。HBM 使用微凸块连接不同的 DRAM 芯片,微凸块有其缺点。随着内存产生热量,热量会在每一层积聚,而微凸起无法有效地将热量散发出去。这反过来又限制了 DRAM 的实际层数。因此,即使 HBM3 可以支持 16 层,在大多数情况下也会使用更少的层。

DRAM 的每一层都需要自己的电力传输,并且需要足够的电力才能获得足够的性能。推动电力传输会增加每一层的热量。

现状

为 2.5D HBM 中介层一直保持在 2.5D,并不是因为热挑战。2.5D 设计是内存位于处理器旁边的原因。在真正的 3D 设计中,内存位于 CPU/GPU 之上并直接与芯片通信。CPU 最高可达 300 瓦,GPU 最高可达 700 瓦,热量太大了。

“挑战在于,如果你产生大量热量,你就会遇到微凸起的顶部,这些凸起确实不能很好地将热量传递出去。这就是几乎每个人都采用 2.5D 的原因,因为微点技术确实限制了您可以投入到它下面的芯片中的功率,”Macri 说。

其中一些将改变 3D-IC 的实现。“如果你是 3D 的,这个物理层会变得不那么复杂,所以有很多优势,”Ferro 说。“你摆脱了中介层。芯片之间的物理接口变得不那么复杂,因为您不需要通过另一种介质进行连接。所以有很多优势,但也有很多挑战。”

例如,使用现有技术冷却 3D-IC 很困难,因为位于芯片顶部的内存实际上隔离了其下方的 ASIC 或 GPU。在平面 SoC 中,热量由硅本身散发。但在 3D-IC 中,需要使用更精细的方法,部分原因是热量可能被困在层之间,部分原因是这些设备中使用的减薄芯片无法消散太多热量。

“当你把内存芯片堆栈放在GPU顶部的那一刻,GPU的热量需要在它消散之前或碰到冷板之前穿过内存。所以你现在突然遇到了一个不同的挑战,”美光科技 HPM 产品管理高级总监 Girish Cherussery 说。“我认为我不会看到采用现有 HBM 并将其直接堆叠在 GPU 或 ASIC 之上的东西,这些东西会消耗 400、500 瓦的功率。但它会在未来发生吗?这是一个可以实现的解决方案。”

Dunking chips

这是一个更大的问题和挑战的一部分,即如何让这些数据中心保持凉爽和节能,而散热解决方案是保持环境可持续发展的瓶颈之一。“浸入式冷却似乎是业界正在关注的解决方案之一,”Cherussery 指出。

浸入式冷却可能是唯一真正的解决方案,因为它不像空气和液体冷却那样使用冷却板。它涉及将主板连同 CPU 和内存一起浸入非导电的辩证流体(通常是矿物油)中,只有 NIC、U** 和其他端口从流体中伸出。

这在数据中心尤为重要,服务器冷却机架每年可能花费数百万美元。美国数据中心的平均电源使用效率 (PUE) 评级约为 1.5。分数越低,数据中心的效率越高,但不能低于 1.0。高于 1.0 的每一点都是用于冷却数据中心的功率,因此在 PUE 为 1.5 时,数据中心在冷却上花费了总功率的一半。

沉浸可以非常有效。**数据中心的 PUE 评级为 1.01。液冷数据中心已降至 1.1 范围,但 1.01 是闻所未闻的。该数据中心仅使用其 1% 的功率用于冷却。

浸入式冷却长期以来一直处于冷却技术的边缘,只在极端情况下使用,但它正在慢慢成为主流。**数据中心背后的公司 LiquidStack 获得了一些风险投资资金,微软已经记录了其在一个数据中心对 LliquidStack 产品进行的实验。微软提高了电源使用效率,但它也发现它可以在不损坏芯片的情况下对芯片进行超频。因此,未来真正 3D 堆叠 HBM 的路径很有可能是通过装满矿物油的油箱。

供应商之间的差异

Macri 指出,DRAM 供应商正在相互竞争,就像 SoC 供应商一样,这意味着一些 HBM 功耗较低,而一些则功耗较高。“到处都有很好的竞争。这很重要,因为它推动创新,”他说。这种回旋余地也会导致问题。他说,在指定功率方面没有标准。每个 DRAM 制造商都在想出设计内存的最佳方法,以实现最佳最终结果,其中功率和价格是关键变量。“更好的东西比不太好的东西成本更高,这也很重要,因为有不同的系统目标,这取决于公司和他们使用它的目的,”Macri 说。但是,DRAM 本身确实符合 JEDEC 标准。因此从理论上讲,您应该能够从一家供应商处获取 DRAM 并将其替换为另一家供应商,从而限制这种差异。“我们所做的事情有很多重叠和相似之处吗?当然,”费罗说。“它们完全一样吗?也许有点不同,但并没有本质上的不同。你必须与每个供应商一起完成这个过程,因为可能会有一点差异。”

自 HBM2E 以来,可测试性和 RAS(可靠性、可用性、可扩展性)能力有了显著提高。HBM3 还处理在 DRAM 中具有片上 ECC 的需求,只是为了使 DRAM 非常可靠。“这非常重要,因为产生的任何错误都需要您返回或修复它,这会增加延迟,”他说。

其他挑战

由于 HBM 暂时与 2.5D 并列,这增加了内存的大小限制。SoC 的尺寸,加上 HBM 芯片的数量,加起来需要更大的散热面积。

“这是我们应对的另一个挑战,”Ferro 说。“你不能变大。所以我们必须非常注意确保我们的宽高比是正确的,并且我们不会超过任何这些尺寸限制。”

在使用 HBM 时,您想利用其最大的属性,即带宽。但是利用该带宽进行设计并不容易。“你需要非常密集的浮点单元,这很有挑战性,”Macri 说。“DRAM 不喜欢随机访问。所以你想设计你的参考板,使其对 HBM 非常友好。你要从中提取最大的效率,这非常困难。”

结论

HBM3 对 HBM2E 标准进行了多项改进。有些是预期的(带宽增加),有些是意外的(RAS 改进、更新的时钟方法)。总而言之,新标准为用户提供了对下一代 SoC 的 HBM 内存的重大改进。但至少到目前为止,它不是一个即插即用的解决方案。

拓展知识:

前沿拓展:

电脑功耗软件

呵呵,下载财控武每行出眼个鲁**,挺好用的。我就在用,不仅仅挂机,平时玩的时候也能自动调整保护电脑硬件。


HBM3 为显著加快内存和处理器之间的数据移动打开了大门,降低了发送和接收信号所需的功率,并提高了需要高数据吞吐量的系统性能。但是使用这种内存既昂贵又复杂,而且这种情况在短期内可能会继续存在。

HBM3是 JEDEC 开发的 HBM 规范的最新补充,用于在单个模块内堆叠 DRAM 层。它于 2022 年 1 月推出,被视为 2.5D 封装的重大改进。但 HBM3 仍然很昂贵,部分原因是内存本身的价格,以及硅中介层等其他组件的成本以及开发 2.5D 设计所需的工程。这限制了它在容量最大的设计或价格不敏感的应用程序(例如数据中心的服务器)中的使用,在这些应用程序中,内存的成本可以通过更多和更宽的数据通道以及更少的功耗来提高性能来抵消在处理元件和 DRAM 之间来回驱动信号。

这有助于解释为什么 HBM3 第一出现在英伟达的“Hopper”H100 企业级 GPU 中,紧随其后的是英特尔和AMD的产品。HBM3 在 HBM2E 的基础上提供了多项增强功能,最显著的是将 HBM2E 的带宽从 3.6 Gbps 翻倍到 HBM3 的6.4Gbps,或者每个设备的带宽为 819 Gbps。

“带宽是支持更大计算引擎所需要的,”AMD 客户端PC 业务高级副总裁CTO Joe Macri 说。“如果你看看我们正在解决的许多问题,它们都非常占用带宽,无论是机器学习还是 HPC 类型的解决方案。因此,即使我们只选择适度增加引擎尺寸,我们仍然会从带宽增加中获益匪浅。”

除了增加容量和速度之外,能源效率的提高也值得注意。HBM3 的核心电压为 1.1V,而 HBM2E 的核心电压为 1.2V。HBM3 还将 I/O 信号降低至 400mV,而 HBM2E 为 1.2V。后代也会有进一步的改进。

执行副总裁 Jim Elliot 表示:“一旦进入 10 纳米时代,就必须考虑不同的缩小技术——例如高 K 金属栅极——我们必须不断增加内存带宽。”在最近的一次演示中,介绍了三星半导体的内存产品。“有低电阻材料,因为我们必须突破 DRAM 组件的单元尺寸限制。还有宽带隙材料,因为我们正在寻找 10 倍的泄漏改进,以及用于 DRAM 的 finFET,这将使我们能够继续将功率扩展到 0.9 伏以上。”

电脑功耗软件(电脑功耗测试软件)

图 1:三星的新 HBM3。来源:三星

不过,这一切都不容易。制造这项技术和充分利用它都将面临重大挑战。与过去不同的是,当一种先进的架构可以在数十亿个单元中得到利用时,其中许多设计都是定制的。例如,在 AI 世界中,几乎每个人都在构建自己的定制 AI 训练芯片并专注于 HBM。它以两种方式之一使用——作为系统中唯一的内存,或与随附的 DRAM 一起使用。

富士通基于 Arm 的 A64fx 是前者的一个例子。在 Fugaku 中使用,A64fx 曾一度是世界上最快的超级计算机,在 CPU 旁边的芯片上有 32GB 的 HBM2,但没有其他系统内存。其他产品,如 AMD Instinct、英伟达的 H100 GPU 以及英特尔的 CPU Max 和 GPU Max,都配备了 HBM 和标准 DRAM,其中 HBM 就像 DRAM 的海量缓存。

第一大问题:热量

使用 HBM 的最大挑战是热量。众所周知,内存和热量不能并存,但 HBM3 将与世界上最热的芯片和系统一起使用。例如,英伟达的 H100 的热设计功率 (TDP) 限制为 700 瓦。

Macri 表示,橡树岭国家实验室的超级计算机 Frontier 是 Epyc CPU 和 Instinct GPU(使用 HBM2E)的混合体,需要 AMD 进行一些创造性的负载平衡,以将温度控制在限制范围内。

电脑功耗软件(电脑功耗测试软件)

图 2:Frontier 超级计算机。资料来源:橡树岭国家实验室

Frontier 上的一些工作负载是内存密集型的,一些是 CPU 密集型的,平衡工作负载以避免过热是在芯片中完成的,而不是软件。“有一些微处理器,它们的全部工作就是管理这些控制回路,使系统保持在最佳状态,”Macri 说。

Frontier 由 HPE 的 Cray 部门与 AMD 合作构建,用于管理热量的负载平衡在系统设计级别处理。“我们共同设计了解决方案,”他说,“根据正在进行的工作进行动态**作以产生最佳性能。”

Rambus 产品管理高级总监 Frank Ferro 表示,HBM 和控制器中的硬件功能允许它节流内存并将其置于不同的性能状态,甚至转移到较低的频率。“如果那里开始成为热点,而你想降低频率或降低功率并将内存置于空闲模式,这些基本上都在 IP 级别和 DRAM 级别。在 DRAM 级别,你拥有这种能力,但如何使用它取决于系统架构师。”

密度限制

HBM3 面临的第二个热挑战来自内存本身。与 HBM2E 的 12 层限制相比,HBM3 标准允许多达 16 层。但马克里认为,由于高温,它会停在 12 层。尽管如此,对于定制设计,这可能因供应商而异,也可能因用例而异。

堆叠中底部的 DRAM 具有最高的热阻,这是堆叠的主要限制因素。HBM 使用微凸块连接不同的 DRAM 芯片,微凸块有其缺点。随着内存产生热量,热量会在每一层积聚,而微凸起无法有效地将热量散发出去。这反过来又限制了 DRAM 的实际层数。因此,即使 HBM3 可以支持 16 层,在大多数情况下也会使用更少的层。

DRAM 的每一层都需要自己的电力传输,并且需要足够的电力才能获得足够的性能。推动电力传输会增加每一层的热量。

现状

为 2.5D HBM 中介层一直保持在 2.5D,并不是因为热挑战。2.5D 设计是内存位于处理器旁边的原因。在真正的 3D 设计中,内存位于 CPU/GPU 之上并直接与芯片通信。CPU 最高可达 300 瓦,GPU 最高可达 700 瓦,热量太大了。

“挑战在于,如果你产生大量热量,你就会遇到微凸起的顶部,这些凸起确实不能很好地将热量传递出去。这就是几乎每个人都采用 2.5D 的原因,因为微点技术确实限制了您可以投入到它下面的芯片中的功率,”Macri 说。

其中一些将改变 3D-IC 的实现。“如果你是 3D 的,这个物理层会变得不那么复杂,所以有很多优势,”Ferro 说。“你摆脱了中介层。芯片之间的物理接口变得不那么复杂,因为您不需要通过另一种介质进行连接。所以有很多优势,但也有很多挑战。”

例如,使用现有技术冷却 3D-IC 很困难,因为位于芯片顶部的内存实际上隔离了其下方的 ASIC 或 GPU。在平面 SoC 中,热量由硅本身散发。但在 3D-IC 中,需要使用更精细的方法,部分原因是热量可能被困在层之间,部分原因是这些设备中使用的减薄芯片无法消散太多热量。

“当你把内存芯片堆栈放在GPU顶部的那一刻,GPU的热量需要在它消散之前或碰到冷板之前穿过内存。所以你现在突然遇到了一个不同的挑战,”美光科技 HPM 产品管理高级总监 Girish Cherussery 说。“我认为我不会看到采用现有 HBM 并将其直接堆叠在 GPU 或 ASIC 之上的东西,这些东西会消耗 400、500 瓦的功率。但它会在未来发生吗?这是一个可以实现的解决方案。”

Dunking chips

这是一个更大的问题和挑战的一部分,即如何让这些数据中心保持凉爽和节能,而散热解决方案是保持环境可持续发展的瓶颈之一。“浸入式冷却似乎是业界正在关注的解决方案之一,”Cherussery 指出。

浸入式冷却可能是唯一真正的解决方案,因为它不像空气和液体冷却那样使用冷却板。它涉及将主板连同 CPU 和内存一起浸入非导电的辩证流体(通常是矿物油)中,只有 NIC、U** 和其他端口从流体中伸出。

这在数据中心尤为重要,服务器冷却机架每年可能花费数百万美元。美国数据中心的平均电源使用效率 (PUE) 评级约为 1.5。分数越低,数据中心的效率越高,但不能低于 1.0。高于 1.0 的每一点都是用于冷却数据中心的功率,因此在 PUE 为 1.5 时,数据中心在冷却上花费了总功率的一半。

沉浸可以非常有效。**数据中心的 PUE 评级为 1.01。液冷数据中心已降至 1.1 范围,但 1.01 是闻所未闻的。该数据中心仅使用其 1% 的功率用于冷却。

浸入式冷却长期以来一直处于冷却技术的边缘,只在极端情况下使用,但它正在慢慢成为主流。**数据中心背后的公司 LiquidStack 获得了一些风险投资资金,微软已经记录了其在一个数据中心对 LliquidStack 产品进行的实验。微软提高了电源使用效率,但它也发现它可以在不损坏芯片的情况下对芯片进行超频。因此,未来真正 3D 堆叠 HBM 的路径很有可能是通过装满矿物油的油箱。

供应商之间的差异

Macri 指出,DRAM 供应商正在相互竞争,就像 SoC 供应商一样,这意味着一些 HBM 功耗较低,而一些则功耗较高。“到处都有很好的竞争。这很重要,因为它推动创新,”他说。这种回旋余地也会导致问题。他说,在指定功率方面没有标准。每个 DRAM 制造商都在想出设计内存的最佳方法,以实现最佳最终结果,其中功率和价格是关键变量。“更好的东西比不太好的东西成本更高,这也很重要,因为有不同的系统目标,这取决于公司和他们使用它的目的,”Macri 说。但是,DRAM 本身确实符合 JEDEC 标准。因此从理论上讲,您应该能够从一家供应商处获取 DRAM 并将其替换为另一家供应商,从而限制这种差异。“我们所做的事情有很多重叠和相似之处吗?当然,”费罗说。“它们完全一样吗?也许有点不同,但并没有本质上的不同。你必须与每个供应商一起完成这个过程,因为可能会有一点差异。”

自 HBM2E 以来,可测试性和 RAS(可靠性、可用性、可扩展性)能力有了显著提高。HBM3 还处理在 DRAM 中具有片上 ECC 的需求,只是为了使 DRAM 非常可靠。“这非常重要,因为产生的任何错误都需要您返回或修复它,这会增加延迟,”他说。

其他挑战

由于 HBM 暂时与 2.5D 并列,这增加了内存的大小限制。SoC 的尺寸,加上 HBM 芯片的数量,加起来需要更大的散热面积。

“这是我们应对的另一个挑战,”Ferro 说。“你不能变大。所以我们必须非常注意确保我们的宽高比是正确的,并且我们不会超过任何这些尺寸限制。”

在使用 HBM 时,您想利用其最大的属性,即带宽。但是利用该带宽进行设计并不容易。“你需要非常密集的浮点单元,这很有挑战性,”Macri 说。“DRAM 不喜欢随机访问。所以你想设计你的参考板,使其对 HBM 非常友好。你要从中提取最大的效率,这非常困难。”

结论

HBM3 对 HBM2E 标准进行了多项改进。有些是预期的(带宽增加),有些是意外的(RAS 改进、更新的时钟方法)。总而言之,新标准为用户提供了对下一代 SoC 的 HBM 内存的重大改进。但至少到目前为止,它不是一个即插即用的解决方案。

拓展知识:

前沿拓展:

电脑功耗软件

呵呵,下载财控武每行出眼个鲁**,挺好用的。我就在用,不仅仅挂机,平时玩的时候也能自动调整保护电脑硬件。


HBM3 为显著加快内存和处理器之间的数据移动打开了大门,降低了发送和接收信号所需的功率,并提高了需要高数据吞吐量的系统性能。但是使用这种内存既昂贵又复杂,而且这种情况在短期内可能会继续存在。

HBM3是 JEDEC 开发的 HBM 规范的最新补充,用于在单个模块内堆叠 DRAM 层。它于 2022 年 1 月推出,被视为 2.5D 封装的重大改进。但 HBM3 仍然很昂贵,部分原因是内存本身的价格,以及硅中介层等其他组件的成本以及开发 2.5D 设计所需的工程。这限制了它在容量最大的设计或价格不敏感的应用程序(例如数据中心的服务器)中的使用,在这些应用程序中,内存的成本可以通过更多和更宽的数据通道以及更少的功耗来提高性能来抵消在处理元件和 DRAM 之间来回驱动信号。

这有助于解释为什么 HBM3 第一出现在英伟达的“Hopper”H100 企业级 GPU 中,紧随其后的是英特尔和AMD的产品。HBM3 在 HBM2E 的基础上提供了多项增强功能,最显著的是将 HBM2E 的带宽从 3.6 Gbps 翻倍到 HBM3 的6.4Gbps,或者每个设备的带宽为 819 Gbps。

“带宽是支持更大计算引擎所需要的,”AMD 客户端PC 业务高级副总裁CTO Joe Macri 说。“如果你看看我们正在解决的许多问题,它们都非常占用带宽,无论是机器学习还是 HPC 类型的解决方案。因此,即使我们只选择适度增加引擎尺寸,我们仍然会从带宽增加中获益匪浅。”

除了增加容量和速度之外,能源效率的提高也值得注意。HBM3 的核心电压为 1.1V,而 HBM2E 的核心电压为 1.2V。HBM3 还将 I/O 信号降低至 400mV,而 HBM2E 为 1.2V。后代也会有进一步的改进。

执行副总裁 Jim Elliot 表示:“一旦进入 10 纳米时代,就必须考虑不同的缩小技术——例如高 K 金属栅极——我们必须不断增加内存带宽。”在最近的一次演示中,介绍了三星半导体的内存产品。“有低电阻材料,因为我们必须突破 DRAM 组件的单元尺寸限制。还有宽带隙材料,因为我们正在寻找 10 倍的泄漏改进,以及用于 DRAM 的 finFET,这将使我们能够继续将功率扩展到 0.9 伏以上。”

电脑功耗软件(电脑功耗测试软件)

图 1:三星的新 HBM3。来源:三星

不过,这一切都不容易。制造这项技术和充分利用它都将面临重大挑战。与过去不同的是,当一种先进的架构可以在数十亿个单元中得到利用时,其中许多设计都是定制的。例如,在 AI 世界中,几乎每个人都在构建自己的定制 AI 训练芯片并专注于 HBM。它以两种方式之一使用——作为系统中唯一的内存,或与随附的 DRAM 一起使用。

富士通基于 Arm 的 A64fx 是前者的一个例子。在 Fugaku 中使用,A64fx 曾一度是世界上最快的超级计算机,在 CPU 旁边的芯片上有 32GB 的 HBM2,但没有其他系统内存。其他产品,如 AMD Instinct、英伟达的 H100 GPU 以及英特尔的 CPU Max 和 GPU Max,都配备了 HBM 和标准 DRAM,其中 HBM 就像 DRAM 的海量缓存。

第一大问题:热量

使用 HBM 的最大挑战是热量。众所周知,内存和热量不能并存,但 HBM3 将与世界上最热的芯片和系统一起使用。例如,英伟达的 H100 的热设计功率 (TDP) 限制为 700 瓦。

Macri 表示,橡树岭国家实验室的超级计算机 Frontier 是 Epyc CPU 和 Instinct GPU(使用 HBM2E)的混合体,需要 AMD 进行一些创造性的负载平衡,以将温度控制在限制范围内。

电脑功耗软件(电脑功耗测试软件)

图 2:Frontier 超级计算机。资料来源:橡树岭国家实验室

Frontier 上的一些工作负载是内存密集型的,一些是 CPU 密集型的,平衡工作负载以避免过热是在芯片中完成的,而不是软件。“有一些微处理器,它们的全部工作就是管理这些控制回路,使系统保持在最佳状态,”Macri 说。

Frontier 由 HPE 的 Cray 部门与 AMD 合作构建,用于管理热量的负载平衡在系统设计级别处理。“我们共同设计了解决方案,”他说,“根据正在进行的工作进行动态**作以产生最佳性能。”

Rambus 产品管理高级总监 Frank Ferro 表示,HBM 和控制器中的硬件功能允许它节流内存并将其置于不同的性能状态,甚至转移到较低的频率。“如果那里开始成为热点,而你想降低频率或降低功率并将内存置于空闲模式,这些基本上都在 IP 级别和 DRAM 级别。在 DRAM 级别,你拥有这种能力,但如何使用它取决于系统架构师。”

密度限制

HBM3 面临的第二个热挑战来自内存本身。与 HBM2E 的 12 层限制相比,HBM3 标准允许多达 16 层。但马克里认为,由于高温,它会停在 12 层。尽管如此,对于定制设计,这可能因供应商而异,也可能因用例而异。

堆叠中底部的 DRAM 具有最高的热阻,这是堆叠的主要限制因素。HBM 使用微凸块连接不同的 DRAM 芯片,微凸块有其缺点。随着内存产生热量,热量会在每一层积聚,而微凸起无法有效地将热量散发出去。这反过来又限制了 DRAM 的实际层数。因此,即使 HBM3 可以支持 16 层,在大多数情况下也会使用更少的层。

DRAM 的每一层都需要自己的电力传输,并且需要足够的电力才能获得足够的性能。推动电力传输会增加每一层的热量。

现状

为 2.5D HBM 中介层一直保持在 2.5D,并不是因为热挑战。2.5D 设计是内存位于处理器旁边的原因。在真正的 3D 设计中,内存位于 CPU/GPU 之上并直接与芯片通信。CPU 最高可达 300 瓦,GPU 最高可达 700 瓦,热量太大了。

“挑战在于,如果你产生大量热量,你就会遇到微凸起的顶部,这些凸起确实不能很好地将热量传递出去。这就是几乎每个人都采用 2.5D 的原因,因为微点技术确实限制了您可以投入到它下面的芯片中的功率,”Macri 说。

其中一些将改变 3D-IC 的实现。“如果你是 3D 的,这个物理层会变得不那么复杂,所以有很多优势,”Ferro 说。“你摆脱了中介层。芯片之间的物理接口变得不那么复杂,因为您不需要通过另一种介质进行连接。所以有很多优势,但也有很多挑战。”

例如,使用现有技术冷却 3D-IC 很困难,因为位于芯片顶部的内存实际上隔离了其下方的 ASIC 或 GPU。在平面 SoC 中,热量由硅本身散发。但在 3D-IC 中,需要使用更精细的方法,部分原因是热量可能被困在层之间,部分原因是这些设备中使用的减薄芯片无法消散太多热量。

“当你把内存芯片堆栈放在GPU顶部的那一刻,GPU的热量需要在它消散之前或碰到冷板之前穿过内存。所以你现在突然遇到了一个不同的挑战,”美光科技 HPM 产品管理高级总监 Girish Cherussery 说。“我认为我不会看到采用现有 HBM 并将其直接堆叠在 GPU 或 ASIC 之上的东西,这些东西会消耗 400、500 瓦的功率。但它会在未来发生吗?这是一个可以实现的解决方案。”

Dunking chips

这是一个更大的问题和挑战的一部分,即如何让这些数据中心保持凉爽和节能,而散热解决方案是保持环境可持续发展的瓶颈之一。“浸入式冷却似乎是业界正在关注的解决方案之一,”Cherussery 指出。

浸入式冷却可能是唯一真正的解决方案,因为它不像空气和液体冷却那样使用冷却板。它涉及将主板连同 CPU 和内存一起浸入非导电的辩证流体(通常是矿物油)中,只有 NIC、U** 和其他端口从流体中伸出。

这在数据中心尤为重要,服务器冷却机架每年可能花费数百万美元。美国数据中心的平均电源使用效率 (PUE) 评级约为 1.5。分数越低,数据中心的效率越高,但不能低于 1.0。高于 1.0 的每一点都是用于冷却数据中心的功率,因此在 PUE 为 1.5 时,数据中心在冷却上花费了总功率的一半。

沉浸可以非常有效。**数据中心的 PUE 评级为 1.01。液冷数据中心已降至 1.1 范围,但 1.01 是闻所未闻的。该数据中心仅使用其 1% 的功率用于冷却。

浸入式冷却长期以来一直处于冷却技术的边缘,只在极端情况下使用,但它正在慢慢成为主流。**数据中心背后的公司 LiquidStack 获得了一些风险投资资金,微软已经记录了其在一个数据中心对 LliquidStack 产品进行的实验。微软提高了电源使用效率,但它也发现它可以在不损坏芯片的情况下对芯片进行超频。因此,未来真正 3D 堆叠 HBM 的路径很有可能是通过装满矿物油的油箱。

供应商之间的差异

Macri 指出,DRAM 供应商正在相互竞争,就像 SoC 供应商一样,这意味着一些 HBM 功耗较低,而一些则功耗较高。“到处都有很好的竞争。这很重要,因为它推动创新,”他说。这种回旋余地也会导致问题。他说,在指定功率方面没有标准。每个 DRAM 制造商都在想出设计内存的最佳方法,以实现最佳最终结果,其中功率和价格是关键变量。“更好的东西比不太好的东西成本更高,这也很重要,因为有不同的系统目标,这取决于公司和他们使用它的目的,”Macri 说。但是,DRAM 本身确实符合 JEDEC 标准。因此从理论上讲,您应该能够从一家供应商处获取 DRAM 并将其替换为另一家供应商,从而限制这种差异。“我们所做的事情有很多重叠和相似之处吗?当然,”费罗说。“它们完全一样吗?也许有点不同,但并没有本质上的不同。你必须与每个供应商一起完成这个过程,因为可能会有一点差异。”

自 HBM2E 以来,可测试性和 RAS(可靠性、可用性、可扩展性)能力有了显著提高。HBM3 还处理在 DRAM 中具有片上 ECC 的需求,只是为了使 DRAM 非常可靠。“这非常重要,因为产生的任何错误都需要您返回或修复它,这会增加延迟,”他说。

其他挑战

由于 HBM 暂时与 2.5D 并列,这增加了内存的大小限制。SoC 的尺寸,加上 HBM 芯片的数量,加起来需要更大的散热面积。

“这是我们应对的另一个挑战,”Ferro 说。“你不能变大。所以我们必须非常注意确保我们的宽高比是正确的,并且我们不会超过任何这些尺寸限制。”

在使用 HBM 时,您想利用其最大的属性,即带宽。但是利用该带宽进行设计并不容易。“你需要非常密集的浮点单元,这很有挑战性,”Macri 说。“DRAM 不喜欢随机访问。所以你想设计你的参考板,使其对 HBM 非常友好。你要从中提取最大的效率,这非常困难。”

结论

HBM3 对 HBM2E 标准进行了多项改进。有些是预期的(带宽增加),有些是意外的(RAS 改进、更新的时钟方法)。总而言之,新标准为用户提供了对下一代 SoC 的 HBM 内存的重大改进。但至少到目前为止,它不是一个即插即用的解决方案。

拓展知识:

原创文章,作者:九贤生活小编,如若转载,请注明出处:http://www.wangguangwei.com/83470.html