ThinkSystem SR670 V2 服务器扩展了联想在 HPC 领域的领先地位

Admin 1336 2022-07-13 11:43

联想长期以来一直是为高性能计算服务器 (HPC) 市场提供解决方案的领导者。联想的主流产品为最终用户和数据中心管理员所熟知,但联想的 HPC 实力可能是他们保守得最好的秘密。嗯,秘密就在于成为全球最大的超级计算机供应商(其中 32% 根据500 强维护的数据)。



lenovo-data-center-solutions-hpc-product-neptune-md-1.png



这些巨大的 HPC 胜利从根本上是由联想对 HPC 领域的深入了解以及抓住机会满足客户需求的意愿推动的。这种冒险究竟是如何转化的?好吧,大约十年前,联想向德国慕尼黑的莱布尼茨超级计算中心交付了一台液冷超级计算机。这一事件有助于改变超级计算的经济性,尤其是在欧洲等机架空间、冷却和电力非常宝贵的地方。虽然自那时以来超级计算发生了很大变化,但联想仍在继续创新。2018 年夏天,联想正式推出Neptune,展示了其通过液体冷却实现更高效数据中心的愿景。通过将 ThinkSystem SD650 推向市场,联想向 HPC 客户展示了对 1U 托盘中的组件进行液体冷却是多么容易,每个托盘支持 2 个 DWX(海王星直接水冷)节点。NeXtScale n1200 机箱 (6U) 中最多支持六个托盘。两年后,联想推出了 SD650-N V2、液冷、Ice Lake CPU、插槽式 GPU、DRAM、存储和 I/O 模块。在 ThinkSystem SR670 V2 中实施液气 (L2A) 热交换器是联想前瞻性工程的一个例子。



670-with-l2a-heat-exchanger-2.png


谁还需要 HPC 系统?
在处理能力、存储创新和内存方面的性能提升之后,谁仍然需要所有这些能力?

各种规模的企业都在寻找更有效的方法来收集和分析数据,以从网络中的多个不同资源中提取情报。尤其是专注于计算密集型项目的企业,例如分子生物学、金融、全球气候变化跟踪、快速基因分析和地震成像。HPC 也受到更广泛组织领域的关注,例如那些寻求市场优势并愿意投资于影响生产力和增长的技术的公司。前面提到的应用程序的基础 HPC 和 AI 正变得更加紧密地结合在一起,为组织利用这些数据提供了新的途径。



StorageReview-Lenovo-SR670-V2-8.jpg


立即访问聚合数据的需求继续推动对这些 HPC 系统的需求。在竞争中保持领先一步对于组织的成功和长寿至关重要。HPC 对于解决商业、科学和工程的复杂问题至关重要,并且已成为科学、研究、零售、AV 等创新的基础,并推动影响社会的技术进步。

来自 AI & M/L、IoT、研究和直播服务等技术的收集数据的爆炸式增长需要实时处理,这超出了典型服务器的处理能力。

HPC 需求增长背后的另一个驱动力是系统可以部署在边缘、云端或本地。关键是处理创建该数据的数据,而不必将其传输到另一个远程位置进行处理。选择 HPC 平台时的一个关键考虑因素是横向扩展能力。当涉及到海量计算资源时,越多越好。这些系统的横向扩展能力至关重要,创建大型 HPC 集群的能力可能意味着成功或失败,具体取决于扩展能力。利用高速、低延迟的互连和 NVMe 等更新的存储技术将加速计算结果。集群可以构建在数据中心、云或混合模型中,提供灵活且可扩展的部署。Lenovo ThinkSystem SR670 V2就是这样一个系统。



sr670_configurations.png


满足 HPC 要求的 GPU 丰富的服务器
Lenovo ThinkSystem SR670 V2 是一款 GPU 丰富的 3U 机架式服务器,支持 8 个双宽 GPU,包括 NVIDIA A100 和 A40 Tensor Core GPU,以及配备 NVLink 和 Lenovo Neptune 混合液体的 NVIDIA HGX A100 4-GPU 型号到空气冷却。该服务器基于新的第三代英特尔至强可扩展处理器系列(以前称为“Ice Lake”)和最新的英特尔傲腾持久内存 200 系列。

SR670 V2 为各行各业的人工智能 (AI)、高性能计算 (HPC) 和图形工作负载提供最佳性能。零售、制造、金融服务和医疗保健行业可以利用 SR670 V2 中 GPU 的处理能力来提取更重要的见解并利用机器学习 (ML) 和深度学习 (DL) 推动创新。传统的空气冷却方法正在达到临界极限。组件功率的增加,尤其是 CPU 和 GPU 的功率增加,导致能源和基础设施成本增加、系统噪音和碳足迹增加。SR670 V2 型号采用联想 Neptune 液气 (L2A) 混合冷却技术应对这些挑战并快速散热。NVIDIA HGX A100 GPU 的热量通过独特的闭环液-气热交换器带走,该热交换器可在不增加管道的情况下提供液体冷却的优势,例如更高的密度、更低的功耗、安静的运行和更高的性能。

StorageReview-Lenovo-SR670-V2-5.jpg


行业正在利用 GPU 技术
SR670 V2 基于两个第三代英特尔至强可扩展处理器,旨在支持 NVIDIA Ampere 数据中心产品组合中的最新 GPU。SR670 V2 可提供工作负载优化的性能,无论是利用可视化、渲染还是计算密集型 HPC 和 AI。

零售、制造、金融服务和医疗保健行业正在利用 GPU 来提取更重要的见解并利用机器学习 (ML) 和深度学习 (DL) 推动创新。以下是加速计算在不同组织中利用 GPU 的几种方式:

在家工作团队的远程可视化
用于照片般逼真的图形的光线追踪渲染
强大的视频编解码
生命科学中的计算机模拟试验和免疫学
呼叫中心的自然语言处理 (NLP)
用于质量控制的自动光学检测 (AOI)
用于零售客户体验的计算机视觉
随着越来越多的工作负载利用加速器的功能,对 GPU 的需求也在增加。ThinkSystem SR670 V2 提供优化的企业级解决方案,用于在生产中部署加速的 HPC 和 AI 工作负载,最大限度地提高系统性能。



StorageReview-Lenovo-SR670-V2-4.jpg


灵活的配置选项
模块化设计为 SR670 V2 提供了极大的灵活性。配置选项包括:

多达 8 个带 NVLink 桥接器的双宽度 GPU
NVIDIA HGX A100 4-GPU,带 NVLink 和联想 Neptune 混合液冷
可选择前端或后端高速网络
可选择本地高速 2.5"、3.5" 和 NVMe 存储
ThinkSystem SR670 V2 性能针对您的工作负载、可视化、渲染或计算密集型 HPC 和 AI 进行了优化。

NVIDIA A100 Tensor Core GPU 可在各个规模上提供前所未有的加速,为人工智能、数据分析和 HPC 应用程序提供世界上性能最高的弹性数据中心。A100 可以有效地扩展或划分为七个独立的 GPU 实例。多实例 GPU (MIG) 提供了一个统一平台,使弹性数据中心能够动态调整以适应不断变化的工作负载需求。一个由 13 个 ThinkSystem SR670 V2 组成的机架可以产生多达两个 PFLOPS 的计算能力。

ThinkSystem SR670 V2 基于最新的英特尔 至强 可扩展系列 CPU,旨在支持包括 NVIDIA Tesla V100 和 T4 在内的高端 GPU,为 AI 和 HPC 工作负载提供优化的加速性能。

可扩展的解决方案
无论是从人工智能开始还是进入生产阶段,解决方案都必须根据组织的需求进行扩展。ThinkSystem SR670 V2 可用于使用高速结构的集群环境,以随着您的工作负载需求增加而横向扩展。

借助联想智能计算编排 (LiCO),它增加了对多用户的支持,并将在单个集群环境中扩展。LiCO 是一个强大的平台,可为 HPC 和 AI 应用程序管理集群资源。

LiCO 提供 AI 和 HPC 工作流程,并支持多种 AI 框架,包括 TensorFlow、Caffe、Neon 和 MXNet,利用单个集群满足不同的工作负载需求。

整个 HPC 产品组合的创新进展同样迅速。对于尚未准备好投入全面液体冷却的组织,ThinkSystem SR670 V2 提供了令人印象深刻的灵活性。

Lenovo ThinkSystem SR670 V2 可配置性和规格
GPU 提供重要的配置性能选项
GPU 支持是配置之间最重要的变量。单宽 GPU 使用 PCIe x8 通道并扩展到 NVIDIA A10,而双宽 GPU 使用 PCIe x16 并扩展到 NVIDIA A100。旗舰 SXM 配置使用 NVIDIA HGX A100,它使用 NVIDIA NVLink 桥接器(直接 GPU 到 GPU 通信)连接其四个板载 GPU。双宽 GPU 配置支持 NVLink,SR670 V2 还支持双宽 AMD Instinct MI210。

HGX A100 平台是没有 NVSwitch 的“Redstone”变体,在一个板上有四个 SXM A100 GPU。提供 40GB、400 瓦和 80GB、500 瓦两种型号。值得注意的是,SR670 V2 采用联想 Neptune 液气 (L2A) 混合冷却和该平台,可实现更安静、更高效的冷却和更低的功耗。每个 GPU 上都安装了一个冷板,四个冗余低压泵通过该冷板循环液体。一个大的单个散热器散发热量。其他 GPU 配置仅风冷。作为 Neptune 品牌部分的一部分,每个 GPU 上方的单独冷却液泵在冷板上可见。这些都通过单个散热器回流,即使在峰值负载下也能控制温度。

虽然液体冷却在保持较低温度方面具有明显的优势,但许多人没有意识到 GPU 时钟速度可以对性能产生多大影响。当 GPU 在空气冷却的情况下处于高负载下时,它们可能会达到峰值热设计点,然后它们必须限制性能并降低时钟速度以控制温度。液体冷却不存在这个问题,它允许 GPU 运行得更快更快,同时在工作负载过程中保持一致的热分布。

下图显示了满载情况下风冷和液冷 GPU 的区别。当风冷型号开始达到峰值温度时,GPU 频率会降低,而液冷 CPU 在此期间保持峰值时钟速度。同时,背板是固定的,有4个PCIe 4.0 x16插槽和1个OCP 3.0。从背面也可以看到 SR670 V2 的四个冗余热插拔电源。它们提供 1800W 或 2400W 选项,并具有 80 Plus 白金评级。

配备 SXM 配置的 SR670 V2 型号包括一个不同的电源链路,它为前 GPU 部分提供专用电源链路。这些型号与插槽式 GPU 型号形成鲜明对比,后者不包括来自机箱后部的大量电源链路。SR670 V2 的其余硬件同样令人印象深刻,并延续了其灵活性主题。它最多支持两个 40 核/80 线程英特尔“Ice Lake”第三代至强可扩展处理器,TDP 高达 270 瓦。每个 CPU 有 16 个 DDR4-3200 RDIMM 插槽;使用 128GB RDIMM,内存上限为 4TB。根据 CPU 的不同,SR670 V2 还支持多达 16 个Intel Persistent Memory 200 系列,与常规系统内存一起安装。凭借 ThinkSystem SR670 V2 必须提供的所有硬件,联想在散热布局上尽了最大的努力,以充分发挥系统的性能。并非所有系统都允许所有组件在没有节流的情况下以 100% 的利用率运行,而 SR670 V2 旨在实现这一点。

最后的想法
联想致力于液体冷却,并利用该技术开发了 L2A 热交换器等产品。随着服务器内部功率密度的不断增加,供应商需要想出创造性的方法来消除组件的热负载并将其传递到系统之外。并非所有客户都需要或想要完整的液体冷却解决方案。然而,联想可以通过其产品组合中的风冷、部分水冷和全水冷服务器提供满足客户冷却需求的解决方案。

第一代 Neptune 仅向 CPU 和内存提供液体冷却。除了 CPU 和内存之外,联想的 Neptune 液冷系统已经扩展到包括电压调节、存储、PCIe 以及现在的 GPU。联想甚至发布了一款无需风扇的液冷电源。展望未来,联想认为液体冷却是处理未来几代 CPU 和 GPU 产生的热量的关键,也是保持企业客户已经习惯的密度和占地面积的方法。 


【公司名称】四川旭辉星创科技有限公司

【代理级别】成都联想服务器工作站总代理

【销售经理】熊经理

【联系方式】座机:028-85596747    手机:18244236404

【公司地址】成都市人民南路4段 桐梓林 商鼎国际2号楼1单元1913


售前优惠咨询专线

13438344046(手机) 13438344046(手机) 028-85596747(销售专线)

售后保修咨询专线

028-85596747

在线咨询

售前咨询

请用微信扫描二维码

3.516707s