编者按:以云计算为代表的信息技术在疫情防控方面取得了显著成效。远程视频、病毒分析、疫情风险控制分析、视频监控、体温、人脸采集分析等前端数据中心支持,缺一不可。这必然会涉及到海量的数据处理能力,这取决于服务器集群提供的计算能力。
没有一种技术可以一劳永逸地解决所有的问题,比如当年的主机,今天的电脑服务器,未来的云计算。所以只能利用和改造,总结和探索。
虽然我们已经打开了数字时代的大门,但我们也看到了数字技术给商业和社会带来的巨大变化。但在数字基础设施层面,问题远未结束。甚至可以说,即使是最先进的超大规模数据中心,也有自己的近忧和长远担忧。
近忧的是数据中心的建设和运维成本;远视是新计算类型的出现带来的架构挑战。
成本数据中心一直在攀登的山峰
即使数据中心位于地价和电价相对便宜的地区,数据中心仍然是it建设中最明显的重资产项目,其建设和运营需要巨额资金。由于需要大量的土木工程和基础设备支撑,数据中心每平方米可以预留给it设备的面积需要五位数甚至六位数的价格。
面对与北上广价格相当的数据中心建设成本,计算密度成为任何数据中心建设者都会关心的核心设备指标。在对计算密度的极端追求下,奥林巴斯、open19、odcc天蝎项目、openrack等定制服务器项目不断出现也就不足为奇了。
当然,除了精细的设备结构之外,对于大多数数据中心来说,还有一个更直接的提高计算密度和效率的方法,那就是选择一个核心更多、性能更高的计算平台。
amd的第二代epyc平台:性能巅峰,性价比更高
继2017年推出代号为那不勒斯的第一代epyc处理器之后,amd于2019年发布了代号为罗马的第二代epyc处理器。
Amd的第二代epyc系列处理器代号罗马
作为业界首款基于7nm工艺的处理器,第二代epyc处理器拥有64核128线程、256m L3缓存、8通道ddr4-3200内存(每通道4tb)、128 pcie 4.0等一系列新特性。amd发布的数据显示,其浮点性能比上一代双核数和增加周期指令数的优化高出约4倍。同时,7nm工艺技术的引入带来了更高的能效;这也意味着第二代epyc的能效比是上一代的两倍。第二代epyc处理器在行业内的各种基准测试中处于领先地位,迄今为止已经保持了140多项世界纪录。
得益于小芯片设计,第二代epyc平台在短时间内完成了产品的迭代升级。与单片soc相比,小芯片设计更加灵活,因为在许多情况下,如果功能集成在一个芯片上,其性能、功耗和面积通常难以优化。小芯片还可以缩短产品开发周期,在一定程度上降低设计风险。Amd称之为amd infinity混合多芯片架构,在第二代epyc处理器的应用上达到了一个新的高度。
在第二代epyc平台上,amd采用最新的7nm工艺设计了核心小芯片芯片(简称ccd),每个ccd包含两个cpu复合体(简称ccx),每个ccx集成四个内核。在内存、pci-e、磁盘控制器等i/o处理部分,采用14nm工艺,降低了成本和开发周期。每个i/o内核最多可以连接8个ccd内核,即最多64个内核的设计。
在2月举行的sscc2020大会上,amd谈及采用7nm+14nm工艺相对于纯7nm工艺设计有效降低成本:如果以64核产品为基准比较,在48核、32核、24核、16核产品上可节省约2倍,核数越多,节省的成本越多。
TSMC 7纳米工艺包的核心部分不仅大大提高了能效比,而且与第一代epyc相比,有效减少了ccd的面积,使得第二代epyc平台的ccd部分可以填充更多的核心。同时,改进的分支预测器、优化的l1指令缓存、双浮点单元数据宽度、指令存储队列和双l1数据缓存读写带宽。与zen1相比,zen 2的ipc提高了15%以上,原因是各种变化,例如l3缓存是单个ccx的两倍大。最终,zen 2的能效比是zen 1的两倍。值得一提的是,采用这种非集成芯片设计有效缩短了产品设计周期,amd还将推出代号为米兰的第三代epyc,采用TSMC 7nm+工艺有望进一步提高能效比。
目前amd epyc平台已经受到腾讯云、亚马逊、微软、甲骨文、谷歌等大型云服务提供商的青睐;此外,包括戴尔、hpe、h3c和联想在内的顶级oem合作伙伴也与amd合作,推出基于第二代epyc平台的丰富服务器产品。
另一方面,amd在epyc平台从第一代升级到第二代的过程中并没有更换处理器插座。这意味着用户可以通过升级固件和安装新的cpu来获得更多的内核和更高的性能,而无需更换整个服务器。显然,这对于某些用户来说很有吸引力。
回过头来看文章最初的问题,建立一个数据中心通常需要一个相对复杂的过程,现实中没有那么大的重新发明轮子的可能性。在不改变原有风、火、水电等配套设施的前提下,如何在保证卓越能效比的同时不断提高计算性能,是企业数据中心的长期追求。看amd epyc平台的设计思路,很大程度上可以保护客户的原始投资,满足大部分用户批量升级的产品生命周期规划。
小芯片帮助摩尔定律创造更多可能性
面对越来越丰富的计算类型,服务器也有计算场景化的趋势。通过安装不同的计算核心,如图形处理器,现场可编程门阵列和aisc,服务器通常可以在特定的应用场景中获得更好的计算效率。然而,与此同时,通过增加计算卡的数量来实现计算能力的多样化,也将对服务器的功耗、散热、物理空占用空间等提出更高的要求。
面对这一矛盾,amd首先在数据中心计算平台实践的小芯片给出了一条预期的解决路径。未来,通过将不同的芯片集成在同一个基板上,amd及其合作伙伴可以解决插座中多样化计算能力的挑战。由于cpu往往拥有服务器中最好的电源和散热资源,以计算卡形式出现的计算能力多样化带来的很多问题都会迎刃而解。
换句话说,amd可以很容易地增加或减少现有衬底上的晶片数量。这使得amd能够以更低的成本和价格推出面向中端或入门级的纯处理器产品。当然,在移除一些ccd之后,空的io带宽和总线也可以用于连接其他类型的芯片,这些芯片也集成在基板上,从而为特定应用创建异构处理器。
按照这种思路,我们可以期待一个更加多彩的未来。比如我们可以用GPU代替cpu上的一个或多个CCDs,增加相应的hbm,从而获得更好的ml/dl和推理应用性能(而且这种方法也可能是解决多个GPU之间数据交换和同步的新方法);另一个例子是,我们也可以用更有针对性的asic代替这些CCd,以提高cpu在其他特定算法中的性能,然后创建一个更基于场景的计算平台解决方案。
与以前的整体芯片设计思想相比,这种利用小芯片技术构建异构芯片的方法不仅可以使现有的ip继续发挥其价值,还可以大大降低新处理器或计算平台的R&D周期和成本,使更多的计算场景能够以更低的成本实现显著的性能优化和基础设施简化。
从宏观角度来看,小芯片技术也可能是摩尔定律延续的有效催化剂。
决战之间
作为服务器乃至整个数字基础设施的核心,处理器是一门相当复杂的艺术。它之所以是艺术,不仅是因为它需要不断探索设计、过程和工程之间的新平衡,还因为处理器必须应对来自现在和未来的双重挑战。
以优秀处理器为代表的计算平台,不仅要为用户提供可见的性能提升,更要为用户乃至行业未来提供新的发展方向和新的发展思路。
从这两个方面来看,第二代epyc处理器具有独特的意义。64核和7纳米的结合给用户带来了计算性能和密度的显著提高,这有助于数据中心站的成本和性能达到一个新的高度。小芯片技术的应用为摩尔定律在工艺进展缓慢的背景下继续生效提供了新的路径。
能在几百平方毫米之间演绎出对技术和未来的洞察,真的是凤毛麟角。
我不想在这里写太多美好的文字;不是因为这个产品不值得,而是因为我们将很快迎来一个全新的米兰。现在阅读还不算太晚。
资料来源:太平洋计算机网络,作者张伟
标题:[科技界] 决战方寸之间——在Socket上迎战数据中心的成本与架构之困
地址:http://www.heliu2.cn/xw/6594.html