
DeepSeek的横空出世,将人工智能带入了深思考的时代,让AI突破“次元壁”,成为指数级增长的全民需求。这不仅加速了AI行业的渗透速度,也令算力迎来了一轮新的挑战。
在全新的时代,智算中心无疑扮演着关键角色,为AI计算提供源源不断的算力支持。随着AI技术的飞速发展,智算中心正逐步取代传统数据中心,这一转变对网络传输系统带来了全新的变革与挑战。
智算中心与传统数据中心有何不同?智算中心需要什么样的网络架构?
日前,Aginode安捷诺(原耐克森通讯系统)亚太区产品总监王君原,受邀参与了“算力百人会”线上直播活动,与相关专家围绕“智算中心时代网络布线的黄金法则与测试挑战”的议题进行了广泛交流,对智算中心网络架构建设提供了“思想坐标”。
从通算到智算:布线的颠覆性变革
在AI技术的驱动下,尤其是大模型需求的持续高涨,传统的数据中心正加速向智算中心转型升级。当通算向智算转变时,数据中心建设以及网络架构发生了根本性变化。
首先,智算将数据中心从信息/数据计算栈和中转站变为AI工厂,自动化、规模化训练和推理AI模型,而且数据传输的可靠性直接影响生产力,网络/算力运行效率与成本直接挂钩。信息延时的零容忍是智算跟通算的主要区别之一。
其次,由于智算中心引入了新的计算架构,其迭代速度更快,同时设备与设备之间的互联密度更高,因此,智算中心对于网络速率的需求远大于通算中心,需要更高速率、更低时延、更大带宽、更高效率的网络传输以及网络连接。
布线面临哪些挑战:高效运维是关键点之一
对于智算中心需不需要布线的问题,需要明确了解“解决复杂互联的问题”是布线的核心价值。那么,随着智算中心的兴起,其布线在网络架构、连接距离、升级路径、运维成本等维度面临挑战。
在智算中心的网络架构中,通常会引入SuperSpine层,确保每个计算面,如参数面、数据面和存储面之间的互联互通,由于网络架构规模变大,所以如何降低延迟、如何确保网络的传输稳定,成为网络架构设计的关键。
智算中心的网络速率已经有了飞速的提升,400G、800G甚至未来的1.6T/3.2T,网络速率的不断提升对布线系统提出了更高的要求。如何选择合适的收发器方案、确保多芯MPO的兼容性和稳定性、如何测试多芯MPO,成为智算中心布线设计的重要考量。针对MPO16芯,提倡统一采用APC接口以及KeyUp/Key Down适配器。
在智算中心中,网络传输的有效性稳定性,直接关系到AI模型的训练和推理效率,是与智算中心成本直接挂钩的重要指标,因此,高效的运维是智算中心的关键点之一。在柜内提升DAC用量,以及采用有效的备品备件策略保障迅速替换,是应对智算中心运维挑战的有效策略。
布线不只是架构设计:高效的管理更重要
布线系统作为智算中心的基础设施,对关键网络的稳定运行起着至关重要的作用。在建设中,需要基于逻辑思维原则,采用“端口标识-记录存档-下派工单-现场作业-更新存档”的闭环管理方式,在长时间运维过程中,实现对端口的高效管理。所以,布线不只是产品和架构的设计,也是通过运维的理念更有效地管理关键网络。
在通过按需采用适用的直连vs结构化布线形式,为各计算面互联提供灵活性,并采用稳定可靠的部件、超低损耗类产品的基础上,采用系统的标签标识、工单化、软件化、自动化策略的管理方案,以网络形式实现对智算中心互联的管理。同时,优化生产、测试流程也是提升网络运维效率的关键要素,而且重视安装现场管理、测试是实现整个网络有效管理的前提条件。
丰富行业经验:赋能智算时代网络架构
作为全球领先的通信与数据解决方案提供商,Aginode安捷诺在高端基础设施解决方案的开发、部署和服务方面积累了超过30年的行业经验,拥有先进的工业足迹,以及丰富的行业经验和被市场认可的技术传承。
面对智算中心对网络架构带来的变革和挑战,Aginode安捷诺基于深厚的研发和创新优势,能够提供从设计、生产到运维的全链条解决方案,致力于帮助客户构建高效、稳定、可靠的智算中心网络。
智算中心的崛起标志着算力经济的全面爆发,而网络基础设施作为其“神经网络”,正经历前所未有的技术革新。Aginode安捷诺将持续聚焦“安全可靠、敏捷高效、信守承诺”的品牌内核,通过技术迭代赋能数字化基础设施,推动数字社会迈向智慧互联的未来。
本文属于原创文章,如若转载,请注明来源:受邀参与“算力百人会”直播,Aginode安捷诺分享智算中心网络布线“黄金法则”https://biz.zol.com.cn/970/9707100.html