ABB
关注中国自动化产业发展的先行者!
CAIAC 2025
2025工业安全大会
OICT公益讲堂
当前位置:首页 >> 案例 >> 案例首页

案例频道

“灵畅算力服务”赋能区域智算中心从可用走向好用

★软通智慧科技有限公司李巍峰

1 背景

在今年两会期间,政府确立了“适度超前建设数字基础设施,加快形成全国一体化算力体系”的2024年工作任务。黑龙江省深入贯彻习近平总书记的重要指示,围绕发展新质生产力,结合自身产业发展优势,通过开展人工智能+行动强化数字产品制造、智能机器人等重点产业链。

在此背景下,为服务国家战略,支撑地方产业数字化发展,加快人工智能与经济社会各领域深度融合,哈尔滨数字龙江智算中心项目落地哈尔滨道外区,一方面助力黑龙江省落实国家“星网工程”、“星地融算”等国家级战略枢纽节点布局,另一方面,面向区域产业,通过项目、基地、人才、资金的一体化配置,实现科技创新引领产业创新,促成地方产业与算力发展相互促进、共同前进的良好态势。

数字龙江智算中心定位区域“人工智能+行动”核心载体,国家一体化算力网络枢纽节点大科学装置,通过二期建设完成,并于2024年7月全面上线运营。数字龙江智算中心上线后,采用“算力+产业”双轮驱动模式,基于一体化公共算力服务平台,服务AI、大模型及国产GPU芯片等智算中心上下游企业。这些企业与AI、新金融、芯片设计、装备制造、新能源、工业材料、城市治理、科研教育等行业和场景深度融合,推动传统产业的数字化转型,加速AI大模型产业向本地集聚。

2 案例实施与应用

数字龙江智算中心作为新型数字基础设施,覆盖了云计算、人工智能、大数据等诸多技术领域,具备数字化、智能化的特点,是数字经济时代支撑社会生产力数字化的基础设施,也是数据要素的重要载体。

数字龙江智算中心采用“集中部署、分级应用”的总体思路,采用基于高并发和数据资源处理的计算架构设计,参考五横三纵的总体框架体系,采用多层架构设计,由展现层、应用层、应用支撑层、数据层、基础软硬件平台、能源基础设施,以及安全保障体系、运维管理系统构成。

其总体架构图如图1所示。

image.png

图1 总体架构图

其中,展现层通过集成各应用系统接口,整合汇总各种数据,以门户网站、客户端或手机APP形式对外提供政务办公、行业智能应用、信息咨询等各类服务内容。

应用层采用云原生技术,部署了大模型应用平台、AI开发平台、数据治理平台云服务平台等平台系统。各平台基于底层丰富的计算、存储及网络资源,支撑政府、企业及个人应用上云,同时,为云内用户提供用户管理、接入管理、资源管理、授权管理、流程管理和安全审计等统一管理界面。

数据层针对结构化数据、非结构化数据等多种数据类型,提供关系型数据库、非关系型数据库、向量数据库等多种数据处理、分析、存储能力供应用层各类应用系统使用。

基础软硬件平台利用云计算、软件定义存储、软件定义网络等技术将底层网络设备、服务器、存储备份设备、安全设备等基础硬件产品资源化,为上层业务提供精细化计算、存储、网络资源。

运维管理系统结合智算中心底层软硬件设备进行设计,支持软硬件设备及基础软件平台系统的运行监控、异常报警、事件自动处理、态势分析等功能。

安全保障系统依据信息系统等级保护要求进行建设,实现了融合安全统一可视化管理,管理员可在统一界面下进行日常安全巡检、集中策略下发、配置调整和设备监控等全域安全操作,同时,可实现针对入侵等安全事件及时调整安全策略,实时修正防御规则,以构建数据中心零信任安全防护体系。

目前,数字龙江智算中心已入驻8大科研联合实验室,支撑实验室十余个课题小组开展大模型算法研发、行业数据分析等科研活动所需的算力及数据需求。同时,基于智算中心各类应用平台,数字龙江智算中心为行业头部大模型企业面向区域提供包括人工智能迁移部署在内的25项管家式服务及5类19项大模型MaaS服务。

3 应用创新

智算中心是数字基建发展的重要组成部分,其设计、建设、运营涉及数据中心机电配套、硬件设备实施、软件系统设计、安全合规保障、服务内容设计等多方面内容,是一项规模体量特别庞大、涉及技术特别复杂、服务要求特别高、客户需要变化特别快的创新性系统性工程。

智算中心的建设和运营往往众多重点及难点,包括:算力硬件技术路线多样,难以实现统一管理、统筹调度;算力需求迅猛发展,算力设备供应紧张,建设周期压力大;算力服务重点从高性价比向高性能转移;算法应用赋能业务场景周期长,新型应用落地不够敏捷;算法应用赋能业务场景周期长,新型应用落地不够敏捷。

软通智慧基于在智算中心建设运营方面的丰富经验,积累沉淀了诸多技术和人才储备,围绕智算中心规划、建设、运营全流程打造了灵畅算力服务体系,基于该体系,软通智慧在数字龙江智算中心建设过程中通过架构创新、联合优化、AI工程化服务、体系保障几个方面充分保障了数字龙江智算中心建设运营工作顺利开展。

3.1 架构创新

数字龙江智算中心整体建设遵循“分区+分层+分平面+安全”的全新设计理念。将智算中心进行模块化、标准化,便于日常运维管理和日后扩展,如图2所示。

image.png

图2

分区是指按照业务特点和安全要求划分不同的业务区域,各区块间通过核心交换机连接在一起,不同类型的流量,通过VRF进行隔离。其中:

(1)AI训练算力存储区+调度区主要部署人工智能融合赋能的计算和存储节点包含调度功能模块,向人工智能融合赋能平台提供块存储、对象存储、文件存储,还有提供人工智能融合赋能平台中AI计算能力,主要由人工智能服务器+存储构成。

(2)云资源区主要为提高超算中心资源利用率,提供基础软硬件层包括创建业务虚拟机。业务虚拟机提供CPU、内存资源,并通过增加分布式存储共享的方式提供共享存储资源,是人工智能融合赋能平台的核心系统之一;云资源区网络采用扁平化二层数据中心Spine-Leaf组网架构组网,通过部署双机高性能数据中心盒式交换机作为机柜TOR接入交换机对服务器或存储设备进行网络接入,采用堆叠部署,形成统一管理控制界面后与双机集群核心交换机之间通过双链路上行,设计速率为2*100GE保障高速率转发,10GE下行连接服务器或存储设备。

(3)外部接入区承担人工智能融合赋能平台互联网区的网络交换职责,主要为平台提供流量统计、防火墙、EIP、VPN等功能。内部网络相互访问,以及内部与外部相互访问都通过该区域完成。提供网络安全能力,检测扫描外部访问内部的网络流量,保障平台安全能力。使用出口路由器与MPLSVPN承载网络、Internet网络、DCN网络等进行互联。

(4)运维管理区:该区域主要用于运维、运营和管理接入,运维管理区部署所有安全审计以及安全管理设备,包括网管平台、漏洞扫描、运维审计、数据库审计、日志审计、杀毒软件、WAF、态势感知等,做到融合安全统一可视化管理,方便管理员日常安全巡检、集中策略下发、配置调整和设备监控,可以限制数据中心业务的非授权IP访问权限,同时关闭不必要的通讯端口,收集前端防火墙、边界墙实现对来自外部网络的攻击行为记录、溯源、记录攻击目标、攻击类型和攻击时间。所有安全设备为态势感知提供海量数据,态势感知通过AI大数据分析的能力对入侵等安全事件可以及时地调整安全策略配置,及时修正防御规则,灵活地对匹配IT资源、攻击类型、协议等的攻击报文采取相应的动作,构建数据中心零信任安全防护体系。

分层是指采用核心层和接入层两层扁平结构。

分平面是指采用AI高性能计算平面、业务平面、管理平面等分离的设计方法,各自独立组网,保证平台可靠性。同时避免了各类网络之间的竞争和由此产生的拥塞,从而提高提高系统的可扩展性、安全性和可维护性。

安全是指在不同业务区域之间、在数据中心出口等位置部署安全设备,实现业务安全访问和数据安全保障。

3.2 计算优化

人工智能芯片作为支撑智算中心算力的核心部件,在单台智算服务器中,其成本能占到整台服务器成本的80%以上。然而,数据表明,大部分用户的智能算力芯片利用率只有10%到30%。大量算力的闲置无疑是对智算中心成本的巨大浪费。因此,对智算中心智算集群进行调优,以提高整体算力使用率无疑是智算中心建设运营的重点。

站在整个智算中心的角度来看,计算的优化分为三个方面:

(1)单训练任务的优化

目前人工智能算法开发都依赖于TensorFlow、Pytorch、Mindspore等深度学习框架,这些基础软件的设计目标之一是提升单个训练任务的计算性能,而在训练过程中,数据的读取、芯片之间的通信吞吐都是影响训练效率的关键因素。因此,网络系统、存储系统及计算系统的联合调优尤为重要,资源分配平台需要充分了解服务器硬件的内部拓扑及整体网络架构,才能有效发现数据传输的最短路径、避免网络可能产生的拥塞。龙江智算中心云平台通过自动化NUMA设置、内核参数配置、网路拥塞策略调整等多种手段保证了单任务计算达到理论性能上限。

(2)多任务调度优化

智算中心作为面向公共的算力服务平台,训练任务是非常多样化的,单机单卡、单机多卡、多机多卡任务对于资源规模的要求均不同。不合理的算力芯片调度策略会导致智算中心内资源碎片化严重,同时任务资源等待时长增加,如图3所示。

image.png

图3

龙江智算中心算力调度平台一方面通过资源分配算法优化,通过底层拓扑信息分析实现GPU资源的精细化资源调度,另一方面,通过资源调度算法支持细粒度的GPU资源共享与回收,通过支持不同算力芯片的上报和管理,帮助AI训练任务根据实际需求选择合适的GPU类型,提升计算效率。

3.3 AI工程化服务

针对AI应用开发定制化程度高、训练数据集生成难的问题,龙江智算中心通过搭建人工智能开发平台,提供一站式人工智能解决方案。平台面向人工智能研究中的数据处理、算法开发、模型训练、算力管理和推理应用等各个流程的技术难点,提供了模型开发平台、集成高性能分布式深度学习框架、先进算法模型库、视觉模型炼知平台、数据可视化分析平台等一系列平台工具,帮助平台用户高效开展分布式人工智能算法训练、数据处理和可视分析、模型炼知和轻量化等人工智能算法开发工作。平台整体功能架构如图4所示。

 image.png

图4 平台整体功能架构

同时,软通智慧基于平台能力,围绕数据工程及算法工程两方面为智算中心企业提供定制化服务。数据工程方面,围绕业务数据清洗、训练数据标注及数据价值发掘,协助客户为智算中心用户提供定制化软件开发及数据治理服务。算法工程方面,面向用户场景及行业痛点,协助客户为智算中心用户提供算力芯片适配服务、应用云化服务及场景解决方案打造服务。

4 效益分析

借助软通智慧灵畅算力服务体系的全方位服务保障,数字龙江智算中心建设运营至今已完成130P算力需求的签约,为现有算力规模的130%,达到上限即可满载运营。同时项目发挥智算中心平台优势,积极整合央国企资源,截至目前已与星网集团达成合作,并将科技部学术认伪大模型、组织部人才画像大模型、中国科学院紫东太初大模型等12个科研、行业大模型引入黑龙江,在全国范围首个实现大模型训练场的智算中心。

今年,三期项目计划通过产业联盟投资18亿元,提升域内算力达500P,建成数字龙江智算中心国家一体化算力网络链接卫星互联网服务网络的地基门户,形成东数西算骨干节点、天数地算的首发节点、星地融算的枢纽节点战略格局。目前,运营公司已成功完成180P算力服务协议的签约。

5 案例意义

数字龙江智算中心建设运营的成功是软通智慧灵畅算力服务体系加速人工智能大模型赋能千行百业、助力区域数字基建发展的一次成功实践。灵畅算力服务体系围绕智算中心规划、建设、运营全流程打造,覆盖了智算中心从规划设计、建设集成到运营运维各阶段客户所需的各类技术及人员服务需求。实践表明,灵畅算力服务体系为区域智算中心建设、运营提供了一套成熟、先进的技术服务标准,通过灵畅算力服务体系,可帮助智算中心实现交付标准、易于管理、性能高效、整体安全可控的建设目标,同时智算中心作为数字基建核心出现建而不用、用而不好的问题,切实帮助区域通过发展数字基建带动地方产业转型升级,进而实现地方数字经济快速发展。

作者简介:

李巍峰(1985-),浙江东阳人,现任软通智慧新算力系统部总裁,主要研究方向为人工智能、数据中心建设,带领团队在人工智能领域取得显著突破性进展,在多地实现区域级智算中心落地。

摘自《自动化博览》2024年10月刊

热点新闻

推荐产品

x
  • 在线反馈
1.我有以下需求:



2.详细的需求:
姓名:
单位:
电话:
邮件: