上海智能计算系统工程技术研究中心
上海智能计算系统工程技术研究中心 主视觉
上海科技节:超智融合异构算力平台试用
工程中心简介

上海智能计算系统工程技术研究中心依托上海大学,联合上海超级计算中心,于2019年经上海市科委正式批复成立。中心紧扣国家与上海市重大战略需求,致力于智能计算创新平台建设与关键共性技术攻关。其前身为上海大学高效能计算中心,历经二十余年建设与运营,现已形成超智融合异构算力调度、边缘智能计算、国产芯片测试与标准化三大核心研究方向,并构建了独具特色的产学研协同育人模式。共建单位上海超级计算中心历经三十余年发展积淀,为上海经济建设与社会发展提供了关键算力支撑,形成了高性能计算与智能计算平台规划、建设、管理及运营的核心能力与专业技术团队,具备完善的平台全生命周期运维及行业解决方案输出能力。自中心筹备与获批建设以来,上海大学与上海超级计算中心秉持优势互补、协同创新原则,围绕智能计算系统共性技术研发与智能应用基础研究两大主线,在行业解决方案输出、系统级方案研制、标准制定、人才实训培养及科普宣传推广等方面开展了一系列务实合作与成果转化。

超智融合异构算力平台

该平台以工程中心自主研发的超算智算融合异构算力调度技术为核心支撑,基于 Kubernetes 实现容器化资源统一管理,构建多租户资源队列与智能调度机制,支持用户按需申请 GPU 容器,并根据算力负载与任务特性智能优化部署策略,显著提升智算中心整体资源利用率。平台深度适配OpenKylin国产操作系统与上海超级计算中心华为昇腾GPU,有力推动国产信创环境与自主可控智算芯片的落地应用。

该平台已成为上海大学人工智能基础课教学实训平台,面向全校师生提供一站式人工智能模型训练、推理、测试与部署服务,年均服务规模达 5000 人。平台支持学生在浏览器中直接开展 AI 模型开发,无需手动配置环境,大幅降低人工智能实践学习门槛。相关成果已形成一套完整的人工智能教育行业解决方案,在算力虚拟化、实训平台建设、AI普及教育等方面树立了可复制、可推广的标杆示范。

项目介绍配图
技术介绍
01 异构算力统一纳管技术
完善 CPU 虚拟化与 GPU 透传、虚拟化相结合的资源纳管方式,实现多容器、多实例安全共享的全精度覆盖异构算力,保障算力细粒度分配与高效使用。
02 容器-集群一体化运行技术
将作业拆分为任务构成的有向图,并将任务封装为容器,通过任务智能调度与模型预加载耦合的资源编排机制,提升集群资源使用率、提高系统吞吐、降低响应时延。
03 超智融合算力调度技术
打破超算/智算壁垒,实现多元异构算力统一调度,针对复杂计算作业定制面向不同服务等级目标(SLO)的智能调度策略,完成计算任务与算力资源的精确匹配。
理论成果
01 在线调度框架
针对 Hadoop YARN、Kubernetes 分布式资源管理平台,通过优化 JVM 及容器的部署位置与执行顺序,最小化作业等待耗时,提升集群资源利用效率。

[1] Liu Y, Xu H, Lau W C. Online job scheduling with resource packing on a cluster of heterogeneous servers[C]//IEEE INFOCOM 2019-IEEE Conference on Computer Communications. IEEE, 2019: 1441-1449.

02 重复作业优化
针对重复提交的作业,依托历史运行特征自动拆解为细粒度子任务;通过动态调优子任务的 CPU、GPU、内存等计算资源配置,在保障业务 QoS 约束的前提下,最小化作业整体资源开销。

[2] Liu Y, Xu H, Lau W C. Cloud configuration optimization for recurring batch-processing applications[J]. IEEE Transactions on Parallel and Distributed Systems, 2023, 34(5): 1495-1507.

03 自动弹性扩缩容
通过对集群工作负载进行时序预测,并预估不同负载工况下各类计算资源的服务质量表现,实现应用算力资源实时调优,进而最大化集群资源利用率,降低业务运行成本。

[3] Liu Y, Xu H, Lau W C. Online resource optimization for elastic stream processing with regret guarantee[C]//Proceedings of the 51st International Conference on Parallel Processing. 2022: 1-11.