幕后护航:中国科大超级计算中心以坚实技术保障“小龙虾”活动

发布者:杜天坦发布时间:2026-04-16浏览次数:13

3月27日和4月10日,由网络信息中心、网络安全和信息化办公室等部门联合主办的OpenClaw(“小龙虾”)第一、二期专题讲座活动顺利举行,共吸引了超过1000名师生积极参与。

在学校“小龙虾”活动举办过程中,中国科学技术大学超级计算中心(以下简称超算中心)不仅提供了前端的算力与模型服务,更在后端构建了一套高可靠、可扩展的技术支撑体系。从底层资源调度到上层服务网关,从自动化交付到全链路可观测性,超算中心技术团队以专业能力保障了活动期间云主机与大模型服务的平稳运行。

一、弹性算力池:云主机的自动化交付与生命周期管理

为满足活动期间“龙虾”实例的批量发放需求,超算中心依托“东风云”计算平台,后台实现了基于声明式API的云主机自动化调度系统。该系统具备以下关键技术能力:

  • 资源预置与弹性伸缩:提前在华为昇腾910B和其他通用GPU等异构集群中划分出200台云主机的资源池,并通过健康检查与心跳机制实时监控物理节点状态。当单台云主机负载过高或出现异常时,后台自动触发热迁移与快速重建,确保用户始终获得稳定的4核CPU、8GB内存、100GB云磁盘的计算环境。

  • 开箱即用的镜像工厂:构建了定制化的“龙虾”系统镜像,预装开发工具链、Python环境及常见科学计算库。用户通过浏览器访问时,后台在秒级内完成磁盘挂载、网络策略配置与SSH密钥注入,真正实现“即申即用、无需配置”。

  • WebSSH安全网关:摒弃传统的账号密码方式,后台采用基于统一身份认证的Token代理机制。用户登录openclaw.ustc.edu.cn后,系统自动生成一次性WebSocket隧道,通过JWT校验将用户映射至容器内的低权限用户,既保证了便捷性,又隔离了底层宿主机风险。

二、大模型服务网关:LiteLLM架构下的多模型统一调度

活动期间,用户通过llm.ustc.edu.cn统一入口调用DeepSeek V3.2、Qwen 3.5、GLM-5等多款大模型。这一能力的背后,是超算中心自主搭建的LiteLLM统一模型网关。其后台技术亮点包括:

  • 异构算力抽象层:网关将华为昇腾910B集群与其他通用GPU集群抽象为统一的推理后端,通过算子适配与显存优化,自动将不同模型的请求路由至最优算力池。例如,DeepSeek V3.2的文本生成任务优先调度至昇腾集群,而Qwen 3.5的多模态任务则分配至其他通用GPU节点。

  • 高并发请求治理:针对活动期间突发的API调用峰值,后台实现了令牌桶限流、请求排队与优雅降级策略。同时,分布式缓存层对常见提示词(prompt)的推理结果进行热点缓存,有效降低了重复计算的算力开销。

  • 全链路可观测性:技术团队部署了基于Prometheus + Grafana的监控体系,实时采集网关延迟、模型吞吐量、GPU利用率、队列长度等40余项指标,并设置智能告警规则。活动期间,后台运维人员通过统一仪表盘实现了对模型服务的无间断巡检。

三、申领平台的背后:身份同步与资源编排自动化

专用平台openclaw.ustc.edu.cn并非简单的表单页面,而是一个完整的基础设施即代码(IaC)实践:

  • 统一身份认证对接:后台通过LDAP协议与学校统一身份认证系统实时同步用户信息。当用户点击“一键申领”时,平台自动校验其身份合法性,并调用东风云API创建专属资源栈。整个过程在5秒内完成,资源分配与网络隔离策略完全由代码驱动,杜绝了手动配置的失误。

  • 资源回收与垃圾清理:活动结束后,后台将自动触发资源回收工作流,释放云主机磁盘、回收API Key权限,并清理临时日志。为防止残留数据泄露,所有云磁盘均执行多次覆写删除操作,确保用户数据安全。

  • 并发创建优化:针对短时间内大量用户同时申领的场景,后台采用消息队列削峰填谷,将创建请求异步化处理,并配合指数退避重试机制,避免了控制平面过载。

四、协同运维:多方保障下的稳定运行

本次活动的后台技术保障工作,由超算中心王硕、张运动、沈瑜三位老师统一设计讨论、调度协调、运行保障等,同时也离不开校内外合作伙伴的紧密协作:

  • 中国科大计算机学院王永福同学深度参与了LiteLLM网关的部署调优与昇腾910B的算子适配工作;

  • 合肥城市云数据中心股份有限公司提供了云主机底层的分布式存储与SDN网络支持;

  • 华为技术有限公司在昇腾集群的驱动优化与模型转换工具链上给予了关键支撑;

  • 润宇科技有限公司协助完成了大模型公共服务平台的日志审计与安全加固。


正是这些后台技术团队“看不见”的努力,使得“小龙虾”活动得以在零故障、零中断的情况下圆满举行。中国科大超算中心将以此次活动为契机,持续打磨“算力+模型+平台”的一体化基础设施能力,为全校师生的智慧校园AI创新实践提供更坚实、更智能的后台技术底座。


中国科学技术大学超级计算中心