nh1

AI驱动运维变革,华为云携手生态伙伴共筑智能运维新生态

栏目:行业   作者:司马穰苴    发布时间:2025-11-03 11:05   阅读量:5796   会员投稿

随着上云成为标配,行业进入“管好云、用好云”的价值深水区,AI创新的兴起为企业带来了智能化管云和用云的新机遇。

10月31日,华为云联创营与维享会联合推出的云上综合治理研讨班在深圳圆满落幕。活动聚焦AI技术在运维领域的深度应用与行业实践,邀请技术专家、生态伙伴及行业客户,共同探索智能运维在数智化时代的升级新路径。

CloudScope智能运维平台打造高效、智能的确定性运维新范式

会上,华为云智能运维主任工程师以“华为云基于大小模型的AI运维实践”为主题展开分享。他表示,企业加速拥抱智能化转型过程中,常面临“数据孤岛、处理迟滞、决策低效”的云系统运维挑战。华为云在AIOPS道路上不断探索,从传统算法到算法与经验融合,最终演进为LLM+AI Agent+运维专业小模型算法深度融合,实现全栈智能运维,决策流程智能化,数量级提高运维人效。

分享中,他还介绍了华为云CloudScope智能运维平台。面向故障生命周期,该平台打造从故障预知、发现、定界、定位、回溯和改进全流程上的智能可观测能力,支持时序检测/预测、千万级日志聚类、云原生和泛网络故障根因快速诊断,实现重点服务监控发现率提升至9X%,故障分钟级定位;运维Agent帮助用户秒级查询故障信息、获取诊断结果,故障处置效率提升9X%。这种故障"感知-决策-执行"的智能闭环,正帮助企业在AI驱动的实时化、智能化运维时代,实现系统稳定性与运营效率的指数级跃升。

华为云智能运维主任工程师 吕晨阳

这一演进路径在生态伙伴的实践中得到了充分验证。云智慧解决方案高级架构师陈海文表示,传统人工排障模式人员分散、工具分散、数据分散,故障诊断环节占MTTR主要耗时。云智慧携手华为云打造AI Agent排障产品Castrel AI,通过重构“人+AI+工具”关系,实现排障路径自动规划、线索推理与证据收集。在某城商行案例中,Castrel AI将MTTR耗时从超60分钟缩短至15分钟以内,定位准确率突破75%,综合排障效率提升40%。

云智慧解决方案高级架构师 陈海文

可观测平台+云上护航:构建业务双重保障体系

在夯实智能运维基础能力的同时,可观测性的全域覆盖与主动护航的实时响应,成为确保业务连续性的重要保障。

华为云应用运维高级产品经理表示,GenAI催生了全新的软件形态与开发范式,运维可观测正向智能化演进。面对AI应用带来的超大规模和复杂度,统一可观测与智能运维成为AI时代的必然选择。华为云基于AOM/LTS/APM提供智能统一可观测平台,打造业务层指标、应用层指标、中间件层指标、基础设施层四层指标体系,提供指标、日志、调用链三类数据关联分析、根因分析、场景化分析等可观测分析能力。该平台具备全栈可观测、数据关联分析、端到云全链路追踪、高性价比等核心优势。在某金融客户案例中,华为云帮助客户实现统一可观测平台建设,综合成本降低超40%。

华为云应用运维高级产品经理 杨志伟

智能驱动护航千行万业云上业务稳定运行

会上,华为云云上保障护航产品经理围绕“某国内超大规模交通平台云上保障护航案例”展开实践分享。在2025年春运期间,某国内超大规模交通平台面临着春节客流高峰流量激增、安全攻击等多重挑战,业务稳定性存在严峻风险。为此,华为云提供定制化的云上保障护航解决方案,通过风险分析、监控优化、安全防护、7*24小时全链路支撑等措施,为该平台在春运期间的业务高稳运行,提供了坚实可靠的服务保障。

他介绍到,华为云的云上保障护航服务在千行万业(如电商、互联网、媒体、仓储、物流、制造业、金融、汽车、政府等)展现出了强大的适应性和高效的保障能力,客户对华为云的服务质量给予了高度认可。数字化时代,用云是趋势,但“用好云”才是关键,华为云凭借云上保障护航服务,不仅帮助企业突破用云难题,更以稳定、安全、合规的云环境,为企业的数字化转型保驾护航。

华为云云上保障护航产品经理 谢文敏

游戏AI场景实践,打造全球化智能运维体系

智能运维体系的价值在全球化、高并发业务场景中也得以应用。超参数科技AI项目运维负责人李秋源从游戏AI厂商视角分享了全球化运维经验,其Game Agent服务覆盖全球65个国家与地区,年累计服务用户31.5亿,峰值并发数突破300万。

超参数科技AI项目运维负责人 李秋源

李秋源表示,超参数科技提供全球化的部署与服务。在网络方面,公网采用华为云独享型ELB+独享带宽、内网采用ER+ipsec VPN连接,构建全球高速网络互通,实现平均延时低于30ms,平均丢包率低于万分之三。在算力方面,基于华为云CCE/CCE-Turbo集群实现业务容器化改造,通过HPA+弹性伸缩,包年包月机型和按量计费机型合理配比,精准控制成本,同时通过xDS自动配置AI服务pod权重,实现流量合理分发;在部署方面,基于Terraform研发,自研POS资源编排平台,实现任意地区集群+网络服务的标准化、敏捷化编排;在监控/日志方面,借助华为云全球多地区资源,部署vm边缘集群,提升监控数据写入效率,并将全球监控数据汇总至中心节点,构建起统一的全球监控视图。

从技术架构创新到行业实践深耕,华为云正构建完整的智能运维生态系统。截至目前,华为云已积累超10年技术保障经验,完成2000+次保障护航,保障成功率100%。未来,随着AI技术的持续演进,华为云将持续深化AI技术在运维领域的应用,携手合作伙伴共同推进运维自动化、智能化升级,为数智时代构建更稳定、安全、合规的云环境,助力千行万业转型发展。

ad