专题出品人: 曲显平

百度 智能运维负责人

专题:智能运维/SRE

随着服务器以及应用规模的扩张,传统的运维方式越来越难以满足业务的要求。从工具化,到自动化,再到智能化,运维的方式在不断进步。本专题和专家一起探索智能运维的实践之路。

本专题下的议题

百度智能化运维演进之路
曲显平 百度 智能运维负责人
所属专题:智能运维/SRE

课程概要

案例背景介绍:
百度从2014年就开始了智能化运维体系建设,是最早一批探索该方向的公司,通过将自身领先的AI技术与运维技术相结合,通过智能故障感知、智能决策自愈、智能变更发布、智能容量管理、智能客服等手段,把AIOps在资源管理、故障管理、变更管理、服务咨询等领域全面落地,在保障业务的高可用、低成本、高效率等各层面发挥了至关重要的作用。

解决思路/成功要点:
本次演讲将会分享百度运维体系的发展历程,介绍百度全面构建智能运维体系的方法论和最佳实践,也会探讨百度对于未来运维发展趋势的思考。

听众收益

1.百度运维体系发展历程;
2.百度构建智能运维体系的方法论;
3.AIOps在百度各场景落地的最佳实践;
4.未来运维发展趋势展望。

阿里巴巴立体化智能监控策略的探索和实践
张译尹 阿里巴巴 全球运行指挥中心 高级算法工程师
所属专题:智能运维/SRE

课程概要

【案例背景介绍】
阿里巴巴集团在业务规模不断扩大、业务形态不断变化的背景下,为了保证业务的稳定运行和故障的快速恢复,我们需要通过更加智能化的手段来支持和管理应急预警、故障发现、故障分析、故障恢复等一系列故障处理过程。同时,在重保阿里安全生产的驱动下,我们也积极探索了一些有别于传统监控的新场景,通过立体化智能监控策略来提升业务监控的质量和效率,拓展了传统监控的应用场景。

【解决思路/成功要点】
 增强版的业务监控算法策略:该策略覆盖了阿里巴巴集团业务监控黄金指标,通过基于深度学习的监控指标路由模块、统计/机器学习算法来进行异常检测,并采取开放参数来贴近业务所需。
 应用监控层面的智能化监控策略:该策略覆盖了阿里巴巴应用监控指标,通过综合多个指标和固定阈值量化获得当前应用的健康分,召回线上应用容量水位异常。
 面向千万级系统指标的无阈值的智能监控策略:该策略覆盖了阿里巴巴集团海量系统基础指标,结合极值理论自适应学习波形特征,提供免人工维护的无阈值异常检测能力。
 多指标异常波动相关性分析策略: 该策略能够自动发现监控指标间的异常波动关联程度并引入聚类算法挖掘多监控指标异常波动相关关系(与清华裴丹老师团队合作成果),助力海量指标异常报警收敛。

【成果】
立体化智能监控算法策略的准确率、召回率双双85%+,并已经集成在阿里巴巴集团多个业务部门的运维平台中。

听众收益

在本次分享中,我们希望能够从增强版的业务监控算法策略、智能化的应用/系统监控策略、多指标异常波动相关性分析等几个层面来介绍我们在智能监控领域的新场景探索,希望能够给听众在智能运维理念在实际业务落地的过程中以指引和帮助。

大型监控系统设计与应用实践
郑永宽 京东云 产品研发部总监
所属专题:智能运维/SRE

课程概要

【案例背景介绍】
1、监控遗漏频发,导致后于用户发现问题
2、报警泛滥,导致运维人员受干扰验证,同时容易遗漏关键报警
3、问题定位困难,止损准备不足,导致MTTR长

【解决思路/成功要点】
1、丰富数据采集手段
2、高可用监控系统设计
3、统一监控标准与模型
4、监控打分与配置推荐

【成果】
监控系统的设计与应用,应该以保障业务稳定性为前提。监控的实践,是一个追求卓越的过程

听众收益

1、了解企业级监控难点于对应的解决方案
2、作为监控系统开发者,了解大型监控系统设计的关键问题
3、作为企业运维人员,了解监控实践方法论,了解监控如何加"全"的问题,从而能够确保及时发现问题,进一步快速定位故障,结合预案解决问题

微博Kubernetes实践经验分享
彭涛 新浪微博 架构师
所属专题:智能运维/SRE

课程概要

案例背景介绍:
Kubernetes是PaaS层的事实标准。但是在实际的企业需求面前有着诸多问题,例如网络方案适用性不足(vxlan-flannel/bgp-calico),计算、存储、网络的隔离欠少(swap,带宽,本地硬盘)滚动发布上游负载变更频繁(不支持In-place rolling updates)、调度的维度粗(初筛维度少,机房就近调度、库存管理、IP提前锁定)等问题。微博在2019年基于Kubernetes的开发了PaaS平台,春晚实现部分核心业务混合部署与弹性伸缩。结合这部分的实践经验-虚拟化网络、调度管理、资源隔离、CI/CD之滚动发布、负载均衡管理、模块化运维、监控系统等。来阐述下Kubernetes如何在企业内部落地,以及踩过的坑

解决思路/成功要点:
微博核心业务容器弹性扩缩容平台+Kubernetes架构实践; 虚拟化网络; 资源隔离; 弹性调度; 滚动发布; 模块化运维;

成果:
微博核心业务容器弹性扩缩容平台+Kubernetes架构实践; 虚拟化网络; 资源隔离; 弹性调度; 滚动发布; 模块化运维;

听众收益

了解Kubernetes 原生的功能在企业落地过程中的不适用之处; 了解相应的技术架构及难点。

2009年从复旦大学毕业加入百度,先后负责百度监控平台、部署平台、名字服务等,构建了百度统一的自动化运维平台。2013年后,主要从事大数据运维和智能运维相关研究工作,主导研发了百度运维知识库、智能监控平台、运维机器人框架、智能故障自愈平台等,将BigData和AI能力融入运维过程,提升运维效率,降低运营成本,保障业务可用性和用户体验。目前是百度自动化运维平台和智能运维方向负责人,致力于百度运维智能化和百度云智能运维产品的研发,其所带领的团队在相关领域顶级会议(SIGCOMM、INFOCOM、SIGMETRICS、CoNEXT、LISA、SREcon等)发表多篇重量级论文和演讲。

专题:智能运维/SRE

随着服务器以及应用规模的扩张,传统的运维方式越来越难以满足业务的要求。从工具化,到自动化,再到智能化,运维的方式在不断进步。本专题和专家一起探索智能运维的实践之路。

其他相关专题

CopyRight © 2008-2019 Msup & 高可用架构