专题出品人: 曲显平

百度 智能运维负责人

专题:智能运维/SRE

随着服务器以及应用规模的扩张,传统的运维方式越来越难以满足业务的要求。从工具化,到自动化,再到智能化,运维的方式在不断进步。本专题和专家一起探索智能运维的实践之路。

本专题下的议题

百度智能化运维演进之路
曲显平 百度 智能运维负责人
所属专题:智能运维/SRE

课程概要

案例背景介绍:
百度从2014年就开始了智能化运维体系建设,是最早一批探索该方向的公司,通过将自身领先的AI技术与运维技术相结合,通过智能故障感知、智能决策自愈、智能变更发布、智能容量管理、智能客服等手段,把AIOps在资源管理、故障管理、变更管理、服务咨询等领域全面落地,在保障业务的高可用、低成本、高效率等各层面发挥了至关重要的作用。

解决思路/成功要点:
本次演讲将会分享百度运维体系的发展历程,介绍百度全面构建智能运维体系的方法论和最佳实践,也会探讨百度对于未来运维发展趋势的思考。

听众收益

1.百度运维体系发展历程;
2.百度构建智能运维体系的方法论;
3.AIOps在百度各场景落地的最佳实践;
4.未来运维发展趋势展望。

阿里巴巴立体化智能监控策略的探索和实践
张译尹 阿里巴巴 全球运行指挥中心 高级算法工程师
所属专题:智能运维/SRE

课程概要

【案例背景介绍】
阿里巴巴集团在业务规模不断扩大、业务形态不断变化的背景下,为了保证业务的稳定运行和故障的快速恢复,我们需要通过更加智能化的手段来支持和管理应急预警、故障发现、故障分析、故障恢复等一系列故障处理过程。同时,在重保阿里安全生产的驱动下,我们也积极探索了一些有别于传统监控的新场景,通过立体化智能监控策略来提升业务监控的质量和效率,拓展了传统监控的应用场景。

【解决思路/成功要点】
 增强版的业务监控算法策略:该策略覆盖了阿里巴巴集团业务监控黄金指标,通过基于深度学习的监控指标路由模块、统计/机器学习算法来进行异常检测,并采取开放参数来贴近业务所需。
 应用监控层面的智能化监控策略:该策略覆盖了阿里巴巴应用监控指标,通过综合多个指标和固定阈值量化获得当前应用的健康分,召回线上应用容量水位异常。
 面向千万级系统指标的无阈值的智能监控策略:该策略覆盖了阿里巴巴集团海量系统基础指标,结合极值理论自适应学习波形特征,提供免人工维护的无阈值异常检测能力。
 多指标异常波动相关性分析策略: 该策略能够自动发现监控指标间的异常波动关联程度并引入聚类算法挖掘多监控指标异常波动相关关系(与清华裴丹老师团队合作成果),助力海量指标异常报警收敛。

【成果】
立体化智能监控算法策略的准确率、召回率双双85%+,并已经集成在阿里巴巴集团多个业务部门的运维平台中。

听众收益

在本次分享中,我们希望能够从增强版的业务监控算法策略、智能化的应用/系统监控策略、多指标异常波动相关性分析等几个层面来介绍我们在智能监控领域的新场景探索,希望能够给听众在智能运维理念在实际业务落地的过程中以指引和帮助。

大型监控系统设计与应用实践
郑永宽 京东云 产品研发部总监
所属专题:智能运维/SRE

课程概要

【案例背景介绍】
1、监控遗漏频发,导致后于用户发现问题
2、报警泛滥,导致运维人员受干扰验证,同时容易遗漏关键报警
3、问题定位困难,止损准备不足,导致MTTR长

【解决思路/成功要点】
1、丰富数据采集手段
2、高可用监控系统设计
3、统一监控标准与模型
4、监控打分与配置推荐

【成果】
监控系统的设计与应用,应该以保障业务稳定性为前提。监控的实践,是一个追求卓越的过程

听众收益

1、了解企业级监控难点于对应的解决方案
2、作为监控系统开发者,了解大型监控系统设计的关键问题
3、作为企业运维人员,了解监控实践方法论,了解监控如何加"全"的问题,从而能够确保及时发现问题,进一步快速定位故障,结合预案解决问题

LinkedAIOps根因溯源互联网落地案例分享
朱颖航 Linkedsee灵犀 AIOps平台事业部 Linkedsee灵犀合伙人
所属专题:智能运维/SRE

课程概要

【案例背景介绍】
经过长时间的客户调研和分析,当前互联网行业IT运维中存在着如下痛点:
1. 监控系统建设不完整:在出现问题时,现有的监控系统无法提供足够的排查问题的监控数据信息,很多监控点是在故障出现之后延迟补齐;
2. 告警噪声过多,散落在各个监控系统中:已有的告警信息包含大量的噪声,给日常的运维工作带来较大的负担,在出现故障时告警信息散落在各个监控系统中,需要通过专家在不同的监控系统之间人工进行整合,解决问题的速度受限于专家的知识和能力,处理效率有待提升;
3. 组织绩效和单点依赖的问题冲突问题:专家知识经验可以在问题排障的过程中发挥其价值,但专家本身的流动性会带来组织绩效和运维水平/能力波动的问题,需要寻求一种新的方式解决此二者的冲突。

【解决思路/成功要点】
基于运维大数据和人工智能技术,运用多种机器学习算法,在故障产生时通过指标异常检测、日志异常检测等算法及时感知故障,同时通过告警聚类、根因推荐、关联数据排查等快速定位故障,帮助企业解决运维故障管理中耗时较长(发现-定位)的问题,从而降低MTTR提升SLA 。

【成果】
目前本产品已经在互联网和银行业有了实际落地的案例,本次分享集中在互联网行业

听众收益

1.了解AIOps当前行业发展的现状和进展;
2. 了解Linkedaiops根因溯源产品逻辑;
3. 了解根因溯源实现的核心算法模型

2009年从复旦大学毕业加入百度,先后负责百度监控平台、部署平台、名字服务等,构建了百度统一的自动化运维平台。2013年后,主要从事大数据运维和智能运维相关研究工作,主导研发了百度运维知识库、智能监控平台、运维机器人框架、智能故障自愈平台等,将BigData和AI能力融入运维过程,提升运维效率,降低运营成本,保障业务可用性和用户体验。目前是百度自动化运维平台和智能运维方向负责人,致力于百度运维智能化和百度云智能运维产品的研发,其所带领的团队在相关领域顶级会议(SIGCOMM、INFOCOM、SIGMETRICS、CoNEXT、LISA、SREcon等)发表多篇重量级论文和演讲。

专题:智能运维/SRE

随着服务器以及应用规模的扩张,传统的运维方式越来越难以满足业务的要求。从工具化,到自动化,再到智能化,运维的方式在不断进步。本专题和专家一起探索智能运维的实践之路。

其他相关专题

CopyRight © 2008-2019 Msup & 高可用架构