专题出品人: 杨锦涛(Osier Yang)

腾讯科技 专家工程师

专题:智能运维

随着大数据、人工智能、云计算技术的日渐成熟和飞速发展,传统的运维技术和解决方案已经不能满足需求,智能运维已成为运维的热点领域。如何利用AI提升运维的能力和效率,是保障业务高可用所面临的最大挑战。

本专题下的议题

大规模网络诊断系统
杨锦涛(Osier Yang) 腾讯科技 专家工程师
所属专题:智能运维

课程概要

伴随着云计算的高速发展,网络作为云计算的最重要的基础设施之一,其重要性也越来越凸显,规模也越来越大,架构也更加的复杂。然而网络问题的诊断技术和工具仍然停留在单机时代。如何在大规模网络环境快速诊断问题便成为了一个值得探讨的课题。

听众收益

交流和思考业界如何在大规模网络环境中做网络问题的诊断、预测、分析。

百度金融行业AIOps解决方案
王博 百度 基础架构部高级架构师
所属专题:智能运维

课程概要

对于金融行业来说故障会导致直接的资金损失,所以运维工程师投入了大量的时间和精力在监控系统,尽可能加快故障恢复甚至避免故障发生。如何利用好海量的监控数据是一个值得思考的问题。究竟哪些指标需要监控,应该应用何种异常检测算法,如何减少配置成本;如何缩短诊断时间;如何进行故障预警。
本次演讲,我们结合互联网行业过去故障处理、故障预警、故障巡检等场景的经验,介绍我们在金融行业的AIOps解决方案方面的思考,帮助运维工程师快速“救火”,并在考虑如何“防火”,希望与大家一起探讨。

听众收益

1. 百度智能运维发展历史和思路
2. 百度证券AIOps解决方案(故障管理场景)
3. 百度内外落地效果和案例

腾讯会议如何在云上高速增长
周小军 腾讯科技 云服务平台技术服务专家
所属专题:智能运维

课程概要

案例背景:
业务在公有云上快速扩展的挑战

解决思路:
借助公有云平台,完成业务的全国几大区部署;通过云原生帮助业务版本高效迭代;通过质量优化提升用户体验。

成果:
技术团队对服务的架构、承载能力做了优化,同时腾挪腾讯云全国资源进行多次扩容。日均扩容云主机近1.5万台,8天总共扩容超过10万台云主机,涉及超百万核的计算资源投入。强大的云资源保障下,会议完美的扛住了全国用户的访问请求。在线用户天天攀升,稳健地顶住了多次的流量高峰。

听众收益

基于公有云的SaaS产品,凭借强大的公有云架构,从最早的广州云,快速扩容到全国几大区域的SET,用户量从春节前的几十万在线增长到数千万在线。

通过腾讯云后端IaaS、云PaaS运维服务支持,高效的支撑了海量流量的服务保障。

通过业务和系统的可观测性,及时掌握业务和系统瓶颈,快速定位问题,及时优化,保证了业务的高可用性。

业务的春节云上成长经验,可以给更多的,通过公有云高速成长的业务参考借鉴。

曾在 Red Hat Cloud BU 从事虚拟化研发,在青云QingCloud 担任存储产品线 QingStor 研发总监。虚拟化核心开源项目 libvirt 项目的前 Committer,对 Open Source、Linux Kernel、虚拟化、分布式存储、IaaS、物联网等领域有深入研究和理解。当前专注于网络工程及大规模虚拟网络的研究。

专题:智能运维

随着大数据、人工智能、云计算技术的日渐成熟和飞速发展,传统的运维技术和解决方案已经不能满足需求,智能运维已成为运维的热点领域。如何利用AI提升运维的能力和效率,是保障业务高可用所面临的最大挑战。

其他相关专题

CopyRight © 2008-2020 Msup & 高可用架构

京ICP备09001521号