分布式服务下的混沌工程实践

案例来源:阿里巴巴
会议地点:深圳
分享时间: 2019-06-22 11:00-12:00

肖长军  |

阿里巴巴 高可用架构部门高级开发工程师

花名穹谷,阿里巴巴高可用架构部门高级开发工程师,多年分布式服务、应用性能监控和混沌工程领域研发经验。ChaosBlade 开源项目负责人,阿里云产品 AHAS 核心开发,故障演练平台 MonkeyKing 核心开发。

课程概要

背景介绍:
在微服务系统的大环境下,系统间的依赖已日益复杂,可能没有人能说清单个故障发生对整个系统的影响。传统的测试更多的是验证各个服务的功能和性能瓶颈,但单个微服务故障可能会影响整个服务不可用,减少故障的最好方法就是让问题经常性的发生。所以落地混沌工程,在可控范围或环境下,通过不断重复失败过程,持续提升分布式系统的容错和弹性能力。

解决思路/成功要点:
1.快速有效的搭建一个混沌实验平台
2.梳理核心链路服务
3.确定服务的稳态、自动容错方案和预期业务影响
4.修复发现的问题,持续演练
5.组织演练突袭,做到以战养战

成果:
通过混沌工程,提升了主链路服务的容错能力,改善了监控的有效性以及锻炼了相关人员定位与解决问题的应急能力,并沉淀出一套混沌工程工具 chaosblade,服务于混沌工程社区,同时依靠社区的力量完善更多的混沌实验场景,共同推进混沌工程领域的发展。

听众收益

1.了解混沌工程是什么
2.了解分布式服务下,混沌工程的价值
3.企业中该如何开展混沌工程

肖长军  |

阿里巴巴
高可用架构部门高级开发工程师

花名穹谷,阿里巴巴高可用架构部门高级开发工程师,多年分布式服务、应用性能监控和混沌工程领域研发经验。ChaosBlade 开源项目负责人,阿里云产品 AHAS 核心开发,故障演练平台 MonkeyKing 核心开发。

课程概要

背景介绍:
在微服务系统的大环境下,系统间的依赖已日益复杂,可能没有人能说清单个故障发生对整个系统的影响。传统的测试更多的是验证各个服务的功能和性能瓶颈,但单个微服务故障可能会影响整个服务不可用,减少故障的最好方法就是让问题经常性的发生。所以落地混沌工程,在可控范围或环境下,通过不断重复失败过程,持续提升分布式系统的容错和弹性能力。

解决思路/成功要点:
1.快速有效的搭建一个混沌实验平台
2.梳理核心链路服务
3.确定服务的稳态、自动容错方案和预期业务影响
4.修复发现的问题,持续演练
5.组织演练突袭,做到以战养战

成果:
通过混沌工程,提升了主链路服务的容错能力,改善了监控的有效性以及锻炼了相关人员定位与解决问题的应急能力,并沉淀出一套混沌工程工具 chaosblade,服务于混沌工程社区,同时依靠社区的力量完善更多的混沌实验场景,共同推进混沌工程领域的发展。

听众收益

1.了解混沌工程是什么
2.了解分布式服务下,混沌工程的价值
3.企业中该如何开展混沌工程

CopyRight © 2008-2019 Msup & 高可用架构