故障注入是一种模拟故障的技术,用于测试系统在各种异常情况下的反应和恢复能力。Chaos Blade 是阿里巴巴开源的混沌工程工具,用于在云原生环境中进行故障注入。它支持多种故障类型,包括主机、网络、应用和 Kubernetes 资源等。

本篇第一部分,我们手动执行故障注入,可以直接进行手动可靠性测试,后面再或通过python、java等将可靠性用例制自动化。

1. Chaos Blade下载,安装

wget https://github.com/chaosblade-io/chaosblade/releases/download/v1.0.0/chaosblade-1.0.0-linux-amd64.tar.gz

tar -zxvf chaosblade-1.0.0-linux-amd64.tar.gz

sudo mv blade /usr/local/bin/

# 验证安装

blade -h

2. 使用Chaos Blade手动注入故障

1. 主机级故障注入

# CPU 压力测试:模拟 CPU 高负载情况
blade create cpu fullload --cpu-percent 80 --timeout 60


# 内存压力测试:模拟内存高占用情况
blade create mem load --mem-percent 80 --timeout 60

# 磁盘 I/O 压力测试
blade create disk burn --read --path / --timeout 60

2. 网络级故障注入

# 在指定的网络接口上注入网络延迟
blade create network delay --interface eth0 --time 3000 --timeout 60

# 在指定的网络接口上注入网络丢包
blade create network loss --interface eth0 --percent 50 --timeout 60

# 在指定的网络接口上限制网络带宽
blade create network loss --interface eth0 --rate 1000kbit --timeout 60

3. k8s资源故障注入

# 随机删除一个 Pod
blade create k8s pod --namespace default --labels app=myapp --timeout 60

# 对 Pod 网络注入延迟
blade create k8s network delay --namespace default --labels app=myapp --interface eth0 --time 3000 --timeout 60

4. 故障状态查看、故障取消

blade status

blade destroy <experiment-id>

5. 通过yaml方法进行故障注入:安装 Chaos Blade Operator,这样可以通过 YAML 文件来管理故障注入实验。