爱折腾的工程师

未来的你会感谢现在努力的自己

TKEStack tke-platform-controller健康检查

环境 tke版本: v0.12.2 现象 Cluster对象错误日志 集群HealthCheck失败,集群状态为Failed, 且不会再恢复 # kubectl --kubeconfig=/etc/tke/tke-platform-config.yaml get cluster cls-bd46179d -o yaml - lastProbeTime: "2020-09-09T11:40:27Z" lastTransitionTime:

记一次k8s cgroup内存泄露问题修复

环境 arm ubuntu平台 Kubernetes v1.14.6 Etcd 3.3.12 Docker 18.09.9 Kernel 4.4.131 现象 现象如这个issue里面所描述的https://github.com/kubernetes/kub

记一次k8s apiserver连接数过多问题排查

环境 Kubernetes v1.14.6 Etcd 3.3.12 Docker 18.09.9 现象 查看不同状态的连接数数量 # netstat -ant | awk '/^tcp/ {++y[$NF]} END {for(w in y) print w, y[w]}' LISTEN 19 ESTABLISHED 1252 TIME_WAIT 17 发现有大量的ESTABLISHED连接 查看每个ip跟se