爱折腾的工程师

未来的你会感谢现在努力的自己

MindCluster 架构与实践:从 NPU 调度、故障诊断到大模型训练容错

从本地 mind-cluster 源码和 MindCluster 7.1.RC1 官方文档出发,拆解昇腾 NPU 集群的软件栈、调度闭环、故障诊断与训练容错机制

本文遍历本地 mind-cluster 代码库,并结合昇腾社区 MindCluster 7.1.RC1 官方文档,系统梳理 MindCluster 的产品定位、组件架构、NPU 调度闭环、故障诊断、资源监测、Checkpoint 加速和训练容错能力。文章包含架构图、调度流程图、源码入口、YAML 示例和实践步骤,帮助读者理解如何用 MindCluster 构建可调度、可观测、可恢复的昇腾 AI 集群。

Virtual Kubelet 源码深度解析:分布式高可用架构全面剖析

深入 Virtual Kubelet 源码,剖析其如何通过 Lease 心跳、三路合并、双控制器架构和多级重试实现分布式高可用

从源码层面全面拆解 Virtual Kubelet 的核心架构,包括 NodeController、PodController、Lease 心跳机制、三路合并策略、Ping 健康检测、Pod 同步循环和多级错误恢复机制,帮助你理解这个将 Kubernetes API 延伸到任意计算平台的开源项目如何实现高可用。

HAMi vGPU学习笔记

HAMi vGPU学习笔记

kubeadm + containerd部署k8s v1.27.1

kubeadm + containerd部署k8s v1.27.1

一文读懂集群全生命周期管理

1. 集群全生命周期管理简介 集群全生命周期管理,包括集群的部署、更新、升级,以及后期集群的扩容/缩容等操作。传统模式下的集群全生命周期管理大多数