Toggle navigation
爱折腾的工程师
All Posts
ARCHIVE
NOTES
ABOUT
爱折腾的工程师
未来的你会感谢现在努力的自己
MindCluster 架构与实践:从 NPU 调度、故障诊断到大模型训练容错
从本地 mind-cluster 源码和 MindCluster 7.1.RC1 官方文档出发,拆解昇腾 NPU 集群的软件栈、调度闭环、故障诊断与训练容错机制
本文遍历本地 mind-cluster 代码库,并结合昇腾社区 MindCluster 7.1.RC1 官方文档,系统梳理 MindCluster 的产品定位、组件架构、NPU 调度闭环、故障诊断、资源监测、Checkpoint 加速和训练容错能力。文章包含架构图、调度流程图、源码入口、YAML 示例和实践步骤,帮助读者理解如何用 MindCluster 构建可调度、可观测、可恢复的昇腾 AI 集群。
Posted by iceyao on Thursday, April 30, 2026
Software Developer, Open Source Enthusiast
FEATURED TAGS
agent
ai
ascend
claude
claude code
devops
go
k8s
kubernetes
llm
multi-agent
openstack
python
rag
tkestack
vllm
练车