爱折腾的工程师

未来的你会感谢现在努力的自己

MindCluster 架构与实践：从 NPU 调度、故障诊断到大模型训练容错

从本地 mind-cluster 源码和 MindCluster 7.1.RC1 官方文档出发，拆解昇腾 NPU 集群的软件栈、调度闭环、故障诊断与训练容错机制

本文遍历本地 mind-cluster 代码库，并结合昇腾社区 MindCluster 7.1.RC1 官方文档，系统梳理 MindCluster 的产品定位、组件架构、NPU 调度闭环、故障诊断、资源监测、Checkpoint 加速和训练容错能力。文章包含架构图、调度流程图、源码入口、YAML 示例和实践步骤，帮助读者理解如何用 MindCluster 构建可调度、可观测、可恢复的昇腾 AI 集群。

Posted by iceyao on Thursday, April 30, 2026

vLLM-Ascend 多机推理HCCL通信原理深度解析

从 vLLM-Ascend DeepSeek-V3.2 多机部署出发，深入解析 HCCL 初始化、通信组构建与跨节点张量传输机制

基于 vLLM-Ascend DeepSeek-V3.2 多机推理教程，系统分析 HCCL 在 Ascend 多机多卡推理中的初始化流程、Rank 与通信组建模、TP/DP/EP 并行下的通信拓扑，以及跨节点张量传输的底层数据流。文章包含多张架构图和流程图，帮助理解 vLLM-Ascend 如何通过 HCCL、Gloo、DP RPC 与 NPU 网络协同支撑大模型多机推理。

Posted by iceyao on Wednesday, April 29, 2026

HAMi vGPU学习笔记

HAMi vGPU学习笔记

Posted by iceyao on Wednesday, December 11, 2024

TKEStack gpu-manager源码阅读笔记

环境系统：CentOS 7 kernel: 3.10.0-862.el7.x86_64 Kubernetes: v1.19.3 gpu-manager简介 GPU Manager用于管理Kubernetes集群中的nvidia GPU设备。它实现

Posted by 爱折腾的工程师 on Sunday, November 15, 2020

K8S device plugin学习笔记

环境系统：CentOS 7 kernel: 3.10.0-862.el7.x86_64 Kubernetes: v1.19.3 安装K8s CentOS 7安装K8S Ubuntu 20安装K8S k8s device plugin device plugin简介 Kubernetes在v1.10版本引入了f

Posted by 爱折腾的工程师 on Wednesday, November 11, 2020