<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>GPU/NPU on 爱折腾的工程师</title>
    <link>https://www.iceyao.com.cn/tags/gpu/npu/</link>
    <description>Recent content in GPU/NPU on 爱折腾的工程师</description>
    <generator>Hugo</generator>
    <language>en-us</language>
    <lastBuildDate>Thu, 30 Apr 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://www.iceyao.com.cn/tags/gpu/npu/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>MindCluster 架构与实践：从 NPU 调度、故障诊断到大模型训练容错</title>
      <link>https://www.iceyao.com.cn/2026/04/30/mindcluster-architecture-and-practice/</link>
      <pubDate>Thu, 30 Apr 2026 00:00:00 +0000</pubDate>
      <guid>https://www.iceyao.com.cn/2026/04/30/mindcluster-architecture-and-practice/</guid>
      <description>一、为什么需要 MindCluster：NPU 集群不是“多装几个驱动” 在单机单卡时代，AI 基础设施的复杂度通常集中在驱动、框架和模型代码上；到</description>
    </item>
    <item>
      <title>vLLM-Ascend 多机推理HCCL通信原理深度解析</title>
      <link>https://www.iceyao.com.cn/2026/04/29/vllm-ascend-hccl-multinode-inference/</link>
      <pubDate>Wed, 29 Apr 2026 00:00:00 +0000</pubDate>
      <guid>https://www.iceyao.com.cn/2026/04/29/vllm-ascend-hccl-multinode-inference/</guid>
      <description>一、引言：多机推理真正难的不是“启动多个进程” 参考文档：DeepSeek-V3.2 — vllm-ascend vLLM-Ascend 的 DeepSeek-V3.2 教程给出了 Atlas 800 A3/A2 上部署 W8A8 量化模型的多种方式：单机</description>
    </item>
    <item>
      <title>HAMi vGPU学习笔记</title>
      <link>https://www.iceyao.com.cn/2024/12/11/hami-vgpu-readnotes/</link>
      <pubDate>Wed, 11 Dec 2024 00:00:00 +0000</pubDate>
      <guid>https://www.iceyao.com.cn/2024/12/11/hami-vgpu-readnotes/</guid>
      <description>1. HAMi是什么 想象一下你是一位繁忙的AI研究员，手头有好几个实验要跑，但实验室里的GPU显卡资源有限。这时候，HAMi就像一位智慧的资源管</description>
    </item>
    <item>
      <title>TKEStack gpu-manager源码阅读笔记</title>
      <link>https://www.iceyao.com.cn/post/2020-11-15-gpu_manager_reading_note/</link>
      <pubDate>Sun, 15 Nov 2020 00:00:00 +0000</pubDate>
      <guid>https://www.iceyao.com.cn/post/2020-11-15-gpu_manager_reading_note/</guid>
      <description>环境 系统：CentOS 7 kernel: 3.10.0-862.el7.x86_64 Kubernetes: v1.19.3 gpu-manager简介 GPU Manager用于管理Kubernetes集群中的nvidia GPU设备。它实现</description>
    </item>
    <item>
      <title>K8S device plugin学习笔记</title>
      <link>https://www.iceyao.com.cn/post/2020-11-11-device_plugin_learning_note/</link>
      <pubDate>Wed, 11 Nov 2020 00:00:00 +0000</pubDate>
      <guid>https://www.iceyao.com.cn/post/2020-11-11-device_plugin_learning_note/</guid>
      <description>环境 系统：CentOS 7 kernel: 3.10.0-862.el7.x86_64 Kubernetes: v1.19.3 安装K8s CentOS 7安装K8S Ubuntu 20安装K8S k8s device plugin device plugin简介 Kubernetes在v1.10版本引入了f</description>
    </item>
  </channel>
</rss>
