AI Infra on 爱折腾的工程师

AI Infra on 爱折腾的工程师 https://www.iceyao.com.cn/tags/ai-infra/ Recent content in AI Infra on 爱折腾的工程师 Hugo en-us Thu, 30 Apr 2026 00:00:00 +0000 MindCluster 架构与实践：从 NPU 调度、故障诊断到大模型训练容错 https://www.iceyao.com.cn/2026/04/30/mindcluster-architecture-and-practice/ Thu, 30 Apr 2026 00:00:00 +0000 https://www.iceyao.com.cn/2026/04/30/mindcluster-architecture-and-practice/ 一、为什么需要 MindCluster：NPU 集群不是“多装几个驱动” 在单机单卡时代，AI 基础设施的复杂度通常集中在驱动、框架和模型代码上；到 vLLM-Ascend 多机推理HCCL通信原理深度解析 https://www.iceyao.com.cn/2026/04/29/vllm-ascend-hccl-multinode-inference/ Wed, 29 Apr 2026 00:00:00 +0000 https://www.iceyao.com.cn/2026/04/29/vllm-ascend-hccl-multinode-inference/ 一、引言：多机推理真正难的不是“启动多个进程” 参考文档：DeepSeek-V3.2 — vllm-ascend vLLM-Ascend 的 DeepSeek-V3.2 教程给出了 Atlas 800 A3/A2 上部署 W8A8 量化模型的多种方式：单机 DeepSeek-V3.2 多机推理部署指南：vLLM-Ascend 与 TIONE 在线服务 https://www.iceyao.com.cn/2026/04/28/deepseek-v32-vllm-tione-multinode-inference/ Tue, 28 Apr 2026 00:00:00 +0000 https://www.iceyao.com.cn/2026/04/28/deepseek-v32-vllm-tione-multinode-inference/ 1. 文档说明 1.1 编写目的规范 DeepSeek-V3.2 模型在昇腾 Atlas 800 A2/A3 服务器上的多机推理部署流程，覆盖两种落地形态：基于 vllm-ascend 的原生多机部署；基于 TIONE 在线服务的多机部署。文档 vLLM学习笔记(AI编程工具分析) https://www.iceyao.com.cn/2025/02/10/vllm-readnotes/ Mon, 10 Feb 2025 00:00:00 +0000 https://www.iceyao.com.cn/2025/02/10/vllm-readnotes/ 1. vLLM是什么 vLLM是由伯克利大学LMSYS组织开源的大语言模型高速推理框架，旨在极大提升实时场景下语言模型服务的吞吐量和内存使用效率。 HAMi vGPU学习笔记 https://www.iceyao.com.cn/2024/12/11/hami-vgpu-readnotes/ Wed, 11 Dec 2024 00:00:00 +0000 https://www.iceyao.com.cn/2024/12/11/hami-vgpu-readnotes/ 1. HAMi是什么想象一下你是一位繁忙的AI研究员，手头有好几个实验要跑，但实验室里的GPU显卡资源有限。这时候，HAMi就像一位智慧的资源管 leptonai学习笔记 https://www.iceyao.com.cn/2024/07/17/leptonai-readnotes/ Wed, 17 Jul 2024 00:00:00 +0000 https://www.iceyao.com.cn/2024/07/17/leptonai-readnotes/ leptonai简介 Lepton AI是一个云原生AI平台，提供了便捷的python sdk和命令行工具，能够在分钟级别高效运行AI应用。Lepton AI