爱折腾的工程师

未来的你会感谢现在努力的自己

DeepSeek-V3.2 多机推理部署指南:vLLM-Ascend 与 TIONE 在线服务

面向昇腾 Atlas 800 A2/A3 的 DeepSeek-V3.2 多机推理部署规范:vLLM-Ascend 原生部署与 TIONE 在线服务部署

本文档基于 vLLM-Ascend DeepSeek-V3.2 官方教程与 TIONE 3.11 在线服务实践,规范化描述 DeepSeek-V3.2 在昇腾 Atlas 800 A2/A3 上的多机推理部署流程。内容覆盖硬件与版本基线、容器与网络配置、vLLM 原生多机命令、TIONE 在线服务数据源与启动脚本、Prefill-Decode 分离部署、功能与性能验证以及运维排障清单,适用于生产环境落地。

vLLM-Ascend 多机推理HCCL通信原理深度解析

从 vLLM-Ascend DeepSeek-V3.2 多机部署出发,深入解析 HCCL 初始化、通信组构建与跨节点张量传输机制

基于 vLLM-Ascend DeepSeek-V3.2 多机推理教程,系统分析 HCCL 在 Ascend 多机多卡推理中的初始化流程、Rank 与通信组建模、TP/DP/EP 并行下的通信拓扑,以及跨节点张量传输的底层数据流。文章包含多张架构图和流程图,帮助理解 vLLM-Ascend 如何通过 HCCL、Gloo、DP RPC 与 NPU 网络协同支撑大模型多机推理。