<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>VLLM on 爱折腾的工程师</title>
    <link>https://www.iceyao.com.cn/tags/vllm/</link>
    <description>Recent content in VLLM on 爱折腾的工程师</description>
    <generator>Hugo</generator>
    <language>en-us</language>
    <lastBuildDate>Thu, 30 Apr 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://www.iceyao.com.cn/tags/vllm/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>DeepSeek-V3.2 多机推理部署指南：vLLM-Ascend 与 TIONE 在线服务</title>
      <link>https://www.iceyao.com.cn/2026/04/30/deepseek-v32-vllm-tione-multinode-inference/</link>
      <pubDate>Thu, 30 Apr 2026 00:00:00 +0000</pubDate>
      <guid>https://www.iceyao.com.cn/2026/04/30/deepseek-v32-vllm-tione-multinode-inference/</guid>
      <description>1. 文档说明 1.1 编写目的 规范 DeepSeek-V3.2 模型在昇腾 Atlas 800 A2/A3 服务器上的多机推理部署流程，覆盖两种落地形态： 基于 vllm-ascend 的原生多机部署； 基于 TIONE 在线服务的多机部署。 文档</description>
    </item>
    <item>
      <title>vLLM-Ascend 多机推理HCCL通信原理深度解析</title>
      <link>https://www.iceyao.com.cn/2026/04/29/vllm-ascend-hccl-multinode-inference/</link>
      <pubDate>Wed, 29 Apr 2026 00:00:00 +0000</pubDate>
      <guid>https://www.iceyao.com.cn/2026/04/29/vllm-ascend-hccl-multinode-inference/</guid>
      <description>一、引言：多机推理真正难的不是“启动多个进程” 参考文档：DeepSeek-V3.2 — vllm-ascend vLLM-Ascend 的 DeepSeek-V3.2 教程给出了 Atlas 800 A3/A2 上部署 W8A8 量化模型的多种方式：单机</description>
    </item>
  </channel>
</rss>
