爱折腾的工程师

未来的你会感谢现在努力的自己

vLLM-Ascend 多机推理HCCL通信原理深度解析

从 vLLM-Ascend DeepSeek-V3.2 多机部署出发,深入解析 HCCL 初始化、通信组构建与跨节点张量传输机制

基于 vLLM-Ascend DeepSeek-V3.2 多机推理教程,系统分析 HCCL 在 Ascend 多机多卡推理中的初始化流程、Rank 与通信组建模、TP/DP/EP 并行下的通信拓扑,以及跨节点张量传输的底层数据流。文章包含多张架构图和流程图,帮助理解 vLLM-Ascend 如何通过 HCCL、Gloo、DP RPC 与 NPU 网络协同支撑大模型多机推理。

从 RAG 到 LLM Wiki:一种可持续演化的个人知识库技术方案

从一次性检索到持续性知识编译:基于 LLM Agent、Markdown 与 Git 的个人 Memex 架构设计

基于 Karpathy 的 LLM Wiki 设计模式,系统拆解一种由 LLM Agent 持续维护 Markdown Wiki 的知识库架构。本文从传统 RAG 的局限出发,深入分析 Raw Sources、Wiki、Schema 三层模型,设计 Ingest、Query、Lint 三类核心工作流,并给出目录结构、页面数据模型、Agent 规则、检索策略、质量控制、Git 审计与规模化路线,帮助技术爱好者理解如何把 LLM 从一次性问答工具升级为长期知识库维护者。

DeepSeek-V3.2 多机推理部署指南:vLLM-Ascend 与 TIONE 在线服务

面向昇腾 Atlas 800 A2/A3 的 DeepSeek-V3.2 多机推理部署规范:vLLM-Ascend 原生部署与 TIONE 在线服务部署

本文档基于 vLLM-Ascend DeepSeek-V3.2 官方教程与 TIONE 3.11 在线服务实践,规范化描述 DeepSeek-V3.2 在昇腾 Atlas 800 A2/A3 上的多机推理部署流程。内容覆盖硬件与版本基线、容器与网络配置、vLLM 原生多机命令、TIONE 在线服务数据源与启动脚本、Prefill-Decode 分离部署、功能与性能验证以及运维排障清单,适用于生产环境落地。

CL4R1T4S 项目深度解析:AI 系统透明度与系统提示词工程

从 25 家 AI 厂商的系统提示词说开去:一场由社区驱动的 AI 透明度实验

深度解析 GitHub 项目 elder-plinius/CL4R1T4S:一个收录了 OpenAI、Anthropic、Google、xAI、Cursor、Windsurf、Devin、Perplexity 等 25 家主流 AI 产品系统提示词的开源仓库。本文不仅梳理项目背景、仓库结构、分层技术架构和提取方法论,还逐一拆解 Claude Opus 4.7、ChatGPT-5、Grok 4.1、Gemini 2.5 Pro、Cursor Composer、Cascade、Devin 2.0、Perplexity Deep Research 八款知名产品的真实系统提示词片段,帮助开发者看清商用 LLM 背后 Prompt Scaffold 的工程化实践与价值取向差异。

Claude 提示词工程最佳实践深度解析:原则、技巧与 Opus 4.7 适配

从黄金法则到 effort 参数:一份面向开发者的 Claude 提示词工程实战指南

基于 Anthropic 官方 Claude Prompting Best Practices 文档的深度解读。系统性整理 Claude 的通用提示词原则、XML 结构化、长上下文排版、effort 参数调优、工具使用与代理工作流治理等关键技术,并重点解析 Claude Opus 4.7 在指令遵循、工具使用、子代理、前端默认风格等方面的行为变化,帮助开发者在真实产品中高效、稳定地驾驭 Claude。