爱折腾的工程师

未来的你会感谢现在努力的自己

Claude Code 开发经验深度解析：为什么提示词缓存是一切

从 prefix matching 到 cache-safe forking，系统拆解 Claude Code 背后的提示词缓存工程

基于 Anthropic 官方博客 Lessons from building Claude Code: Prompt caching is everything 的深度技术解读。文章系统分析 Claude Code 在长期运行 Agent 场景下如何围绕提示词缓存设计 prompt 布局、工具集合、Plan Mode、MCP 工具延迟加载和 compaction 机制，并总结可落地的工程实践清单。

Posted by iceyao on Friday, May 1, 2026

MindCluster 架构与实践：从 NPU 调度、故障诊断到大模型训练容错

从本地 mind-cluster 源码和 MindCluster 7.1.RC1 官方文档出发，拆解昇腾 NPU 集群的软件栈、调度闭环、故障诊断与训练容错机制

本文遍历本地 mind-cluster 代码库，并结合昇腾社区 MindCluster 7.1.RC1 官方文档，系统梳理 MindCluster 的产品定位、组件架构、NPU 调度闭环、故障诊断、资源监测、Checkpoint 加速和训练容错能力。文章包含架构图、调度流程图、源码入口、YAML 示例和实践步骤，帮助读者理解如何用 MindCluster 构建可调度、可观测、可恢复的昇腾 AI 集群。

Posted by iceyao on Thursday, April 30, 2026

揭秘 AI 智能体评估：从任务、轨迹到生产级 Eval 体系

基于 Anthropic Engineering《Demystifying evals for AI agents》，系统拆解 AI Agent 评估的对象、方法、难题与工程化最佳实践

本文基于 Anthropic Engineering 的《Demystifying evals for AI agents》，面向开发者系统讲解 AI 智能体评估方法论：为什么传统单轮 LLM eval 不够，Agent eval 的 task、trial、transcript、outcome、grader、harness 如何协作，如何组合确定性评分器、LLM judge 与人工评审，以及如何处理非确定性、创造性解法、grader 脆弱、环境污染和 eval 饱和等挑战。文章配套架构图、对比图、指标趋势图和路线图，帮助团队从真实失败案例出发构建可维护的 Agent 评估体系。

Posted by iceyao on Thursday, April 30, 2026

vLLM-Ascend 多机推理HCCL通信原理深度解析

从 vLLM-Ascend DeepSeek-V3.2 多机部署出发，深入解析 HCCL 初始化、通信组构建与跨节点张量传输机制

基于 vLLM-Ascend DeepSeek-V3.2 多机推理教程，系统分析 HCCL 在 Ascend 多机多卡推理中的初始化流程、Rank 与通信组建模、TP/DP/EP 并行下的通信拓扑，以及跨节点张量传输的底层数据流。文章包含多张架构图和流程图，帮助理解 vLLM-Ascend 如何通过 HCCL、Gloo、DP RPC 与 NPU 网络协同支撑大模型多机推理。

Posted by iceyao on Wednesday, April 29, 2026

从 RAG 到 LLM Wiki：一种可持续演化的个人知识库技术方案

从一次性检索到持续性知识编译：基于 LLM Agent、Markdown 与 Git 的个人 Memex 架构设计

基于 Karpathy 的 LLM Wiki 设计模式，系统拆解一种由 LLM Agent 持续维护 Markdown Wiki 的知识库架构。本文从传统 RAG 的局限出发，深入分析 Raw Sources、Wiki、Schema 三层模型，设计 Ingest、Query、Lint 三类核心工作流，并给出目录结构、页面数据模型、Agent 规则、检索策略、质量控制、Git 审计与规模化路线，帮助技术爱好者理解如何把 LLM 从一次性问答工具升级为长期知识库维护者。

Posted by iceyao on Wednesday, April 29, 2026