RAG 已死，LLM Wiki 接棒：Andrej Karpathy 的理念与四大开源实现

原文：RAG Is Dead. LLM Wiki — Andrej Karpathy’s Idea — Is What Comes Next by Jahangir · 2026-05-08

一句话导读：RAG 擅长"一次性回答"，但知识无法沉淀；LLM Wiki 让模型像图书管理员一样持续整理知识库，每一次交互都产生复利。本文梳理其核心理念、四大开源实现，以及本地部署的选型与实操。

封面：RAG vs LLM Wiki 概念对比

引言：为什么 RAG 不够用了？

所有用过 AI 聊天工具的人都会遇到同一个问题：对话结束，一切归零。

你花半小时向 Claude 或 ChatGPT 解释你的项目背景、代码风格、业务约束，模型给出了精彩的回答。但关掉窗口再打开，它又变回"不认识你的陌生人"。你之前所有的上下文注入、背景铺垫、研究成果——全部丢失。

这是 RAG（检索增强生成）也无法根本解决的问题。RAG 的本质是：在单次对话中临时检索相关片段，拼进上下文，生成一次回答。它解决的是"模型不知道最新信息"的问题，却没有解决"知识无法跨会话积累"的问题。

Andrej Karpathy（特斯拉 Autopilot 前负责人、OpenAI 创始成员）提出了一个更根本的思路：让 LLM 不只是回答者，而是知识库的构建者。这就是 LLM Wiki。

一、LLM Wiki 是什么：从"回答问题"到"整理图书馆"

Karpathy 的类比非常直观：

RAG 像是向图书管理员提一个问题，管理员翻几本书，给你一个答案，然后立刻忘记你问过什么。

LLM Wiki 像是雇了一个管理员，不仅回答问题，还会把每次学到的东西整理成卡片目录、更新书架、建立索引，下次你来，图书馆已经比你上次来时更完善。

具体来说，LLM Wiki 的工作模式是：

读取多源文档（PDF、网页、代码、笔记）
为每个实体/概念生成独立的 Markdown 页面（如 transformer-architecture.md、rag-limitations.md）
页面间通过 wiki 链接互相关联（[[rag-limitations]] 指向相关页面）
新增文档时，更新已有页面，而不是生成孤立内容
最终形成一个可浏览、可搜索、可生长的"活知识库"

图：RAG 一次性模式 vs LLM Wiki 积累模式对比

与 RAG 的核心差异：

维度	RAG	LLM Wiki
知识持久化	❌ 对话结束即丢失	✅ 沉淀为可复用页面
跨会话积累	❌ 每次从零开始	✅ 知识库持续生长
知识关联	❌ 孤立的检索片段	✅ wiki 链接形成知识图谱
适合场景	一次性问答	长期研究、知识管理
新文档处理	重新检索	更新已有页面

二、四大开源实现横评

目前已有四个定位不同的开源 LLM Wiki 实现，均可用、可本地部署。

2.1 nashsu/llm_wiki — 可视化 GUI 桌面应用

适合：需要图形界面、多格式文档摄入的普通用户

基于 Tauri + React 19，跨平台桌面应用（支持 macOS/Windows/Linux）
三栏布局：左侧知识树、中间聊天、右侧实时预览
支持 PDF、DOCX、PPTX、图片、视频、网页等多源输入
知识图谱可视化：社区检测 + 关联度评分展示概念关联
两步摄入流程（先分析源文件，再生成内容），所有声明可追溯至原始文档
内置 Lint 工具检测断链、过期页面、知识缺口
支持 OpenAI / Anthropic / Google / Ollama / 自定义端点

图：四大 LLM Wiki 方案功能对比表

2.2 nvk/llm-wiki — Claude Code / Codex 插件

适合：已在使用 Claude Code、OpenAI Codex 等 AI 编程智能体的开发者

无额外运行时依赖，复用宿主智能体的文件读写、网页抓取能力
并行多智能体研究：单次启动 5–10 个智能体从不同角度调研同一主题，生成带正反论证的交叉引用 wiki 页
无需额外 API key（复用已有 Claude/Codex 订阅）
除 wiki 页外还可生成报告、slides、学习指南
通过通用 AGENTS.md 文件支持任意 LLM（包括本地模型）
核心命令：/wiki init、/wiki:research "主题" --sources 10、/wiki query、/wiki audit

2.3 Pratiyush/llm-wiki — 对话历史转录转静态 Wiki

适合：有大量已有 AI 对话历史、需要离线浏览的用户

无需运行时 LLM：读取 Claude Code、Cursor、Gemini CLI 等生成的 .jsonl 对话转录文件，生成静态 HTML 知识库
支持页面生命周期管理（草稿 → 已验证 → 过期 → 归档）
自动脱敏转录文件中的 API key、用户名
提供带 12 个工具的 MCP 服务，支持其他智能体查询 wiki 内容
支持导出 llms.txt、JSON-LD、RSS 格式供 AI 消费
适配 Obsidian

2.4 lucasastorian/llmwiki — MCP 驱动的自动维护 Wiki

适合：有大量本地研究文档、不想手动维护 wiki 的用户

指定本地文件夹后，通过 Claude 自动完成文档索引、wiki 页生成
文件变更时自动更新 wiki 内容
以本地文件系统为真理源，wiki 仅为生成层，不会替换原始文件
内置本地 SQLite 索引，无需云搜索服务
可选集成 Mistral 实现 PDF、扫描件 OCR
后端 Python API + 前端 React

2.5 选型指南

你的场景	推荐方案
需要 GUI、知识图谱、多格式文档支持	`nashsu/llm_wiki`
已用 Claude Code/Codex，需要并行深度研究	`nvk/llm-wiki`
需要挖掘已有 AI 对话历史	`Pratiyush/llm-wiki`
有大量本地研究文档，需要自动维护	`lucasastorian/llmwiki`

四个方案可配合使用：用 nashsu/llm_wiki 作为主浏览入口，用 nvk/llm-wiki 做深度研究，用 Pratiyush/llm-wiki 定期吸收对话历史。

三、本地部署实践：Ollama vs vLLM 选型

LLM Wiki 的文档摄入和页面生成涉及大量 LLM 调用，依赖云端 API 既贵又涉及隐私。本地部署是更优选择。

3.1 Ollama：简单至上

适合：新手入门、单用户原型验证

# 一条命令拉取模型
ollama pull qwen2.5:14b

# 默认 API 端点：http://localhost:11434/v1（OpenAI 兼容）

Ollama 的核心优势是零配置上手，但并发性能有限，适合轻量使用。

3.2 vLLM：高吞吐生产级

适合：批量文档摄入、多智能体并行运行

pip install vllm

# 通用场景
vllm serve Qwen/Qwen2.5-14B-Instruct \
  --max-model-len 131072 \
  --host 0.0.0.0 \
  --port 8000
# API 端点：http://localhost:8000/v1

# 超长上下文场景（全书、大型语料）
vllm serve Qwen/Qwen2.5-1M \
  --enable-chunked-prefill \
  --max-model-len 1000000

vLLM 采用 PagedAttention 优化，并发场景下吞吐为 Ollama 的 3 倍，延迟低 6 倍。

图：Ollama vs vLLM 部署选型决策流

3.3 模型推荐清单

使用场景	推荐模型	上下文长度	部署工具
全能入门（大部分场景）	Qwen2.5-14B-Instruct	128K	Ollama / vLLM
强推理、高输出质量要求	Llama-3.1-70B-Instruct	128K	vLLM
超长文档（全书、大型语料）	Qwen2.5-1M	1M	vLLM（需开启分块预填充）
低显存（8GB GPU）	Llama-3.1-8B	128K	Ollama
中等显存（16GB GPU）	Qwen2.5-14B-Instruct	128K	Ollama

四、快速上手：从零启动你的第一个 LLM Wiki

如果你现在就想试试，按这个 checklist 操作：

安装 Ollama 并拉取模型

brew install ollama
ollama pull qwen2.5:14b

选择方案：新手推荐从 nashsu/llm_wiki 桌面应用开始，下载对应系统的预编译包
准备 5–10 份聚焦同一主题的文档（如你研究领域的相关论文、技术博客、官方文档）
导入文档，观察 wiki 自动生成：第一次摄入后，你会看到知识库从 0 到 1 的过程
追加新文档，观察已有页面如何更新：这是 LLM Wiki 知识复利的核心体验

正如原文所说：

“启动构建你自己的 wiki 的最好时间是 6 个月前，其次是现在。”

总结

核心判断	说明
RAG 未死，但不够	RAG 解决"知识获取"，LLM Wiki 解决"知识积累"
LLM Wiki 的核心价值	将 AI 交互从"一次性消耗"转变为"知识资产积累"
落地成熟度	四大开源方案覆盖全场景，均可本地部署
起步门槛	Ollama + Qwen2.5-14B，30 分钟内可跑通

LLM Wiki 不是要完全替代 RAG（RAG 在实时问答场景仍有价值），而是提供了一个更长期的记忆层。当你的 AI 工具不仅能回答你的问题，还能记住、连接、演化它学到的所有知识时，才是真正的"AI 知识伙伴"。

参考资源

原文：RAG Is Dead. LLM Wiki — Andrej Karpathy’s Idea — Is What Comes Next
实现方案集合：https://github.com/jahangir842/llm-wiki-implementations
nashsu/llm_wiki：https://github.com/nashsu/llm_wiki
nvk/llm-wiki：https://github.com/nvk/llm-wiki
Pratiyush/llm-wiki：https://github.com/Pratiyush/llm-wiki
lucasastorian/llmwiki：https://github.com/lucasastorian/llmwiki

「真诚赞赏，手留余香」