原文:RAG Is Dead. LLM Wiki — Andrej Karpathy’s Idea — Is What Comes Next by Jahangir · 2026-05-08
一句话导读:RAG 擅长"一次性回答",但知识无法沉淀;LLM Wiki 让模型像图书管理员一样持续整理知识库,每一次交互都产生复利。本文梳理其核心理念、四大开源实现,以及本地部署的选型与实操。
引言:为什么 RAG 不够用了?
所有用过 AI 聊天工具的人都会遇到同一个问题:对话结束,一切归零。
你花半小时向 Claude 或 ChatGPT 解释你的项目背景、代码风格、业务约束,模型给出了精彩的回答。但关掉窗口再打开,它又变回"不认识你的陌生人"。你之前所有的上下文注入、背景铺垫、研究成果——全部丢失。
这是 RAG(检索增强生成)也无法根本解决的问题。RAG 的本质是:在单次对话中临时检索相关片段,拼进上下文,生成一次回答。它解决的是"模型不知道最新信息"的问题,却没有解决"知识无法跨会话积累"的问题。
Andrej Karpathy(特斯拉 Autopilot 前负责人、OpenAI 创始成员)提出了一个更根本的思路:让 LLM 不只是回答者,而是知识库的构建者。这就是 LLM Wiki。
一、LLM Wiki 是什么:从"回答问题"到"整理图书馆"
Karpathy 的类比非常直观:
RAG 像是向图书管理员提一个问题,管理员翻几本书,给你一个答案,然后立刻忘记你问过什么。
LLM Wiki 像是雇了一个管理员,不仅回答问题,还会把每次学到的东西整理成卡片目录、更新书架、建立索引,下次你来,图书馆已经比你上次来时更完善。
具体来说,LLM Wiki 的工作模式是:
- 读取多源文档(PDF、网页、代码、笔记)
- 为每个实体/概念生成独立的 Markdown 页面(如
transformer-architecture.md、rag-limitations.md) - 页面间通过 wiki 链接互相关联(
[[rag-limitations]]指向相关页面) - 新增文档时,更新已有页面,而不是生成孤立内容
- 最终形成一个可浏览、可搜索、可生长的"活知识库"
与 RAG 的核心差异:
| 维度 | RAG | LLM Wiki |
|---|---|---|
| 知识持久化 | ❌ 对话结束即丢失 | ✅ 沉淀为可复用页面 |
| 跨会话积累 | ❌ 每次从零开始 | ✅ 知识库持续生长 |
| 知识关联 | ❌ 孤立的检索片段 | ✅ wiki 链接形成知识图谱 |
| 适合场景 | 一次性问答 | 长期研究、知识管理 |
| 新文档处理 | 重新检索 | 更新已有页面 |
二、四大开源实现横评
目前已有四个定位不同的开源 LLM Wiki 实现,均可用、可本地部署。
2.1 nashsu/llm_wiki — 可视化 GUI 桌面应用
适合:需要图形界面、多格式文档摄入的普通用户
- 基于 Tauri + React 19,跨平台桌面应用(支持 macOS/Windows/Linux)
- 三栏布局:左侧知识树、中间聊天、右侧实时预览
- 支持 PDF、DOCX、PPTX、图片、视频、网页等多源输入
- 知识图谱可视化:社区检测 + 关联度评分展示概念关联
- 两步摄入流程(先分析源文件,再生成内容),所有声明可追溯至原始文档
- 内置 Lint 工具检测断链、过期页面、知识缺口
- 支持 OpenAI / Anthropic / Google / Ollama / 自定义端点
2.2 nvk/llm-wiki — Claude Code / Codex 插件
适合:已在使用 Claude Code、OpenAI Codex 等 AI 编程智能体的开发者
- 无额外运行时依赖,复用宿主智能体的文件读写、网页抓取能力
- 并行多智能体研究:单次启动 5–10 个智能体从不同角度调研同一主题,生成带正反论证的交叉引用 wiki 页
- 无需额外 API key(复用已有 Claude/Codex 订阅)
- 除 wiki 页外还可生成报告、slides、学习指南
- 通过通用
AGENTS.md文件支持任意 LLM(包括本地模型) - 核心命令:
/wiki init、/wiki:research "主题" --sources 10、/wiki query、/wiki audit
2.3 Pratiyush/llm-wiki — 对话历史转录转静态 Wiki
适合:有大量已有 AI 对话历史、需要离线浏览的用户
- 无需运行时 LLM:读取 Claude Code、Cursor、Gemini CLI 等生成的
.jsonl对话转录文件,生成静态 HTML 知识库 - 支持页面生命周期管理(草稿 → 已验证 → 过期 → 归档)
- 自动脱敏转录文件中的 API key、用户名
- 提供带 12 个工具的 MCP 服务,支持其他智能体查询 wiki 内容
- 支持导出
llms.txt、JSON-LD、RSS 格式供 AI 消费 - 适配 Obsidian
2.4 lucasastorian/llmwiki — MCP 驱动的自动维护 Wiki
适合:有大量本地研究文档、不想手动维护 wiki 的用户
- 指定本地文件夹后,通过 Claude 自动完成文档索引、wiki 页生成
- 文件变更时自动更新 wiki 内容
- 以本地文件系统为真理源,wiki 仅为生成层,不会替换原始文件
- 内置本地 SQLite 索引,无需云搜索服务
- 可选集成 Mistral 实现 PDF、扫描件 OCR
- 后端 Python API + 前端 React
2.5 选型指南
| 你的场景 | 推荐方案 |
|---|---|
| 需要 GUI、知识图谱、多格式文档支持 | nashsu/llm_wiki |
| 已用 Claude Code/Codex,需要并行深度研究 | nvk/llm-wiki |
| 需要挖掘已有 AI 对话历史 | Pratiyush/llm-wiki |
| 有大量本地研究文档,需要自动维护 | lucasastorian/llmwiki |
四个方案可配合使用:用 nashsu/llm_wiki 作为主浏览入口,用 nvk/llm-wiki 做深度研究,用 Pratiyush/llm-wiki 定期吸收对话历史。
三、本地部署实践:Ollama vs vLLM 选型
LLM Wiki 的文档摄入和页面生成涉及大量 LLM 调用,依赖云端 API 既贵又涉及隐私。本地部署是更优选择。
3.1 Ollama:简单至上
适合:新手入门、单用户原型验证
# 一条命令拉取模型
ollama pull qwen2.5:14b
# 默认 API 端点:http://localhost:11434/v1(OpenAI 兼容)
Ollama 的核心优势是零配置上手,但并发性能有限,适合轻量使用。
3.2 vLLM:高吞吐生产级
适合:批量文档摄入、多智能体并行运行
pip install vllm
# 通用场景
vllm serve Qwen/Qwen2.5-14B-Instruct \
--max-model-len 131072 \
--host 0.0.0.0 \
--port 8000
# API 端点:http://localhost:8000/v1
# 超长上下文场景(全书、大型语料)
vllm serve Qwen/Qwen2.5-1M \
--enable-chunked-prefill \
--max-model-len 1000000
vLLM 采用 PagedAttention 优化,并发场景下吞吐为 Ollama 的 3 倍,延迟低 6 倍。
3.3 模型推荐清单
| 使用场景 | 推荐模型 | 上下文长度 | 部署工具 |
|---|---|---|---|
| 全能入门(大部分场景) | Qwen2.5-14B-Instruct | 128K | Ollama / vLLM |
| 强推理、高输出质量要求 | Llama-3.1-70B-Instruct | 128K | vLLM |
| 超长文档(全书、大型语料) | Qwen2.5-1M | 1M | vLLM(需开启分块预填充) |
| 低显存(8GB GPU) | Llama-3.1-8B | 128K | Ollama |
| 中等显存(16GB GPU) | Qwen2.5-14B-Instruct | 128K | Ollama |
四、快速上手:从零启动你的第一个 LLM Wiki
如果你现在就想试试,按这个 checklist 操作:
-
安装 Ollama 并拉取模型
brew install ollama ollama pull qwen2.5:14b -
选择方案:新手推荐从
nashsu/llm_wiki桌面应用开始,下载对应系统的预编译包 -
准备 5–10 份聚焦同一主题的文档(如你研究领域的相关论文、技术博客、官方文档)
-
导入文档,观察 wiki 自动生成:第一次摄入后,你会看到知识库从 0 到 1 的过程
-
追加新文档,观察已有页面如何更新:这是 LLM Wiki 知识复利的核心体验
正如原文所说:
“启动构建你自己的 wiki 的最好时间是 6 个月前,其次是现在。”
总结
| 核心判断 | 说明 |
|---|---|
| RAG 未死,但不够 | RAG 解决"知识获取",LLM Wiki 解决"知识积累" |
| LLM Wiki 的核心价值 | 将 AI 交互从"一次性消耗"转变为"知识资产积累" |
| 落地成熟度 | 四大开源方案覆盖全场景,均可本地部署 |
| 起步门槛 | Ollama + Qwen2.5-14B,30 分钟内可跑通 |
LLM Wiki 不是要完全替代 RAG(RAG 在实时问答场景仍有价值),而是提供了一个更长期的记忆层。当你的 AI 工具不仅能回答你的问题,还能记住、连接、演化它学到的所有知识时,才是真正的"AI 知识伙伴"。
参考资源
- 原文:RAG Is Dead. LLM Wiki — Andrej Karpathy’s Idea — Is What Comes Next
- 实现方案集合:https://github.com/jahangir842/llm-wiki-implementations
- nashsu/llm_wiki:https://github.com/nashsu/llm_wiki
- nvk/llm-wiki:https://github.com/nvk/llm-wiki
- Pratiyush/llm-wiki:https://github.com/Pratiyush/llm-wiki
- lucasastorian/llmwiki:https://github.com/lucasastorian/llmwiki
「真诚赞赏,手留余香」
真诚赞赏,手留余香
使用微信扫描二维码完成支付