RAG 已死,LLM Wiki 接棒:Andrej Karpathy 的理念与四大开源实现

Posted by iceyao on Friday, May 29, 2026

原文:RAG Is Dead. LLM Wiki — Andrej Karpathy’s Idea — Is What Comes Next by Jahangir · 2026-05-08

一句话导读:RAG 擅长"一次性回答",但知识无法沉淀;LLM Wiki 让模型像图书管理员一样持续整理知识库,每一次交互都产生复利。本文梳理其核心理念、四大开源实现,以及本地部署的选型与实操。

封面:RAG vs LLM Wiki 概念对比

引言:为什么 RAG 不够用了?

所有用过 AI 聊天工具的人都会遇到同一个问题:对话结束,一切归零

你花半小时向 Claude 或 ChatGPT 解释你的项目背景、代码风格、业务约束,模型给出了精彩的回答。但关掉窗口再打开,它又变回"不认识你的陌生人"。你之前所有的上下文注入、背景铺垫、研究成果——全部丢失。

这是 RAG(检索增强生成)也无法根本解决的问题。RAG 的本质是:在单次对话中临时检索相关片段,拼进上下文,生成一次回答。它解决的是"模型不知道最新信息"的问题,却没有解决"知识无法跨会话积累"的问题。

Andrej Karpathy(特斯拉 Autopilot 前负责人、OpenAI 创始成员)提出了一个更根本的思路:让 LLM 不只是回答者,而是知识库的构建者。这就是 LLM Wiki


一、LLM Wiki 是什么:从"回答问题"到"整理图书馆"

Karpathy 的类比非常直观:

RAG 像是向图书管理员提一个问题,管理员翻几本书,给你一个答案,然后立刻忘记你问过什么。

LLM Wiki 像是雇了一个管理员,不仅回答问题,还会把每次学到的东西整理成卡片目录、更新书架、建立索引,下次你来,图书馆已经比你上次来时更完善。

具体来说,LLM Wiki 的工作模式是:

  1. 读取多源文档(PDF、网页、代码、笔记)
  2. 为每个实体/概念生成独立的 Markdown 页面(如 transformer-architecture.mdrag-limitations.md
  3. 页面间通过 wiki 链接互相关联[[rag-limitations]] 指向相关页面)
  4. 新增文档时,更新已有页面,而不是生成孤立内容
  5. 最终形成一个可浏览、可搜索、可生长的"活知识库"

图:RAG 一次性模式 vs LLM Wiki 积累模式对比

与 RAG 的核心差异:

维度 RAG LLM Wiki
知识持久化 ❌ 对话结束即丢失 ✅ 沉淀为可复用页面
跨会话积累 ❌ 每次从零开始 ✅ 知识库持续生长
知识关联 ❌ 孤立的检索片段 ✅ wiki 链接形成知识图谱
适合场景 一次性问答 长期研究、知识管理
新文档处理 重新检索 更新已有页面

二、四大开源实现横评

目前已有四个定位不同的开源 LLM Wiki 实现,均可用、可本地部署。

2.1 nashsu/llm_wiki — 可视化 GUI 桌面应用

适合:需要图形界面、多格式文档摄入的普通用户

  • 基于 Tauri + React 19,跨平台桌面应用(支持 macOS/Windows/Linux)
  • 三栏布局:左侧知识树、中间聊天、右侧实时预览
  • 支持 PDF、DOCX、PPTX、图片、视频、网页等多源输入
  • 知识图谱可视化:社区检测 + 关联度评分展示概念关联
  • 两步摄入流程(先分析源文件,再生成内容),所有声明可追溯至原始文档
  • 内置 Lint 工具检测断链、过期页面、知识缺口
  • 支持 OpenAI / Anthropic / Google / Ollama / 自定义端点

图:四大 LLM Wiki 方案功能对比表

2.2 nvk/llm-wiki — Claude Code / Codex 插件

适合:已在使用 Claude Code、OpenAI Codex 等 AI 编程智能体的开发者

  • 无额外运行时依赖,复用宿主智能体的文件读写、网页抓取能力
  • 并行多智能体研究:单次启动 5–10 个智能体从不同角度调研同一主题,生成带正反论证的交叉引用 wiki 页
  • 无需额外 API key(复用已有 Claude/Codex 订阅)
  • 除 wiki 页外还可生成报告、slides、学习指南
  • 通过通用 AGENTS.md 文件支持任意 LLM(包括本地模型)
  • 核心命令:/wiki init/wiki:research "主题" --sources 10/wiki query/wiki audit

2.3 Pratiyush/llm-wiki — 对话历史转录转静态 Wiki

适合:有大量已有 AI 对话历史、需要离线浏览的用户

  • 无需运行时 LLM:读取 Claude Code、Cursor、Gemini CLI 等生成的 .jsonl 对话转录文件,生成静态 HTML 知识库
  • 支持页面生命周期管理(草稿 → 已验证 → 过期 → 归档)
  • 自动脱敏转录文件中的 API key、用户名
  • 提供带 12 个工具的 MCP 服务,支持其他智能体查询 wiki 内容
  • 支持导出 llms.txt、JSON-LD、RSS 格式供 AI 消费
  • 适配 Obsidian

2.4 lucasastorian/llmwiki — MCP 驱动的自动维护 Wiki

适合:有大量本地研究文档、不想手动维护 wiki 的用户

  • 指定本地文件夹后,通过 Claude 自动完成文档索引、wiki 页生成
  • 文件变更时自动更新 wiki 内容
  • 以本地文件系统为真理源,wiki 仅为生成层,不会替换原始文件
  • 内置本地 SQLite 索引,无需云搜索服务
  • 可选集成 Mistral 实现 PDF、扫描件 OCR
  • 后端 Python API + 前端 React

2.5 选型指南

你的场景 推荐方案
需要 GUI、知识图谱、多格式文档支持 nashsu/llm_wiki
已用 Claude Code/Codex,需要并行深度研究 nvk/llm-wiki
需要挖掘已有 AI 对话历史 Pratiyush/llm-wiki
有大量本地研究文档,需要自动维护 lucasastorian/llmwiki

四个方案可配合使用:用 nashsu/llm_wiki 作为主浏览入口,用 nvk/llm-wiki 做深度研究,用 Pratiyush/llm-wiki 定期吸收对话历史。


三、本地部署实践:Ollama vs vLLM 选型

LLM Wiki 的文档摄入和页面生成涉及大量 LLM 调用,依赖云端 API 既贵又涉及隐私。本地部署是更优选择。

3.1 Ollama:简单至上

适合:新手入门、单用户原型验证

# 一条命令拉取模型
ollama pull qwen2.5:14b

# 默认 API 端点:http://localhost:11434/v1(OpenAI 兼容)

Ollama 的核心优势是零配置上手,但并发性能有限,适合轻量使用。

3.2 vLLM:高吞吐生产级

适合:批量文档摄入、多智能体并行运行

pip install vllm

# 通用场景
vllm serve Qwen/Qwen2.5-14B-Instruct \
  --max-model-len 131072 \
  --host 0.0.0.0 \
  --port 8000
# API 端点:http://localhost:8000/v1

# 超长上下文场景(全书、大型语料)
vllm serve Qwen/Qwen2.5-1M \
  --enable-chunked-prefill \
  --max-model-len 1000000

vLLM 采用 PagedAttention 优化,并发场景下吞吐为 Ollama 的 3 倍,延迟低 6 倍

图:Ollama vs vLLM 部署选型决策流

3.3 模型推荐清单

使用场景 推荐模型 上下文长度 部署工具
全能入门(大部分场景) Qwen2.5-14B-Instruct 128K Ollama / vLLM
强推理、高输出质量要求 Llama-3.1-70B-Instruct 128K vLLM
超长文档(全书、大型语料) Qwen2.5-1M 1M vLLM(需开启分块预填充)
低显存(8GB GPU) Llama-3.1-8B 128K Ollama
中等显存(16GB GPU) Qwen2.5-14B-Instruct 128K Ollama

四、快速上手:从零启动你的第一个 LLM Wiki

如果你现在就想试试,按这个 checklist 操作:

  1. 安装 Ollama 并拉取模型

    brew install ollama
    ollama pull qwen2.5:14b
    
  2. 选择方案:新手推荐从 nashsu/llm_wiki 桌面应用开始,下载对应系统的预编译包

  3. 准备 5–10 份聚焦同一主题的文档(如你研究领域的相关论文、技术博客、官方文档)

  4. 导入文档,观察 wiki 自动生成:第一次摄入后,你会看到知识库从 0 到 1 的过程

  5. 追加新文档,观察已有页面如何更新:这是 LLM Wiki 知识复利的核心体验

正如原文所说:

“启动构建你自己的 wiki 的最好时间是 6 个月前,其次是现在。”


总结

核心判断 说明
RAG 未死,但不够 RAG 解决"知识获取",LLM Wiki 解决"知识积累"
LLM Wiki 的核心价值 将 AI 交互从"一次性消耗"转变为"知识资产积累"
落地成熟度 四大开源方案覆盖全场景,均可本地部署
起步门槛 Ollama + Qwen2.5-14B,30 分钟内可跑通

LLM Wiki 不是要完全替代 RAG(RAG 在实时问答场景仍有价值),而是提供了一个更长期的记忆层。当你的 AI 工具不仅能回答你的问题,还能记住、连接、演化它学到的所有知识时,才是真正的"AI 知识伙伴"。

参考资源

  • 原文:RAG Is Dead. LLM Wiki — Andrej Karpathy’s Idea — Is What Comes Next
  • 实现方案集合:https://github.com/jahangir842/llm-wiki-implementations
  • nashsu/llm_wiki:https://github.com/nashsu/llm_wiki
  • nvk/llm-wiki:https://github.com/nvk/llm-wiki
  • Pratiyush/llm-wiki:https://github.com/Pratiyush/llm-wiki
  • lucasastorian/llmwiki:https://github.com/lucasastorian/llmwiki

「真诚赞赏,手留余香」

爱折腾的工程师

真诚赞赏,手留余香

使用微信扫描二维码完成支付