Codex × LLM Wiki:在 Obsidian 中搭建 AI 知识库
Codex × LLM Wiki:在 Obsidian 中搭建 AI 知识库
大部分人使用大模型处理文档都停留在 RAG 模式(检索增强生成,Retrieval-Augmented Generation)。这是当前 AI 行业最主流的知识管理范式:上传文件,提问时系统检索相关片段,让大模型基于这些片段生成回答。NotebookLM、ChatGPT 的文件上传,以及几乎所有的企业级知识库走的都是这条路。
前段时间,AI 领域的著名研究者 Andrej Karpathy 提出了一个新想法。他认为 RAG 的主要问题在于:每一次提问,模型都要从零开始重新发现知识。如果你问了一个需要综合五篇文档的问题,RAG 会检索、拼接、生成;如果你明天再问同样的问题,它会重复整个过程,没有任何积累,也没有任何记忆。本来可以建立关联的知识,却在一次又一次的反复查询中被浪费掉了。
Karpathy 给出的解决方案是 LLM Wiki。他描述的系统分为三层:
- 原始资料层 — 负责收集论文、文章、播客、网页等素材。大模型对这一层只读不改。
- Wiki 层 — 大模型拥有这一层的完整所有权。它负责编写 Markdown 文件、目录、摘要、实体概念、比较分析和综述,创建页面、更新页面,并维护交叉引用。我们只需要负责阅读。
- Schema 层 — 一个配置文件,例如对于 Codex 来说就是
AGENTS.md,对于 Cursor 来说就是.cursorrules。告诉大模型这个 Wiki 的结构规范、命名约定和工作流程,并在使用过程中共同迭代这份文件。

本篇介绍如何参考 Karpathy 的理念,在 Obsidian 里借助 Codex 搭建一套 LLM Wiki 知识库。
在半桶水课程里,它对应的是“资料整理 / 沉淀复用 / 个人知识系统”的工作流:不是把资料一次性丢给 AI,而是让 Codex 持续把原始材料整理成可链接、可更新、可复用的 Wiki。
这节解决什么
普通资料整理常常停在“总结一下”。LLM Wiki 练的是更长期的能力:原始资料只读,Wiki 页面持续更新,规则文件约束 Codex 怎么命名、怎么引用、怎么维护结构。
这节练的是:让 Codex 建一个有规则的知识库,而不是生成一堆散乱摘要。
工作流卡
| 项目 | 内容 |
|---|---|
| 输入 | 原始资料、主题范围、Obsidian 仓库、Wiki 规则、命名约定 |
| Codex 负责 | 建目录、写 AGENTS.md、拆分页面、补交叉引用、记录日志 |
| 人类判断 | 主题边界是否清楚、引用是否可信、Wiki 结构是否适合长期使用 |
| 输出 | raw/、wiki/、concept/、日志、AGENTS.md、主题页面 |
| 验收 | 原文不被改写、Wiki 页面可追溯、链接有效、规则可复用 |
适合谁
这一节适合:
- 想长期研究一个主题,而不是只做一次资料总结的人。
- 用 Obsidian 管理论文、文章、播客、课程资料的人。
- 想让 Codex 持续维护知识库结构的人。
第一次练习建议只选一个小主题和 3-5 篇材料,先跑通入库流程。
1. 参考 Karpathy 的 GitHub 仓库
首先找到 Karpathy 分享的 LLM Wiki 原始设计文档,了解他的设计理念:
https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f
2. 在 Obsidian 里创建 Wiki 仓库
在本地新建一个 Obsidian 仓库,然后把以下提示词发给 Codex:
你现在是我的 LLM Wiki Agent。
把下面这份 idea 文件原样落地,作为我完整的第二大脑,一步一步地执行,
创建拥有完整规则的系统。落地过程严格参考以下 GitHub 仓库的内容:
https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94fCodex 会根据内容帮你创建一套符合 LLM Wiki 理念的本地知识库结构:

创建完成后,仓库里会生成以下文件和文件夹:
concept/raw/logs/wiki/AGENTS.mdlog
这些都符合 Karpathy 描述的 LLM Wiki 架构。
3. 如何使用
安装 Obsidian Web Clipper
首先安装浏览器插件 Obsidian Web Clipper。它的作用是将浏览器中的文章、视频、网页内容自动提取并下载到本地仓库,方便让 Codex 进行处理和拆分。

抓取文章到 raw 文件夹
找一篇想纳入知识库的文章,用插件将其保存到仓库里的 raw/ 文件夹(在 Karpathy 的理念中,raw/ 专门存放原始素材)。点击"添加到 Obsidian"即可。

让 Codex 完成入库
打开 Obsidian,让 Codex 读取这篇文章:

Codex 会自动阅读内容,按照 LLM Wiki 的理念进行拆分,新增摘要、实体、关联引用等页面。完成后,它会告诉你具体新增了哪些内容,这篇文章就正式入库了。

持续迭代
后续想研究同一主题的更多内容,重复以下流程即可:
- 用 Obsidian Web Clipper 把新文章保存到
raw/ - 让 Codex 将其拆分成多个 Wiki 页面,并更新相关文件的交叉引用
- 随着内容积累,知识之间的关联会越来越清晰,形成真正结构化的第二大脑
你要重点检查什么
raw/里的原始资料是否保持只读,不被 Codex 改写。wiki/页面是否保留来源引用。AGENTS.md是否写清命名、目录、引用和日志规则。- 新页面之间是否有合理的交叉链接。
- Codex 是否记录了本次入库做了哪些新增和修改。
验收标准
完成这个案例后,至少确认:
- Obsidian 仓库结构清楚,核心目录能解释用途。
- 原始资料、Wiki 页面、概念页面之间能相互追溯。
- Codex 新增或修改的文件有清单。
- 下次加入新文章时,能按同一套规则继续执行。
- 你能区分“原文事实”和“Codex 整理后的理解”。
复用方式
可以保存成这个任务模板:
请按 LLM Wiki 方式整理这批资料。
主题范围:
原始资料目录:
Wiki 输出目录:
命名规则:
引用规则:
日志要求:
验收标准:
请保持 raw 原文只读;处理前先说明目录结构,处理后列出新增文件、更新文件和需要人工复核的地方。参考来源
本文的操作思路参考了以下 B 站创作者的视频内容,感谢原作者的分享:
- 📺 Codex 实践 LLM Wiki 知识库搭建教程
来源:哔哩哔哩
链接:https://www.bilibili.com/video/BV1y19hBhEMT/
本文截图均为作者本人实际操作所得,文字内容在参考基础上进行了重新整理与二次创作。如有侵权,请联系删除。