Karpathy的三层知识库,真正值钱的不是存资料而是养判断
很多人都在抄 Karpathy 的 LLM Wiki,但真正值钱的不是 Raw、Wiki、Schema 这三个名字,而是中间那层能替 AI 存判断、养判断的记忆。
如果你平时也在用 AI 写东西、做研究、搭 Agent,你一定遇到过这种情况:资料明明越攒越多,系统看起来也越来越完整,可一到真的要写、要判断、要开新任务,还是得从头喂一遍上下文。 Karpathy 这套方法真正戳中的,就是这里。 它不是在教你把资料放整齐一点,而是在提醒你,知识库如果只负责存东西,最后很容易越做越大,但永远长不出自己的判断。
1 会生长的中间记忆
Karpathy是前OpenAI联合创始人、特斯拉AI负责人,现在独立做研究和教育,是公认的 AI 领域最值得持续关注的人之一。 他提出的LLM Wiki,是一套三层结构,Raw sources、The Wiki、The Schema。 很多人第一眼会盯着目录看,觉得这无非是把资料分个层。确实是分层,但真正要关注的是中间那层Wiki。 大多数人现在和AI的沟通方式,都是临时性的。 看到一批资料,丢进去总结。过两天来了新资料,再丢进去总结。换个问题,又从头检索、从头拼装。它看起来每次都很聪明,可只能解决你当下的问题,像是金鱼,记忆只有7秒,干完这一单,立刻清空大脑,每次都要重新建立共识。你刚把一件事讲顺,切个任务,又得从头解释。 系统看起来一直在转,实际上停在了高消耗、低积累的地方。 Karpathy不再让 AI 永远停留在一次性问答里,而是给它一层会持续生长的中间记忆。 一个主题今天写一版,明天能补,后天能改。新案例来了,可以挂进去。旧判断错了,可以修掉。和别的主题之间,还能慢慢连成网。时间一长,它就不再是一堆摘要,而是一层真正能复用的认知沉淀。 Raw是你从各处挖回来的原矿石,Schema是你最后要铸成的模具,Wiki就是那个一直在熔炼、反应、慢慢变纯的炉子。 当你决定把一篇文章、一条帖子、一次访谈放进Raw时,这个动作本身就是一次判断。它值不值得留,它和我现在关心的哪条主线有关,它是噪音,还是后面会继续长东西的种子。 表面上在讲知识库,实际上在讲一件更大的事,怎么让AI持续参与一个主题的生长。 这套骨架已经很好了,如果结合我们内容生产者来用,它满足了采集与学习场景,还缺一头一尾。
2 往上,一层克制的采集层
手动采集再有价值,也有一个很现实的问题:你的精力是有限的。 AI这个领域,信息更新太快了。刚部署好了OpenClaw小龙虾,还没研究明白,Hermes又横空出世;你还在消化上周的进展,推特上已经开始讨论它的局限性了。 如果长期只靠手动采集信息,覆盖率和稳定性都很难保证,很多本来值得进入视野的东西,有可能就错过了。 所以完全可以在Karpathy这套方法的基础上,往上加一层采集,没必要广撒网,只需要克制一点的自动采集。 研究AI的小伙伴,部署两个入口就够了。 一个是 X。 这里几乎集中了全球最新的一手信息,你不需要把关注列表里所有人的内容都抓下来,也不是关键词全平台乱搜,只需要盯住热点排序前10到20。 另一个是公众号。 AI领域厉害的作者不少,你不需要抓一堆泛泛的号,筛选出你常看的10个你真正认可的作者。 再多,你看不过来,系统也会失焦。来源稳定,X给你最新的消息,公众号给你解释和消化,这两条线放在一起,刚好互补。 克制采集到的信息都进入到Raw里,自动化把值得注意的东西推到你面前,经过去重、聚类、正文抽取、摘要、初步评分,慢慢沉淀进wiki。 今后在你与wiki的长期交互中,逐渐形成自己的判断。这个门,一定还是需要自己来守。 以后你的工作模式像是这样,某天,X上连续冒出很多条都在讨论同一个新Agent架构,候选池把它们聚在一起。你盯的几个公众号作者又各写了一篇长文,一个讲产品变化,一个讲工作流影响。系统抽取正文、去重、打分。你花几分钟扫一眼,判断这是不是你正在关心的。几天后你准备写稿时,这个话题已经不是临时拼出来的了。它已经顺着候选池、Raw、Wiki这条线,生长成了可以直接进入正文的成熟判断。
3 往下,真正的生产力
如果只停在采集和整理,已经是一套很不错的知识系统了。但完全可以再往下走一步,就是往下接内容生产。 很多人做知识管理,最后都容易停在整理的舒适区,存进去,就认为自己已经学会了。内容越来越多,系统看起来越来越漂亮,这些东西,最后有没有变成你的文章、你的视频、你的表达、你的产品判断? 如果没有,那这个知识库的价值其实只实现了一半。 Karpathy这套东西天然适合接到生产层。 你前面已经有Raw,有Wiki,有Schema,已经有了一层被反复整理过、彼此有链接关系的中间结构。而内容生产最缺的不是素材,是这层中间结构。 你一般怎么写出一篇长文? 很多时候不是靠突然爆发的灵感,而是几个零散观察、几条热点、再加上你之前积累过的旧判断,在某个时刻因为一个偶然的契机,突然就接上了。你发现,原来它们一直在说同一件事。 这时候如果你前面只有Raw,你会很累。你得重新翻、重新看、重新归纳、重新找线索。但有了这层Wiki,事情就完全不同了。你可以直接看到这个主题过去沉淀了什么,和哪些概念相连,最近新增了哪些例子,它又挂在哪条更大的主干上。 你甚至可以直接让AI基于这层wiki,给你做选题,给你出大纲,再往下展开成长文,或者转成视频稿。AI并没有替你瞎编,它在基于你过去亲手养大的wiki系统积累判断。 知识库就不再只是知识库了,它开始像一台内容引擎。 生产之后还没完。 你写完一篇文章,做完一期视频,里面有会有很多观点、判断,它们还应该反过来又补回Wiki。原来模糊的地方,会因此被写得更清楚。原来没连起来的两个主题,会因为一次生产重新接上。原来只是一个热点观察,也可能在生产之后慢慢沉成一条更稳定的方法论。 到这里,这套系统才真正闭环。 我们的整个闭环长成这样:克制自动采集/手动采集 → 候选池 → 人工确认 → Raw → Wiki → 选题提炼 → 内容生产 → 写回Wiki` 知识库就不再只是一个存档系统,会慢慢变成一个内容操作系统。
感谢你看到这里。 Karpathy这套方法是一种很朴素、但复利很强的想法,不要让 AI 永远停留在一次性问答。 给它原始资料,给它持续维护的Wiki,给它明确的 Schema,再往上接一层克制的采集,往下接一层内容生产。这样一来,信息进来,不会淹没你。信息出去,也不是临时凑一篇稿。 一个知识系统有没有真的长成,不用先看你存了多少链接,也不用先看目录漂不漂亮。要看一个新话题出现时,它能不能被你顺手收进候选池,沉到Raw,补进Wiki,最后稳定长成一篇文章、一期视频、一个更清晰的判断。 如果不能,你缺的往往不是更大的模型,也不是更多的信息源,而是那层能把信息慢慢沉成判断的中间记忆。
<section style="margin: 28px 0 14px 0; text-align: center; color: #d46b2c; font-size: 15px; font-weight: 700; line-height: 1.8;"> 扫码直达 </section>
