我最近看了一个很有意思的仓库:baojie/shiji-kb

它做的事,简单说,就是把 57 万字左右的《史记》做成了一个知识库网站。

但如果只说“AI 处理《史记》”,这个项目就被说小了。

我建议你真的点进去看一眼,不只是看热闹。

在线阅读入口在这里:https://baojie.github.io/shiji-kb

这个项目本身就值得推荐。它不是那种放一个 demo 页面、写几句“AI 赋能传统文化”的展示项目。它把《史记》拆成了可以阅读、检索、跳转和继续扩展的结构,而且仓库里把方法、数据、工具、质量问题和后续路线也摊开了。

这点很难得。

很多 AI 项目只给你看结果,不给你看中间怎么做。shiji-kb 更像是把工作流也交出来:原文怎么处理,实体怎么标注,事件怎么抽取,关系怎么建,质量怎么反思,页面怎么生成,都能在仓库里找到线索。

真正值得看的地方,也不只是它把《史记》总结成了多少段话,而是它把一本只能线性阅读的书,改造成了一个可以搜索、点击、跳转、看关系、看时间线的资料产品。

你进去以后,不只是读原文。

你可以看章节,可以搜人物,可以看地名、官职、邦国、时间、器物等实体索引。它还把事件抽出来,做了事件关系,做了时间线,甚至做了一个“史记地铁图”:130 条线路,对应 130 篇,几千个事件像站点一样串起来。

所以这篇文章有两个目的。

第一,给这个项目做一次推荐。如果你对《史记》、古籍数字化、知识图谱、AI Agent 工作流感兴趣,它值得收藏。

第二,再顺着它拆一个对普通人也有用的问题:我们手里的行业资料、课程笔记、客户问答、地方故事,能不能也变成一个别人愿意反复打开的小产品?

我们以前用 AI 处理资料,第一反应太容易是:

“帮我总结一下。”

总结当然有用,但总结通常只解决一次阅读。

你看完,点头,收藏,然后过几天忘掉。下次真要用,还是得重新翻。

shiji-kb 这个项目提醒我的,是另一条路:资料不一定只能被压缩成摘要,它也可以被整理成一个别人愿意反复打开的小产品。

先说它好在哪里

我觉得它有几个优点,值得单独拿出来讲。

第一,它没有把《史记》处理成一篇“知识点大全”。

很多 AI 古籍项目容易走向摘要化:一章讲了什么、人物是谁、中心思想是什么。这样当然能降低阅读门槛,但读者看完以后,很难继续探索。

shiji-kb 做的是另一件事:保留原文,同时在原文旁边加结构。

你还是能读《史记》,但不再只能从头读到尾。

第二,它把“可点击入口”做得很细。

人物、地名、官职、身份、时间、邦国、器物,这些过去藏在文本里的东西,被抽出来变成索引。一个读者不一定知道自己该读哪一篇,但他可能知道自己想查“项羽”“刘邦”“张良”,或者想顺着某个地名、某个官职往下看。

入口一多,资料就开始像一个可以逛的空间。

第三,它没有回避 AI 的错误。

仓库 README 里专门写了为什么会有错误:古文歧义、同名人物、隐性指代、标注规范演进、年代推断边界。它也写了怎么修:自动校验、Agent 反思、批量修正、人工抽检、规范迭代。

这比单纯说“AI 很强”更有价值。

AI 做大规模资料处理,真正难的不是第一次生成,而是生成之后怎么检查、怎么修、怎么让下一轮少犯同类错误。

第四,它把方法论也开出来了。

仓库里不只有结果,还有一套 SKILL 文档:从古籍校勘、结构分析、实体构建、事件构建、关系构建,到本体、推理、知识库管理、应用构造。你不一定照着全做,但能看见一个大规模知识库是怎么被拆成工序的。

这对做内容的人也有用。

因为它提醒我们:一个好资料产品,不是靠一次“生成网页”完成的。它背后一定有拆分、标注、验证、修正和发布的流程。

一堆资料,什么时候才算变成产品

一篇文章、一本书、一套课程笔记,本质上都是线性的。

作者从头写到尾,读者从前看到后。

但用户真的使用资料时,常常不是这么用的。

他可能只想查一个人物。

他可能想知道某个事件前后发生了什么。

他可能想顺着一个概念继续点下去。

他可能不是来“读完”,而是来“解决一个眼前问题”。

资料一旦开始服务这种动作,就已经从“内容”往“产品”走了。

shiji-kb 不是把《史记》变短,而是把它拆成了很多能被操作的入口。

原文还是原文,但旁边长出了新结构:

  • 章节入口:130 篇《史记》可以直接打开。
  • 实体入口:人物、地名、官职、身份、时间、邦国等被抽成索引。
  • 事件入口:三千多个历史事件被单独记录。
  • 关系入口:事件之间有因果、时序、并列等关系。
  • 时间入口:事件被推到公元纪年,形成可浏览的历史线索。
  • 应用入口:阅读器、Wiki、事件地铁图,把底层数据变成用户能点的界面。

这就不是“我写给你看”了。

这是“我做出来,你自己进去用”。

这两个东西差很多。

它最值得拆的,不是页面,是管线

如果只看在线网站,你会觉得它是一个做得很大的古籍阅读器。

但翻仓库会发现,前端页面只是最后一层。

真正重的是它背后的管线。

仓库里有标注后的 Markdown 原文,有实体索引,有事件数据,有纪年映射,有人物关系、家谱、RDF/OWL、本体、SKU 知识单元,还有一套专门写出来的 SKILL 文档。

这套管线大概可以理解成:

原始文本 -> 校勘和结构切分 -> 实体标注 -> 事件提取 -> 关系构建 -> 本体和知识单元 -> 推理和质检 -> 阅读器与应用

这比“让 AI 总结一本书”复杂得多。

它先问的不是“这本书讲什么”,而是:

谁出现了?

在哪里出现?

什么时候发生?

谁和谁有关?

这件事和前后事件是什么关系?

哪些实体要合并?

哪些同名人物不能混?

哪些 AI 标注可能错了?

这些问题很琐碎,但正是这些琐碎,让资料开始有了产品骨架。

一个用户点“项羽”,系统能跳到相关章节;点一个事件,能看到时间位置;看一条路线,能知道它在整本书里的前后关系。

这时候,资料不再是一坨文本。

它变成了一个能被导航的空间。

普通人不用做这么大,但可以学这个方向

你手里大概率没有 57 万字古籍,也不需要做 100 多个 SKILL、几千个事件节点。

但思路可以直接搬走。

假设你手里是一批行业资料。

不要一上来就让 AI 写“行业报告总结”。你可以先问:这些资料里有哪些公司、产品、用户、痛点、价格、渠道、政策、案例?哪些适合做成可点击入口?用户打开这个页面时,最想查什么?

假设你手里是一套课程笔记。

不要急着导成 PDF。先拆成学习路径、概念词典、常见问题、案例库、作业清单。读者不是每次都从第一课看到最后一课,他可能卡在某个概念,只想找到对应解释和下一步练习。

假设你手里是一堆客户问答。

不要只做一个“FAQ 文档”。先把问题按购买前、使用中、售后、价格、风险、对比、决策人关心点分层。再把高频问题变成入口,把真实案例变成可跳转证据。

假设你手里是地方故事、城市资料、家族资料、产品说明、过往文章。

也一样。

先不要问“怎么写得更好”。

先问“用户以后会怎么找、怎么点、怎么复用”。

第一版只做能点开的东西

很多人一听“资料产品化”,脑子里马上出现复杂系统:数据库、后台、登录、会员、自动更新、AI 问答机器人。

先别急。

第一版最应该做的,往往很小:

  • 一个首页,告诉用户这批资料解决什么问题。
  • 3 到 5 个栏目,把资料按使用场景分开。
  • 10 个以内关键页面,先覆盖最常被问、最值得查、最能展示价值的内容。
  • 一个搜索入口,哪怕开始只是站内搜索或静态索引。
  • 一组可点击节点,比如人物、公司、案例、工具、步骤、问题。

做完这些,它就已经不是普通文章了。

因为用户可以自己进去找答案。

你也会被迫把资料从“我知道很多”整理成“别人怎么用”。

这一步很要命。

很多资料之所以一直躺在文件夹里,就是因为它只按收藏者的习惯存放,没有按使用者的动作组织。

收藏者会说:这是我去年存的一个好资料。

使用者只会问:我现在点哪里?

AI 在这里真正帮你的地方

AI 最适合做的,不只是帮你写页面。

它更适合在第一步帮你把资料拆成结构。

比如你给它一批资料,让它不要总结,先输出:

  • 这批资料适合做什么产品形态。
  • 用户打开它时最想解决哪几个问题。
  • 首页应该放什么入口。
  • 一级栏目和二级页面怎么分。
  • 哪些人物、地点、概念、案例、工具、步骤适合做成可点击节点。
  • 第一版先做哪 10 个页面。
  • 哪些功能先别做。

这才是普通人更应该抄的工作流。

先跑结构,再写内容。

先把入口摆出来,再决定页面怎么写。

先做最小可用版本,再考虑要不要上网站、知识库、问答系统、小程序,或者只是一个公开文档。

如果你跳过这一步,AI 很容易给你一篇看起来很完整的总结。

它会很顺。

但顺不等于能用。

能用,意味着读者下一次还有理由回来。

一个可以直接套用的判断

你可以用一个很简单的标准检查自己的资料:

读者打开它以后,是只能“看完”,还是可以“做事”?

如果只能看完,它还是内容。

如果能搜索、筛选、点击、对比、按路径继续读,或者帮用户做一个判断,它就开始有产品感。

《史记》这么大的文本可以被拆成章节、实体、事件、关系、时间线。

普通人的资料当然也可以。

行业资料可以变成行业导航。

课程笔记可以变成学习入口。

客户问答可以变成销售问答库。

地方故事可以变成城市知识地图。

产品说明可以变成选型助手。

过往文章可以变成主题索引。

这不是让所有人都去做一个复杂网站。

更准确地说,是别再把资料只当成“文章原料”。

它也可能是一个小产品的底层数据。

先拿提示词跑一版

如果你现在手里正好有一批资料,可以先不用写代码,也不用设计页面。

先把文末这段“资料变小产品提示词”复制走。

把资料类型、目标用户、资料现状和优先解决的问题填进去,让 AI 先给你拆一版结构。

重点是这句话:

不要直接总结资料,先做资料产品化方案。

因为总结是把内容变短。

产品化是把内容变成别人以后还能用的入口。

这两个动作不是一回事。

下一次你再看到一堆资料,别只问 AI:

“这讲了什么?”

换一个问法:

“这堆资料,能不能做成一个别人愿意反复打开的小产品?”

这个问题一换,后面的路就不一样了。