我最近看了一个很有意思的仓库:baojie/shiji-kb。
它做的事,简单说,就是把 57 万字左右的《史记》做成了一个知识库网站。
但如果只说“AI 处理《史记》”,这个项目就被说小了。
我建议你真的点进去看一眼,不只是看热闹。
在线阅读入口在这里:https://baojie.github.io/shiji-kb。
这个项目本身就值得推荐。它不是那种放一个 demo 页面、写几句“AI 赋能传统文化”的展示项目。它把《史记》拆成了可以阅读、检索、跳转和继续扩展的结构,而且仓库里把方法、数据、工具、质量问题和后续路线也摊开了。
这点很难得。
很多 AI 项目只给你看结果,不给你看中间怎么做。shiji-kb 更像是把工作流也交出来:原文怎么处理,实体怎么标注,事件怎么抽取,关系怎么建,质量怎么反思,页面怎么生成,都能在仓库里找到线索。
真正值得看的地方,也不只是它把《史记》总结成了多少段话,而是它把一本只能线性阅读的书,改造成了一个可以搜索、点击、跳转、看关系、看时间线的资料产品。
你进去以后,不只是读原文。
你可以看章节,可以搜人物,可以看地名、官职、邦国、时间、器物等实体索引。它还把事件抽出来,做了事件关系,做了时间线,甚至做了一个“史记地铁图”:130 条线路,对应 130 篇,几千个事件像站点一样串起来。
所以这篇文章有两个目的。
第一,给这个项目做一次推荐。如果你对《史记》、古籍数字化、知识图谱、AI Agent 工作流感兴趣,它值得收藏。
第二,再顺着它拆一个对普通人也有用的问题:我们手里的行业资料、课程笔记、客户问答、地方故事,能不能也变成一个别人愿意反复打开的小产品?
我们以前用 AI 处理资料,第一反应太容易是:
“帮我总结一下。”
总结当然有用,但总结通常只解决一次阅读。
你看完,点头,收藏,然后过几天忘掉。下次真要用,还是得重新翻。
shiji-kb 这个项目提醒我的,是另一条路:资料不一定只能被压缩成摘要,它也可以被整理成一个别人愿意反复打开的小产品。
先说它好在哪里
我觉得它有几个优点,值得单独拿出来讲。
第一,它没有把《史记》处理成一篇“知识点大全”。
很多 AI 古籍项目容易走向摘要化:一章讲了什么、人物是谁、中心思想是什么。这样当然能降低阅读门槛,但读者看完以后,很难继续探索。
shiji-kb 做的是另一件事:保留原文,同时在原文旁边加结构。
你还是能读《史记》,但不再只能从头读到尾。
第二,它把“可点击入口”做得很细。
人物、地名、官职、身份、时间、邦国、器物,这些过去藏在文本里的东西,被抽出来变成索引。一个读者不一定知道自己该读哪一篇,但他可能知道自己想查“项羽”“刘邦”“张良”,或者想顺着某个地名、某个官职往下看。
入口一多,资料就开始像一个可以逛的空间。
第三,它没有回避 AI 的错误。
仓库 README 里专门写了为什么会有错误:古文歧义、同名人物、隐性指代、标注规范演进、年代推断边界。它也写了怎么修:自动校验、Agent 反思、批量修正、人工抽检、规范迭代。
这比单纯说“AI 很强”更有价值。
AI 做大规模资料处理,真正难的不是第一次生成,而是生成之后怎么检查、怎么修、怎么让下一轮少犯同类错误。
第四,它把方法论也开出来了。
仓库里不只有结果,还有一套 SKILL 文档:从古籍校勘、结构分析、实体构建、事件构建、关系构建,到本体、推理、知识库管理、应用构造。你不一定照着全做,但能看见一个大规模知识库是怎么被拆成工序的。
这对做内容的人也有用。
因为它提醒我们:一个好资料产品,不是靠一次“生成网页”完成的。它背后一定有拆分、标注、验证、修正和发布的流程。
一堆资料,什么时候才算变成产品
一篇文章、一本书、一套课程笔记,本质上都是线性的。
作者从头写到尾,读者从前看到后。
但用户真的使用资料时,常常不是这么用的。
他可能只想查一个人物。
他可能想知道某个事件前后发生了什么。
他可能想顺着一个概念继续点下去。
他可能不是来“读完”,而是来“解决一个眼前问题”。
资料一旦开始服务这种动作,就已经从“内容”往“产品”走了。
shiji-kb 不是把《史记》变短,而是把它拆成了很多能被操作的入口。
原文还是原文,但旁边长出了新结构:
- 章节入口:130 篇《史记》可以直接打开。
- 实体入口:人物、地名、官职、身份、时间、邦国等被抽成索引。
- 事件入口:三千多个历史事件被单独记录。
- 关系入口:事件之间有因果、时序、并列等关系。
- 时间入口:事件被推到公元纪年,形成可浏览的历史线索。
- 应用入口:阅读器、Wiki、事件地铁图,把底层数据变成用户能点的界面。
这就不是“我写给你看”了。
这是“我做出来,你自己进去用”。
这两个东西差很多。
它最值得拆的,不是页面,是管线
如果只看在线网站,你会觉得它是一个做得很大的古籍阅读器。
但翻仓库会发现,前端页面只是最后一层。
真正重的是它背后的管线。
仓库里有标注后的 Markdown 原文,有实体索引,有事件数据,有纪年映射,有人物关系、家谱、RDF/OWL、本体、SKU 知识单元,还有一套专门写出来的 SKILL 文档。
这套管线大概可以理解成:
原始文本 -> 校勘和结构切分 -> 实体标注 -> 事件提取 -> 关系构建 -> 本体和知识单元 -> 推理和质检 -> 阅读器与应用
这比“让 AI 总结一本书”复杂得多。
它先问的不是“这本书讲什么”,而是:
谁出现了?
在哪里出现?
什么时候发生?
谁和谁有关?
这件事和前后事件是什么关系?
哪些实体要合并?
哪些同名人物不能混?
哪些 AI 标注可能错了?
这些问题很琐碎,但正是这些琐碎,让资料开始有了产品骨架。
一个用户点“项羽”,系统能跳到相关章节;点一个事件,能看到时间位置;看一条路线,能知道它在整本书里的前后关系。
这时候,资料不再是一坨文本。
它变成了一个能被导航的空间。
普通人不用做这么大,但可以学这个方向
你手里大概率没有 57 万字古籍,也不需要做 100 多个 SKILL、几千个事件节点。
但思路可以直接搬走。
假设你手里是一批行业资料。
不要一上来就让 AI 写“行业报告总结”。你可以先问:这些资料里有哪些公司、产品、用户、痛点、价格、渠道、政策、案例?哪些适合做成可点击入口?用户打开这个页面时,最想查什么?
假设你手里是一套课程笔记。
不要急着导成 PDF。先拆成学习路径、概念词典、常见问题、案例库、作业清单。读者不是每次都从第一课看到最后一课,他可能卡在某个概念,只想找到对应解释和下一步练习。
假设你手里是一堆客户问答。
不要只做一个“FAQ 文档”。先把问题按购买前、使用中、售后、价格、风险、对比、决策人关心点分层。再把高频问题变成入口,把真实案例变成可跳转证据。
假设你手里是地方故事、城市资料、家族资料、产品说明、过往文章。
也一样。
先不要问“怎么写得更好”。
先问“用户以后会怎么找、怎么点、怎么复用”。
第一版只做能点开的东西
很多人一听“资料产品化”,脑子里马上出现复杂系统:数据库、后台、登录、会员、自动更新、AI 问答机器人。
先别急。
第一版最应该做的,往往很小:
- 一个首页,告诉用户这批资料解决什么问题。
- 3 到 5 个栏目,把资料按使用场景分开。
- 10 个以内关键页面,先覆盖最常被问、最值得查、最能展示价值的内容。
- 一个搜索入口,哪怕开始只是站内搜索或静态索引。
- 一组可点击节点,比如人物、公司、案例、工具、步骤、问题。
做完这些,它就已经不是普通文章了。
因为用户可以自己进去找答案。
你也会被迫把资料从“我知道很多”整理成“别人怎么用”。
这一步很要命。
很多资料之所以一直躺在文件夹里,就是因为它只按收藏者的习惯存放,没有按使用者的动作组织。
收藏者会说:这是我去年存的一个好资料。
使用者只会问:我现在点哪里?
AI 在这里真正帮你的地方
AI 最适合做的,不只是帮你写页面。
它更适合在第一步帮你把资料拆成结构。
比如你给它一批资料,让它不要总结,先输出:
- 这批资料适合做什么产品形态。
- 用户打开它时最想解决哪几个问题。
- 首页应该放什么入口。
- 一级栏目和二级页面怎么分。
- 哪些人物、地点、概念、案例、工具、步骤适合做成可点击节点。
- 第一版先做哪 10 个页面。
- 哪些功能先别做。
这才是普通人更应该抄的工作流。
先跑结构,再写内容。
先把入口摆出来,再决定页面怎么写。
先做最小可用版本,再考虑要不要上网站、知识库、问答系统、小程序,或者只是一个公开文档。
如果你跳过这一步,AI 很容易给你一篇看起来很完整的总结。
它会很顺。
但顺不等于能用。
能用,意味着读者下一次还有理由回来。
一个可以直接套用的判断
你可以用一个很简单的标准检查自己的资料:
读者打开它以后,是只能“看完”,还是可以“做事”?
如果只能看完,它还是内容。
如果能搜索、筛选、点击、对比、按路径继续读,或者帮用户做一个判断,它就开始有产品感。
《史记》这么大的文本可以被拆成章节、实体、事件、关系、时间线。
普通人的资料当然也可以。
行业资料可以变成行业导航。
课程笔记可以变成学习入口。
客户问答可以变成销售问答库。
地方故事可以变成城市知识地图。
产品说明可以变成选型助手。
过往文章可以变成主题索引。
这不是让所有人都去做一个复杂网站。
更准确地说,是别再把资料只当成“文章原料”。
它也可能是一个小产品的底层数据。
先拿提示词跑一版
如果你现在手里正好有一批资料,可以先不用写代码,也不用设计页面。
先把文末这段“资料变小产品提示词”复制走。
把资料类型、目标用户、资料现状和优先解决的问题填进去,让 AI 先给你拆一版结构。
重点是这句话:
不要直接总结资料,先做资料产品化方案。
因为总结是把内容变短。
产品化是把内容变成别人以后还能用的入口。
这两个动作不是一回事。
下一次你再看到一堆资料,别只问 AI:
“这讲了什么?”
换一个问法:
“这堆资料,能不能做成一个别人愿意反复打开的小产品?”
这个问题一换,后面的路就不一样了。