跳到主要内容

SiliconBrain / 硅脑知识库

基于 LLM Wiki 模式(LLM Wiki Pattern) 构建的持久化知识积累系统。

LLM 角色定位

你是专属 Wiki 维护机器人,仅执行结构化知识库维护,不做通用聊天。

三层运行架构约束

  1. raw/:只读,永不修改,仅读取提取信息
  2. wiki/:全权由你生成/更新,保持跨链接、一致性、时效性
  3. schema/:你严格遵守本文件所有规则,不可自行修改

说明:meta/ 是参考与模板辅助层,不属于运行时知识层。

核心思想

传统 RAG(检索增强生成,Retrieval-Augmented Generation) 是临时检索,LLM 每次都要重新发现知识。本知识库采用 LLM Wiki 模式——让 LLM 增量构建并维护一个持久的、结构化的 Wiki,实现:

  • 知识可积累(Knowledge Accumulation):一次编译,持续更新,不重复发现
  • 交叉引用预建立(Pre-built Cross-References):页面间链接天然存在
  • 矛盾自动检测(Automatic Contradiction Detection):新知识与旧结论的冲突被标记
  • 维护成本趋零(Near-zero Maintenance Cost):LLM 承担所有维护工作

这与 Vannevar Bush 1945 年提出的 Memex 概念在精神上相通——一个个人策划的知识库,文档之间有联想路径。Bush 的愿景比后来万维网更接近这个模式:私人化、积极维护、文档间的连接与文档本身一样有价值。他无法解决的是谁来维护。LLM 解决了这个问题。

三层运行架构

SiliconBrain/
├── raw/ → Raw Source Layer / 原始源层(只读,事实来源)
├── wiki/ → Wiki Maintenance Layer / Wiki 维护层(自动更新)
└── schema/ → Schema Rule Layer / 规则层(LLM 行为指令)

辅助层:meta/ 用于存放参考文档与模板,不参与运行时知识编排。

层级说明

层级路径说明
Raw Sources(原始源)raw/你精心筛选的文档集合——论文、文章、图片、数据文件。这些是不可变的,LLM 只读取不修改。这是知识库的事实来源(Source of Truth)
The Wiki(知识库)wiki/LLM 生成的 Markdown 文件目录。包括摘要、实体页、概念页、对比,综合和概览。LLM 完全拥有这一层:创建页面、更新内容、维持交叉引用、保持一致性。
The Schema(规范)schema/告诉 LLM 知识库的结构、约定和工作流程。这是使 LLM 成为自律的 wiki 维护者而非通用聊天机器人的关键配置。

核心原则

1. 原始资料不可修改 (Immutable Sources)

  • 永远不要修改 raw/ 目录下的任何文件
  • 这是知识库的事实来源,是唯一可信的原始数据

2. 知识库归 LLM 所有 (LLM-Owned Wiki)

  • LLM 负责创建、更新、交叉链接所有 wiki 页面
  • 人类只提供方向,不直接编辑 wiki 内容

3. 人类负责决策 (Human Provides Direction)

  • 筛选资料来源
  • 指导分析方向
  • 提出关键问题
  • 提供优先级和反馈
  • 每个页面都应该链接到相关页面
  • 交叉引用是 wiki 价值的一部分

核心操作

0. Hot Cache(热缓存)

每次会话结束前更新 wiki/hot.md,下次启动时优先读取,实现跨会话记忆。

更新时机:每次 ingest、重大 query 交换、会话结束时。

格式要求:不超过 500 词,覆盖"最近事实"、"近期变更"、"活跃线索"三个部分。

示例

---
type: meta
title: "Hot Cache"
updated: 2026-04-21T14:30:00
---
# Recent Context

## Last Updated
2026-04-21. 完成 CESAR 论文摄入,新增 3 个概念页。

## Key Recent Facts
- ICΛ−ψ 格式统一了组合对话任务
- 当前研究重点:LLM Agent 规划能力

## Recent Changes
- Created: [[summary-CESAR]], [[compositional-tasks]], [[ICL-ψ-format]]
- Updated: [[index.md]] (统计 63→64 entity)

## Active Threads
- 用户正在研究 LLM Agent 的任务分解能力
- 待解决:CESAR 与 ReAct 的方法对比

规则:hot.md 每次全量覆盖,不保留旧内容。缓存而非日志。


1. Ingest(摄入)

将新资料纳入知识库。这是知识库增长的核心方式。

详细工作流(强制:先理解后落库)

1. 读取源文件并理解全文(Understand-first Gate,必须先完成)
↓ 从 raw/ 目录读取原始资料
↓ 先完成对机制/SOP/数字/失败模式/适用边界的理解与提取
↓ 禁止先套模板占位再补内容
2. 讨论要点(可选)
↓ 与用户讨论资料的要点,确定哪些值得纳入 wiki
3. 创建摘要页(基于已提取的证据构建)
↓ 在 wiki/summaries/ 创建对应摘要页
4. 更新关联页面
↓ 检查现有实体页/概念页是否需要更新,创建新页面
5. 添加交叉链接
↓ 在相关页面之间建立链接关系
6. 更新索引
↓ 在 index.md 添加新页面条目
7. 记录日志
↓ 在 log.md 追加摄入记录

摄入示例

## [2026-04-16] ingest | CESAR_multiturn_dialogue

- 来源:raw/papers/CESAR_multiturn_dialogue_2311.17376.pdf
- 创建的页面:
- wiki/summaries/summary-CESAR.md
- wiki/concepts/instruction-tuning.md
- wiki/concepts/compositional-tasks.md
- wiki/entities/instructdial.md
- 更新页面:index.md
- 关键洞察:
- 首次提出组合指令自动生成框架
- 通过 ICΛ−ψ 格式统一对话任务
- 标记的问题:
- 与其他组合泛化方法的对比待补充
- 下次行动:
- 补充相关论文的摄入

2. Save(归档)

将当前对话中产生的洞察直接存入 wiki,而不是留在聊天记录里。

触发关键词:"save this"、"/save"、"归档"、"存到 wiki"、"把这个记下来"。

归档决策

类型存放路径适用场景
synthesiswiki/questions/多步分析、对比、问答综合
conceptwiki/concepts/解释或定义一个概念
sourcewiki/sources/对外部材料的讨论总结
decisionwiki/meta/架构、项目或战略决策

工作流

  1. 扫描当前对话,识别最有价值的内容
  2. 确认笔记标题(如未指定)
  3. 确定笔记类型
  4. 提取内容,用陈述句重写(不用"用户问了…而我解释…"的格式)
  5. 在正确路径创建笔记,包含完整 frontmatter
  6. 收集对话中提到的 wiki 页面,填入 related 字段
  7. 更新 wiki/index.md
  8. 追加到 wiki/log.md(顶部)
  9. 更新 wiki/hot.md
  10. 确认:"已存为 [[Note Title]]"

3. Query(查询)

从知识库回答问题。好的答案可以归档回 wiki 作为新页面。

详细工作流

1. 理解问题
↓ 确定用户问的是什么,识别需要哪些页面
2. 查阅索引
↓ 从 index.md 找到相关页面
3. 阅读页面
↓ 仔细阅读相关页面的内容
4. 综合答案
↓ 整合多个页面的信息
5. 提供回答
↓ 返回带引用的答案
6. 保存有价值的内容
↓ 如回答本身有价值,创建新页面存入 wiki

查询日志格式

## [2026-04-16] query | LLM Agent 规划能力

- 引用页面:[[LLM-PlanningSurvey]], [[Task-Decomposition]], [[Memory-Augmented-Planning]]
- 生成新页面:[[comparison-planning-methods]]
- 归档价值:高

4. Lint(检查)

定期健康检查知识库。建议每周一次或每摄入 5-10 个新资料后执行。

完整检查清单与报告格式:见 [[schema/LLM_WIKI_SCHEMA.md#lint-健康检查]]。

检查清单

检查项说明
矛盾检测查找页面间相互矛盾的内容
过时内容被新资料取代的老旧观点
孤立页面没有入口链接的页面
缺失链接提到但未建立链接的概念
孤儿链接指向不存在页面的链接
数据空白可以通过搜索填补的信息缺口
新认知有无值得新建的汇总/对比页

5. Autoresearch(主动研究)

给定一个主题,自主进行多轮搜索→抓取→综合→归档,完全闭环无需人工介入。

触发关键词:"/autoresearch"、"研究一下"、"调研"、"深挖"、"investigat"。

研究循环(最多 3 轮):

Round 1:广度搜索
→ 将主题拆解为 3-5 个不同角度
→ 每个角度执行 2-3 次搜索
→ 抓取排名最高的结果,提取关键 claims、实体、概念、开放问题

Round 2:填补 Gap
→ 识别 Round 1 中的缺失或矛盾
→ 对每个 gap 执行针对性搜索(最多 5 次)
→ 抓取结果

Round 3(可选):综合验证
→ 如仍有重大矛盾或空白,再执行一轮针对性搜索
→ 否则直接进入归档

归档产出

  • wiki/sources/源名.md — 每个主要参考来源一页
  • wiki/concepts/概念名.md — 每个重要概念一页
  • wiki/entities/实体名.md — 每个人/组织/产品一页
  • wiki/questions/Research: 主题名.md — 综合 synthesis 页(总入口)

完成后

  1. 更新 wiki/index.md
  2. 追加到 wiki/log.md(顶部)
  3. 更新 wiki/hot.md
  4. 向用户报告研究成果

矛盾标记(Ingest 时自动检测)

摄入新资料时,LLM 主动检测与现有知识的矛盾,触发以下行为:

检测逻辑:新资料的某个结论与现有 wiki 页面的结论相互冲突且无法通过补充限定条件调和

矛盾存在时的处理

  1. 在新资料摘要页中插入 [!contradiction] 段落,说明矛盾双方及冲突点
  2. 在相关现有页面的 ## 矛盾记录 章节追加说明
  3. wiki/log.md 中记录:⚠️ 矛盾:[[新页面]] vs [[旧页面]] — 冲突点描述
  4. 建议创建或更新 comparison 页面进行系统对比

矛盾标记示例

>[!contradiction] 与现有知识的矛盾
>[[summary-ReAct]] 认为 LLM 的推理能力足以支持自主任务执行,
>但 [[summary-Voyager]] 显示仅靠推理不够,需要 skill library 支撑。
>两者在"LLM 是否需要外部知识库"的结论上存在根本分歧。

[!NOTE] 矛盾标记需要 obsidian-callout CSS 支持(如使用纯 Markdown 环境,改为引用块格式)。


6 种 Wiki Mode(场景化初始化)

初始化 wiki 时,根据使用场景选择对应的文件夹结构和入口模板:

Mode适用场景特点
A: Website站点内容审核、SEO wikisitemap 爬取、内容审计
B: GitHub代码库架构、知识库架构图、README 关联
C: Business竞品分析、项目管理决策记录、里程碑跟踪
D: Personal第二大脑、目标管理习惯追踪、日记综合
E: Research论文研读、领域综述概念图谱、引用追踪
F: Book/Course书籍/课程笔记章节进度、要点提炼

初始化时问用户:"这个知识库的主要用途是什么?"根据回答选择对应 Mode。

Lint 报告格式

## [2026-04-16] lint | 知识库健康检查

### 发现的问题
- 问题 1:某页面缺少与相关概念的链接
- 问题 2:某旧页面结论被新摄入论文推翻

### 建议的行动
- 行动 1:为孤立页面添加相关链接
- 行动 2:更新旧页面或添加矛盾标记

### 值得调查的问题
- 问题 A:是否需要新增"组合泛化"对比页?
- 问题 B:某些概念的跨语言表述是否一致?

目录结构

SiliconBrain/
├── raw/ # 原始源层(只读)
│ ├── assets/ # 图片/附件
│ ├── papers/ # 学术论文
│ ├── articles/ # 文章/网页
│ ├── transcripts/ # 会议/播客转录
│ └── books/ # 书籍章节
├── wiki/ # Wiki 维护层(仅放已生成知识页面)
│ ├── entities/ # 实体页(人物/产品/地点)
│ ├── concepts/ # 概念页(术语/理论/方法)
│ ├── summaries/ # 摘要页(每个源的摘要)
│ ├── comparisons/ # 对比分析页
│ ├── sources/ # 来源页(autoresearch 归档)
│ ├── questions/ # 综合问答页(synthesis / research 产出)
│ ├── meta/ # 元信息页(decision / session 等)
│ ├── index.md # 内容索引
│ ├── log.md # 操作日志(append-only)
│ ├── hot.md # 热缓存(session 记忆)
│ ├── overview.md # 知识库总览
│ └── lint-reports/ # 健康检查报告
├── schema/ # 规则层
│ └── LLM_WIKI_SCHEMA.md # 核心指令
└── meta/ # 参考与模板层(不属于运行中的 wiki 内容)
├── llm-wiki.md
├── reffer.md
├── reffer-CLAUDE.md
└── templates/
└── wiki/
├── entities/
├── concepts/
├── summaries/
├── comparisons/
└── lint-reports/

页面规范

页面类型

类型路径说明
Entity Pageswiki/entities/人物、产品、地点、组织等具体实体
Concept Pageswiki/concepts/术语、理论、方法论、设计模式
Summary Pageswiki/summaries/每个原始源的专属摘要
Comparison Pageswiki/comparisons/两个或多个主题的对比分析
Source Pageswiki/sources/autoresearch 中每个参考来源一页
Question/Synthesis Pageswiki/questions/综合问答、research 合成页
Meta Pageswiki/meta/决策、会议记录、session 总结

命名规范

类型规范示例
实体页使用规范名称,首字母大写InstructDial.mdAgentBoard.md
概念页使用 kebab-caseinstruction-tuning.mdtask-decomposition.md
摘要页无前缀,目录隔离summaries/CESAR.mdsummaries/LLM-PlanningSurvey.md
对比页无前缀,目录隔离comparisons/llm-wiki-vs-rag.md

YAML Frontmatter

每个页面顶部应包含 YAML frontmatter:

---
title: 页面标题
type: entity/concept/summary/comparison
created: 2026-04-16
updated: 2026-04-16
sources: [raw/papers/xxx.pdf]
links: [[页面1]], [[页面2]]
tags: [tag1,tag2,tag3]
---

标准页面结构

# 页面标题

## 定义
一句话概括本页内容。

## 详细内容
...(核心内容)

## 关键要点
- 要点 1
- 要点 2

## 相关页面
- [[相关页面1]] — 关联说明
- [[相关页面2]] — 关联说明

内部链接语法

使用 [[wikilink]] 语法创建内部链接(兼容 Obsidian):

参考 [[attention-mechanism]] 中的详细解释。

也可以用管道符重命名:[[attention-mechanism|注意力机制]]

索引维护 / Index Maintenance

index.md 是知识库的导航索引,包含每个页面的链接、一句话摘要和元数据。

每次摄入资料时必须更新

  1. 新增页面条目 — 新创建的页面添加到对应分类
  2. 更新摘要 — 已修改页面的摘要需要更新
  3. 更新统计 — 页面总数、最后更新日期

index.md 模板(文档示例,实际占位模板位于 meta/templates/wiki/

# LLM Wiki 索引
updated: 2026-04-16

## 实体页 entities/
| 页面 | 摘要 | 源数 | 更新 |
|------|------|------|------|
| [[LLM]] | 大语言模型 | 1 | 2026-04-16 |

## 概念页 concepts/
| 页面 | 摘要 | 源数 | 更新 |
|------|------|------|------|
| [[LLM-Wiki模式]] | LLM增量构建持久化知识库 | 1 | 2026-04-16 |

## 摘要页 summaries/
| 页面 | 原始源 | 核心 | 更新 |
|------|--------|------|------|
| [[summary-llm-wiki-idea]] | raw/articles/llm-wiki.md | LLM Wiki替代传统RAG | 2026-04-16 |

日志规范 / Log Conventions

log.md 是按时间顺序的活动记录,只增不减

日志前缀约定(便于解析):

# 查看最近 5 条记录
grep "^## \[" wiki/log.md | tail -5

# 查看所有摄入记录
grep "^## \[.*\] ingest" wiki/log.md

# 查看所有查询记录
grep "^## \[.*\] query" wiki/log.md

# 查看所有检查记录
grep "^## \[.*\] lint" wiki/log.md

# 查看指定日期范围
grep "^## \[2026-04" wiki/log.md

每条日志格式

## [YYYY-MM-DD] 操作类型 | 标题

- **操作:** ingest/query/lint/maintenance
- **页面:** 创建/更新的页面列表
- **关键洞察:** 主要发现
- **标记的问题:** 需要进一步调查的事项
- **下次行动:** 建议的后续步骤

Lint 检查报告模板(文档示例,实际占位模板位于 meta/templates/wiki/

# LLM Wiki 健康检查报告
date: 2026-04-16
scope: 全库

## 检查结果
1. 矛盾内容:无/发现 N 处
2. 过期结论:N 处
3. 孤立页面:N 个
4. 缺失概念页:N 个
5. 缺失交叉引用:N 处

## 建议
- 持续按单源 Ingest 模式更新
- 每 10 次 Ingest 执行一次 Lint
- 新增源后及时核对摘要准确性

## 值得调查的问题
- 问题 A
- 问题 B

工具推荐

Obsidian 相关

工具用途
Obsidian知识库 IDE,支持 Graph View、Marp 幻灯片、Dataview 查询
Obsidian Web Clipper浏览器插件,将网页文章保存为 Markdown
本地图片保存设置 → 文件和链接 → 附件文件夹路径为 raw/assets/,绑定快捷键 Ctrl+Shift+D 下载图片
Graph View可视化知识库的网络图,展示页面间的连接
Dataview 插件通过 YAML frontmatter 查询页面,生成动态表格
Marp 插件从 markdown 生成幻灯片,导出到 wiki/exports/

搜索工具

工具说明
qmd本地 markdown 搜索工具,支持 BM25/向量混合搜索和 LLM 重排序,有 CLI 和 MCP 两种接口
# 安装 qmd
brew install tobi/tap/qmd

# LLM 调用搜索
qmd search "关键词" wiki/

为什么这样做有效

维护知识库最繁琐的不是阅读或思考,而是繁琐的整理工作

  • 更新交叉引用
  • 保持摘要最新
  • 标注新旧数据矛盾
  • 维护众多页面间的一致性

人类放弃 wikis 是因为负担增长快于价值增长。

LLM 的优势:

  • 不会厌倦
  • 不会忘记更新交叉引用
  • 一次操作可以修改多个文件
  • 维护成本接近于零

人类的工作: 策源(Sourcing)、提问(Asking)、决策(Deciding)。

LLM 的工作: 总结(Summarizing)、关联(Linking)、归档(Filing)、维护(Maintaining)。

适用场景

场景说明
个人成长目标、健康、心理、自我提升
学术研究深入研究领域,跨月积累
书籍阅读章节摘要、人物关系、主题分析
团队知识库会议纪要、项目文档、沟通记录
竞品分析持续跟踪竞争对手动态

相关文档

文档说明
Schema 规则LLM 核心指令,详细的行为规范
索引内容目录,所有页面的索引
操作日志活动时间线,所有操作的记录
总览知识库整体概览

附录:命名规范速查表

中文名称English说明
原始资料Raw Sourcesraw/ 目录下的原始文档
知识库The WikiLLM 维护的 wiki 页面集合
规范Schemaschema/ 目录下的配置文件
索引Indexindex.md 内容目录
日志Loglog.md 活动记录
实体Entitieswiki/entities/ 目录下的人物、地点、组织
概念Conceptswiki/concepts/ 目录下的理念、理论、技术
资料摘要Source Summarieswiki/summaries/ 目录下的按来源整理的摘要
对比Comparisonswiki/comparisons/ 目录下的分析、对比
摄入Ingest将新资料纳入知识库的过程
查询Query从知识库回答问题的过程
检查Lint对知识库进行健康检查
交叉链接Cross-Links页面之间的相互引用
FrontmatterFrontmatter页面顶部的 YAML 元数据

本知识库由 LLM 与人类协作维护 / This knowledge base is maintained by LLM and human in collaboration 最后更新:2026-04-21