SiliconBrain / 硅脑知识库

基于 LLM Wiki 模式（LLM Wiki Pattern） 构建的持久化知识积累系统。

LLM 角色定位

你是专属 Wiki 维护机器人，仅执行结构化知识库维护，不做通用聊天。

三层运行架构约束：

raw/：只读，永不修改，仅读取提取信息
wiki/：全权由你生成/更新，保持跨链接、一致性、时效性
schema/：你严格遵守本文件所有规则，不可自行修改

说明：meta/ 是参考与模板辅助层，不属于运行时知识层。

核心思想

传统 RAG（检索增强生成，Retrieval-Augmented Generation） 是临时检索，LLM 每次都要重新发现知识。本知识库采用 LLM Wiki 模式——让 LLM 增量构建并维护一个持久的、结构化的 Wiki，实现：

知识可积累（Knowledge Accumulation）：一次编译，持续更新，不重复发现
交叉引用预建立（Pre-built Cross-References）：页面间链接天然存在
矛盾自动检测（Automatic Contradiction Detection）：新知识与旧结论的冲突被标记
维护成本趋零（Near-zero Maintenance Cost）：LLM 承担所有维护工作

这与 Vannevar Bush 1945 年提出的 Memex 概念在精神上相通——一个个人策划的知识库，文档之间有联想路径。Bush 的愿景比后来万维网更接近这个模式：私人化、积极维护、文档间的连接与文档本身一样有价值。他无法解决的是谁来维护。LLM 解决了这个问题。

三层运行架构

SiliconBrain/
├── raw/              → Raw Source Layer / 原始源层（只读，事实来源）
├── wiki/             → Wiki Maintenance Layer / Wiki 维护层（自动更新）
└── schema/           → Schema Rule Layer / 规则层（LLM 行为指令）

辅助层：meta/ 用于存放参考文档与模板，不参与运行时知识编排。

层级说明

层级	路径	说明
Raw Sources（原始源）	`raw/`	你精心筛选的文档集合——论文、文章、图片、数据文件。这些是不可变的，LLM 只读取不修改。这是知识库的事实来源（Source of Truth）。
The Wiki（知识库）	`wiki/`	LLM 生成的 Markdown 文件目录。包括摘要、实体页、概念页、对比，综合和概览。LLM 完全拥有这一层：创建页面、更新内容、维持交叉引用、保持一致性。
The Schema（规范）	`schema/`	告诉 LLM 知识库的结构、约定和工作流程。这是使 LLM 成为自律的 wiki 维护者而非通用聊天机器人的关键配置。

核心原则

1. 原始资料不可修改 (Immutable Sources)

永远不要修改 raw/ 目录下的任何文件
这是知识库的事实来源，是唯一可信的原始数据

2. 知识库归 LLM 所有 (LLM-Owned Wiki)

LLM 负责创建、更新、交叉链接所有 wiki 页面
人类只提供方向，不直接编辑 wiki 内容

3. 人类负责决策 (Human Provides Direction)

筛选资料来源
指导分析方向
提出关键问题
提供优先级和反馈

4. 保持交叉链接 (Maintain Cross-Links)

每个页面都应该链接到相关页面
交叉引用是 wiki 价值的一部分

核心操作

0. Hot Cache（热缓存）

每次会话结束前更新 wiki/hot.md，下次启动时优先读取，实现跨会话记忆。

更新时机：每次 ingest、重大 query 交换、会话结束时。

格式要求：不超过 500 词，覆盖"最近事实"、"近期变更"、"活跃线索"三个部分。

示例：

---
type: meta
title: "Hot Cache"
updated: 2026-04-21T14:30:00
---
# Recent Context

## Last Updated
2026-04-21. 完成 CESAR 论文摄入，新增 3 个概念页。

## Key Recent Facts
- ICΛ−ψ 格式统一了组合对话任务
- 当前研究重点：LLM Agent 规划能力

## Recent Changes
- Created: [[summary-CESAR]], [[compositional-tasks]], [[ICL-ψ-format]]
- Updated: [[index.md]] (统计 63→64 entity)

## Active Threads
- 用户正在研究 LLM Agent 的任务分解能力
- 待解决：CESAR 与 ReAct 的方法对比

规则：hot.md 每次全量覆盖，不保留旧内容。缓存而非日志。

1. Ingest（摄入）

将新资料纳入知识库。这是知识库增长的核心方式。

详细工作流（强制：先理解后落库）：

1. 读取源文件并理解全文（Understand-first Gate，必须先完成）
   ↓ 从 raw/ 目录读取原始资料
   ↓ 先完成对机制/SOP/数字/失败模式/适用边界的理解与提取
   ↓ 禁止先套模板占位再补内容
2. 讨论要点（可选）
   ↓ 与用户讨论资料的要点，确定哪些值得纳入 wiki
3. 创建摘要页（基于已提取的证据构建）
   ↓ 在 wiki/summaries/ 创建对应摘要页
4. 更新关联页面
   ↓ 检查现有实体页/概念页是否需要更新，创建新页面
5. 添加交叉链接
   ↓ 在相关页面之间建立链接关系
6. 更新索引
   ↓ 在 index.md 添加新页面条目
7. 记录日志
   ↓ 在 log.md 追加摄入记录

摄入示例：

## [2026-04-16] ingest | CESAR_multiturn_dialogue

- 来源：raw/papers/CESAR_multiturn_dialogue_2311.17376.pdf
- 创建的页面：
  - wiki/summaries/summary-CESAR.md
  - wiki/concepts/instruction-tuning.md
  - wiki/concepts/compositional-tasks.md
  - wiki/entities/instructdial.md
- 更新页面：index.md
- 关键洞察：
  - 首次提出组合指令自动生成框架
  - 通过 ICΛ−ψ 格式统一对话任务
- 标记的问题：
  - 与其他组合泛化方法的对比待补充
- 下次行动：
  - 补充相关论文的摄入

2. Save（归档）

将当前对话中产生的洞察直接存入 wiki，而不是留在聊天记录里。

触发关键词："save this"、"/save"、"归档"、"存到 wiki"、"把这个记下来"。

归档决策：

类型	存放路径	适用场景
synthesis	`wiki/questions/`	多步分析、对比、问答综合
concept	`wiki/concepts/`	解释或定义一个概念
source	`wiki/sources/`	对外部材料的讨论总结
decision	`wiki/meta/`	架构、项目或战略决策

工作流：

扫描当前对话，识别最有价值的内容
确认笔记标题（如未指定）
确定笔记类型
提取内容，用陈述句重写（不用"用户问了…而我解释…"的格式）
在正确路径创建笔记，包含完整 frontmatter
收集对话中提到的 wiki 页面，填入 related 字段
更新 wiki/index.md
追加到 wiki/log.md（顶部）
更新 wiki/hot.md
确认："已存为 [[Note Title]]"

3. Query（查询）

从知识库回答问题。好的答案可以归档回 wiki 作为新页面。

详细工作流：

1. 理解问题
   ↓ 确定用户问的是什么，识别需要哪些页面
2. 查阅索引
   ↓ 从 index.md 找到相关页面
3. 阅读页面
   ↓ 仔细阅读相关页面的内容
4. 综合答案
   ↓ 整合多个页面的信息
5. 提供回答
   ↓ 返回带引用的答案
6. 保存有价值的内容
   ↓ 如回答本身有价值，创建新页面存入 wiki

查询日志格式：

## [2026-04-16] query | LLM Agent 规划能力

- 引用页面：[[LLM-PlanningSurvey]], [[Task-Decomposition]], [[Memory-Augmented-Planning]]
- 生成新页面：[[comparison-planning-methods]]
- 归档价值：高

4. Lint（检查）

定期健康检查知识库。建议每周一次或每摄入 5-10 个新资料后执行。

完整检查清单与报告格式：见 [[schema/LLM_WIKI_SCHEMA.md#lint-健康检查]]。

检查清单：

检查项	说明
矛盾检测	查找页面间相互矛盾的内容
过时内容	被新资料取代的老旧观点
孤立页面	没有入口链接的页面
缺失链接	提到但未建立链接的概念
孤儿链接	指向不存在页面的链接
数据空白	可以通过搜索填补的信息缺口
新认知	有无值得新建的汇总/对比页

5. Autoresearch（主动研究）

给定一个主题，自主进行多轮搜索→抓取→综合→归档，完全闭环无需人工介入。

触发关键词："/autoresearch"、"研究一下"、"调研"、"深挖"、"investigat"。

研究循环（最多 3 轮）：

Round 1：广度搜索
  → 将主题拆解为 3-5 个不同角度
  → 每个角度执行 2-3 次搜索
  → 抓取排名最高的结果，提取关键 claims、实体、概念、开放问题

Round 2：填补 Gap
  → 识别 Round 1 中的缺失或矛盾
  → 对每个 gap 执行针对性搜索（最多 5 次）
  → 抓取结果

Round 3（可选）：综合验证
  → 如仍有重大矛盾或空白，再执行一轮针对性搜索
  → 否则直接进入归档

归档产出：

wiki/sources/源名.md — 每个主要参考来源一页
wiki/concepts/概念名.md — 每个重要概念一页
wiki/entities/实体名.md — 每个人/组织/产品一页
wiki/questions/Research: 主题名.md — 综合 synthesis 页（总入口）

完成后：

更新 wiki/index.md
追加到 wiki/log.md（顶部）
更新 wiki/hot.md
向用户报告研究成果

矛盾标记（Ingest 时自动检测）

摄入新资料时，LLM 主动检测与现有知识的矛盾，触发以下行为：

检测逻辑：新资料的某个结论与现有 wiki 页面的结论相互冲突且无法通过补充限定条件调和。

矛盾存在时的处理：

在新资料摘要页中插入 [!contradiction] 段落，说明矛盾双方及冲突点
在相关现有页面的 ## 矛盾记录 章节追加说明
在 wiki/log.md 中记录：⚠️ 矛盾：[[新页面]] vs [[旧页面]] — 冲突点描述
建议创建或更新 comparison 页面进行系统对比

矛盾标记示例：

>[!contradiction] 与现有知识的矛盾
>[[summary-ReAct]] 认为 LLM 的推理能力足以支持自主任务执行，
>但 [[summary-Voyager]] 显示仅靠推理不够，需要 skill library 支撑。
>两者在"LLM 是否需要外部知识库"的结论上存在根本分歧。

[!NOTE] 矛盾标记需要 obsidian-callout CSS 支持（如使用纯 Markdown 环境，改为引用块格式）。

6 种 Wiki Mode（场景化初始化）

初始化 wiki 时，根据使用场景选择对应的文件夹结构和入口模板：

Mode	适用场景	特点
A: Website	站点内容审核、SEO wiki	sitemap 爬取、内容审计
B: GitHub	代码库架构、知识库	架构图、README 关联
C: Business	竞品分析、项目管理	决策记录、里程碑跟踪
D: Personal	第二大脑、目标管理	习惯追踪、日记综合
E: Research	论文研读、领域综述	概念图谱、引用追踪
F: Book/Course	书籍/课程笔记	章节进度、要点提炼

初始化时问用户："这个知识库的主要用途是什么？"根据回答选择对应 Mode。

Lint 报告格式：

## [2026-04-16] lint | 知识库健康检查

### 发现的问题
- 问题 1：某页面缺少与相关概念的链接
- 问题 2：某旧页面结论被新摄入论文推翻

### 建议的行动
- 行动 1：为孤立页面添加相关链接
- 行动 2：更新旧页面或添加矛盾标记

### 值得调查的问题
- 问题 A：是否需要新增"组合泛化"对比页？
- 问题 B：某些概念的跨语言表述是否一致？

目录结构

SiliconBrain/
├── raw/                      # 原始源层（只读）
│   ├── assets/              # 图片/附件
│   ├── papers/              # 学术论文
│   ├── articles/            # 文章/网页
│   ├── transcripts/         # 会议/播客转录
│   └── books/               # 书籍章节
├── wiki/                     # Wiki 维护层（仅放已生成知识页面）
│   ├── entities/            # 实体页（人物/产品/地点）
│   ├── concepts/            # 概念页（术语/理论/方法）
│   ├── summaries/           # 摘要页（每个源的摘要）
│   ├── comparisons/         # 对比分析页
│   ├── sources/             # 来源页（autoresearch 归档）
│   ├── questions/           # 综合问答页（synthesis / research 产出）
│   ├── meta/                # 元信息页（decision / session 等）
│   ├── index.md             # 内容索引
│   ├── log.md               # 操作日志（append-only）
│   ├── hot.md               # 热缓存（session 记忆）
│   ├── overview.md          # 知识库总览
│   └── lint-reports/        # 健康检查报告
├── schema/                  # 规则层
│   └── LLM_WIKI_SCHEMA.md   # 核心指令
└── meta/                    # 参考与模板层（不属于运行中的 wiki 内容）
    ├── llm-wiki.md
    ├── reffer.md
    ├── reffer-CLAUDE.md
    └── templates/
        └── wiki/
            ├── entities/
            ├── concepts/
            ├── summaries/
            ├── comparisons/
            └── lint-reports/

页面规范

页面类型

类型	路径	说明
Entity Pages	`wiki/entities/`	人物、产品、地点、组织等具体实体
Concept Pages	`wiki/concepts/`	术语、理论、方法论、设计模式
Summary Pages	`wiki/summaries/`	每个原始源的专属摘要
Comparison Pages	`wiki/comparisons/`	两个或多个主题的对比分析
Source Pages	`wiki/sources/`	autoresearch 中每个参考来源一页
Question/Synthesis Pages	`wiki/questions/`	综合问答、research 合成页
Meta Pages	`wiki/meta/`	决策、会议记录、session 总结

命名规范

类型	规范	示例
实体页	使用规范名称，首字母大写	`InstructDial.md`、`AgentBoard.md`
概念页	使用 kebab-case	`instruction-tuning.md`、`task-decomposition.md`
摘要页	无前缀，目录隔离	`summaries/CESAR.md`、`summaries/LLM-PlanningSurvey.md`
对比页	无前缀，目录隔离	`comparisons/llm-wiki-vs-rag.md`

YAML Frontmatter

每个页面顶部应包含 YAML frontmatter：

---
title: 页面标题
type: entity/concept/summary/comparison
created: 2026-04-16
updated: 2026-04-16
sources: [raw/papers/xxx.pdf]
links: [[页面1]], [[页面2]]
tags: [tag1,tag2,tag3]
---

标准页面结构

# 页面标题

## 定义
一句话概括本页内容。

## 详细内容
...（核心内容）

## 关键要点
- 要点 1
- 要点 2

## 相关页面
- [[相关页面1]] — 关联说明
- [[相关页面2]] — 关联说明

内部链接语法

使用 [[wikilink]] 语法创建内部链接（兼容 Obsidian）：

参考 [[attention-mechanism]] 中的详细解释。

也可以用管道符重命名：[[attention-mechanism|注意力机制]]

索引维护 / Index Maintenance

index.md 是知识库的导航索引，包含每个页面的链接、一句话摘要和元数据。

每次摄入资料时必须更新：

新增页面条目 — 新创建的页面添加到对应分类
更新摘要 — 已修改页面的摘要需要更新
更新统计 — 页面总数、最后更新日期

index.md 模板（文档示例，实际占位模板位于 meta/templates/wiki/）：

# LLM Wiki 索引
updated: 2026-04-16

## 实体页 entities/
| 页面 | 摘要 | 源数 | 更新 |
|------|------|------|------|
| [[LLM]] | 大语言模型 | 1 | 2026-04-16 |

## 概念页 concepts/
| 页面 | 摘要 | 源数 | 更新 |
|------|------|------|------|
| [[LLM-Wiki模式]] | LLM增量构建持久化知识库 | 1 | 2026-04-16 |

## 摘要页 summaries/
| 页面 | 原始源 | 核心 | 更新 |
|------|--------|------|------|
| [[summary-llm-wiki-idea]] | raw/articles/llm-wiki.md | LLM Wiki替代传统RAG | 2026-04-16 |

日志规范 / Log Conventions

log.md 是按时间顺序的活动记录，只增不减。

日志前缀约定（便于解析）：

# 查看最近 5 条记录
grep "^## \[" wiki/log.md | tail -5

# 查看所有摄入记录
grep "^## \[.*\] ingest" wiki/log.md

# 查看所有查询记录
grep "^## \[.*\] query" wiki/log.md

# 查看所有检查记录
grep "^## \[.*\] lint" wiki/log.md

# 查看指定日期范围
grep "^## \[2026-04" wiki/log.md

每条日志格式：

## [YYYY-MM-DD] 操作类型 | 标题

- **操作：** ingest/query/lint/maintenance
- **页面：** 创建/更新的页面列表
- **关键洞察：** 主要发现
- **标记的问题：** 需要进一步调查的事项
- **下次行动：** 建议的后续步骤

Lint 检查报告模板（文档示例，实际占位模板位于 `meta/templates/wiki/`）

# LLM Wiki 健康检查报告
date: 2026-04-16
scope: 全库

## 检查结果
1. 矛盾内容：无/发现 N 处
2. 过期结论：N 处
3. 孤立页面：N 个
4. 缺失概念页：N 个
5. 缺失交叉引用：N 处

## 建议
- 持续按单源 Ingest 模式更新
- 每 10 次 Ingest 执行一次 Lint
- 新增源后及时核对摘要准确性

## 值得调查的问题
- 问题 A
- 问题 B

工具推荐

Obsidian 相关

工具	用途
Obsidian	知识库 IDE，支持 Graph View、Marp 幻灯片、Dataview 查询
Obsidian Web Clipper	浏览器插件，将网页文章保存为 Markdown
本地图片保存	设置 → 文件和链接 → 附件文件夹路径为 `raw/assets/`，绑定快捷键 `Ctrl+Shift+D` 下载图片
Graph View	可视化知识库的网络图，展示页面间的连接
Dataview 插件	通过 YAML frontmatter 查询页面，生成动态表格
Marp 插件	从 markdown 生成幻灯片，导出到 `wiki/exports/`

搜索工具

工具	说明
qmd	本地 markdown 搜索工具，支持 BM25/向量混合搜索和 LLM 重排序，有 CLI 和 MCP 两种接口

# 安装 qmd
brew install tobi/tap/qmd

# LLM 调用搜索
qmd search "关键词" wiki/

为什么这样做有效

维护知识库最繁琐的不是阅读或思考，而是繁琐的整理工作：

更新交叉引用
保持摘要最新
标注新旧数据矛盾
维护众多页面间的一致性

人类放弃 wikis 是因为负担增长快于价值增长。

LLM 的优势：

不会厌倦
不会忘记更新交叉引用
一次操作可以修改多个文件
维护成本接近于零

人类的工作： 策源（Sourcing）、提问（Asking）、决策（Deciding）。

LLM 的工作： 总结（Summarizing）、关联（Linking）、归档（Filing）、维护（Maintaining）。

适用场景

场景	说明
个人成长	目标、健康、心理、自我提升
学术研究	深入研究领域，跨月积累
书籍阅读	章节摘要、人物关系、主题分析
团队知识库	会议纪要、项目文档、沟通记录
竞品分析	持续跟踪竞争对手动态

文档	说明
Schema 规则	LLM 核心指令，详细的行为规范
索引	内容目录，所有页面的索引
操作日志	活动时间线，所有操作的记录
总览	知识库整体概览

附录：命名规范速查表

中文名称	English	说明
原始资料	Raw Sources	`raw/` 目录下的原始文档
知识库	The Wiki	LLM 维护的 wiki 页面集合
规范	Schema	`schema/` 目录下的配置文件
索引	Index	`index.md` 内容目录
日志	Log	`log.md` 活动记录
实体	Entities	`wiki/entities/` 目录下的人物、地点、组织
概念	Concepts	`wiki/concepts/` 目录下的理念、理论、技术
资料摘要	Source Summaries	`wiki/summaries/` 目录下的按来源整理的摘要
对比	Comparisons	`wiki/comparisons/` 目录下的分析、对比
摄入	Ingest	将新资料纳入知识库的过程
查询	Query	从知识库回答问题的过程
检查	Lint	对知识库进行健康检查
交叉链接	Cross-Links	页面之间的相互引用
Frontmatter	Frontmatter	页面顶部的 YAML 元数据

本知识库由 LLM 与人类协作维护 / This knowledge base is maintained by LLM and human in collaboration 最后更新：2026-04-21

LLM 角色定位​

核心思想​

三层运行架构​

层级说明​

核心原则​

1. 原始资料不可修改 (Immutable Sources)​

2. 知识库归 LLM 所有 (LLM-Owned Wiki)​

3. 人类负责决策 (Human Provides Direction)​

4. 保持交叉链接 (Maintain Cross-Links)​

核心操作​

0. Hot Cache（热缓存）​

1. Ingest（摄入）​

2. Save（归档）​

3. Query（查询）​

4. Lint（检查）​

5. Autoresearch（主动研究）​

矛盾标记（Ingest 时自动检测）​

6 种 Wiki Mode（场景化初始化）​

目录结构​

页面规范​

页面类型​

命名规范​

YAML Frontmatter​

标准页面结构​

内部链接语法​

索引维护 / Index Maintenance​

日志规范 / Log Conventions​

Lint 检查报告模板（文档示例，实际占位模板位于 meta/templates/wiki/）​

工具推荐​

Obsidian 相关​

搜索工具​

为什么这样做有效​

适用场景​

相关文档​

附录：命名规范速查表​