Superpowers vs agent-skills vs gstack 深入对比

分析时间：2026年4月 | 目的：理解三大 Claude Code 插件/技能体系的差异，给出选型建议

一、三个项目是什么

它们解决的核心问题

Claude Code 虽然强大，但"裸跑"有两个痛点：

缺乏纪律 — 没有工作流程约束，AI 容易走捷径（"回头再补测试"）
缺乏角色分工 — 一个 AI 完成所有事，没有视角切换（产品、工程、设计、QA）

三个项目从不同角度解决了这些问题：

裸跑 Claude Code          Superpowers              gstack                agent-skills
─────────────────        ──────────────           ──────────            ─────────────
                           ▲                        ▲                      ▲
                           │                        │                      │
   你                  强制流程                 虚拟团队                 文化注入
   ↓                    ↓                        ↓                      ↓
  随便问               7个阶段必须走完           25个角色/工具           20个技能编码
  → 看运气             → 质量可控               → 视角全面               → 标准一致

二、三个项目核心对比总表

维度	🔴 Superpowers	🟢 agent-skills	🔵 gstack
作者	Jesse Vincent (Prime Radiant)	Addy Osmani (Google AI 总监)	Garry Tan (YC CEO)
GitHub Stars	~107K	~21K	~55K
定位	工程纪律执行器	编码文化注入器	虚拟工程团队
核心哲学	"AI 的问题不是能力，是缺乏纪律"	"技能编码了资深工程师的工作流"	"别让一个 AI 做所有事，给它不同角色"
触发方式	自动触发 (auto-triggered)	手动 `/command` 调用	手动 `/command` 调用
阶段数/技能数	7 个强制阶段	7 个命令 + 20 个技能	25+ 个命令/角色
强制 TDD	✅ 强制（写实现前必须有失败测试）	✅ 推荐（TDD 作为独立技能）	❌ 非强制（QA 阶段测试）
多模型交叉验证	❌ 不支持	❌ 不支持	✅ 支持 (Claude + Codex)
浏览器测试	❌ 无	✅ DevTools MCP	✅ 原生 Chromium (持久化)
跨平台支持	Claude Code, Cursor, Codex, Gemini CLI	Claude Code, Cursor, Gemini CLI, Copilot, Windsurf, Kiro	Claude Code, Codex, Gemini CLI, Cursor
协议标准	SKILL.md	SKILL.md	SKILL.md
许可证	MIT	MIT	MIT

三、架构设计对比

3.1 Superpowers — 管道式架构 (Pipeline)

                         Superpowers 架构
┌─────────────────────────────────────────────────────────────────────────┐
│                                                                         │
│  session-start hook (入口)                                               │
│       │                                                                 │
│       ▼                                                                 │
│  ┌─────────────────────────────────────────────────────────────────┐   │
│  │              7 阶段强制管道 (Mandatory Pipeline)                   │   │
│  │                                                                   │   │
│  │  ① Brainstorming ──► ② Spec ──► ③ Plan ──► ④ TDD ──►           │   │
│  │                                                                    │   │
│  │  ⑤ Subagent Dev ──► ⑥ Code Review ──► ⑦ Finalize                │   │
│  │                                                                    │   │
│  │  每个阶段必须完成才能进入下一阶段                                     │   │
│  └─────────────────────────────────────────────────────────────────┘   │
│       │                                                                 │
│       ▼                                                                 │
│  ┌─────────────────────────────────────────────────────────────────┐   │
│  │  支撑机制                                                        │   │
│  │  • 1% Rule: 只要1%概率相关，必须触发技能                            │   │
│  │  • No Placeholders: 计划不允许出现 TBD/"类似任务"                   │   │
│  │  • Forced TDD: 先写实现? 删了重来                                  │   │
│  │  • Inline Self-Review: v5.0.6+ 内置自审查，省去子代理调用的开销     │   │
│  └─────────────────────────────────────────────────────────────────┘   │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

特点：自上而下的强制流程，像工厂流水线。
适合：需要质量保障的日常开发。

3.2 gstack — 角色式架构 (Role-based)

                         gstack 架构
┌─────────────────────────────────────────────────────────────────────────┐
│                                                                         │
│  入口：用户通过 /command 按需调用角色                                      │
│                                                                         │
│  角色层 (18个)                                                          │
│  ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐    │
│  │  CEO视角  │ │ 设计师   │ │ 工程经理  │ │   QA     │ │ 安审     │    │
│  │ /office- │ │ /plan-  │ │ /plan-  │ │ /qa     │ │ /cso    │    │
│  │  hours   │ │ design- │ │ eng-    │ │ /browse │ │         │    │
│  │          │ │ review  │ │ review  │ │          │ │         │    │
│  └──────────┘ └──────────┘ └──────────┘ └──────────┘ └──────────┘    │
│       │            │            │            │            │           │
│       └────────────┴────────────┼────────────┴────────────┘           │
│                                 ▼                                     │
│  工具层 (7个)                                                          │
│  ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐    │
│  │  /codex  │ │  /freeze │ │  /guard  │ │ /setup-  │ │ /gstack- │    │
│  │ 交叉验证  │ │ 编辑锁定  │ │ 全防护   │ │  deploy  │ │ upgrade  │    │
│  └──────────┘ └──────────┘ └──────────┘ └──────────┘ └──────────┘    │
│                                                                         │
│  关键特性：                                                             │
│  • 持久化浏览器守护进程 (不依赖 MCP，延迟更低)                            │
│  • 多 Agent 并行 (Conductor 调度 10-15 个独立会话)                       │
│  • 编辑锁定 (/freeze) 防止范围蔓延                                       │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

特点：按需调用的角色团队，像指挥一个工程部门。
适合：产品从0到1快速发货。

3.3 agent-skills — 插件式架构 (Library)

                       agent-skills 架构
┌─────────────────────────────────────────────────────────────────────────┐
│                                                                         │
│  用户通过 /command 调用技能                                              │
│       │                                                                 │
│       ▼                                                                 │
│  ┌─────────────────────────────────────────────────────────────────┐   │
│  │  技能库 (20个独立技能，按生命周期组织)                              │   │
│  │                                                                   │   │
│  │  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐        │   │
│  │  │ Define │→│  Plan   │→│  Build  │→│ Verify  │→│...  │        │   │
│  │  │ /spec   │  │ /plan   │  │ /build  │  │ /test   │  │        │   │
│  │  │ idea-   │  │ task-   │  │ TDD     │  │ debug   │  │        │   │
│  │  │ refine  │  │ breakdown│  │ frontend│  │ browser │  │        │   │
│  │  └──────────┘  └──────────┘  └──────────┘  └──────────┘        │   │
│  │                                                                   │   │
│  │  ┌──────────┐  ┌──────────┐  ┌──────────┐                       │   │
│  │  │ Review  │→│  Ship   │  │ Cross-  │                       │   │
│  │  │ /review │  │ /ship   │  │ cutting  │                       │   │
│  │  │ code-   │  │ git-    │  │ security │                       │   │
│  │  │ simplify│  │ workflow│  │ perf     │                       │   │
│  │  └──────────┘  └──────────┘  └──────────┘                       │   │
│  └─────────────────────────────────────────────────────────────────┘   │
│       │                                                                 │
│       ▼                                                                 │
│  ┌─────────────────────────────────────────────────────────────────┐   │
│  │  每个技能的内部结构                                                  │   │
│  │                                                                   │   │
│  │  • Metadata (YAML frontmatter, ~100 tokens)                       │   │
│  │  • 核心流程 (编号步骤 + ASCII图)                                   │   │
│  │  • 反理性化表 (Anti-rationalization: 预判AI会找什么借口)            │   │
│  │  • 红旗告警 (Red flags: 违反技能的可观察行为)                       │   │
│  │  • 验证门 (Verification gates: 带证据要求的退出条件)                │   │
│  │                                                                   │   │
│  └─────────────────────────────────────────────────────────────────┘   │
│                                                                         │
│  关键特性：                                                             │
│  • 渐进披露 (Progressive Disclosure)：按需加载，节省 Token              │
│  • 跨平台：可在任何支持 Markdown 的 AI 编码工具中运行                     │
│  • 编码了 Google 内部的工程文化                                          │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

特点：可组合的技能库，像安装了一个"资深工程师"的知识库。
适合：团队标准化、建立编码规范。

四、能力矩阵对比

4.1 开发生命周期覆盖

                Superpowers          agent-skills           gstack
                ────────────         ─────────────          ──────
                
需求澄清         ✅ Brainstorming     ✅ /spec + idea-refine  ✅ /office-hours
                 (Socratic问答)       (PRD-first)            (YC式逼问)

架构设计         ⚠️ 弱               ⚠️ 弱                  ✅ /plan-eng-review
                                                              /plan-design-review

任务规划         ✅ Writing Plans     ✅ /plan + task-        ⚠️ 弱
                 (详细到文件路径)       breakdown

编码实现         ✅ Subagent Dev      ✅ /build + TDD        ✅ 各角色按需调用
                 (并行子代理)

测试             ✅ 强制 TDD          ✅ /test + Test         ✅ /qa + /browse
                 (红-绿-重构)           Pyramid               (真实浏览器)

代码审查         ✅ Code Review       ✅ /review + code-     ✅ /review + /codex
                 (按严重级别分级)       simplify              (交叉模型验证)

安全审计         ⚠️ 弱               ✅ 独立 skill           ✅ /cso (OWASP/STRIDE)

性能优化         ❌ 不支持            ✅ 独立 skill           ✅ /benchmark (CWV)

部署上线         ✅ Finalize          ✅ /ship               ✅ /ship + /land-and-
                 (合并/PR)            (灰度发布+监控)           deploy

复盘回顾         ❌ 不支持            ❌ 不支持              ✅ /retro (团队指标)

4.2 Token 效率对比

项目启动时的 Token 开销（估算）
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

  Superpowers     ████████████████████████████      ~15K-25K tokens
                  (session-start加载全部技能元数据)

  gstack          ██████████████████                ~10K-15K tokens
                  (只加载匹配的命令及其依赖)

  agent-skills    ████████                          ~3K-5K tokens
                  (渐进披露，只加载metadata)

  裸跑 Claude     ██                                ~1K tokens
                  (无额外加载)

  ─────────────────────────────────────────────────────
  注：实际执行阶段 token 消耗取决于具体任务复杂度

4.3 学习曲线

                      易上手程度
                      ────────
                      
  agent-skills    ═══╗████████████████████      ★★★★☆ (最易)
                      ║  20个技能命名清晰，独立使用
                      ║  类似"命令菜单"体验
                      
  gstack          ═══╬███████████████            ★★★☆☆
                      ║  25+命令需要记忆
                      ║  但使用场景明确
                      
  Superpowers     ═══╝██████████                  ★★☆☆☆ (最复杂)
                      ║  7阶段强制流水线
                      ║  违反规则会被"惩罚"(删代码)

五、代表特色功能深度对比

5.1 Superpowers — 强制 TDD

这是三个项目中唯一强制 TDD 的：

普通工作流：
  写代码 → 跑测试 → 通过 ✅

Superpowers 工作流：
  写测试(红) → 跑测试(确认失败) → 写实现(绿) → 重构 → 跑测试
       │
       └── 如果先写了实现代码 → ❌ 自动删除实现，强制重新开始

5.2 gstack — 角色切换 + 浏览器测试

/qa 命令的完整流程：
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

  1. 启动持久化 Chromium 实例（非 MCP，原生二进制）
  2. 打开目标页面 URL
  3. 模拟用户点击流程（保持 Cookies/Session）
  4. 截图 + 控制台错误检查
  5. 发现 Bug → 自动修复 → 生成回归测试
  6. 报告：通过/失败 + 截图证据

  /codex 命令：
  → 同一份代码同时发给 Codex CLI
  → 两个模型各自审查
  → 输出交叉对比：哪些发现重叠，哪些是各自独有的

5.3 agent-skills — 反理性化表 (Anti-Rationalization)

这是 agent-skills 最独特的设计——每个技能都预判了 AI 可能找的借口：

反理性化表示例（来自 code-review skill）
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

  AI 可能说的借口                       技能的预置反驳
  ──────────────────                    ──────────────────
  
  "这只是个小改动，不用审查"              "90%的生产事故来自'小改动'"
  
  "测试回头再补"                         "回头=永远不会。现在补。"
  
  "这个函数太复杂了，但能工作"             "能工作 ≠ 应该合并。先简化。"
  
  "我已经在脑子里审查过了"                 "代码审查是外显的过程，不是内隐的思考"
  
  "改动超过100行了，是因为..."            "拆成多个PR。不可审查=不可合并。"

这种设计的价值在于：AI 模型天然倾向于走捷径，反理性化表在技能层面就截断了这些倾向。

六、选型建议

6.1 决策树

你想用 Claude Code 做什么？
        
    │
    ▼
┌──────────────────────────────────────────────────┐
│  你的角色？                                        │
├──────────────────────────────────────────────────┤
│                                                    │
│  个人开发者                                         │
│  ├── 自己在0到1做产品 → gstack                     │
│  │    (CEO/设计师/QA一整套角色)                      │
│  │                                                    │
│  ├── 日常编码但想要代码质量 → Superpowers            │
│  │    (强制流程保障质量)                              │
│  │                                                    │
│  └── 学Google的最佳实践 → agent-skills               │
│       (编码了资深工程师的知识)                        │
│                                                    │
│  团队/小团队                                        │
│  ├── 建立统一编码规范 → agent-skills + Superpowers   │
│  │    (文化注入+流程执行)                             │
│  │                                                    │
│  └── 快速迭代+质量兼顾 → gstack + agent-skills       │
│       (角色视角+工程标准)                             │
│                                                    │
│  企业/大团队                                        │
│  └── 标准化全流程 → agent-skills + gstack           │
│       (标准定义+角色分工)                             │
│                                                    │
└──────────────────────────────────────────────────┘

6.2 按场景推荐

你的场景	推荐方案	理由
新手刚接触	agent-skills	上手最容易，渐进披露不吓人
日常功能开发	Superpowers	强制流程带你养成好习惯
做自己的产品	gstack	一个命令集齐CEO到QA
团队规范建设	agent-skills + Superpowers	先定义标准，再强制执行
全栈Web应用	gstack + agent-skills	gstack测浏览器，agent-skills把关代码
高安全要求项目	agent-skills + gstack	agent-skills有安全技能，gstack有安全官角色
不想改变工作流	agent-skills	手动调用，不强制流程

6.3 三个项目的本质差异（一句话总结）

Superpowers = 教练        → 盯着你，逼你走完标准流程
agent-skills = 教科书     → 教你怎么写生产级代码
gstack = 团队领导         → 帮你叫齐各路专家开会

七、能否一起用？

可以，而且很多人这么干。 社区流行的组合方式：

方案 A：全都要（进阶用户）

gstack (决策层)          agent-skills (标准层)       Superpowers (执行层)
─────────────────       ────────────────────       ─────────────────────
                                                    
/office-hours           /spec                      Brainstorming + TDD
  → 想清楚做什么           → 写清楚规格               → 规范地做
                                                    
/plan-ceo-review        /plan                      Writing Plans
  → 想清楚为什么做         → 拆清楚任务               → 拆到文件级
                                                    
/qa + /browse           /review + /code-simplify    Code Review
  → 测清楚效果             → 审清楚质量               → 合并代码

方案 B：轻量组合（实用派）

agent-skills + gstack   = 你按需调用，想用什么用什么
agent-skills + Superpowers = 文化注入 + 流程强制
gstack + Superpowers    = 角色视角 + 纪律执行

注意事项

不要一起加载全部三个的完整技能集 → Token 爆炸（可能 50K+）
建议只安装你实际需要的 /command 前缀
使用 ~/.claude/settings.json 控制哪些技能目录被加载

八、最终结论

项目	一句话评价	适合人群	不适合人群
Superpowers	目前最成熟的强制工程纪律方案	有经验的开发者、团队	只想快速原型的新手、小改动频繁的人
agent-skills	最中立、可移植、教学型的方案	所有想写出更好代码的人	不想改变工作习惯的人
gstack	最功能丰富、角色最全的方案	独立开发者、从0到1的创业者	只需要简单编码辅助的人

个人建议：如果只能选一个开始，从 agent-skills 入手——学习成本最低，没有强制流程的压力，但能学到资深工程师的思维模式。等你熟悉了再决定是否需要 Superpowers 的纪律或 gstack 的角色。

参考链接：

Superpowers - obra/superpowers

agent-skills - addyosmani/agent-skills

gstack - garrytan/gstack

一、三个项目是什么​

它们解决的核心问题​

二、三个项目核心对比总表​

三、架构设计对比​

3.1 Superpowers — 管道式架构 (Pipeline)​

3.2 gstack — 角色式架构 (Role-based)​

3.3 agent-skills — 插件式架构 (Library)​

四、能力矩阵对比​

4.1 开发生命周期覆盖​

4.2 Token 效率对比​

4.3 学习曲线​

五、代表特色功能深度对比​

5.1 Superpowers — 强制 TDD​

5.2 gstack — 角色切换 + 浏览器测试​

5.3 agent-skills — 反理性化表 (Anti-Rationalization)​

六、选型建议​

6.1 决策树​

6.2 按场景推荐​

6.3 三个项目的本质差异（一句话总结）​

七、能否一起用？​

方案 A：全都要（进阶用户）​

方案 B：轻量组合（实用派）​

注意事项​

八、最终结论​