具身智能（Embodied AI）行业深度分析报告

模拟视角： Sergey Levine（谢尔盖·莱文）

Google DeepMind 研究科学家

UC Berkeley 电子工程与计算机科学系教授

Physical Intelligence（PI）联合创始人

机器人深度强化学习与模仿学习领域奠基人之一

报告目的：以工程科学家和行业参与者的双重视角，系统性地剖析具身智能这一正在改变人工智能与物理世界交互范式的行业。

一、行业定义与本质

1.1 什么是具身智能

具身智能（Embodied AI） 是指人工智能系统具有物理身体并能够与环境进行实时交互的智能形态。与传统仅处理数字信息（文本、图像）的AI不同，具身智能的"智能"体现在：

传统AI（离身智能）：
  输入：文本、图像、视频 → 处理：统计推断/模式识别 → 输出：文本/决策
        ↑
        └──────── 缺乏物理世界交互能力

具身智能：
  输入：传感器数据（视觉、触觉、力矩、位置）→ 处理：感知-决策-控制一体化 → 输出：电机控制指令
        ↑
        └──────── 具备物理世界感知、推理和操作能力

核心问题：如何让机器人在非结构化的真实物理世界中，自主理解场景、执行复杂操作任务？

1.2 具身智能的三大学科交叉

                    ┌─────────────────┐
                    │   人工智能 (AI)   │
                    │  深度学习 / 强化学习│
                    └────────┬────────┘
                             │
           ┌─────────────────┼─────────────────┐
           │                 │                 │
           ▼                 ▼                 ▼
┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐
│   机器人学        │  │   计算机视觉      │  │   自然语言处理   │
│ Robot Kinematics │  │ Computer Vision  │  │  Natural Lang.  │
│ 运动规划/控制     │  │  3D重建/感知     │  │  指令理解/对话   │
└─────────────────┘  └─────────────────┘  └─────────────────┘

二、机器人系统架构全图

2.1 整体架构

┌─────────────────────────────────────────────────────────────────────────┐
│                         具身智能机器人系统完整架构                            │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│   ┌─────────────────────────────────────────────────────────────────┐   │
│   │                        用户指令层                                 │   │
│   │          语音 / 文本 / 示教（人类演示）                            │   │
│   └────────────────────────────┬────────────────────────────────────┘   │
│                                ▼                                        │
│   ┌─────────────────────────────────────────────────────────────────┐   │
│   │                       认知大脑层                                  │   │
│   │  ┌───────────────┐  ┌───────────────┐  ┌───────────────────┐     │   │
│   │  │  任务规划器    │  │   VLM/VLA    │  │    技能库         │     │   │
│   │  │ Task Planner  │  │ (视觉-语言-  │  │  Skill Library   │     │   │
│   │  │  (LLM驱动)    │  │  动作模型)    │  │ (RL/IL策略集合)  │     │   │
│   │  └───────┬───────┘  └───────┬───────┘  └─────────┬─────────┘     │   │
│   │          └──────────────────┼──────────────────┘               │   │
│   │                             ▼                                      │   │
│   │                  ┌─────────────────────┐                          │   │
│   │                  │    决策选择器        │                          │   │
│   │                  │  Decision Selector  │                          │   │
│   │                  └──────────┬──────────┘                          │   │
│   └─────────────────────────────┼──────────────────────────────────────┘   │
│                                 ▼                                          │
│   ┌─────────────────────────────────────────────────────────────────┐   │
│   │                       技能执行层                                  │   │
│   │  ┌─────────────┐  ┌─────────────┐  ┌─────────────────────────┐   │   │
│   │  │ 运动规划器   │  │ 视觉伺服    │  │    力/阻抗控制器        │   │   │
│   │  │ Motion      │  │ Visual      │  │   Force/Impedance      │   │   │
│   │  │ Planning    │  │ Servoing    │  │   Controller           │   │   │
│   │  └──────┬──────┘  └──────┬──────┘  └────────────┬────────────┘   │   │
│   │         └────────────────┼─────────────────────┘                 │   │
│   │                          ▼                                          │   │
│   │               ┌─────────────────────┐                             │   │
│   │               │   关节指令 (Joint   │                             │   │
│   │               │   Torque/Position)  │                             │   │
│   │               └──────────┬──────────┘                             │   │
│   └──────────────────────────┼─────────────────────────────────────────┘   │
│                              ▼                                              │
│   ┌─────────────────────────────────────────────────────────────────┐   │
│   │                       硬件执行层                                  │   │
│   │                                                                   │   │
│   │   ┌──────────────┐    ┌──────────────┐    ┌──────────────────┐   │   │
│   │   │   感知硬件    │    │   执行硬件    │    │    计算硬件       │   │   │
│   │   │              │    │              │    │                  │   │   │
│   │   │  RGB-D相机   │    │  电机+减速器  │    │  GPU (Orin/Xavier)│   │   │
│   │   │  LiDAR       │    │  灵巧手       │    │  主控CPU          │   │   │
│   │   │  IMU         │    │  轮式/足式    │    │  CAN/Ethernet     │   │   │
│   │   │  力矩传感器   │    │    底盘       │    │                  │   │   │
│   │   │  触觉传感器   │    │              │    │                  │   │   │
│   │   └──────────────┘    └──────────────┘    └──────────────────┘   │   │
│   │                                                                   │   │
│   └───────────────────────────────────────────────────────────────────┘   │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

2.2 机器人硬件子系统

┌─────────────────────────────────────────────────────────────┐
│                      机器人硬件组成                           │
├────────────────┬────────────────┬─────────────────────────┤
│    感知系统     │    执行系统     │      计算系统           │
├────────────────┼────────────────┼─────────────────────────┤
│                │                │                         │
│  RGB相机       │  电机 (Motor)  │  GPU                   │
│  深度相机      │  伺服驱动      │  (Jetson/Orin)         │
│  (RealSense)  │  减速器        │                         │
│                │  (Harmonic/    │  边缘计算单元           │
│  LiDAR        │   RV)          │  (Jetson NX)           │
│                │                │                         │
│  IMU          │  灵巧手        │  主控CPU                │
│  (惯性测量)    │  (20+ DOF)    │  (x86/ARM)             │
│                │                │                         │
│  力矩传感器    │  夹爪          │  实时通信总线           │
│  (F/T Sensor) │  (Gripper)    │  (CAN/Ethernet)         │
│                │                │                         │
│  触觉传感器    │  轮式底盘      │  传感器融合板          │
│  (Tactile)    │  足式关节      │  (Sensor Fusion)       │
│                │                │                         │
│  编码器        │  柔性关节      │                         │
│  (Encoder)    │  (Series      │                         │
│                │   Elastic)     │                         │
│                │                │                         │
└────────────────┴────────────────┴─────────────────────────┘

三、机器人大脑架构详解

3.1 大脑核心架构图

┌───────────────────────────────────────────────────────────────────────────────┐
│                           机器人大脑（Robot Brain）三层架构                        │
├───────────────────────────────────────────────────────────────────────────────┤
│                                                                               │
│   ╔═══════════════════════════════════════════════════════════════════════╗   │
│   ║                     第一层：任务规划层 (Mission Layer)                  ║   │
│   ║                                                                       ║   │
│   ║    ┌──────────────────────────────────────────────────────────────┐  ║   │
│   ║    │                     LLM / VLM 核心                            │  ║   │
│   ║    │  ┌────────────┐  ┌────────────┐  ┌────────────────────────┐  │  ║   │
│   ║    │  │   GPT-4o   │  │  Claude 3  │  │   开源: LLaVA/Vicuna   │  │  ║   │
│   ║    │  │  / Opus    │  │  / Sonnet  │  │   Qwen/Vicuna          │  │  ║   │
│   ║    │  └────────────┘  └────────────┘  └────────────────────────┘  │  ║   │
│   ║    └──────────────────────────────────────────────────────────────┘  ║   │
│   ║                                │                                     ║   │
│   ║    功能：                          │  输出：                            ║   │
│   ║    • 自然语言指令理解               │  • 子目标序列 (Sub-goals)          ║   │
│   ║    • 复杂任务拆解                   │  • 技能调用规划 (Skill Plan)        ║   │
│   ║    • 常识推理与异常处理              │  • 环境状态描述 (State Description) ║   │
│   ║    • 人类意图推断                    │                                   ║   │
│   ╚═══════════════════════════════════════════════════════════════════════╝   │
│                                      │                                        │
│                                      ▼                                        │
│   ╔═══════════════════════════════════════════════════════════════════════╗   │
│   ║                    第二层：技能执行层 (Skill Layer)                   ║   │
│   ║                                                                       ║   │
│   ║    ┌───────────────────┐    ┌───────────────────┐                    ║   │
│   ║    │   技能库          │    │   VLA 模型         │                    ║   │
│   ║    │   Skill Library  │    │   Vision-Language  │                    ║   │
│   ║    │                   │    │   -Action Model   │                    ║   │
│   ║    │ ┌───────────────┐ │    │                   │                    ║   │
│   ║    │ │ 抓取 Grasp    │ │    │ ┌───────────────┐ │                    ║   │
│   ║    │ │ 放置 Place     │ │    │ │    RT-2       │ │                    ║   │
│   ║    │ │ 推 Push       │ │    │ │    VoxPoser   │ │                    ║   │
│   ║    │ │ 抽屉操作      │ │    │ │    π₀ (PI)    │ │                    ║   │
│   ║    │ │ 开门/关门     │ │    │ │    Gato       │ │                    ║   │
│   ║    │ │ ...          │ │    │ └───────────────┘ │                    ║   │
│   ║    │ └───────────────┘ │    │                   │                    ║   │
│   ║    │                   │    │  功能：            │                    ║   │
│   ║    │ ┌───────────────┐ │    │  • 视觉-语言→动作  │                    ║   │
│   ║    │ │ RL Policy    │ │    │  • 端到端控制      │                    ║   │
│   ║    │ │ (强化学习策略) │ │    │  • 跨任务泛化      │                    ║   │
│   ║    │ └───────────────┘ │    │                   │                    ║   │
│   ║    │                   │    │                   │                    ║   │
│   ║    │ ┌───────────────┐ │    │                   │                    ║   │
│   ║    │ │ IL Policy    │ │    │                   │                    ║   │
│   ║    │ │ (模仿学习策略) │ │    │                   │                    ║   │
│   ║    │ └───────────────┘ │    │                   │                    ║   │
│   ║    └───────────────────┘    └───────────────────┘                    ║   │
│   ║                                │                                     ║   │
│   ║    输入：技能参数 + 视觉反馈       │  输出：                           ║   │
│   ║    • 目标物体位置                   │  • 末端执行器位姿 (End-effector)   ║   │
│   ║    • 技能ID                        │  • 关节力矩/位置指令              ║   │
│   ║    • 当前场景状态                   │                                   ║   │
│   ╚═══════════════════════════════════════════════════════════════════════╝   │
│                                      │                                        │
│                                      ▼                                        │
│   ╔═══════════════════════════════════════════════════════════════════════╗   │
│   ║                    第三层：运动控制层 (Control Layer)                 ║   │
│   ║                                                                       ║   │
│   ║    ┌────────────────────────────────────────────────────────────┐   ║   │
│   ║    │                     控制器矩阵                               │   ║   │
│   ║    │                                                            │   ║   │
│   ║    │  ┌────────────────┐   ┌────────────────┐                  │   ║   │
│   ║    │  │  关节位置控制   │   │   力矩控制     │                  │   ║   │
│   ║    │  │ Joint Position │   │  Torque Ctrl   │                  │   ║   │
│   ║    │  │   (P/PI/PID)   │   │    (F/T)       │                  │   ║   │
│   ║    │  └────────────────┘   └────────────────┘                  │   ║   │
│   ║    │                                                            │   ║   │
│   ║    │  ┌────────────────┐   ┌────────────────┐                  │   ║   │
│   ║    │  │  视觉伺服控制   │   │  阻抗控制      │                  │   ║   │
│   ║    │  │ Visual         │   │  Impedance     │                  │   ║   │
│   ║    │  │ Servoing       │   │  Control       │                  │   ║   │
│   ║    │  └────────────────┘   └────────────────┘                  │   ║   │
│   ║    │                                                            │   ║   │
│   ║    │  ┌──────────────────────────────────────────────────────┐  │   ║   │
│   ║    │  │              运动学/动力学求解                         │  │   ║   │
│   ║    │  │     Forward Kinematics / Inverse Dynamics             │  │   ║   │
│   ║    │  └──────────────────────────────────────────────────────┘  │   ║   │
│   ║    └────────────────────────────────────────────────────────────┘   ║   │
│   ║                                │                                     ║   │
│   ║    功能：                          │  输出：                           ║   │
│   ║    • 毫秒级实时控制反馈              │  • PWM/电流指令 → 电机驱动器     ║   │
│   ║    • 安全碰撞检测与响应              │                                   ║   │
│   ║    • 末端执行器轨迹跟踪              │                                   ║   │
│   ╚═══════════════════════════════════════════════════════════════════════╝   │
│                                                                               │
└───────────────────────────────────────────────────────────────────────────────┘

3.2 大脑三层之间的关系

用户指令输入
     │
     ▼
┌─────────────────────────────────────────────────────────────┐
│ 第一层：任务规划层（LLM/VLM）                                  │
│  "把桌上的苹果放到冰箱里"                                        │
│           │                                                   │
│           ▼                                                   │
│ 子目标序列：[找到苹果] → [抓取苹果] → [走向冰箱] → [放置苹果]       │
└───────────────────────────┬─────────────────────────────────┘
                            │
                            ▼
┌─────────────────────────────────────────────────────────────┐
│ 第二层：技能执行层（VLA / RL Policy）                          │
│                                                           │
│  对应每个子目标调用对应技能：                                  │
│  • "找到苹果"     → Object Detection + Navigation Policy   │
│  • "抓取苹果"     → Grasp Policy (VLA/RT-2)                │
│  • "走向冰箱"     → Navigation Policy                      │
│  • "放置苹果"     → Place Policy                           │
│                            │                                │
│                            ▼                                │
│         末端执行器位姿 (End-effector Pose)                  │
└───────────────────────────┬─────────────────────────────────┘
                            │
                            ▼
┌─────────────────────────────────────────────────────────────┐
│ 第三层：运动控制层（毫秒级实时控制）                              │
│                                                           │
│  关节位置/力矩指令 → PWM → 电机驱动器 → 电机 → 机器人关节      │
│                                                           │
│  频率：1-10 kHz（毫秒级响应）                                  │
└─────────────────────────────────────────────────────────────┘

3.3 VLA模型架构详解

┌─────────────────────────────────────────────────────────────────────────────┐
│                         VLA (Vision-Language-Action) 模型                    │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│   输入：                                                                      │
│   ┌─────────────┐    ┌──────────────────────────────────────────────┐       │
│   │ 视觉输入     │    │             自然语言指令                         │       │
│   │             │    │                                              │       │
│   │ RGB图像     │    │  "Pick up the red cup and place it in the   │       │
│   │ 640×480    │    │   blue box"                                   │       │
│   │ ×3通道     │    │                                              │       │
│   └──────┬──────┘    └─────────────────────┬───────────────────────┘       │
│          │                                  │                               │
│          └──────────────────┬───────────────┘                               │
│                             ▼                                                │
│   ┌─────────────────────────────────────────────────────────────────────┐   │
│   │                    视觉编码器 (Vision Encoder)                        │   │
│   │                                                                      │   │
│   │   ┌──────────────┐    ┌──────────────┐    ┌──────────────┐        │   │
│   │   │  ViT (Vision │    │    CNN        │    │   ResNet     │        │   │
│   │   │  Transformer)│    │  Backbone    │    │  Backbone    │        │   │
│   │   └──────┬───────┘    └──────┬───────┘    └──────┬───────┘        │   │
│   │          │                   │                    │                 │   │
│   │          └───────────────────┼────────────────────┘                 │   │
│   │                              ▼                                      │   │
│   │                    视觉特征 (Visual Features)                        │   │
│   │                         768-d / 1024-d                              │   │
│   └─────────────────────────────────────────────────────────────────────┘   │
│                              │                                             │
│                              ▼                                             │
│   ┌─────────────────────────────────────────────────────────────────────┐   │
│   │                    语言编码器 (Language Encoder)                     │   │
│   │                                                                      │   │
│   │   ┌──────────────┐    ┌──────────────┐    ┌──────────────┐        │   │
│   │   │    LLM       │    │  Embedding   │    │   Tokenizer  │        │   │
│   │   │  (LLama/     │────│    Layer     │────│              │        │   │
│   │   │   GPT)       │    │              │    │              │        │   │
│   │   └──────────────┘    └──────────────┘    └──────────────┘        │   │
│   │                              │                                       │   │
│   │                    语言特征 (Language Features)                      │   │
│   │                         4096-d                                      │   │
│   └─────────────────────────────────────────────────────────────────────┘   │
│                              │                                             │
│                              ▼                                             │
│   ┌─────────────────────────────────────────────────────────────────────┐   │
│   │                    融合层 (Fusion Layer)                             │   │
│   │                                                                      │   │
│   │   视觉特征 + 语言特征 → Cross-Attention → 融合多模态特征              │   │
│   │                         (例如: Perceiver Resampler)                  │   │
│   │                                                                      │   │
│   │                    融合特征 (Multimodal Features)                    │   │
│   │                         4096-d                                      │   │
│   └─────────────────────────────────────────────────────────────────────┘   │
│                              │                                             │
│                              ▼                                             │
│   ┌─────────────────────────────────────────────────────────────────────┐   │
│   │                    动作解码器 (Action Decoder)                       │   │
│   │                                                                      │   │
│   │   ┌──────────────────────────────────────────────────────────────┐  │   │
│   │   │              Transformer Decoder / MLP                       │  │   │
│   │   │                                                              │  │   │
│   │   │   融合特征 → 动作令牌 (Action Tokens) → 离散/连续动作        │  │   │
│   │   │                                                              │  │   │
│   │   └──────────────────────────────────────────────────────────────┘  │   │
│   │                                                                      │   │
│   │   输出动作：                                                           │   │
│   │   ┌─────────────┐  ┌─────────────┐  ┌─────────────────────────┐    │   │
│   │   │ 机械臂末端   │  │   夹爪开合   │  │   机器人底座移动         │    │   │
│   │   │ 位置 (x,y,z)│  │  (Open/     │  │  速度 (vx, vy, vω)      │    │   │
│   │   │ Roll,Pitch, │  │   Close)    │  │                         │    │   │
│   │   │ Yaw         │  │             │  │                         │    │   │
│   │   └─────────────┘  └─────────────┘  └─────────────────────────┘    │   │
│   └─────────────────────────────────────────────────────────────────────┘   │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

四、Agent与具身智能的融合

4.1 Agent与机器人的对应关系

┌─────────────────────────────────────────────────────────────────────────┐
│                        软件Agent vs 具身Agent 对照表                        │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│   软件Agent                         具身Agent（机器人）                   │
│   ─────────                         ─────────────────────               │
│                                                                         │
│   LLM Brain                       LLM/VLM Brain                         │
│       │                                  │                              │
│       ▼                                  ▼                              │
│   工具调用 (Tool Use)      ──────►   技能调用 (Skill Execution)          │
│       │                                  │                              │
│       ▼                                  ▼                              │
│   API / 函数执行              电机控制 / 关节运动                          │
│       │                                  │                              │
│       ▼                                  ▼                              │
│   输出文本/决策                   输出物理动作                             │
│       │                                  │                              │
│       ▼                                  ▼                              │
│   数字世界交互                    物理世界交互                             │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

4.2 Agent赋予机器人的核心能力

┌─────────────────────────────────────────────────────────────────────────┐
│                    Agent架构赋能机器人的三大核心能力                         │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│   ┌─────────────────────────────────────────────────────────────────┐   │
│   │  1. 任务规划能力 (Task Planning)                                  │   │
│   │                                                                   │   │
│   │     Agent的思维链(Chain-of-Thought)→ 机器人的任务分解              │   │
│   │                                                                   │   │
│   │     用户: "收拾厨房"                                               │   │
│   │          │                                                       │   │
│   │          ▼                                                       │   │
│   │     LLM推理:                                                      │   │
│   │     1. 先分类物品（餐具、食材、垃圾）                                │   │
│   │     2. 餐具→洗碗机                                                 │   │
│   │     3. 食材→冰箱                                                   │   │
│   │     4. 垃圾→垃圾桶                                                 │   │
│   │          │                                                       │   │
│   │          ▼                                                       │   │
│   │     机器人执行: [抓取]→[移动]→[放置] 循环                            │   │
│   └─────────────────────────────────────────────────────────────────┘   │
│                                                                         │
│   ┌─────────────────────────────────────────────────────────────────┐   │
│   │  2. 工具使用能力 (Tool Use)                                       │   │
│   │                                                                   │   │
│   │     Agent调用外部工具 → 机器人调用技能库                           │   │
│   │                                                                   │   │
│   │     ┌─────────────┐    ┌─────────────┐    ┌─────────────┐       │   │
│   │     │  搜索引擎   │    │  代码执行   │    │  API调用    │       │   │
│   │     │ (Software) │    │ (Software)  │    │ (Software)  │       │   │
│   │     └──────┬──────┘    └──────┬──────┘    └──────┬──────┘       │   │
│   │            │                   │                   │               │   │
│   │            └───────────────────┼───────────────────┘               │   │
│   │                               ▼                                   │   │
│   │                    ┌─────────────────────┐                         │   │
│   │                    │     机器人大脑      │                         │   │
│   │                    └──────────┬──────────┘                         │   │
│   │                               │                                   │   │
│   │     ┌─────────────┐    ┌──────┴──────┐    ┌─────────────┐        │   │
│   │     │   夹爪      │    │   灵巧手    │    │   导航系统  │        │   │
│   │     │  (抓取)    │    │  (精细操作)  │    │  (移动)     │        │   │
│   │     └─────────────┘    └─────────────┘    └─────────────┘        │   │
│   └─────────────────────────────────────────────────────────────────┘   │
│                                                                         │
│   ┌─────────────────────────────────────────────────────────────────┐   │
│   │  3. 自我反思能力 (Self-Reflection)                                │   │
│   │                                                                   │   │
│   │     Agent的结果评估 → 机器人的视觉/触觉反馈修正                      │   │
│   │                                                                   │   │
│   │     动作执行 ──► 传感器反馈 ──► 成功/失败判断 ──► 策略调整          │   │
│   │                                                                   │   │
│   │     例如: 抓取失败 → 重新调整抓取姿态 → 再次尝试                      │   │
│   └─────────────────────────────────────────────────────────────────┘   │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

4.3 当前Agent+机器人融合的典型范式

范式一：VLM/LLM作为规划器 + RL Policy作为执行器（当前主流）
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
   LLM/VLM                    RL Policy                   控制器
   (规划层)                    (技能层)                   (控制层)
     │                          │                          │
     ▼                          ▼                          ▼
"拿起红色的    ──►    视觉定位红杯   ──►    末端执行器位姿   ──►   关节控制
 杯子"                    +夹爪指令          (x,y,z,R,P,Y)      (PWM)
 
  代表：RT-2, PaLM-E, VoxPoser


范式二：端到端VLA模型（一揽子解决）
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
        VLA Model (一个大模型)
              │
   ┌──────────┼──────────┐
   ▼          ▼          ▼
  视觉       语言       动作
  编码      编码        解码
              │
              ▼
        电机控制指令

  代表：RT-2, π₀ (Physical Intelligence)


范式三：分层技能系统（工业机器人常用）
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
   任务级           操作级            伺服级
   (Task)          (Skill)           (Servo)
     │               │                 │
     ▼               ▼                 ▼
  "组装产品"    抓取-移动-放置      关节位置/力矩
     │               │                 │
     ▼               ▼                 ▼
  MoveIt!       GraspNet          电机驱动器

五、全球知名公司及产品矩阵

5.1 人形机器人公司

公司	国家	产品	核心技术特点	定位场景
Figure AI	美国	Figure 01/02	与OpenAI合作、VLA模型	通用人形、工业
Tesla	美国	Optimus (Atlas)	FSD芯片复用、纯视觉	制造业、仓储
Boston Dynamics	美国	Atlas (电驱版)	全身动态运动、跑酷能力	勘探、科研
1X Technologies	挪威	NEO	轻量级、开源模型	家庭服务
Agibot	中国	A1	低成本、数据集开源	科研、工业
Unitree	中国	H1/G1	开源、运动控制强	科研、教育
傅利叶智能	中国	GR-1	通用人形、康复切入	医疗康复
宇树科技	中国	H1	全身动态、人形	科研、竞技
星动纪元	中国	星动STAR1	端到端VLA	通用人形
逐际动力	中国	CL-1	运动控制、地形适应	工业巡检

5.2 AI软件/模型公司

公司	产品/模型	核心技术	商业模式
Physical Intelligence	π₀模型	通用机器人策略模型	B2B授权
Skild AI	通用机器人基础模型	跨任务泛化	B2B授权
Covariant	RFM-1、Covariant Brain	仓库机器人AI	集成商合作
Google DeepMind	RT-1/2/3、Gato	VLA模型先驱	研究/内部
Stanford (VoxPoser)	开源研究	LLM+3D场景规划	学术开源

5.3 关键合作伙伴关系

┌─────────────────────────────────────────────────────────────────────────┐
│                         具身智能行业关键合作图谱                           │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│   ┌──────────────┐                                                     │
│   │   Figure AI  │◄────────── 战略合作 ──────────►┌──────────────┐      │
│   │              │         (VLA模型)              │   OpenAI    │      │
│   └──────┬───────┘                                └──────────────┘      │
│          │                                                             │
│          │                    ┌──────────────┐                         │
│          └────── 战略合作 ───►│ Physical     │◄─────── 投资 ─────┐     │
│                               │ Intelligence │              │ Amazon │
│          ┌───────────────────►└──────────────┘              │        │
│          │                         │                        │        │
│          │                         │ 投资/合作              │        │
│          ▼                         ▼                        │        │
│   ┌──────────────┐         ┌──────────────┐                 │        │
│   │    1X        │         │   Covariant  │◄────────────────┘        │
│   │  Technologies│         │              │                          │
│   └──────────────┘         └──────────────┘                          │
│                                                                         │
│   ┌──────────────┐         ┌──────────────┐                          │
│   │   Tesla      │         │ Google       │                           │
│   │   Optimus    │         │ DeepMind     │                           │
│   └──────────────┘         └──────────────┘                          │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

六、行业关键术语词典

6.1 核心概念（中英对照+详细解释）

术语	英文	详细解释
具身智能	Embodied AI	AI系统具有物理身体，能与环境实时交互。与"离身智能"（仅处理数字数据）相对。核心研究问题：如何在物理世界中实现通用智能。
视觉-语言-动作模型	VLA (Vision-Language-Action)	同时处理视觉输入、语言指令，输出机器人动作控制信号的模型。代表作：RT-2、π₀。是具身智能的"大脑"核心。
视觉-语言模型	VLM (Vision-Language Model)	融合视觉编码器和语言模型的AI。能理解图像内容并用语言描述/回答问题。是VLA的基础。代表：GPT-4V、LLaVA。
模仿学习	Imitation Learning (IL)	从人类演示中学习策略。通过观察Expert的行为轨迹，训练Policy网络模仿。优点：样本效率高；缺点：分布偏移问题。
强化学习	Reinforcement Learning (RL)	通过环境奖励信号学习最优策略。机器人通过"试错"学会技能。经典算法：PPO、SAC、TD3。缺点：样本效率低。
域随机化	Domain Randomization (DR)	在仿真环境中随机化物理参数（物体颜色、质量、摩擦力等），使策略泛化到真实世界。核心解决Sim-to-Real差距。
仿真到真实迁移	Sim-to-Real	将仿真环境训练的策略迁移到真实机器人。关键技术：Domain Randomization、System Identification、Domain Adaptation。
逆运动学	Inverse Kinematics (IK)	已知末端执行器目标位置，求解关节角度。是机器人运动规划的核心数学工具。常用算法：数值迭代解析解。
正运动学	Forward Kinematics	已知关节角度，计算末端执行器位置和姿态。相对简单，是IK的逆过程。
灵巧操作	Dexterous Manipulation	使用多自由度灵巧手（通常20+ DOF）进行精细操作（穿针、装配等）。是具身智能的最高难度任务之一。
视觉伺服	Visual Servoing	用视觉反馈闭环控制机器人运动。分为：基于图像的(IBVS)和基于位置的(PBVS)。
力控	Force Control	精确控制关节力矩或末端力的方式。用于精密装配、磨抛等任务。
阻抗控制	Impedance Control	让机器人表现出类似弹簧-阻尼系统的物理特性，实现柔顺交互。用于人机协作。
SLAM	Simultaneous Localization and Mapping	同时定位与建图。机器人在未知环境中运动时，同时构建环境地图并确定自身位置。
运动规划	Motion Planning	在关节空间或任务空间中规划无碰撞的机器人运动轨迹。常用算法：RRT、PRM、CHOMP。
抓取检测	Grasp Detection	给定物体和场景，计算最优抓取点（位置+姿态）。是机器人操作的基础能力。
技能泛化	Skill Generalization	一个技能策略能跨不同物体/场景迁移应用。是通用机器人的关键能力。
元学习	Meta Learning	学会"学习"的能力。能用少量样本快速学会新任务。代表：MAML、RL²。
世界模型	World Model	能预测动作后物理世界变化的模型。是具身智能的重要研究方向。代表：DeepMind Genie。
ROS/ROS2	Robot Operating System	机器人操作系统事实标准。提供消息通信、硬件抽象、工具库。是机器人软件开发的基础框架。

6.2 缩写对照表

缩写	全称	中文
DOF	Degree of Freedom	自由度
VLA	Vision-Language-Action	视觉-语言-动作
VLM	Vision-Language Model	视觉语言模型
RL	Reinforcement Learning	强化学习
IL	Imitation Learning	模仿学习
IK	Inverse Kinematics	逆运动学
FK	Forward Kinematics	正运动学
SLAM	Simultaneous Localization and Mapping	即时定位与地图构建
DRC	Domain Randomization for Computer	域随机化
Policy	Policy Network	策略网络
PPO	Proximal Policy Optimization	近端策略优化
SAC	Soft Actor-Critic	软演员-评论家
TD3	Twin Delayed DDPG	双延迟DDPG
DDPG	Deep Deterministic Policy Gradient	深度确定性策略梯度
RFM	Robotics Foundation Model	机器人基础模型
sim-to-real	Simulation to Real	仿真到真实迁移
ROS	Robot Operating System	机器人操作系统
PBVS	Position-Based Visual Servoing	基于位置的视觉伺服
IBVS	Image-Based Visual Servoing	基于图像的视觉伺服

七、当前热门技术与方向

7.1 VLA端到端模型（最热）

英文：End-to-end Vision-Language-Action Model

介绍：用一个大型神经网络直接从"视觉+语言"输入映射到"动作控制"输出。传统方法需要分立的感知/规划/控制系统，VLA将它们统一到一个模型中。

核心优势：

端到端优化，避免误差累积
跨任务泛化能力强
可利用大规模数据训练

代表工作：

模型	机构	关键创新
RT-2	Google	首个VLA模型，用Web数据预训练
RT-2-X	Google	扩展到双臂场景
π₀	Physical Intelligence	通用机器人策略模型
RFM-1	Covariant	仓库场景专用VLA
Helix	Figure	Figure专用的VLA模型
星动STAR1	星动纪元	中国首个端到端VLA人形

7.2 模仿学习与行为克隆

英文：Imitation Learning / Behavior Cloning

核心思想：让机器人"看"人类示范来学习技能，而非自己从头摸索。

关键数据集：

RT-1数据集：Google收集的13万台机器人演示数据
Bridge Dataset：斯坦福开源的厨房操作数据集
DAP Data：ACT等论文使用的遥操作数据

最新进展：ACT（Action Chunking with Transformers）- 用Transformer预测动作序列而非单个动作，显著提高成功率。

7.3 Sim-to-Real域迁移

英文：Sim-to-Real Domain Transfer

核心问题：仿真环境和真实世界存在物理差异（摩擦力、间隙、延迟等），导致仿真中训练的策略在真实机器人上失效。

三大解决方案：

┌─────────────────────────────────────────────────────────────────┐
│                    Sim-to-Real 三大技术路线                        │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  1. Domain Randomization（域随机化）                              │
│     ────────────────────────────────────                        │
│     在仿真中随机化物理参数：                                      │
│     • 物体颜色/形状/质量                                         │
│     • 摩擦系数/弹性模量                                          │
│     • 传感器噪声/延迟                                            │
│     → 策略被迫学会"不依赖精确物理模型"                              │
│                                                                 │
│  2. System Identification（系统辨识）                             │
│     ────────────────────────────────────                        │
│     精确测量真实机器人物理参数，                                    │
│     让仿真器尽量贴近真实物理特性                                    │
│                                                                 │
│  3. Domain Adaptation（域适应）                                   │
│     ────────────────────────────────────                        │
│     在真实世界中微调策略：                                        │
│     • 在线RL微调                                                │
│     • 观察分支适配器                                              │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

7.4 灵巧手与精细操作

英文：Dexterous Manipulation with Anthropomorphic Hands

核心挑战：人手有27个自由度，精细操作需要控制20+关节的手指。

最新进展：

Shadow Hand：商业化灵巧手，20 DOF
LEAP Hand：亚马逊开源的灵巧手
Duke Shadow Hand：抓取成功率接近人类水平
Tactile Sensing：高分辨率触觉传感器（GelSight）融合视觉

7.5 家庭/室内场景泛化

英文：Home Robot / Indoor Generalization

核心目标：让机器人在非结构化的家庭环境中完成多种任务。

代表性项目：

项目	机构	特点
HomeRobot	Stanford HCRL	开源仿真+真实机器人平台
MOSS	上海AI Lab	中文家庭场景多模态
ALOHA	Stanford	双手遥操作系统
UMI	Stanford	格斗操作策略学习

八、未来1-2年趋势预测

8.1 关键技术趋势

排名	趋势	英文	预判依据
1	VLA模型井喷	VLA Explosion	Figure、1X纷纷推出专用VLA，Google RT-3发布
2	人形机器人量产	Humanoid Mass Production	Figure 02目标2025交付，Tesla Optimus 2025部署
3	家庭场景落地	Home Robot Deployment	1X NEO主打家庭，Airbot等家用机器人涌现
4	触觉感知突破	Tactile Sensing Integration	GelSight等高分辨率触觉传感器商业化
5	世界模型应用	World Model for Robotics	Genie等视频生成模型转向机器人领域
6	多机器人协作	Multi-robot Collaboration	仓储物流多机器人调度系统成熟
7	小样本泛化	Few-shot Generalization	机器人能用1-5个演示学会新任务

8.2 投资与商业化热点

┌─────────────────────────────────────────────────────────────────────────┐
│                    2025-2026 投资与商业化热点                            │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│   资金涌入最高领域：                                                        │
│   ┌─────────────────────────────────────────────────────────────────┐   │
│   │  ★★★★★  VLA模型 / 通用机器人基础模型                               │   │
│   │  ★★★★☆  人形机器人整机（Figure、Tesla、Agibot）                    │   │
│   │  ★★★★☆  仓库/物流机器人（Covariant模式）                           │   │
│   │  ★★★☆☆  家庭服务机器人                                            │   │
│   │  ★★★☆☆  精密操作（医疗手术、装配）                                  │   │
│   └─────────────────────────────────────────────────────────────────┘   │
│                                                                         │
│   商业模式成熟度：                                                          │
│   ┌─────────────────────────────────────────────────────────────────┐   │
│   │  已验证：B2B SaaS（AI软件授权给机器人整机厂）                          │   │
│   │  验证中：机器人整机销售（工业/科研）                                   │   │
│   │  探索中：机器人即服务（RaaS）                                        │   │
│   │  探索中：家庭消费级机器人                                            │   │
│   └─────────────────────────────────────────────────────────────────┘   │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

九、Agent向具身智能扩展的探讨

9.1 必然扩展的逻辑

软件Agent的局限性：
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

   问题：软件Agent只能处理数字世界
   ┌──────────────────────────────────────────────────┐
   │                                                  │
   │   Agent: "帮我订一杯咖啡"                         │
   │        ↓                                         │
   │   只能：打开App → 下单 → 支付                     │
   │        ↓                                         │
   │   但无法：自己去厨房做咖啡 / 去咖啡店取咖啡         │
   │                                                  │
   └──────────────────────────────────────────────────┘

   Agent需要"长出手脚"才能真正服务物理世界

具身智能是Agent的物理升级：
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

   Agent的核心能力          具身扩展形式
   ────────────────        ────────────────
   理解指令（LLM）     →   理解+分解物理任务
   工具调用          →   调用机器人技能API
   反思机制          →   视觉/触觉反馈闭环
   记忆             →   技能库+经验记忆
   规划             →   运动轨迹规划

   本质：让数字世界的Agent具备物理世界的执行能力

9.2 当前融合的典型案例

案例	描述	技术路线
Figure + OpenAI	Figure 01/02集成GPT-4实现自然对话任务分解	LLM规划层 + 机器人执行层
1X + OpenAI	NEO机器人接入GPT-4做家庭任务理解	LLM + 机器人技能系统
Amazon + Covariant	亚马逊引进Covariant AI技术	通用VLA模型 + 仓库场景
腾讯灵犀机器人	接入混元大模型做任务规划	国产LLM + 机器人控制

9.3 融合路径预测

2024-2025：接口层对接
━━━━━━━━━━━━━━━━━━━━━
   LLM Agent ──► Robot API ──► 机器人执行
   (云端)        (标准化)       (边缘)

2026-2027：深度融合
━━━━━━━━━━━━━━━━━━━━━
   Agent内置机器人工具调用能力
   开发者用同一套API开发"数字Agent"和"具身Agent"

2028+：原生具身Agent
━━━━━━━━━━━━━━━━━━━━━
   VLA/LLM统一模型
   输入：语音/视觉/传感器
   输出：文本决策 + 物理动作
   Agent不再区分软件/硬件

9.4 关键挑战

挑战	说明	当前解法
实时性	机器人控制需要毫秒级响应，但LLM推理慢	技能库预计算 + 分层推理
安全性	物理世界操作不可逆，错误可能伤人	安全约束层 + 力控/阻抗控制
物理常识	LLM缺乏物理直觉（重力、碰撞）	世界模型+物理仿真训练
数据稀缺	机器人操作数据远少于文本数据	仿真数据合成 + 遥操作采集

十、结论与展望

10.1 核心结论

┌─────────────────────────────────────────────────────────────────────────┐
│                         具身智能行业十大核心结论                          │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│  1. 具身智能是AI发展的必然阶段——从"数字智能"到"物理智能"                 │
│                                                                         │
│  2. VLA模型是具身智能的"大脑"核心，RT-2/π₀开创了新范式                   │
│                                                                         │
│  3. 人形机器人是具身智能的最佳载体形态（适应人类环境）                    │
│                                                                         │
│  4. Sim-to-Real是工程瓶颈，Domain Randomization是当前主流解法            │
│                                                                         │
│  5. 机器人行业正在复制NLP的"Scaling Law"——大数据+大模型=通用技能          │
│                                                                         │
│  6. 中国在人形机器人硬件上快速追赶，但在VLA模型上仍有差距                 │
│                                                                         │
│  7. Agent与机器人融合是确定性趋势，2025-2026将出现标杆产品               │
│                                                                         │
│  8. 家庭服务场景是最大市场，但技术成熟度最低（5-10年）                   │
│                                                                         │
│  9. 触觉感知+力控是精细操作的最后一公里，2025年有望突破                  │
│                                                                         │
│  10. 世界模型将成为具身智能的新推动力（预测→规划→执行）                   │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

10.2 对从业者的建议

角色	建议
研究者	深耕VLA/Sim-to-Real/精细操作等核心问题，发表高质量论文
工程师	掌握ROS2 + PyTorch + MuJoCo/Isaac Gym仿真工具链
创业者	从垂直场景切入（仓库/工业），避免过早进入家庭场景
投资人	关注VLA模型公司和具身智能基础设施，而非盲目追人形机器人

10.3 未来展望

"5年内，我们将会看到第一批真正具备通用家务能力的家庭机器人。 10年内，具身智能将重新定义'智能手机'之后的下一个计算平台。 20年内，或许每个人的身边都会有一个具身Agent——它不只是帮你订咖啡，而是能帮你做饭、洗碗、收拾房间，甚至在你生病时照顾你。"

—— Sergey Levine, 2025

附录：关键资源导航

论文推荐（必读）

论文	作者	意义
RT-1: Robotics Transformer	Google Robotics	VLA开山之作
RT-2: Vision-Language-Action Models	Google DeepMind	第一个VLA论文
VoxPoser	Stanford	LLM+3D场景规划
π₀	Physical Intelligence	通用机器人策略模型
Gato	DeepMind	通用智能体里程碑
InstructBLIP	Salesforce	多模态指令微调
ACT	Stanford	动作分块Transformer
DDQ	Google	离线RL新SOTA

开源项目推荐

项目	链接	用途
ROS/ROS2	ros.org	机器人软件开发框架
Isaac Gym	NVIDIA	GPU加速仿真+RL
ManiSkill	上海AI Lab	灵巧手操作仿真
RLBench	Imperial College	机器人任务学习基准
Open Robotics	github.com	Gazebo/MoveIt维护者
PyBullet	Google	开源物理仿真

顶级会议/期刊

会议	领域	年份
CoRL	机器人学习	每年
RSS	机器人Science	每年
ICRA	机器人与自动化	每年
IROS	智能机器人	每年
Science Robotics	机器人顶刊	季刊
IJRR	机器人研究顶刊	月刊

报告完

撰写者：以Sergey Levine视角撰写 最后更新：2026年4月 数据来源：Wikipedia、行业公开资料、研究论文

目录​

一、行业定义与本质​

1.1 什么是具身智能​

1.2 具身智能的三大学科交叉​

二、机器人系统架构全图​

2.1 整体架构​

2.2 机器人硬件子系统​

三、机器人大脑架构详解​

3.1 大脑核心架构图​

3.2 大脑三层之间的关系​

3.3 VLA模型架构详解​

四、Agent与具身智能的融合​

4.1 Agent与机器人的对应关系​

4.2 Agent赋予机器人的核心能力​

4.3 当前Agent+机器人融合的典型范式​

五、全球知名公司及产品矩阵​

5.1 人形机器人公司​

5.2 AI软件/模型公司​

5.3 关键合作伙伴关系​

六、行业关键术语词典​

6.1 核心概念（中英对照+详细解释）​

6.2 缩写对照表​

七、当前热门技术与方向​

7.1 VLA端到端模型（最热）​

7.2 模仿学习与行为克隆​

7.3 Sim-to-Real域迁移​

7.4 灵巧手与精细操作​

7.5 家庭/室内场景泛化​

八、未来1-2年趋势预测​

8.1 关键技术趋势​

8.2 投资与商业化热点​

九、Agent向具身智能扩展的探讨​

9.1 必然扩展的逻辑​

9.2 当前融合的典型案例​

9.3 融合路径预测​

9.4 关键挑战​

十、结论与展望​

10.1 核心结论​

10.2 对从业者的建议​

10.3 未来展望​

附录：关键资源导航​

论文推荐（必读）​

开源项目推荐​

顶级会议/期刊​

目录