具身智能(Embodied AI)行业深度分析报告
模拟视角: Sergey Levine(谢尔盖·莱文)
- Google DeepMind 研究科学家
- UC Berkeley 电子工程与计算机科学系教授
- Physical Intelligence(PI)联合创始人
- 机器人深度强化学习与模仿学习领域奠基人之一
报告目的:以工程科学家和行业参与者的双重视角,系统性地剖析具身智能这一正在改变人工智能与物理世界交互范式的行业。
目录
- 行业定义与本质
- 机器人系统架构全图
- 机器人大脑架构详解
- Agent与具身智能的融合
- 全球知名公司及产品矩阵
- 行业关键术语词典
- 当前热门技术与方向
- 未来1-2年趋势预测
- Agent向具身智能扩展的探讨
- 结论与展望
一、行业定义与本质
1.1 什么是具身智能
具身智能(Embodied AI) 是指人工智能系统具有物理身体并能够与环境进行实时交互的智能形态。与传统仅处理数字信息(文本、图像)的AI不同,具身智能的"智能"体现在:
传统AI(离身智能):
输入:文本、图像、视频 → 处理:统计推断/模式识别 → 输出:文本/决策
↑
└──────── 缺乏物理世界交互能力
具身智能:
输入:传感器数据(视觉、触觉、力矩、位置)→ 处理:感知-决策-控制一体化 → 输出:电机控制指令
↑
└──────── 具备物理世界感知、推理和操作能力
核心问题:如何让机器人在非结构化的真实物理世界中,自主理解场景、执行复杂操作任务?
1.2 具身智能的三大学科交叉
┌─────────────────┐
│ 人工智能 (AI) │
│ 深度学习 / 强化学习│
└────────┬────────┘
│
┌─────────────────┼─────────────────┐
│ │ │
▼ ▼ ▼
┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
│ 机器人学 │ │ 计算机视觉 │ │ 自然语言处理 │
│ Robot Kinematics │ │ Computer Vision │ │ Natural Lang. │
│ 运动规划/控制 │ │ 3D重建/感知 │ │ 指令理解/对话 │
└─────────────────┘ └─────────────────┘ └─────────────────┘
二、机器人系统架构全图
2.1 整体架构
┌─────────────────────────────────────────────────────────────────────────┐
│ 具身智能机器人系统完整架构 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 用户指令层 │ │
│ │ 语音 / 文本 / 示教(人类演示) │ │
│ └────────────────────────────┬────────────────────────────────────┘ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 认知大脑层 │ │
│ │ ┌───────────────┐ ┌───────────────┐ ┌───────────────────┐ │ │
│ │ │ 任务规划器 │ │ VLM/VLA │ │ 技能库 │ │ │
│ │ │ Task Planner │ │ (视觉-语言- │ │ Skill Library │ │ │
│ │ │ (LLM驱动) │ │ 动作模型) │ │ (RL/IL策略集合) │ │ │
│ │ └───────┬───────┘ └───────┬───────┘ └─────────┬─────────┘ │ │
│ │ └──────────────────┼──────────────────┘ │ │
│ │ ▼ │ │
│ │ ┌─────────────────────┐ │ │
│ │ │ 决策选择器 │ │ │
│ │ │ Decision Selector │ │ │
│ │ └──────────┬──────────┘ │ │
│ └─────────────────────────────┼──────────────────────────────────────┘ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 技能执行层 │ │
│ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────────────────┐ │ │
│ │ │ 运动规划器 │ │ 视觉伺服 │ │ 力/阻抗控制器 │ │ │
│ │ │ Motion │ │ Visual │ │ Force/Impedance │ │ │
│ │ │ Planning │ │ Servoing │ │ Controller │ │ │
│ │ └──────┬──────┘ └──────┬──────┘ └────────────┬────────────┘ │ │
│ │ └────────────────┼─────────────────────┘ │ │
│ │ ▼ │ │
│ │ ┌─────────────────────┐ │ │
│ │ │ 关节指令 (Joint │ │ │
│ │ │ Torque/Position) │ │ │
│ │ └──────────┬──────────┘ │ │
│ └──────────────────────────┼─────────────────────────────────────────┘ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 硬件执行层 │ │
│ │ │ │
│ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────────┐ │ │
│ │ │ 感知硬件 │ │ 执行硬件 │ │ 计算硬件 │ │ │
│ │ │ │ │ │ │ │ │ │
│ │ │ RGB-D相机 │ │ 电机+减速器 │ │ GPU (Orin/Xavier)│ │ │
│ │ │ LiDAR │ │ 灵巧手 │ │ 主控CPU │ │ │
│ │ │ IMU │ │ 轮式/足式 │ │ CAN/Ethernet │ │ │
│ │ │ 力矩传感器 │ │ 底盘 │ │ │ │ │
│ │ │ 触觉传感器 │ │ │ │ │ │ │
│ │ └──────────────┘ └──────────────┘ └──────────────────┘ │ │
│ │ │ │
│ └───────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────┘
2.2 机器人硬件子系统
┌─────────────────────────────────────────────────────────────┐
│ 机器人硬件组成 │
├────────────────┬────────────────┬─────────────────────────┤
│ 感知系统 │ 执行系统 │ 计算系统 │
├────────────────┼────────────────┼─────────────────────────┤
│ │ │ │
│ RGB相机 │ 电机 (Motor) │ GPU │
│ 深度相机 │ 伺服驱动 │ (Jetson/Orin) │
│ (RealSense) │ 减速器 │ │
│ │ (Harmonic/ │ 边缘计算单元 │
│ LiDAR │ RV) │ (Jetson NX) │
│ │ │ │
│ IMU │ 灵巧手 │ 主控CPU │
│ (惯性测量) │ (20+ DOF) │ (x86/ARM) │
│ │ │ │
│ 力矩传感器 │ 夹爪 │ 实时通信总线 │
│ (F/T Sensor) │ (Gripper) │ (CAN/Ethernet) │
│ │ │ │
│ 触觉传感器 │ 轮式底盘 │ 传感器融合板 │
│ (Tactile) │ 足式关节 │ (Sensor Fusion) │
│ │ │ │
│ 编码器 │ 柔性关节 │ │
│ (Encoder) │ (Series │ │
│ │ Elastic) │ │
│ │ │ │
└────────────────┴────────────────┴─────────────────────────┘
三、机器人大脑架构详解
3.1 大脑核心架构图
┌───────────────────────────────────────────────────────────────────────────────┐
│ 机器人大脑(Robot Brain)三层架构 │
├───────────────────────────────────────────────────────────────────────────────┤
│ │
│ ╔═══════════════════════════════════════════════════════════════════════╗ │
│ ║ 第一层:任务规划层 (Mission Layer) ║ │
│ ║ ║ │
│ ║ ┌──────────────────────────────────────────────────────────────┐ ║ │
│ ║ │ LLM / VLM 核心 │ ║ │
│ ║ │ ┌────────────┐ ┌────────────┐ ┌────────────────────────┐ │ ║ │
│ ║ │ │ GPT-4o │ │ Claude 3 │ │ 开源: LLaVA/Vicuna │ │ ║ │
│ ║ │ │ / Opus │ │ / Sonnet │ │ Qwen/Vicuna │ │ ║ │
│ ║ │ └────────────┘ └────────────┘ └────────────────────────┘ │ ║ │
│ ║ └──────────────────────────────────────────────────────────────┘ ║ │
│ ║ │ ║ │
│ ║ 功能: │ 输出: ║ │
│ ║ • 自然语言指令理解 │ • 子目标序列 (Sub-goals) ║ │
│ ║ • 复杂任务拆解 │ • 技能调用规划 (Skill Plan) ║ │
│ ║ • 常识推理与异常处理 │ • 环境状态描述 (State Description) ║ │
│ ║ • 人类意图推断 │ ║ │
│ ╚═══════════════════════════════════════════════════════════════════════╝ │
│ │ │
│ ▼ │
│ ╔═══════════════════════════════════════════════════════════════════════╗ │
│ ║ 第二层:技能执行层 (Skill Layer) ║ │
│ ║ ║ │
│ ║ ┌───────────────────┐ ┌───────────────────┐ ║ │
│ ║ │ 技能库 │ │ VLA 模型 │ ║ │
│ ║ │ Skill Library │ │ Vision-Language │ ║ │
│ ║ │ │ │ -Action Model │ ║ │
│ ║ │ ┌───────────────┐ │ │ │ ║ │
│ ║ │ │ 抓取 Grasp │ │ │ ┌───────────────┐ │ ║ │
│ ║ │ │ 放置 Place │ │ │ │ RT-2 │ │ ║ │
│ ║ │ │ 推 Push │ │ │ │ VoxPoser │ │ ║ │
│ ║ │ │ 抽屉操作 │ │ │ │ π₀ (PI) │ │ ║ │
│ ║ │ │ 开门/关门 │ │ │ │ Gato │ │ ║ │
│ ║ │ │ ... │ │ │ └───────────────┘ │ ║ │
│ ║ │ └───────────────┘ │ │ │ ║ │
│ ║ │ │ │ 功能: │ ║ │
│ ║ │ ┌───────────────┐ │ │ • 视觉-语言→动作 │ ║ │
│ ║ │ │ RL Policy │ │ │ • 端到端控制 │ ║ │
│ ║ │ │ (强化学习策略) │ │ │ • 跨任务泛化 │ ║ │
│ ║ │ └───────────────┘ │ │ │ ║ │
│ ║ │ │ │ │ ║ │
│ ║ │ ┌───────────────┐ │ │ │ ║ │
│ ║ │ │ IL Policy │ │ │ │ ║ │
│ ║ │ │ (模仿学习策略) │ │ │ │ ║ │
│ ║ │ └───────────────┘ │ │ │ ║ │
│ ║ └───────────────────┘ └───────────────────┘ ║ │
│ ║ │ ║ │
│ ║ 输入:技能参数 + 视觉反馈 │ 输出: ║ │
│ ║ • 目标物体位置 │ • 末端执行器位姿 (End-effector) ║ │
│ ║ • 技能ID │ • 关节力矩/位置指令 ║ │
│ ║ • 当前场景状态 │ ║ │
│ ╚═══════════════════════════════════════════════════════════════════════╝ │
│ │ │
│ ▼ │
│ ╔═══════════════════════════════════════════════════════════════════════╗ │
│ ║ 第三层:运动控制层 (Control Layer) ║ │
│ ║ ║ │
│ ║ ┌────────────────────────────────────────────────────────────┐ ║ │
│ ║ │ 控制器矩阵 │ ║ │
│ ║ │ │ ║ │
│ ║ │ ┌────────────────┐ ┌────────────────┐ │ ║ │
│ ║ │ │ 关节位置控制 │ │ 力矩控制 │ │ ║ │
│ ║ │ │ Joint Position │ │ Torque Ctrl │ │ ║ │
│ ║ │ │ (P/PI/PID) │ │ (F/T) │ │ ║ │
│ ║ │ └────────────────┘ └────────────────┘ │ ║ │
│ ║ │ │ ║ │
│ ║ │ ┌────────────────┐ ┌────────────────┐ │ ║ │
│ ║ │ │ 视觉伺服控制 │ │ 阻抗控制 │ │ ║ │
│ ║ │ │ Visual │ │ Impedance │ │ ║ │
│ ║ │ │ Servoing │ │ Control │ │ ║ │
│ ║ │ └────────────────┘ └────────────────┘ │ ║ │
│ ║ │ │ ║ │
│ ║ │ ┌──────────────────────────────────────────────────────┐ │ ║ │
│ ║ │ │ 运动学/动力学求解 │ │ ║ │
│ ║ │ │ Forward Kinematics / Inverse Dynamics │ │ ║ │
│ ║ │ └──────────────────────────────────────────────────────┘ │ ║ │
│ ║ └────────────────────────────────────────────────────────────┘ ║ │
│ ║ │ ║ │
│ ║ 功能: │ 输出: ║ │
│ ║ • 毫秒级实时控制反馈 │ • PWM/电流指令 → 电机驱动器 ║ │
│ ║ • 安全碰撞检测与响应 │ ║ │
│ ║ • 末端执行器轨迹跟踪 │ ║ │
│ ╚═══════════════════════════════════════════════════════════════════════╝ │
│ │
└───────────────────────────────────────────────────────────────────────────────┘
3.2 大脑三层之间的关系
用户指令输入
│
▼
┌─────────────────────────────────────────────────────────────┐
│ 第一层:任务规划层(LLM/VLM) │
│ "把桌上的苹果放到冰箱里" │
│ │ │
│ ▼ │
│ 子目标序列:[找到苹果] → [抓取苹果] → [走向冰箱] → [放置苹果] │
└───────────────────────────┬─────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────┐
│ 第二层:技能执行层(VLA / RL Policy) │
│ │
│ 对应每个子目标调用对应技能: │
│ • "找到苹果" → Object Detection + Navigation Policy │
│ • "抓取苹果" → Grasp Policy (VLA/RT-2) │
│ • "走向冰箱" → Navigation Policy │
│ • "放置苹果" → Place Policy │
│ │ │
│ ▼ │
│ 末端执行器位姿 (End-effector Pose) │
└───────────────────────────┬─────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────┐
│ 第三层:运动控制层(毫秒级实时控制) │
│ │
│ 关节位置/力矩指令 → PWM → 电机驱动器 → 电机 → 机器人关节 │
│ │
│ 频率:1-10 kHz(毫秒级响应) │
└─────────────────────────────────────────────────────────────┘
3.3 VLA模型架构详解
┌─────────────────────────────────────────────────────────────────────────────┐
│ VLA (Vision-Language-Action) 模型 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 输入: │
│ ┌─────────────┐ ┌──────────────────────────────────────────────┐ │
│ │ 视觉输入 │ │ 自然语言指令 │ │
│ │ │ │ │ │
│ │ RGB图像 │ │ "Pick up the red cup and place it in the │ │
│ │ 640×480 │ │ blue box" │ │
│ │ ×3通道 │ │ │ │
│ └──────┬──────┘ └─────────────────────┬───────────────────────┘ │
│ │ │ │
│ └──────────────────┬───────────────┘ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 视觉编码器 (Vision Encoder) │ │
│ │ │ │
│ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │
│ │ │ ViT (Vision │ │ CNN │ │ ResNet │ │ │
│ │ │ Transformer)│ │ Backbone │ │ Backbone │ │ │
│ │ └──────┬───────┘ └──────┬───────┘ └──────┬───────┘ │ │
│ │ │ │ │ │ │
│ │ └───────────────────┼────────────────────┘ │ │
│ │ ▼ │ │
│ │ 视觉特征 (Visual Features) │ │
│ │ 768-d / 1024-d │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 语言编码器 (Language Encoder) │ │
│ │ │ │
│ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │
│ │ │ LLM │ │ Embedding │ │ Tokenizer │ │ │
│ │ │ (LLama/ │────│ Layer │────│ │ │ │
│ │ │ GPT) │ │ │ │ │ │ │
│ │ └──────────────┘ └──────────────┘ └──────────────┘ │ │
│ │ │ │ │
│ │ 语言特征 (Language Features) │ │
│ │ 4096-d │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 融合层 (Fusion Layer) │ │
│ │ │ │
│ │ 视觉特征 + 语言特征 → Cross-Attention → 融合多模态特征 │ │
│ │ (例如: Perceiver Resampler) │ │
│ │ │ │
│ │ 融合特征 (Multimodal Features) │ │
│ │ 4096-d │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 动作解码器 (Action Decoder) │ │
│ │ │ │
│ │ ┌──────────────────────────────────────────────────────────────┐ │ │
│ │ │ Transformer Decoder / MLP │ │ │
│ │ │ │ │ │
│ │ │ 融合特征 → 动作令牌 (Action Tokens) → 离散/连续动作 │ │ │
│ │ │ │ │ │
│ │ └──────────────────────────────────────────────────────────────┘ │ │
│ │ │ │
│ │ 输出动作: │ │
│ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────────────────┐ │ │
│ │ │ 机械臂末端 │ │ 夹爪开合 │ │ 机器人底座移动 │ │ │
│ │ │ 位置 (x,y,z)│ │ (Open/ │ │ 速度 (vx, vy, vω) │ │ │
│ │ │ Roll,Pitch, │ │ Close) │ │ │ │ │
│ │ │ Yaw │ │ │ │ │ │ │
│ │ └─────────────┘ └─────────────┘ └─────────────────────────┘ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
四、Agent与具身智能的融合
4.1 Agent与机器人的对应关系
┌─────────────────────────────────────────────────────────────────────────┐
│ 软件Agent vs 具身Agent 对照表 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ 软件Agent 具身Agent(机器人) │
│ ───────── ───────────────────── │
│ │
│ LLM Brain LLM/VLM Brain │
│ │ │ │
│ ▼ ▼ │
│ 工具调用 (Tool Use) ──────► 技能调用 (Skill Execution) │
│ │ │ │
│ ▼ ▼ │
│ API / 函数执行 电机控制 / 关节运动 │
│ │ │ │
│ ▼ ▼ │
│ 输出文本/决策 输出物理动作 │
│ │ │ │
│ ▼ ▼ │
│ 数字世界交互 物理世界交互 │
│ │
└─────────────────────────────────────────────────────────────────────────┘
4.2 Agent赋予机器人的核心能力
┌─────────────────────────────────────────────────────────────────────────┐
│ Agent架构赋能机器人的三大核心能力 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 1. 任务规划能力 (Task Planning) │ │
│ │ │ │
│ │ Agent的思维链(Chain-of-Thought)→ 机器人的任务分解 │ │
│ │ │ │
│ │ 用户: "收拾厨房" │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ LLM推理: │ │
│ │ 1. 先分类物品(餐具、食材、垃圾) │ │
│ │ 2. 餐具→洗碗机 │ │
│ │ 3. 食材→冰箱 │ │
│ │ 4. 垃圾→垃圾桶 │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ 机器人执行: [抓取]→[移动]→[放置] 循环 │ │
│ └─────────────────────────────────────────────────────────────────┘ │
│ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 2. 工具使用能力 (Tool Use) │ │
│ │ │ │
│ │ Agent调用外部工具 → 机器人调用技能库 │ │
│ │ │ │
│ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ │
│ │ │ 搜索引擎 │ │ 代码执行 │ │ API调用 │ │ │
│ │ │ (Software) │ │ (Software) │ │ (Software) │ │ │
│ │ └──────┬──────┘ └──────┬──────┘ └──────┬──────┘ │ │
│ │ │ │ │ │ │
│ │ └───────────────────┼───────────────────┘ │ │
│ │ ▼ │ │
│ │ ┌─────────────────────┐ │ │
│ │ │ 机器人大脑 │ │ │
│ │ └──────────┬──────────┘ │ │
│ │ │ │ │
│ │ ┌─────────────┐ ┌──────┴──────┐ ┌─────────────┐ │ │
│ │ │ 夹爪 │ │ 灵巧手 │ │ 导航系统 │ │ │
│ │ │ (抓取) │ │ (精细操作) │ │ (移动) │ │ │
│ │ └─────────────┘ └─────────────┘ └─────────────┘ │ │
│ └─────────────────────────────────────────────────────────────────┘ │
│ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 3. 自我反思能力 (Self-Reflection) │ │
│ │ │ │
│ │ Agent的结果评估 → 机器人的视觉/触觉反馈修正 │ │
│ │ │ │
│ │ 动作执行 ──► 传感器反馈 ──► 成功/失败判断 ──► 策略调整 │ │
│ │ │ │
│ │ 例如: 抓取失败 → 重新调整抓取姿态 → 再次尝试 │ │
│ └─────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────┘
4.3 当前Agent+机器人融合的典型范式
范式一:VLM/LLM作为规划器 + RL Policy作为执行器(当前主流)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
LLM/VLM RL Policy 控制器
(规划层) (技能层) (控制层)
│ │ │
▼ ▼ ▼
"拿起红色的 ──► 视觉定位红杯 ──► 末端执行器位姿 ──► 关节控制
杯子" +夹爪指令 (x,y,z,R,P,Y) (PWM)
代表:RT-2, PaLM-E, VoxPoser
范式二:端到端VLA模型(一揽子解决)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
VLA Model (一个大模型)
│
┌──────────┼──────────┐
▼ ▼ ▼
视觉 语言 动作
编码 编码 解码
│
▼
电机控制指令
代表:RT-2, π₀ (Physical Intelligence)
范式三:分层技能系统(工业机器人常用)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
任务级 操作级 伺服级
(Task) (Skill) (Servo)
│ │ │
▼ ▼ ▼
"组装产品" 抓取-移动-放置 关节位置/力矩
│ │ │
▼ ▼ ▼
MoveIt! GraspNet 电机驱动器
五、全球知名公司及产品矩阵
5.1 人形机器人公司
| 公司 | 国家 | 产品 | 核心技术特点 | 定位场景 |
|---|---|---|---|---|
| Figure AI | 美国 | Figure 01/02 | 与OpenAI合作、VLA模型 | 通用人形、工业 |
| Tesla | 美国 | Optimus (Atlas) | FSD芯片复用、纯视觉 | 制造业、仓储 |
| Boston Dynamics | 美国 | Atlas (电驱版) | 全身动态运动、跑酷能力 | 勘探、科研 |
| 1X Technologies | 挪威 | NEO | 轻量级、开源模型 | 家庭服务 |
| Agibot | 中国 | A1 | 低成本、数据集开源 | 科研、工业 |
| Unitree | 中国 | H1/G1 | 开源、运动控制强 | 科研、教育 |
| 傅利叶智能 | 中国 | GR-1 | 通用人形、康复切入 | 医疗康复 |
| 宇树科技 | 中国 | H1 | 全身动态、人形 | 科研、竞技 |
| 星动纪元 | 中国 | 星动STAR1 | 端到端VLA | 通用人形 |
| 逐际动力 | 中国 | CL-1 | 运动控制、地形适应 | 工业巡检 |
5.2 AI软件/模型公司
| 公司 | 产品/模型 | 核心技术 | 商业模式 |
|---|---|---|---|
| Physical Intelligence | π₀模型 | 通用机器人策略模型 | B2B授权 |
| Skild AI | 通用机器人基础模型 | 跨任务泛化 | B2B授权 |
| Covariant | RFM-1、Covariant Brain | 仓库机器人AI | 集成商合作 |
| Google DeepMind | RT-1/2/3、Gato | VLA模型先驱 | 研究/内部 |
| Stanford (VoxPoser) | 开源研究 | LLM+3D场景规划 | 学术开源 |
5.3 关键合作伙伴关系
┌─────────────────────────────────────────────────────────────────────────┐
│ 具身智能行业关键合作图谱 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ │
│ │ Figure AI │◄────────── 战略合作 ──────────►┌──────────────┐ │
│ │ │ (VLA模型) │ OpenAI │ │
│ └──────┬───────┘ └──────────────┘ │
│ │ │
│ │ ┌──────────────┐ │
│ └────── 战略合作 ───►│ Physical │◄─────── 投资 ─────┐ │
│ │ Intelligence │ │ Amazon │
│ ┌───────────────────►└──────────────┘ │ │
│ │ │ │ │
│ │ │ 投资/合作 │ │
│ ▼ ▼ │ │
│ ┌──────────────┐ ┌──────────────┐ │ │
│ │ 1X │ │ Covariant │◄────────────────┘ │
│ │ Technologies│ │ │ │
│ └──────────────┘ └──────────────┘ │
│ │
│ ┌──────────────┐ ┌──────────────┐ │
│ │ Tesla │ │ Google │ │
│ │ Optimus │ │ DeepMind │ │
│ └──────────────┘ └──────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────┘
六、行业关键术语词典
6.1 核心概念(中英对照+详细解释)
| 术语 | 英文 | 详细解释 |
|---|---|---|
| 具身智能 | Embodied AI | AI系统具有物理身体,能与环境实时交互。与"离身智能"(仅处理数字数据)相对。核心研究问题:如何在物理世界中实现通用智能。 |
| 视觉-语言-动作模型 | VLA (Vision-Language-Action) | 同时处理视觉输入、语言指令,输出机器人动作控制信号的模型。代表作:RT-2、π₀。是具身智能的"大脑"核心。 |
| 视觉-语言模型 | VLM (Vision-Language Model) | 融合视觉编码器和语言模型的AI。能理解图像内容并用语言描述/回答问题。是VLA的基础。代表:GPT-4V、LLaVA。 |
| 模仿学习 | Imitation Learning (IL) | 从人类演示中学习策略。通过观察Expert的行为轨迹,训练Policy网络模仿。优点:样本效率高;缺点:分布偏移问题。 |
| 强化学习 | Reinforcement Learning (RL) | 通过环境奖励信号学习最优策略。机器人通过"试错"学会技能。经典算法:PPO、SAC、TD3。缺点:样本效率低。 |
| 域随机化 | Domain Randomization (DR) | 在仿真环境中随机化物理参数(物体颜色、质量、摩擦力等),使策略泛化到真实世界。核心解决Sim-to-Real差距。 |
| 仿真到真实迁移 | Sim-to-Real | 将仿真环境训练的策略迁移到真实机器人。关键技术:Domain Randomization、System Identification、Domain Adaptation。 |
| 逆运动学 | Inverse Kinematics (IK) | 已知末端执行器目标位置,求解关节角度。是机器人运动规划的核心数学工具。常用算法:数值迭代解析解。 |
| 正运动学 | Forward Kinematics | 已知关节角度,计算末端执行器位置和姿态。相对简单,是IK的逆过程。 |
| 灵巧操作 | Dexterous Manipulation | 使用多自由度灵巧手(通常20+ DOF)进行精细操作(穿针、装配等)。是具身智能的最高难度任务之一。 |
| 视觉伺服 | Visual Servoing | 用视觉反馈闭环控制机器人运动。分为:基于图像的(IBVS)和基于位置的(PBVS)。 |
| 力控 | Force Control | 精确控制关节力矩或末端力的方式。用于精密装配、磨抛等任务。 |
| 阻抗控制 | Impedance Control | 让机器人表现出类似弹簧-阻尼系统的物理特性,实现柔顺交互。用于人机协作。 |
| SLAM | Simultaneous Localization and Mapping | 同时定位与建图。机器人在未知环境中运动时,同时构建环境地图并确定自身位置。 |
| 运动规划 | Motion Planning | 在关节空间或任务空间中规划无碰撞的机器人运动轨迹。常用算法:RRT、PRM、CHOMP。 |
| 抓取检测 | Grasp Detection | 给定物体和场景,计算最优抓取点(位置+姿态)。是机器人操作的基础能力。 |
| 技能泛化 | Skill Generalization | 一个技能策略能跨不同物体/场景迁移应用。是通用机器人的关键能力。 |
| 元学习 | Meta Learning | 学会"学习"的能力。能用少量样本快速学会新任务。代表:MAML、RL²。 |
| 世界模型 | World Model | 能预测动作后物理世界变化的模型。是具身智能的重要研究方向。代表:DeepMind Genie。 |
| ROS/ROS2 | Robot Operating System | 机器人操作系统事实标准。提供消息通信、硬件抽象、工具库。是机器人软件开发的基础框架。 |
6.2 缩写对照表
| 缩写 | 全称 | 中文 |
|---|---|---|
| DOF | Degree of Freedom | 自由度 |
| VLA | Vision-Language-Action | 视觉-语言-动作 |
| VLM | Vision-Language Model | 视觉语言模型 |
| RL | Reinforcement Learning | 强化学习 |
| IL | Imitation Learning | 模仿学习 |
| IK | Inverse Kinematics | 逆运动学 |
| FK | Forward Kinematics | 正运动学 |
| SLAM | Simultaneous Localization and Mapping | 即时定位与地图构建 |
| DRC | Domain Randomization for Computer | 域随机化 |
| Policy | Policy Network | 策略网络 |
| PPO | Proximal Policy Optimization | 近端策略优化 |
| SAC | Soft Actor-Critic | 软演员-评论家 |
| TD3 | Twin Delayed DDPG | 双延迟DDPG |
| DDPG | Deep Deterministic Policy Gradient | 深度确定性策略梯度 |
| RFM | Robotics Foundation Model | 机器人基础模型 |
| sim-to-real | Simulation to Real | 仿真到真实迁移 |
| ROS | Robot Operating System | 机器人操作系统 |
| PBVS | Position-Based Visual Servoing | 基于位置的视觉伺服 |
| IBVS | Image-Based Visual Servoing | 基于图像的视觉伺服 |
七、当前热门技术与方向
7.1 VLA端到端模型(最热)
英文:End-to-end Vision-Language-Action Model
介绍:用一个大型神经网络直接从"视觉+语言"输入映射到"动作控制"输出。传统方法需要分立的感知/规划/控制系统,VLA将它们统一到一个模型中。
核心优势:
- 端到端优化,避免误差累积
- 跨任务泛化能力强
- 可利用大规模数据训练
代表工作:
| 模型 | 机构 | 关键创新 |
|---|---|---|
| RT-2 | 首个VLA模型,用Web数据预训练 | |
| RT-2-X | 扩展到双臂场景 | |
| π₀ | Physical Intelligence | 通用机器人策略模型 |
| RFM-1 | Covariant | 仓库场景专用VLA |
| Helix | Figure | Figure专用的VLA模型 |
| 星动STAR1 | 星动纪元 | 中国首个端到端VLA人形 |
7.2 模仿学习与行为克隆
英文:Imitation Learning / Behavior Cloning
核心思想:让机器人"看"人类示范来学习技能,而非自己从头摸索。
关键数据集:
- RT-1数据集:Google收集的13万台机器人演示数据
- Bridge Dataset:斯坦福开源的厨房操作数据集
- DAP Data:ACT等论文使用的遥操作数据
最新进展:ACT(Action Chunking with Transformers)- 用Transformer预测动作序列而非单个动作,显著提高成功率。
7.3 Sim-to-Real域迁移
英文:Sim-to-Real Domain Transfer
核心问题:仿真环境和真实世界存在物理差异(摩擦力、间隙、延迟等),导致仿真中训练的策略在真实机器人上失效。
三大解决方案:
┌─────────────────────────────────────────────────────────────────┐
│ Sim-to-Real 三大技术路线 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 1. Domain Randomization(域随机化) │
│ ──────────────────────────────────── │
│ 在仿真中随机化物理参数: │
│ • 物体颜色/形状/质量 │
│ • 摩擦系数/弹性模量 │
│ • 传感器噪声/延迟 │
│ → 策略被迫学会"不依赖精确物理模型" │
│ │
│ 2. System Identification(系统辨识) │
│ ──────────────────────────────────── │
│ 精确测量真实机器人物理参数, │
│ 让仿真器尽量贴近真实物理特性 │
│ │
│ 3. Domain Adaptation(域适应) │
│ ──────────────────────────────────── │
│ 在真实世界中微调策略: │
│ • 在线RL微调 │
│ • 观察分支适配器 │
│ │
└─────────────────────────────────────────────────────────────────┘
7.4 灵巧手与精细操作
英文:Dexterous Manipulation with Anthropomorphic Hands
核心挑战:人手有27个自由度,精细操作需要控制20+关节的手指。
最新进展:
- Shadow Hand:商业化灵巧手,20 DOF
- LEAP Hand:亚马逊开源的灵巧手
- Duke Shadow Hand:抓取成功率接近人类水平
- Tactile Sensing:高分辨率触觉传感器(GelSight)融合视觉
7.5 家庭/室内场景泛化
英文:Home Robot / Indoor Generalization
核心目标:让机器人在非结构化的家庭环境中完成多种任务。
代表性项目:
| 项目 | 机构 | 特点 |
|---|---|---|
| HomeRobot | Stanford HCRL | 开源仿真+真实机器人平台 |
| MOSS | 上海AI Lab | 中文家庭场景多模态 |
| ALOHA | Stanford | 双手遥操作系统 |
| UMI | Stanford | 格斗操作策略学习 |
八、未来1-2年趋势预测
8.1 关键技术趋势
| 排名 | 趋势 | 英文 | 预判依据 |
|---|---|---|---|
| 1 | VLA模型井喷 | VLA Explosion | Figure、1X纷纷推出专用VLA,Google RT-3发布 |
| 2 | 人形机器人量产 | Humanoid Mass Production | Figure 02目标2025交付,Tesla Optimus 2025部署 |
| 3 | 家庭场景落地 | Home Robot Deployment | 1X NEO主打家庭,Airbot等家用机器人涌现 |
| 4 | 触觉感知突破 | Tactile Sensing Integration | GelSight等高分辨率触觉传感器商业化 |
| 5 | 世界模型应用 | World Model for Robotics | Genie等视频生成模型转向机器人领域 |
| 6 | 多机器人协作 | Multi-robot Collaboration | 仓储物流多机器人调度系统成熟 |
| 7 | 小样本泛化 | Few-shot Generalization | 机器人能用1-5个演示学会新任务 |
8.2 投资与商业化热点
┌─────────────────────────────────────────────────────────────────────────┐
│ 2025-2026 投资与商业化热点 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ 资金涌入最高领域: │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ ★★★★★ VLA模型 / 通用机器人基础模型 │ │
│ │ ★★★★☆ 人形机器人整机(Figure、Tesla、Agibot) │ │
│ │ ★★★★☆ 仓库/物流机器人(Covariant模式) │ │
│ │ ★★★☆☆ 家庭服务机器人 │ │
│ │ ★★★☆☆ 精密操作(医疗手术、装配) │ │
│ └─────────────────────────────────────────────────────────────────┘ │
│ │
│ 商业模式成熟度: │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 已验证:B2B SaaS(AI软件授权给机器人整机厂) │ │
│ │ 验证中:机器人整机销售(工业/科研) │ │
│ │ 探索中:机器人即服务(RaaS) │ │
│ │ 探索中:家庭消费级机器人 │ │
│ └─────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────┘
九、Agent向具身智能扩展的探讨
9.1 必然扩展的逻辑
软件Agent的局限性:
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
问题:软件Agent只能处理数字世界
┌──────────────────────────────────────────────────┐
│ │
│ Agent: "帮我订一杯咖啡" │
│ ↓ │
│ 只能:打开App → 下单 → 支付 │
│ ↓ │
│ 但无法:自己去厨房做咖啡 / 去咖啡店取咖啡 │
│ │
└──────────────────────────────────────────────────┘
Agent需要"长出手脚"才能真正服务物理世界
具身智能是Agent的物理升级:
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
Agent的核心能力 具身扩展形式
──────────────── ────────────────
理解指令(LLM) → 理解+分解物理任务
工具调用 → 调用机器人技能API
反思机制 → 视觉/触觉反馈闭环
记忆 → 技能库+经验记忆
规划 → 运动轨迹规划
本质:让数字世界的Agent具备物理世界的执行能力
9.2 当前融合的典型案例
| 案例 | 描述 | 技术路线 |
|---|---|---|
| Figure + OpenAI | Figure 01/02集成GPT-4实现自然对话任务分解 | LLM规划层 + 机器人执行层 |
| 1X + OpenAI | NEO机器人接入GPT-4做家庭任务理解 | LLM + 机器人技能系统 |
| Amazon + Covariant | 亚马逊引进Covariant AI技术 | 通用VLA模型 + 仓库场景 |
| 腾讯灵犀机器人 | 接入混元大模型做任务规划 | 国产LLM + 机器人控制 |
9.3 融合路径预测
2024-2025:接口层对接
━━━━━━━━━━━━━━━━━━━━━
LLM Agent ──► Robot API ──► 机器人执行
(云端) (标准化) (边缘)
2026-2027:深度融合
━━━━━━━━━━━━━━━━━━━━━
Agent内置机器人工具调用能力
开发者用同一套API开发"数字Agent"和"具身Agent"
2028+:原生具身Agent
━━━━━━━━━━━━━━━━━━━━━
VLA/LLM统一模型
输入:语音/视觉/传感器
输出:文本决策 + 物理动作
Agent不再区分软件/硬件
9.4 关键挑战
| 挑战 | 说明 | 当前解法 |
|---|---|---|
| 实时性 | 机器人控制需要毫秒级响应,但LLM推理慢 | 技能库预计算 + 分层推理 |
| 安全性 | 物理世界操作不可逆,错误可能伤人 | 安全约束层 + 力控/阻抗控制 |
| 物理常识 | LLM缺乏物理直觉(重力、碰撞) | 世界模型+物理仿真训练 |
| 数据稀缺 | 机器人操作数据远少于文本数据 | 仿真数据合成 + 遥操作采集 |
十、结论与展望
10.1 核心结论
┌─────────────────────────────────────────────────────────────────────────┐
│ 具身智能行业十大核心结论 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ 1. 具身智能是AI发展的必然阶段——从"数字智能"到"物理智能" │
│ │
│ 2. VLA模型是具身智能的"大脑"核心,RT-2/π₀开创了新范式 │
│ │
│ 3. 人形机器人是具身智能的最佳载体形态(适应人类环境) │
│ │
│ 4. Sim-to-Real是工程瓶颈,Domain Randomization是当前主流解法 │
│ │
│ 5. 机器人行业正在复制NLP的"Scaling Law"——大数据+大模型=通用技能 │
│ │
│ 6. 中国在人形机器人硬件上快速追赶,但在VLA模型上仍有差距 │
│ │
│ 7. Agent与机器人融合是确定性趋势,2025-2026将出现标杆产品 │
│ │
│ 8. 家庭服务场景是最大市场,但技术成熟度最低(5-10年) │
│ │
│ 9. 触觉感知+力控是精细操作的最后一公里,2025年有望突破 │
│ │
│ 10. 世界模型将成为具身智能的新推动力(预测→规划→执行) │
│ │
└─────────────────────────────────────────────────────────────────────────┘
10.2 对从业者的建议
| 角色 | 建议 |
|---|---|
| 研究者 | 深耕VLA/Sim-to-Real/精细操作等核心问题,发表高质量论文 |
| 工程师 | 掌握ROS2 + PyTorch + MuJoCo/Isaac Gym仿真工具链 |
| 创业者 | 从垂直场景切入(仓库/工业),避免过早进入家庭场景 |
| 投资人 | 关注VLA模型公司和具身智能基础设施,而非盲目追人形机器人 |
10.3 未来展望
"5年内,我们将会看到第一批真正具备通用家务能力的家庭机器人。 10年内,具身智能将重新定义'智能手机'之后的下一个计算平台。 20年内,或许每个人的身边都会有一个具身Agent——它不只是帮你订咖啡, 而是能帮你做饭、洗碗、收拾房间,甚至在你生病时照顾你。"
—— Sergey Levine, 2025
附录:关键资源导航
论文推荐(必读)
| 论文 | 作者 | 意义 |
|---|---|---|
| RT-1: Robotics Transformer | Google Robotics | VLA开山之作 |
| RT-2: Vision-Language-Action Models | Google DeepMind | 第一个VLA论文 |
| VoxPoser | Stanford | LLM+3D场景规划 |
| π₀ | Physical Intelligence | 通用机器人策略模型 |
| Gato | DeepMind | 通用智能体里程碑 |
| InstructBLIP | Salesforce | 多模态指令微调 |
| ACT | Stanford | 动作分块Transformer |
| DDQ | 离线RL新SOTA |
开源项目推荐
| 项目 | 链接 | 用途 |
|---|---|---|
| ROS/ROS2 | ros.org | 机器人软件开发框架 |
| Isaac Gym | NVIDIA | GPU加速仿真+RL |
| ManiSkill | 上海AI Lab | 灵巧手操作仿真 |
| RLBench | Imperial College | 机器人任务学习基准 |
| Open Robotics | github.com | Gazebo/MoveIt维护者 |
| PyBullet | 开源物理仿真 |
顶级会议/期刊
| 会议 | 领域 | 年份 |
|---|---|---|
| CoRL | 机器人学习 | 每年 |
| RSS | 机器人Science | 每年 |
| ICRA | 机器人与自动化 | 每年 |
| IROS | 智能机器人 | 每年 |
| Science Robotics | 机器人顶刊 | 季刊 |
| IJRR | 机器人研究顶刊 | 月刊 |
报告完
撰写者:以Sergey Levine视角撰写 最后更新:2026年4月 数据来源:Wikipedia、行业公开资料、研究论文