跳到主要内容

21-技术提升路径报告

角色:李明哲(首席技术顾问)
日期:2025-05-10
基于:Round 1诊断结果


三句话结论

  1. 最优先学:Multi-Agent架构设计 + MCP/A2A协议,与当前工作强绑定,6个月内可见效;
  2. 次优先学:LLM推理部署(vLLM/TGI),在荣耀内部有GPU资源可以练手,12个月可落地;
  3. 长期补足:RLHF训练,这是从"用Agent"到"设计Agent训练数据"的分水岭,决定能否进入顶级团队。

一、技术提升矩阵

技术领域当前水平目标水平优先级难度时间投入与工作绑定推荐资源
MCP/A2A协议★★☆☆☆★★★★☆🔴最高80小时✅强绑定Anthropic官方文档
Multi-Agent架构★★★☆☆★★★★☆🔴最高200小时✅强绑定LangGraph/GitHub
LLM推理优化★★☆☆☆★★★☆☆🟡次高300小时✅可绑定vLLM GitHub
RLHF基础★☆☆☆☆★★☆☆☆🟡次高极高400小时部分绑定OpenAI/HuggingFace
Agent评测体系★☆☆☆☆★★★☆☆🟡次高200小时✅可绑定AgentBench论文
具身智能★☆☆☆☆★★☆☆☆🟢长期极高500+小时荣耀布局Figure/智元

二、分阶段学习路径

阶段1(2025年5-11月,6个月):Multi-Agent + MCP

目标:成为荣耀Multi-Agent方向的内部专家

月度计划

第1-2月:MCP/A2A协议精通

  • 精读:Anthropic MCP官方文档(3小时/周)
  • 实践:在荣耀项目中应用MCP协议(项目驱动)
  • 输出:内部技术文档《MCP协议在手机Agent中的应用实践》
  • 验证:主导或参与1个MCP集成项目

第3-4月:Multi-Agent架构设计

  • 学习:LangGraph官方教程(4小时/周)
  • 实践:设计一个Multi-Agent原型(手机场景)
  • 输出:GitHub开源项目(Star目标:50+)
  • 学习:AutoGen/MCP Agents/CrewAI对比分析

第5-6月:Multi-Agent系统工程

  • 深化:状态一致性/冲突解决/分布式执行
  • 实践:参与荣耀Multi-Agent项目实战
  • 输出:内部技术分享(PPT+Demo)

资源清单

资源类型名称链接备注
官方文档Anthropic MCP Docsdocs.anthropic.com/mcp必读
官方文档Google A2A Protocola2a.ai2025年4月发布
开源框架LangGraphgithub.com/langchain/langgraph核心框架
开源框架AutoGengithub.com/microsoft/autogen微软出品
开源框架CrewAIgithub.com/crewai/crewai轻量级
论文AgentBencharxiv.org/abs/2308Agent评测
论文ReAct Promptingarxiv.org/abs/2210推理框架

阶段2(2025年12月-2026年6月,6个月):LLM推理优化

目标:掌握端侧LLM部署和优化,成为LLM工程化的实践者

核心技术栈

LLM推理优化技术栈
├── 推理框架
│ ├── vLLM(paged attention,高吞吐)
│ ├── TensorRT-LLM(NVIDIA官方,高性能)
│ └── Ollama(本地部署,易用性强)
├── 模型量化
│ ├── INT8/INT4量化(AWQ/GPTQ)
│ ├── Qwen/Qwen2量化版
│ └── 端侧模型(Qwen2-0.5B/1.5B/7B)
├── 加速技术
│ ├── Flash Attention
│ ├── Continuous Batching
│ └── Speculative Decoding
└── 部署场景
├── 端侧(手机/IoT)
├── 云端(GPU服务器)
└── 混合部署

荣耀相关的落地场景

  • MagicOS的端侧Agent需要LLM在手机端运行(高通/联发科NPU)
  • 荣耀Robot Phone的具身智能需要边缘推理
  • 跨设备Agent需要端-云协同推理

学习路径

  1. vLLM入门(1个月):本地部署Qwen-7B,理解Paged Attention原理
  2. 端侧优化(2个月):Ollama + iOS/Android端侧部署实验
  3. 量化实践(2个月):用AWQ量化自己的模型,服务荣耀内部测试
  4. 实战整合(1个月):参与荣耀端侧LLM项目

阶段3(2026年7月-2027年6月,12个月):RLHF基础 + Agent评测

目标:从"用Agent"升级到"设计Agent训练方法"

RLHF入门路径

核心概念(必学):

  1. Reward Model(奖励模型):如何设计奖励函数
  2. PPO算法:强化学习核心
  3. DPO(Direct Preference Optimization):2024年新方法,更简单
  4. 人类反馈收集:SFT vs RLHF vs DPO

实战方向

  • 在荣耀场景下设计对话质量的Reward标注方案
  • 参与荣耀LLM的Post-training评估

论文精读清单

  1. "Learning to summarize with RLHF" (OpenAI, 2022)
  2. "Direct Preference Optimization" (Stanford, 2023)
  3. "PPO算法原理" ( Schulman et al., 2017)

Agent评测体系

行业现状

  • AgentBench:综合评测(8个环境)
  • GAIA:真实世界任务评测
  • WebArena:网页Agent评测
  • MiniWob++:简单操作评测

实践:在荣耀内部建立Agent效果评估体系(这本身就是一个高价值项目)


三、技术能力认证路径

内部认证

  • 荣耀内部AI认证/技术评级(争取Senior/Expert级)

外部认证

认证机构费用价值
Google ML EngineerGoogle免费大厂认可度高
AWS ML SpecialtyAWS$300云厂商背书
DeepLearning.AICoursera$49/月吴恩达课程
阿里云ACE阿里云¥1200国内认可度高

推荐:以Coursera + 项目实战为主,不建议花大价钱买认证


四、技术提升里程碑

时间节点里程碑验证方式
2025年6月MCP协议精通内部文档发布
2025年9月Multi-Agent GitHub项目上线Star≥50
2025年12月vLLM端侧部署Demo可演示Demo
2026年3月主导1个Multi-Agent项目项目上线
2026年6月RLHF基础概念掌握相关工作参与
2026年12月LLM端侧优化实战荣耀项目落地
2027年6月Agent评测体系建设内部工具使用

五、风险与备选

风险1:工作太忙没时间学习
→ 应对:将学习与工作绑定,用项目驱动学习,而非单独抽出时间

风险2:荣耀内部技术资源有限
→ 应对:个人购买云GPU资源(每月¥500-1000)用于实验

风险3:技术方向变化
→ 应对:每季度复盘一次,评估技术趋势是否有重大变化


数据来源:技术文档 + 个人经验判断