具身智能与人形机器人:从政策定位到技术路线的产业框架
基于行业研究报告,梳理具身智能与人形机器人的产业定位、发展阶段、技术路线和领先公司差异。
具身智能与人形机器人正在成为人工智能进入物理世界的重要方向。过去几年,大模型主要改变的是文本、图像、视频、代码等信息处理方式,而具身智能进一步追问一个问题:当 AI 拥有身体、传感器、执行器和行动能力之后,能否在真实世界完成任务。
这篇笔记希望建立一个最基础的研究框架:先看产业为什么重要,再看概念边界和行业阶段,最后比较主要技术路线与领先公司。
一、产业定位与政策背景
具身智能和人形机器人之所以值得作为独立产业方向研究,首先来自政策定位的变化。早期机器人政策更强调工业自动化、机器人密度提升和典型场景推广,核心逻辑是“机器换人”和制造效率提升。近几年,政策开始把人形机器人与具身智能放在人工智能、未来产业、新质生产力和现代化产业体系的交汇处。
这意味着政策支持的重点已经不只是多卖几台机器人,而是希望通过 AI、大模型、本体硬件、感知控制、真实数据和应用场景的结合,形成新的智能终端、新的产业链和新的生产力形态。人形机器人不只是机器人行业的一个分支,也可能成为 AI 产业从数字世界走向物理世界的终端入口。
从政策脉络看,可以分成三个层次。
第一是“机器人+”应用行动。它强调机器人在制造、农业、建筑、能源、商贸物流、医疗健康、养老服务、教育、安全应急和极限环境等领域拓展应用。这一阶段的关键词是场景牵引,即通过真实需求倒逼机器人产品成熟。
第二是人形机器人相关指导意见。政策将人形机器人定位为集成人工智能、高端制造、新材料等先进技术的颠覆性产品,并提出“大脑、小脑、肢体”等关键技术框架。这个框架对行业研究很重要:大脑对应大模型、任务理解和人机交互;小脑对应运动控制、平衡和全身协调;肢体对应机器人本体、执行器、传感器、灵巧手和能源系统。
第三是“十五五”相关方向中对具身智能、实训场、虚实融合训练和物理人工智能的强调。这说明政策已经认识到,具身智能的瓶颈不只是模型能力,也包括真实训练场、物理世界数据、本体硬件、核心零部件和应用落地。
因此,政策背后的产业逻辑可以概括为三点:具身智能是 AI 进入物理世界的技术路径;人形机器人可能成为新型智能终端和新型劳动力平台;中国凭借完整制造业供应链、丰富应用场景和产品化速度,有机会在硬件成本、场景实训和产业组织上形成优势。
但政策支持并不等于行业已经成熟。恰恰相反,政策越强调实训场、标准体系、安全伦理和核心零部件,越说明行业仍处在从技术验证走向商业验证的关键阶段。
二、概念界定与行业发展阶段
具身智能和人形机器人经常被放在一起讨论,但两者不是同一个概念。具身智能的本质,是智能体通过身体与物理环境交互,在交互中感知、理解、学习并完成任务。人形机器人则是具身智能最受关注的终端形态之一,但不是唯一形态。
这一区分很重要。人形机器人并不等于所有机器人机会,具身智能也不等于人形外观。移动双臂机器人、四足机器人、协作机器人、AMR、特种机器人和康复机器人,也可能成为具身智能的重要载体。研究时如果只盯着“像不像人”,很容易忽略更关键的问题:机器人能否在目标场景中稳定、低成本、可复制地完成任务。
与传统机器人相比,具身智能机器人最大的不同在于泛化能力。传统机器人更多是在固定场景中执行预设任务,优势是精度、速度和稳定性。具身智能机器人则要求进一步理解环境、物体属性、空间关系、接触力和动作后果,并能根据反馈调整动作,甚至跨任务迁移。
人形机器人的核心价值来自“现实世界为人设计”。门把手、楼梯、货架、工位、工具、桌椅和设备面板,大量空间和物品都是围绕人的身体结构设计的。如果机器人具备双腿、双臂、双手和类人躯干,就有机会在不大规模改造环境的情况下进入现有场景。
但“人形”本身不是目的。平整仓库中,AMR/AGV 往往更经济;标准化产线中,工业机器人仍然更稳定;复杂地形巡检中,四足机器人可能更合适。人形机器人必须证明自己能完成“移动 + 抓取 + 操作 + 异常处理”的复合任务,才可能在工业、物流、服务和康养场景中形成差异化价值。
从发展阶段看,人形机器人行业大致可以分为六个阶段:技术验证、原型展示、场景实训、小批量交付、规模化部署和平台生态。
当前行业已经越过纯实验室样机和发布会展示阶段。特斯拉、波士顿动力、Figure、Agility、宇树、优必选、智元、小鹏等公司都在推进样机、实训或早期交付。但行业还没有全面进入规模化商业化,真正能证明商业闭环的复购、ROI、长期稳定运行和按班次作业数据仍然有限。
所以,现在更准确的判断是:行业处于从原型展示向场景实训和小批量交付过渡的阶段。短期最现实的落地场景不是普通家庭,而是工业制造、仓储物流、科研教育、商业展示、特种作业和实训数据场景。家庭服务和通用劳动力平台长期空间更大,但需要等待灵巧操作、任务泛化、安全责任、成本下降和运维体系成熟。
判断行业是否进入下一阶段,不能只看发布会视频,而要看几个更硬的指标:真实客户场景、连续运行小时、任务成功率、人工接管率、客户流程接入、运维成本、复购订单和可复制 ROI。
三、技术路线与领先公司对比
人形机器人竞争的表面是整机产品,实质是技术路线、工程能力、数据闭环和商业场景选择的综合竞争。不同公司不是在同一条道路上简单排序,而是在不同假设下探索产业化路径。
一个完整的人形机器人系统可以拆成八层:本体结构、执行器、传动系统、感知系统、灵巧手、运动控制、大脑模型和数据闭环。本体决定身体形态和自由度;执行器决定力量和速度;传动系统决定精度、寿命和成本;感知系统决定环境和接触理解;灵巧手决定能否真正操作物体;运动控制决定稳定性和安全;大脑模型决定任务理解和规划;数据闭环决定能力能否持续提升。
从公司路线看,目前全球主要玩家已经出现明显分化。
| 公司/路线 | 技术主线 | 早期场景 | 核心优势 | 主要不确定性 |
|---|---|---|---|---|
| Tesla Optimus | 视觉 AI、自研执行器、规模制造 | 自有工厂 | AI、供应链、制造能力 | 灵巧操作和外部商业化 |
| Boston Dynamics Atlas | 高端本体、工业可靠性 | 工业物料处理 | 运动控制、本体可靠性 | 成本和规模化 |
| Unitree 宇树 | 低成本本体、开发者平台 | 教育科研、开发者、展示 | 价格、产品化、运动控制 | 工业可靠性 |
| Figure | VLA、数据闭环、人形本体 | 汽车工厂 | 模型、数据、资本和客户试点 | 量产和复购 |
| UBTECH 优必选 | 工业人形、场景交付 | 汽车、智能工厂、数据采集 | 订单和交付经验 | 订单质量和盈利 |
| XPeng 小鹏 | Physical AI、汽车供应链 | 门店、工厂、服务 | 芯片、供应链、AI | 业务早期 |
| Agility Digit | 物流仓储专用化 | 仓储物流 | 场景明确、RaaS | 与成熟自动化竞争 |
| NVIDIA/DeepMind | 算力、仿真、基础模型 | 整机厂和开发者 | 平台生态 | 不一定掌握终端客户 |
特斯拉 Optimus 代表“汽车 AI + 规模制造”路线。它的长期逻辑是,如果人形机器人最终像汽车一样规模化制造,那么视觉 AI、自研芯片、供应链、工厂管理和垂直整合能力会形成明显优势。但自动驾驶视觉能力不能直接等同于机器人灵巧操作,工厂内部试用也不能直接证明外部商业化成功。
波士顿动力 Atlas 代表“高端本体 + 工业可靠性”路线。它的优势来自长期积累的动态平衡、全身控制和本体工程能力,更像高端工业自动化设备,而不是消费级通用机器人。它需要继续证明成本下降和规模化部署能力。
宇树代表“低成本硬件平台 + 开发者生态”路线。G1、H1 等产品降低了人形机器人购买门槛,让高校、实验室、开发者和应用企业更容易获得真实硬件平台。它的优势是产品化速度、运动控制和价格,但从开发平台走向工业级可靠作业,还需要补齐灵巧操作、长期运维和场景方案能力。
Figure、智元等更接近“VLA/机器人基础模型 + 数据闭环”路线。这一路线的核心假设是,未来机器人的通用能力不来自为每个任务单独编程,而来自真实机器人数据、遥操作、模仿学习、VLA 模型和任务泛化。长期空间很大,但短期必须证明模型能在真实场景中稳定、安全、低延迟运行,并转化为客户愿意付费的作业能力。
优必选代表国内工业场景交付路线,重点是让 Walker 系列进入汽车制造、智能工厂、物流和数据采集场景。对这类公司,关键不是订单新闻本身,而是订单是否进入真实业务流程,是否形成收入确认、毛利率改善、持续交付和客户复购。
小鹏则体现汽车公司向 Physical AI 延伸的路径。它尝试把汽车供应链、自研芯片、智能驾驶、端侧 AI 和门店/工厂场景迁移到机器人。这一路线具备产业协同想象力,但真实任务能力、量产节奏和商业模式仍处于早期验证。
综合看,行业短期最容易受益的是执行器、电机、减速器、丝杠、传感器、灵巧手、芯片、结构件和热管理等硬件环节;中期要看整机交付、系统集成和运维服务;长期真正具备壁垒的,可能是机器人基础模型、真实作业数据、仿真训练平台、操作系统、技能库和实训场。
这也是后续跟踪人形机器人行业最重要的线索:不要只看谁的视频更震撼,而要看谁能进入真实场景,完成真实任务,积累真实数据,并把成本降到客户愿意持续付费的水平。
上述内容仅为个人学习和研究目的,不构成任何投资建议,也不保证信息完整、准确或及时。 涉及公司、行业、市场和策略的内容,都应被视为阶段性观察,而不是确定性结论。