返回笔记

具身智能与人形机器人:从政策定位到技术路线的产业框架

基于行业研究报告,梳理具身智能与人形机器人的产业定位、发展阶段、技术路线和领先公司差异。

具身智能与人形机器人正在成为人工智能进入物理世界的重要方向。过去几年,大模型主要改变的是文本、图像、视频、代码等信息处理方式,而具身智能进一步追问一个问题:当 AI 拥有身体、传感器、执行器和行动能力之后,能否在真实世界完成任务。

这篇笔记希望建立一个最基础的研究框架:先看产业为什么重要,再看概念边界和行业阶段,最后比较主要技术路线与领先公司。

一、产业定位与政策背景

具身智能和人形机器人之所以值得作为独立产业方向研究,首先来自政策定位的变化。早期机器人政策更强调工业自动化、机器人密度提升和典型场景推广,核心逻辑是“机器换人”和制造效率提升。近几年,政策开始把人形机器人与具身智能放在人工智能、未来产业、新质生产力和现代化产业体系的交汇处。

这意味着政策支持的重点已经不只是多卖几台机器人,而是希望通过 AI、大模型、本体硬件、感知控制、真实数据和应用场景的结合,形成新的智能终端、新的产业链和新的生产力形态。人形机器人不只是机器人行业的一个分支,也可能成为 AI 产业从数字世界走向物理世界的终端入口。

从政策脉络看,可以分成三个层次。

第一是“机器人+”应用行动。它强调机器人在制造、农业、建筑、能源、商贸物流、医疗健康、养老服务、教育、安全应急和极限环境等领域拓展应用。这一阶段的关键词是场景牵引,即通过真实需求倒逼机器人产品成熟。

第二是人形机器人相关指导意见。政策将人形机器人定位为集成人工智能、高端制造、新材料等先进技术的颠覆性产品,并提出“大脑、小脑、肢体”等关键技术框架。这个框架对行业研究很重要:大脑对应大模型、任务理解和人机交互;小脑对应运动控制、平衡和全身协调;肢体对应机器人本体、执行器、传感器、灵巧手和能源系统。

第三是“十五五”相关方向中对具身智能、实训场、虚实融合训练和物理人工智能的强调。这说明政策已经认识到,具身智能的瓶颈不只是模型能力,也包括真实训练场、物理世界数据、本体硬件、核心零部件和应用落地。

因此,政策背后的产业逻辑可以概括为三点:具身智能是 AI 进入物理世界的技术路径;人形机器人可能成为新型智能终端和新型劳动力平台;中国凭借完整制造业供应链、丰富应用场景和产品化速度,有机会在硬件成本、场景实训和产业组织上形成优势。

但政策支持并不等于行业已经成熟。恰恰相反,政策越强调实训场、标准体系、安全伦理和核心零部件,越说明行业仍处在从技术验证走向商业验证的关键阶段。

二、概念界定与行业发展阶段

具身智能和人形机器人经常被放在一起讨论,但两者不是同一个概念。具身智能的本质,是智能体通过身体与物理环境交互,在交互中感知、理解、学习并完成任务。人形机器人则是具身智能最受关注的终端形态之一,但不是唯一形态。

这一区分很重要。人形机器人并不等于所有机器人机会,具身智能也不等于人形外观。移动双臂机器人、四足机器人、协作机器人、AMR、特种机器人和康复机器人,也可能成为具身智能的重要载体。研究时如果只盯着“像不像人”,很容易忽略更关键的问题:机器人能否在目标场景中稳定、低成本、可复制地完成任务。

与传统机器人相比,具身智能机器人最大的不同在于泛化能力。传统机器人更多是在固定场景中执行预设任务,优势是精度、速度和稳定性。具身智能机器人则要求进一步理解环境、物体属性、空间关系、接触力和动作后果,并能根据反馈调整动作,甚至跨任务迁移。

人形机器人的核心价值来自“现实世界为人设计”。门把手、楼梯、货架、工位、工具、桌椅和设备面板,大量空间和物品都是围绕人的身体结构设计的。如果机器人具备双腿、双臂、双手和类人躯干,就有机会在不大规模改造环境的情况下进入现有场景。

但“人形”本身不是目的。平整仓库中,AMR/AGV 往往更经济;标准化产线中,工业机器人仍然更稳定;复杂地形巡检中,四足机器人可能更合适。人形机器人必须证明自己能完成“移动 + 抓取 + 操作 + 异常处理”的复合任务,才可能在工业、物流、服务和康养场景中形成差异化价值。

从发展阶段看,人形机器人行业大致可以分为六个阶段:技术验证、原型展示、场景实训、小批量交付、规模化部署和平台生态。

当前行业已经越过纯实验室样机和发布会展示阶段。特斯拉、波士顿动力、Figure、Agility、宇树、优必选、智元、小鹏等公司都在推进样机、实训或早期交付。但行业还没有全面进入规模化商业化,真正能证明商业闭环的复购、ROI、长期稳定运行和按班次作业数据仍然有限。

所以,现在更准确的判断是:行业处于从原型展示向场景实训和小批量交付过渡的阶段。短期最现实的落地场景不是普通家庭,而是工业制造、仓储物流、科研教育、商业展示、特种作业和实训数据场景。家庭服务和通用劳动力平台长期空间更大,但需要等待灵巧操作、任务泛化、安全责任、成本下降和运维体系成熟。

判断行业是否进入下一阶段,不能只看发布会视频,而要看几个更硬的指标:真实客户场景、连续运行小时、任务成功率、人工接管率、客户流程接入、运维成本、复购订单和可复制 ROI。

三、技术路线与领先公司对比

人形机器人竞争的表面是整机产品,实质是技术路线、工程能力、数据闭环和商业场景选择的综合竞争。不同公司不是在同一条道路上简单排序,而是在不同假设下探索产业化路径。

一个完整的人形机器人系统可以拆成八层:本体结构、执行器、传动系统、感知系统、灵巧手、运动控制、大脑模型和数据闭环。本体决定身体形态和自由度;执行器决定力量和速度;传动系统决定精度、寿命和成本;感知系统决定环境和接触理解;灵巧手决定能否真正操作物体;运动控制决定稳定性和安全;大脑模型决定任务理解和规划;数据闭环决定能力能否持续提升。

从公司路线看,目前全球主要玩家已经出现明显分化。

公司/路线技术主线早期场景核心优势主要不确定性
Tesla Optimus视觉 AI、自研执行器、规模制造自有工厂AI、供应链、制造能力灵巧操作和外部商业化
Boston Dynamics Atlas高端本体、工业可靠性工业物料处理运动控制、本体可靠性成本和规模化
Unitree 宇树低成本本体、开发者平台教育科研、开发者、展示价格、产品化、运动控制工业可靠性
FigureVLA、数据闭环、人形本体汽车工厂模型、数据、资本和客户试点量产和复购
UBTECH 优必选工业人形、场景交付汽车、智能工厂、数据采集订单和交付经验订单质量和盈利
XPeng 小鹏Physical AI、汽车供应链门店、工厂、服务芯片、供应链、AI业务早期
Agility Digit物流仓储专用化仓储物流场景明确、RaaS与成熟自动化竞争
NVIDIA/DeepMind算力、仿真、基础模型整机厂和开发者平台生态不一定掌握终端客户

特斯拉 Optimus 代表“汽车 AI + 规模制造”路线。它的长期逻辑是,如果人形机器人最终像汽车一样规模化制造,那么视觉 AI、自研芯片、供应链、工厂管理和垂直整合能力会形成明显优势。但自动驾驶视觉能力不能直接等同于机器人灵巧操作,工厂内部试用也不能直接证明外部商业化成功。

波士顿动力 Atlas 代表“高端本体 + 工业可靠性”路线。它的优势来自长期积累的动态平衡、全身控制和本体工程能力,更像高端工业自动化设备,而不是消费级通用机器人。它需要继续证明成本下降和规模化部署能力。

宇树代表“低成本硬件平台 + 开发者生态”路线。G1、H1 等产品降低了人形机器人购买门槛,让高校、实验室、开发者和应用企业更容易获得真实硬件平台。它的优势是产品化速度、运动控制和价格,但从开发平台走向工业级可靠作业,还需要补齐灵巧操作、长期运维和场景方案能力。

Figure、智元等更接近“VLA/机器人基础模型 + 数据闭环”路线。这一路线的核心假设是,未来机器人的通用能力不来自为每个任务单独编程,而来自真实机器人数据、遥操作、模仿学习、VLA 模型和任务泛化。长期空间很大,但短期必须证明模型能在真实场景中稳定、安全、低延迟运行,并转化为客户愿意付费的作业能力。

优必选代表国内工业场景交付路线,重点是让 Walker 系列进入汽车制造、智能工厂、物流和数据采集场景。对这类公司,关键不是订单新闻本身,而是订单是否进入真实业务流程,是否形成收入确认、毛利率改善、持续交付和客户复购。

小鹏则体现汽车公司向 Physical AI 延伸的路径。它尝试把汽车供应链、自研芯片、智能驾驶、端侧 AI 和门店/工厂场景迁移到机器人。这一路线具备产业协同想象力,但真实任务能力、量产节奏和商业模式仍处于早期验证。

综合看,行业短期最容易受益的是执行器、电机、减速器、丝杠、传感器、灵巧手、芯片、结构件和热管理等硬件环节;中期要看整机交付、系统集成和运维服务;长期真正具备壁垒的,可能是机器人基础模型、真实作业数据、仿真训练平台、操作系统、技能库和实训场。

这也是后续跟踪人形机器人行业最重要的线索:不要只看谁的视频更震撼,而要看谁能进入真实场景,完成真实任务,积累真实数据,并把成本降到客户愿意持续付费的水平。

上述内容仅为个人学习和研究目的,不构成任何投资建议,也不保证信息完整、准确或及时。 涉及公司、行业、市场和策略的内容,都应被视为阶段性观察,而不是确定性结论。