单季度超200亿。星海图20亿,千寻智能30亿,银河通用25亿,地瓜机器人2.7亿美元。融资额一轮比一轮大,估值50天翻一倍。
后空翻、街头行走、工厂搬箱——看起来机器人时代已经来了。
后空翻看起来比叠衣服难多了。一个360度翻转,需要精确的力矩控制和姿态调整。
因为后空翻是刚体运动。机器人的身体是刚性的,物理参数是已知的,运动方程可以精确求解。在仿真器里训练几千遍,真实世界就能做到。
|
后空翻 |
叠衣服 |
| 物理类型 |
刚体动力学 |
柔性材料+接触力学 |
| 仿真难度 |
精确可解 |
无法精确仿真 |
| 需要理解什么 |
自身身体参数 |
外部世界的物理规律 |
| 技术支撑 |
仿真器 ✓ |
世界模型 ✗ |
叠衣服需要理解布料的柔性、估计每次抓取的力度、预判折叠后的形状。倒杯水需要知道水有多重、杯子要握多紧、倾斜到什么角度水会洒出来。
具身智能领域现在有一个没人愿意正面说的结构性问题。我给它一个名字——
大脑有了——GPT、Claude、DeepSeek,语言理解和推理能力已经达到人类水平。
身体在造——宇树、众擎、Figure,硬件能力每半年翻一倍。
但中间缺了一层。让大脑理解物理世界的那一层——世界模型。
没有世界模型的机器人,就像一个能流利说"帮你倒杯水"但不知道水有多重、杯子要握多紧的人。
这就像哪吒。太乙真人用莲藕给他造好了身体,但魂魄还没附上去。身体在那儿了,会动,但里面是空的。
现在的问题是:市场已经在按哪吒本尊的价格给莲藕身体定价了。
莲藕身体已经造好了
但魂魄还没附上去
市场已经按哪吒本尊定价
我在六级跃迁框架里,把技术文明演进分成6个阶段。具身智能对应第5阶——"无处不在·物理降临"。
第3阶 · 认知涌现 — 芯片+大模型 — 已突破
第4阶 · 行动实体 — Token + Agent — 正在发生
⚠ 隐藏前置 · 世界模型 — 理解物理世界 — 缺失
第5阶 · 物理降临 — 具身智能 · 自动驾驶 — 正在造身体
全行业现在做的事,是直接冲向第5阶——造身体、卖硬件。但通往第5阶的路上,有一个必须经过的关卡:世界模型。
世界模型——让AI理解物理世界运作规律的那一层——目前全球最好的成果是Meta V-JEPA 2,零样本成功率80%。
80%意味着什么?意味着机器人每做5次操作,就有1次失败。
商用需要99.9%。从80%到99.9%,不是进步20%。是差了两个数量级。
如果脑身分离是技术层面的问题,那估值是市场层面的症状。
再看中国最赚钱的机器人公司——宇树科技。2025年营收17亿,净利6亿。看起来不错。
但拆开看:73.6%的收入来自科研教育——说白了,卖给实验室和展厅。真正的工业应用场景收入——智能制造、巡检——1570万。占总营收不到3%。
2025年全球人形机器人出货13318台,中国占87%。听起来中国遥遥领先。但最大的单一买家是谁?
我最近跟6位具身智能创始人聊了一圈,每个人私下都承认同一件事:
"坦率地讲,全行业还没有一家企业彻底通过概念验证阶段。"
一家公司的估值
等于整个市场的6倍
这不叫乐观,叫脑身分离
千寻智能,30天内融了30亿。顺为资本(雷军)和云锋基金(马云)联合领投——这两人几乎从不同时出现在同一张投资表上。
但同一周,千寻的具身智能事业部负责人解浚源离职了。
解浚源不是一般人。中科大本科,华盛顿大学博士,NeurIPS论文引用超1900次,深度学习框架MXNet的核心架构师,字节跳动前AI高级专家。他在千寻主导的Spirit VLA大模型,已经在京东智慧零售场景落地。
钛媒体的评论说得直白:"钱来得太快,团队膨胀得太快,但管理文化和激励机制未必能同步跟上。"
这不是个案。再看达闼机器人——累计融资超54亿的独角兽,61条被执行记录、101起司法案件。创始人黄晓庆承认"业务确实遇到了很大困难"。
那一年,所有人都相信5年内会实现L5自动驾驶。福特投了10亿美元,大众投了26亿美元,共同注入Argo AI。百度、谷歌、Uber同时砸钱。
结果呢?2022年,Argo AI关门。福特减记27亿美元。全球自动驾驶累计烧掉超过850亿美元,至今没有一家公司实现大规模无人驾驶盈利。
自动驾驶的本质问题是什么?也是世界模型——它需要理解路况、行人行为、天气影响。花了10年,这个问题才勉强接近解决。
人形机器人的世界模型难度,是自动驾驶的10倍以上。
因为机器人要处理的不是"一个平面上的移动物体",而是"三维空间中的万物交互"。更关键的是数据——
互联网有万亿级文本训练LLM
公路有百亿级里程训练自动驾驶
机器人的物理交互数据
接近于零
Bessemer的研究说得更直接:"可用的机器人数据,比互联网文本少十亿倍。"
LLM之所以突破,是因为有互联网规模的文本。自动驾驶之所以进步,是因为有百亿公里的路测数据。机器人的世界模型训练用什么?
目前的答案是:遥操作数据。一个人戴上VR手套,手把手教机器人做每一个动作。成本极高,数据量极小。预计未来两年全球机器人数据采集成本将超30亿美元。
没有数据,就没有世界模型。没有世界模型,就跳不过第6阶梯。跳不过第6阶梯,身体造得再好,也只是一副会动的空壳。
有可能。NVIDIA的Cosmos、DeepMind的Genie 3、LeCun的AMI Labs(种子轮10亿美元)都在全力攻关。技术突破有可能是非线性的。但LLM的突破有一个前提——互联网规模的训练数据。机器人没有这个前提。除非找到一种不依赖真实物理交互的训练方法,否则数据瓶颈无法靠堆算力绕过。
有价值。宇树营收17亿证明了机器狗和科研机器人有市场。Figure在宝马工厂的试点11个月制造了30000辆车。但这些都是特定场景、固定流程的应用——不需要世界模型。问题是:资本给出的估值,对应的是"通用机器人"的故事,不是"工厂搬运工"的故事。通用机器人需要世界模型。
重要。中国占全球出货87%,供应链完整度全球第一。一旦世界模型突破,中国最有可能率先量产。但这是"一旦"——如果世界模型5年没突破,这5年的产能建设和估值膨胀谁来买单?2050年7万亿美元的市场预测很诱人,但Argo AI的投资人2016年看到的预测也很诱人。
如果你接受"脑身分离"是具身智能的核心矛盾,那投资逻辑就会改变:
中国制造优势明确,供应链完整,成本在降。但天花板也明确——没有世界模型,只能做固定场景的搬运和巡检。毛利有限,竞争红海。
全球只有NVIDIA Cosmos、DeepMind Genie、Meta V-JEPA、LeCun AMI Labs等少数玩家在做。一旦突破,通吃所有身体。但可能5年突破,也可能15年。高风险高回报。
最被忽视的环节。世界模型的瓶颈是数据——谁能解决机器人物理交互数据的规模化采集问题,谁就掌握了具身智能的"石油"。遥操作、合成数据、仿真到真实的迁移,这三条路都有创业机会。
用我的Q>1框架来检验:当前所有机器人公司,消耗的资本远大于产出的商业价值。Q远小于1。
什么时候Q>1?当世界模型让机器人能在开放环境中连续工作10小时以上、成功率99.9%以上的时候。
在那之前,所有的估值都是在为一个还没到来的"灵魂"预付账单。
脑身分离,是这一代具身智能创业者和投资人面对的核心矛盾。
大脑已经在了。身体正在造。但中间那一层——让大脑理解物理世界、让身体获得物理直觉的世界模型——还没来。
每天3亿砸下去,大部分在造身体。造身体是对的——硬件能力每半年翻一倍,中国有全球最强的制造优势。
每天3亿砸向具身智能
大部分在造身体
但身体不是瓶颈
灵魂才是