机器人的"稻草人问题"：为什么大脑比身体更难造 · KernelNote

全世界都在造机器人。波士顿动力的Atlas后空翻了，特斯拉的Optimus在工厂里搬箱子了，Figure AI的估值冲到了390亿美元。但如果你仔细观察，你会发现一个令人尴尬的事实：绝大多数在工厂里真正干活的工业机器人，跑的还是1980年代的控制软件。那些令人惊叹的演示视频背后，是精心布置的场景、固定的任务流程和大量人工调试。机器人的身体越来越酷，但它们的大脑，让它们真正“理解”世界并做出判断的智能，几乎没有跟上。

Sergey Levine把这个问题叫做“稻草人问题”（scarecrow problem）。所有这些精巧的物理设备都在变得越来越强大，但它们真正缺少的，是一个大脑。Levine是UC Berkeley的教授，也是Physical Intelligence（π）的联合创始人。这家公司2024年才成立，但已经融了超过10亿美元，估值从24亿美元一路飙升到110亿美元，投资人名单里有Jeff Bezos、Founders Fund、NVIDIA和Thrive Capital[1]。他们要做的事情，用一句话概括就是：造出一个能让任何机器人、在任何环境中、完成任何任务的基础模型。

在Invest Like the Best播客的一期访谈里，Levine用了将近一个小时来解释这件事为什么这么难，以及为什么他认为这条路是对的[2]。

为什么不直接造一个洗碗机器人？

这是最直觉的问题：如果你想让机器人洗碗，为什么不就造一个专门洗碗的机器人？Levine的回答借用了语言模型的发展史。

在大语言模型出现之前，NLP领域的做法是为每个任务建一个专用系统：机器翻译一个、情感分析一个、文本摘要一个。每个系统都需要大量专门的数据和专门的工程。后来人们发现，训练一个通用的语言模型，让它从互联网规模的数据中学习“理解世界”的能力，然后在这个基础上做任何任务，反而比一个一个地解决单独问题更高效。

Levine认为机器人领域会走同样的路。如果你为洗碗训练一个专家、为叠衣服训练另一个专家、为整理厨房训练第三个专家，每切换一个任务都要从零开始收集数据、从零开始训练。但如果你训练一个理解“物理交互”本身的通用模型，它知道物体怎么移动、力怎么传递、因果关系怎么运作，那在这个基础上增加新任务的成本就会低得多。

人类就是这样运作的。你从来没有专门练习过“打开一扇从未见过的门”，但你走到任何一扇门前都知道该怎么做。因为你有一种对物理世界的通用理解，这就是Physical Intelligence想要在机器中复现的东西。

VLA：给机器人装上一个“语言大脑”

Physical Intelligence的技术路线是一种叫做VLA（Vision-Language-Action）的模型架构。你可以把它想象成一个LLM，但被改造成了能控制机器人的版本。

训练分三步。第一步，用大量文本数据训练语言理解能力。第二步，加入互联网上的图像数据，让它学会理解视觉信息。第三步，用大量多样化的机器人操作数据来适配实际控制。这样出来的模型继承了互联网规模预训练的语义理解能力，同时能直接输出控制机器人的动作指令。

但最有趣的部分是chain-of-thought，思维链。机器人进入一个场景后，不是直接开始动作，而是先“思考”。如果你告诉它“清理厨房”，它会先观察场景，然后自言自语：“根据我看到的情况，我应该先捡起那个盘子。”这种内部推理过程释放了从互联网预训练中获得的常识知识。它之所以知道盘子应该放在柜子里而不是地上，不是因为它练习过这个特定场景，而是因为它从语言预训练中“知道”这个事实。

Physical Intelligence的第一个通用策略模型叫π0（pi-zero），随后迭代到了π0.5。模型已经开源，代码和权重都放在了GitHub上。任何人都可以下载并在自己的机器人上微调。

“机器人奥运会”与通用性的力量

Levine在访谈中讲了一个很能说明问题的故事。有人写过一篇博客，提出了一个“机器人奥运会”的概念：不是让机器人跑步和跳跃，而是做那些人类觉得毫不费力但机器人做不到的日常任务：开门、洗有油的煎锅、用塑料袋捡狗屎。这些事情对人类来说简单到不需要思考，但当时没有任何机器人系统能做到。

Physical Intelligence的团队决定试试。但关键是，他们没有为这些任务做任何专门开发。他们只是把这些任务当作内部流程的压力测试：用已有的通用系统，走标准的任务导入流程，看看行不行。

结果是几乎全部通过了。失败的只有两个：一个是把衬衫翻面，因为机械爪伸不进袖子，这是硬件问题；另一个是徒手剥橙子，因为手指力量不够，不得不用了一把小刀，从技术上说算违规了。

这个故事的意义不在于那些任务本身有多难，而在于：一个通用系统，不需要任何针对性开发，就能解决一大堆看似完全不同的任务。这就是通用性的力量。

莫拉维克悖论：简单的最难

Levine在访谈中反复提到一个概念：莫拉维克悖论。这个悖论说的是，对人类来说容易的事情对机器来说最难，反过来也成立。解微积分题对大多数人很难，但对计算机来说是基本操作。捡起一个杯子对任何人来说都很简单，但让机器人可靠地在任何场景下做到这一点，是一个极其困难的工程挑战。

为什么？因为进化。人类之所以在物理交互方面如此出色，是因为不擅长这件事的祖先早就被淘汰了，“不擅长在丛林里发现老虎的人已经被老虎吃掉了”。我们对物理世界的理解深到了不需要思考的程度，以至于我们会错误地以为这件事很“简单”。

但机器学习正在改变这个等式。手动编程让机器人捡起任何杯子很难，但用机器学习来做，如果你有足够的数据，其实没那么难。真正难的是那些需要“常识”的场景，数据稀少的长尾情况。他举了一个例子：开车时看到“此处有燃气泄漏”的牌子，你立刻知道该绕行。你从来没遇到过这种情况，但你有常识。过去，机器人领域最大的谜题就是：这种常识从哪里来？答案是多模态语言模型，它们“知道”很多东西，Physical Intelligence要做的是把这些知识正确地接入物理控制系统。

超越人类：速度、精度与强化学习

Levine提到了一个出人意料的发现：他们在灵巧性方面的进展远超预期。通用模型不需要任何特殊处理，就能在多指机械手、不同自由度的机器人上工作。模型甚至不需要被告知它在控制什么类型的机器人，它会自己弄清楚。

更有意思的是超越人类的可能性。他讲了一个插网线的例子。人在做这件事时会频繁停顿，不是手不够灵活，而是大脑需要时间处理视觉信息。但如果你把那些停顿去掉，再用强化学习进一步优化速度，机器人可以用远超人类的速度完成同样的任务。

Levine认为，AI领域过去几十年最令人印象深刻的两个成果，一个是生成式AI（LLM），一个是深度强化学习（AlphaGo）。前者让机器能复现人类做的事，后者让机器做到人类想不到的事。Physical Intelligence的终极目标是把这两条线合在一起：既有互联网规模的知识，又能通过自主练习超越人类水平。

个人电脑的类比：降低门槛比找到最优解更重要

Levine多次回到一个类比：个人电脑。PC之所以改变世界，不是因为IBM或苹果设计出了“最佳”硬件，而是因为它让无数人能够用相对低的门槛去尝试各种各样的想法。

他认为机器人领域需要同样的东西。今天如果你想做一个机器人应用，基本上需要从头搭建整个智能栈。但如果有一个基础模型可以加载到任何机器人上，门槛就会彻底降低。这就是Physical Intelligence选择开源的原因。未来的机器人不会只是“金属做的人”，它可以是挂在天花板上的五条手臂，可以是万架无人机组成的建筑蜂群，可以是嵌入冰箱的智能系统。形态千变万化，但底层的物理智能是通用的。

十年前Levine用的研究机器人要40万美元一台。现在这个平台上的每条机械臂大约3000美元。这个价格下降不是某一项技术突破，而是硬件和软件的协同进步，廉价的机械臂在传统精密控制下无法使用，但学习型系统可以补偿硬件的缺陷。

登上山顶之后，才能看到下一座山

在被问到最大的不确定性时，Levine的回答很诚实：时间线。核心挑战是一个“自举问题”，机器人需要在真实世界中部署才能收集数据，但要部署就需要足够有用，而要足够有用就需要更多数据。这是一个需要跨过“激活能”的非线性过程。

他的联合创始人Karol有一句话说得好：“当你爬到山顶的时候，你才能看到后面还有没有另一座山。”在机器人领域，这样的经历太多了。

但Levine认为几块关键拼图正在到位。多模态LLM带来了常识。强化学习带来了超越人类的潜力。硬件成本在急剧下降。VLA模型证明了跨机器人、跨任务的通用性可行。这些拼图以前从来没有同时存在过。

物理智能的隐喻

访谈快结束时，Levine讲了一个很动人的细节。有人做过一个猴子使用工具的实验，观察大脑中哪些神经元负责感知手的位置。结果发现，当猴子使用工具时，那些神经元追踪的不是手的位置，而是工具尖端的位置。工具变成了身体的延伸，这不是隐喻，这是真实的生理现象。

Levine说，这告诉他物理智能在某种深层意义上应该是“身体无关”的。不存在一个“人形机器人问题”和一个“汽车问题”，存在的是一个问题，如果你在最高的通用层面解决它，那就非常强大。

我们在日常语言中无时无刻不在使用物理隐喻。“那家公司有很强的momentum”，你完全理解这句话，但仔细想想，这个词承载了多少关于物理世界的理解。Feynman在谈论亚原子粒子时用“spin”，粒子并没有真的在旋转，但这个物理类比让人能推导出正确的结论。我们太擅长理解物理世界了，以至于把这种理解迁移到了从日常对话到理论物理的所有领域。这种能力，把物理直觉变成抽象推理的工具，可能是人类智能中最独特、也最难复制的部分。

Physical Intelligence要做的，就是把这种能力的一个版本装进机器里。Levine说自己在机器人学家里是乐观的那一端，在机器人创业者里是悲观的那一端。这大概是你能找到的最诚实的坐标定位了。