全世界都在造机器人。波士顿动力的Atlas后空翻了,特斯拉的Optimus在工厂里搬箱子了,Figure AI的估值冲到了390亿美元。但如果你仔细观察,你会发现一个令人尴尬的事实:绝大多数在工厂里真正干活的工业机器人,跑的还是1980年代的控制软件。那些令人惊叹的演示视频背后,是精心布置的场景、固定的任务流程和大量人工调试。机器人的身体越来越酷,但它们的大脑,让它们真正“理解”世界并做出判断的智能,几乎没有跟上。
Sergey Levine把这个问题叫做“稻草人问题”(scarecrow problem)。所有这些精巧的物理设备都在变得越来越强大,但它们真正缺少的,是一个大脑。Levine是UC Berkeley的教授,也是Physical Intelligence(π)的联合创始人。这家公司2024年才成立,但已经融了超过10亿美元,估值从24亿美元一路飙升到110亿美元,投资人名单里有Jeff Bezos、Founders Fund、NVIDIA和Thrive Capital[1]。他们要做的事情,用一句话概括就是:造出一个能让任何机器人、在任何环境中、完成任何任务的基础模型。
在Invest Like the Best播客的一期访谈里,Levine用了将近一个小时来解释这件事为什么这么难,以及为什么他认为这条路是对的[2]。
为什么不直接造一个洗碗机器人?
这是最直觉的问题:如果你想让机器人洗碗,为什么不就造一个专门洗碗的机器人?Levine的回答借用了语言模型的发展史。
在大语言模型出现之前,NLP领域的做法是为每个任务建一个专用系统:机器翻译一个、情感分析一个、文本摘要一个。每个系统都需要大量专门的数据和专门的工程。后来人们发现,训练一个通用的语言模型,让它从互联网规模的数据中学习“理解世界”的能力,然后在这个基础上做任何任务,反而比一个一个地解决单独问题更高效。
Levine认为机器人领域会走同样的路。如果你为洗碗训练一个专家、为叠衣服训练另一个专家、为整理厨房训练第三个专家,每切换一个任务都要从零开始收集数据、从零开始训练。但如果你训练一个理解“物理交互”本身的通用模型,它知道物体怎么移动、力怎么传递、因果关系怎么运作,那在这个基础上增加新任务的成本就会低得多。
人类就是这样运作的。你从来没有专门练习过“打开一扇从未见过的门”,但你走到任何一扇门前都知道该怎么做。因为你有一种对物理世界的通用理解,这就是Physical Intelligence想要在机器中复现的东西。
VLA:给机器人装上一个“语言大脑”
Physical Intelligence的技术路线是一种叫做VLA(Vision-Language-Action)的模型架构。你可以把它想象成一个LLM,但被改造成了能控制机器人的版本。
训练分三步。第一步,用大量文本数据训练语言理解能力。第二步,加入互联网上的图像数据,让它学会理解视觉信息。第三步,用大量多样化的机器人操作数据来适配实际控制。这样出来的模型继承了互联网规模预训练的语义理解能力,同时能直接输出控制机器人的动作指令。
但最有趣的部分是chain-of-thought,思维链。机器人进入一个场景后,不是直接开始动作,而是先“思考”。如果你告诉它“清理厨房”,它会先观察场景,然后自言自语:“根据我看到的情况,我应该先捡起那个盘子。”这种内部推理过程释放了从互联网预训练中获得的常识知识。它之所以知道盘子应该放在柜子里而不是地上,不是因为它练习过这个特定场景,而是因为它从语言预训练中“知道”这个事实。
Physical Intelligence的第一个通用策略模型叫π0(pi-zero),随后迭代到了π0.5。模型已经开源,代码和权重都放在了GitHub上。任何人都可以下载并在自己的机器人上微调。
“机器人奥运会”与通用性的力量
Levine在访谈中讲了一个很能说明问题的故事。有人写过一篇博客,提出了一个“机器人奥运会”的概念:不是让机器人跑步和跳跃,而是做那些人类觉得毫不费力但机器人做不到的日常任务:开门、洗有油的煎锅、用塑料袋捡狗屎。这些事情对人类来说简单到不需要思考,但当时没有任何机器人系统能做到。
Physical Intelligence的团队决定试试。但关键是,他们没有为这些任务做任何专门开发。他们只是把这些任务当作内部流程的压力测试:用已有的通用系统,走标准的任务导入流程,看看行不行。
结果是几乎全部通过了。失败的只有两个:一个是把衬衫翻面,因为机械爪伸不进袖子,这是硬件问题;另一个是徒手剥橙子,因为手指力量不够,不得不用了一把小刀,从技术上说算违规了。
这个故事的意义不在于那些任务本身有多难,而在于:一个通用系统,不需要任何针对性开发,就能解决一大堆看似完全不同的任务。这就是通用性的力量。
莫拉维克悖论:简单的最难
Levine在访谈中反复提到一个概念:莫拉维克悖论。这个悖论说的是,对人类来说容易的事情对机器来说最难,反过来也成立。解微积分题对大多数人很难,但对计算机来说是基本操作。捡起一个杯子对任何人来说都很简单,但让机器人可靠地在任何场景下做到这一点,是一个极其困难的工程挑战。
为什么?因为进化。人类之所以在物理交互方面如此出色,是因为不擅长这件事的祖先早就被淘汰了,“不擅长在丛林里发现老虎的人已经被老虎吃掉了”。我们对物理世界的理解深到了不需要思考的程度,以至于我们会错误地以为这件事很“简单”。
但机器学习正在改变这个等式。手动编程让机器人捡起任何杯子很难,但用机器学习来做,如果你有足够的数据,其实没那么难。真正难的是那些需要“常识”的场景,数据稀少的长尾情况。他举了一个例子:开车时看到“此处有燃气泄漏”的牌子,你立刻知道该绕行。你从来没遇到过这种情况,但你有常识。过去,机器人领域最大的谜题就是:这种常识从哪里来?答案是多模态语言模型,它们“知道”很多东西,Physical Intelligence要做的是把这些知识正确地接入物理控制系统。
超越人类:速度、精度与强化学习
Levine提到了一个出人意料的发现:他们在灵巧性方面的进展远超预期。通用模型不需要任何特殊处理,就能在多指机械手、不同自由度的机器人上工作。模型甚至不需要被告知它在控制什么类型的机器人,它会自己弄清楚。
更有意思的是超越人类的可能性。他讲了一个插网线的例子。人在做这件事时会频繁停顿,不是手不够灵活,而是大脑需要时间处理视觉信息。但如果你把那些停顿去掉,再用强化学习进一步优化速度,机器人可以用远超人类的速度完成同样的任务。
Levine认为,AI领域过去几十年最令人印象深刻的两个成果,一个是生成式AI(LLM),一个是深度强化学习(AlphaGo)。前者让机器能复现人类做的事,后者让机器做到人类想不到的事。Physical Intelligence的终极目标是把这两条线合在一起:既有互联网规模的知识,又能通过自主练习超越人类水平。
个人电脑的类比:降低门槛比找到最优解更重要
Levine多次回到一个类比:个人电脑。PC之所以改变世界,不是因为IBM或苹果设计出了“最佳”硬件,而是因为它让无数人能够用相对低的门槛去尝试各种各样的想法。
他认为机器人领域需要同样的东西。今天如果你想做一个机器人应用,基本上需要从头搭建整个智能栈。但如果有一个基础模型可以加载到任何机器人上,门槛就会彻底降低。这就是Physical Intelligence选择开源的原因。未来的机器人不会只是“金属做的人”,它可以是挂在天花板上的五条手臂,可以是万架无人机组成的建筑蜂群,可以是嵌入冰箱的智能系统。形态千变万化,但底层的物理智能是通用的。
十年前Levine用的研究机器人要40万美元一台。现在这个平台上的每条机械臂大约3000美元。这个价格下降不是某一项技术突破,而是硬件和软件的协同进步,廉价的机械臂在传统精密控制下无法使用,但学习型系统可以补偿硬件的缺陷。
登上山顶之后,才能看到下一座山
在被问到最大的不确定性时,Levine的回答很诚实:时间线。核心挑战是一个“自举问题”,机器人需要在真实世界中部署才能收集数据,但要部署就需要足够有用,而要足够有用就需要更多数据。这是一个需要跨过“激活能”的非线性过程。
他的联合创始人Karol有一句话说得好:“当你爬到山顶的时候,你才能看到后面还有没有另一座山。”在机器人领域,这样的经历太多了。
但Levine认为几块关键拼图正在到位。多模态LLM带来了常识。强化学习带来了超越人类的潜力。硬件成本在急剧下降。VLA模型证明了跨机器人、跨任务的通用性可行。这些拼图以前从来没有同时存在过。
物理智能的隐喻
访谈快结束时,Levine讲了一个很动人的细节。有人做过一个猴子使用工具的实验,观察大脑中哪些神经元负责感知手的位置。结果发现,当猴子使用工具时,那些神经元追踪的不是手的位置,而是工具尖端的位置。工具变成了身体的延伸,这不是隐喻,这是真实的生理现象。
Levine说,这告诉他物理智能在某种深层意义上应该是“身体无关”的。不存在一个“人形机器人问题”和一个“汽车问题”,存在的是一个问题,如果你在最高的通用层面解决它,那就非常强大。
我们在日常语言中无时无刻不在使用物理隐喻。“那家公司有很强的momentum”,你完全理解这句话,但仔细想想,这个词承载了多少关于物理世界的理解。Feynman在谈论亚原子粒子时用“spin”,粒子并没有真的在旋转,但这个物理类比让人能推导出正确的结论。我们太擅长理解物理世界了,以至于把这种理解迁移到了从日常对话到理论物理的所有领域。这种能力,把物理直觉变成抽象推理的工具,可能是人类智能中最独特、也最难复制的部分。
Physical Intelligence要做的,就是把这种能力的一个版本装进机器里。Levine说自己在机器人学家里是乐观的那一端,在机器人创业者里是悲观的那一端。这大概是你能找到的最诚实的坐标定位了。