新闻百科科技健康娱乐时尚美容

30人团队震撼『英伟达』！Jim Fan自曝三个教训，重押世界模型(30人团队震撼英语怎么说)

更新时间：2026-03-02 15:39:43一点通 - fjmyhfvclm

（来源：新智元）

一点通(www.1diantong.com)©

新智元报道

编辑：桃子

【新智元导读】AI终极挑战——物理图灵测试。这一年，『英伟达』Jim Fan领导的GEAR实验室，正用一套完整的技术栈，向这堵高墙发起总攻。

『机器人』️「物理图灵测试」距离真正通关，还需一段时间。

英文达杰出科学家Jim Fan表示，我正全身心投入一个单一使命：为『机器人』️解决「Physical Turing Test」（物理图灵测试）。

这是AI的下一个挑战，甚至可能是「终极挑战」。

一点通(www.1diantong.com)©

如今，人类光靠文本字符串实现的超级智能，恐怕就已经能拿到诺贝尔奖了。

1diantong.com

不过『机器人』️现在，连黑猩猩级灵活度、操作能力都还没有。

「莫拉维克悖论」（Moravec's paradox）是一种必须被打破的诅咒，是一堵必须被撕碎的高墙。

没有任何东西，应该阻挡人类在这个星球上实现指数级的物理生产力，甚至有朝一日，把这种能力带到其他星球。

这一年，Jim Fan带队在『英伟达』创立了GEAR实验室，30人团队已初具规模。

令人震撼的是，团队的产出和影响力，远远超过它的规模。

从基础模型、世界模型、具身推理、仿真、全身控制，以及各种形态RL，几乎囊括了『机器人』️学习的完整技术栈。

一点通(www.1diantong.com)©

接下来，一起看看GEAR 2025年。

GR00T基础模型，一年三代

GR00T是『英伟达』提出的「通用『机器人』️基础模型体系」，核心目标——

让『机器人』️像「大模型」一样，具备跨任务、跨场景、可迁移、可学习的能力。

GR00T VLA基础模型，是最具代表性的成果之一。

它将视觉+语言+动作三种模态，统一到一个端到端的模型中，让『机器人』️能够看懂环境、理解人类指令，生成可转型的连续动作。

这一年，『英伟达』对GR00T VLA进行了高频迭代：

今年3月开源了N1，紧接着6月发布了N1.5，12月又推出了N1.6。

GR00T N1

3月，GR00T N1开源首发，仅用20亿参数，即可验证VLA架构在真实『机器人』️任务中的可行性。

一点通(www.1diantong.com)©

它的开源，为整个『机器人』️生态系统提供了一个前沿的基础模型。

一点通(www.1diantong.com)©

GROOT N1可以轻松在上见任务中进行泛化，或执行需要长上下文和多种通用技能组合的多步骤任务。

比如，抓取、用一只手臂/两只手臂移动物体，以及在两个手臂之间传递物品。

一点通(www.1diantong.com)©

GR00T N1.5

GR00T N1.5是N1的升级版，在架构、数据、建模层面进行了多重优化。

它使用了更领先的视觉语言模型——Eagle VLM，提升了语言理解和视觉感知力。

还加了FLARE损失，提高了对未来动作预测的一致性。

在仿真『机器人』️基准任务中，GR00T N1.5成功率明显由于上一代模型。

一点通(www.1diantong.com)©

GR00T N1.6

这个月迭代后的GR00T N1.6，集成了更强的架构和推理能力，让『机器人』️在复杂环境中表现更智能、更稳健。

一点通(www.1diantong.com)©

GR00T Dreams：『机器人』️「做梦」学习

视频世界模型，是数据驱动的物理和图形引擎。

DreamGen，是一种利用AI视频世界模型，来生成合成训练数据的『机器人』️学习框架。

一点通(www.1diantong.com)©

它通过「数字梦境」生成大量虚拟『机器人』️行为，再从视频中提取动作数据，用于训练『机器人』️策略，从而实现新任务和新环境中的泛化学习。

实验验证了，『机器人』️从只有一个动作示例的场景中，通过「梦境」生成数据，在新任务上有很高的成功率。

一点通(www.1diantong.com)©

在10个新环境+22种新行为上，『机器人』️都能泛化成功。

SONIC：让『机器人』️具备「通用运动能力」

为了让『机器人』️不仅只会做某个动作，而具备几乎所有人类可以做的动作。

『英伟达』团队提出的SONIC，一个用于人形『机器人』️控制的通用运动系统。

它的核心目标是，让人形『机器人』️像「角色」一样被控制、学习和驱动。

一点通(www.1diantong.com)©

SONIC出发点很明确，运动追踪是人形『机器人』️可扩展基础任务。

只要『机器人』️能够稳定、准确跟踪任意人类动作，那么行走、转身、抬手、抓取、协调全身运动等复杂行为，都可以统一到同一个框架中。

论文中，团队将运动追踪任务进行了「超大规模化」（Supersize），即9000+GPU小时，以及超1亿动作帧，覆盖了机器丰富的人体动作分布。

这让SONIC学会了人类运行的整体结构，而且，研究人员还基于SONIC构建了多种控制与交互方式。

一点通(www.1diantong.com)©

SONIC的探索，为通用人形『机器人』️提供了一个可扩展、可编程、可落地的运动基础系统。

其他重磅成果

除了以上一些重磅成果，团队还在面向VLA强化学习后训练上，以及sim2real的RL实践做出了探索。

比如PLD（Probe, Learn, Distill），让『机器人』️从失败中「自我进化」。

它是一套真实世界「自举式学习」的训练范式。

一般来说，『机器人』️在真实环境中，执行高精度操作任务时，或失败、会偏移，都成为了一种信号。

一点通(www.1diantong.com)©

PLD引入了真实世界残差强化学习（Residual Reinforcement Learning），不推翻原有策略，而在已学会动作基础上，学习「微调残差」，专门负责纠错、恢复、补偿。

最后，它将真实世界中学到的改进经验，蒸馏回VLA主模型，使用SFT，将临场学到的技巧变成长期能力。

对此，Jim Fan表示RL能够通过后训练VLA模型，在高精度任务（如GPU插入）中实现接近100%的鲁棒性。

这是解决工业部署「最后一公里」难题的关键进展。

一点通(www.1diantong.com)©

VIRAL（Visual Sim-to-Real at Scale）是一套纯视觉人形『机器人』️Sim-to-Real框架，为了解决一个长期难题——

让『机器人』️在真实世界中，零样本完成「走+站+操作」连续长时任务。

研究在Unitree G1人形『机器人』️上，验证了最长54次连续loco-manipulation循环，没有任何真实世界微调，仅使用RGB纯视觉输入。

一点通(www.1diantong.com)©

另外，DoorMan是『英伟达』首个仅用RGB视觉、完全在仿真中训练、可零样本迁移到真实世界的人形『机器人』️「开门」策略。

它在复杂的行走+操作+物体交互任务上，性能甚至超越人类遥操员。

「开门」是人形『机器人』️最难的任务之一，因为它同时包含行走、精细操作等任务的重叠。

以往的方法，要么依赖特权状态（即力、位姿），要么真实数据昂贵、不可规模化。

而DoorMan诞生后，仅用了RGB，相同控制线，就让仿真直出真实世界。

一点通(www.1diantong.com)©

此外，还有FLARE全新算法，是一种隐式世界模型的策略，核心思想是预测「未来对动作有用的表示」。

它不会去预测未来的像素，而是预测对动作有用的未来潜变量，让『机器人』️在不断增加推理开销的情况下，学会提前想一想。

一点通(www.1diantong.com)©

在训练中，FLARE在一个标准VLA策略模型中，引入了未来token——在Transformer中额外加入少量学习token。

实验结果显示，在4个真实操作任务，每个任务100条轨迹，GR-1平均成功率在95.1%。

一点通(www.1diantong.com)©

一点通(www.1diantong.com)©

一点通(www.1diantong.com)©

一点通(www.1diantong.com)©

左右

三个教训，重注「视频世界模型」

这一年，所有人几乎都在为「氛围编程」（vibe coding）感到震惊。

休假这几天，Jim Fan还分享了对『机器人』️这个蛮荒又混乱的西部世界的焦虑——

我在2025年学到的三个教训

1. 硬件跑在软件前面，但硬件的可靠性，严重卡住了软件的迭代速度

我们已经看到了，许多堪称艺术品的工程成果，比如Optimus、e-Atlas、Figure、Neo、G1等等。

最强的AI还远远没有把这些前沿硬件的潜力榨干。

『机器人』️的「身体」能做到的事情，明显多于它的「大脑」目前能指挥的范围。

但问题在于，照看这些『机器人』️往往需要一整支团队全天候盯着。

和人类不一样，『机器人』️不会自己从磕碰中恢复。过热、马达损坏、各种诡异的固件问题，几乎每天都在折磨『工程师』。犯错是不可逆的，而且一点都不留情。

到头来，唯一真正能规模化的，只有我的耐心。

2.『机器人』️领域的基准测试，依然是一场史诗级灾难

在『大语言模型』圈子里，很多人已经把MMLU和SWE-Bench当成常识了。

『机器人』️这边？先把手里的啤酒端稳。几乎没有任何共识：用什么硬件平台、怎么定义任务、评分标准是什么、用哪种仿真器，或者真实世界要怎么搭。

结果就是——每个人在自己临时为每次新闻发布现编的基准上，按定义都是SOTA。

每个人都会从100次重试里，挑一个最好看的demo拿出来秀。

2026年，我们这个领域必须做得更好，别再把可复现性和科学严谨性当成「二等公民」。

3. 基于VLM的VLA，总感觉哪里不对

VLA指的是「视觉-语言-动作」（vision-language-action）模型，这是当前『机器人』️「大脑」的主流路线。

套路也很简单：拿一个预训练好的VLM checkpoint（模型权重），在上面嫁接一个动作模块。

但仔细想想就会发现，VLM本身是被高度优化来刷诸如视觉问答这类基准的。

这直接带来了两个问题：

(1) VLM里的大多数参数，其实都服务于语言和知识，而不是物理世界；

(2) 视觉编码器被刻意训练去丢弃底层细节，因为问答任务只需要高层语义理解。但在『机器人』️灵巧操作中，恰恰是这些细微细节最要命。

VLA的性能并没有任何必然理由会随着VLM参数规模一起提升。

问题在于，预训练目标本身就是错位的。相比之下，以视频世界模型作为预训练目标，看起来要合理得多。我已经在这条路线上下了重注。

一点通(www.1diantong.com)©

有网友反问道，如果说世界模型是更优的预训练目标，但当前主流模型仍基于VLM构建并产出实际成果，而世界模型却主要用于策略评估和合成数据，而非直接控制？

Jim Fan称，它们都是2025年的模型，期待2026年下一个重大突破。

一点通(www.1diantong.com)©

物理图灵测试，还有多远？

今年，在红杉资本一场闭门演讲中，Jim Fan首次引入了「物理图灵测试」概念。

短短20分钟视频，他生动有趣地介绍了当下具身智能的困局，大规模仿真如何挽救『机器人』️未来，以及『英伟达』具身智能的路线图。

一点通(www.1diantong.com)©

那究竟什么是「物理图灵测试」？

一场周末party让家里乱的一团糟（左），有人替你收拾了一切，还为你和伴侣准备了烛光晚餐（右）。

当你回家后看到一切，根本无法辨别这是人类的作品，还是机器的作品——这便是物理图灵测试核心想法。

一点通(www.1diantong.com)©

一点通(www.1diantong.com)©

那么，人类现在走到哪一步了？离这个目标还有多远？

三个生动的例子，让人爆笑全场。不得不承认，这就是当前具身智能的现实。

一点通(www.1diantong.com)©

一点通(www.1diantong.com)©

一点通(www.1diantong.com)©

左右

Jim Fan表示，Ilya曾说过预训练终结了，同时AI「石油」『互联网』数据几乎枯竭。

但若要和『机器人』️领域数据相比，搞LLM的研究者就会明白有多么得天独厚了。

一点通(www.1diantong.com)©

在『英伟达』，团队让『机器人』️实操去收集数据，『机器人』️关节控制信号，且数值随时间持续变化。

任何人无法从『互联网』上获取，必须通过自己收集才能完成。

一点通(www.1diantong.com)©

他们具体是如何操作的？

其中，离不开一个重要的方式——遥操。它能够识别人手姿态并流式传输给『机器人』️系统。

一点通(www.1diantong.com)©

通过这种方式，可以教『机器人』️从面包机中拿起面包，然后在上面淋上蜂蜜。

可以想象的到，这是一个非常缓慢极其痛苦的过程。

在Jim Fan看来，如果将真实数据收集放在坐标轴中展示，它根本无法实现Scaling Law。

如何去打破这一困境，为『机器人』️创造「无限能源」？

一点通(www.1diantong.com)©

『英伟达』给出了一个更直接的解决方案——虚拟世界。

在仿真世界中，可以以1万倍于现实的速度训练，并通过「域随机化」（Domain Randomization）增强泛化能力。

也就意味着，系统在仿真中学会的任务，最终零样本迁移到真实世界。

一点通(www.1diantong.com)©

一点通(www.1diantong.com)©

接下来，Jim Fan提出了仿真世界模拟的三个阶段——

它需要精确建模『机器人』️与物理环境，优点在于快、可控、可迁移，而缺点是构建成本高，强依赖人工建模。

大量3D资产、场景、纹理由模型自动生成，仍结合传统物理引擎，在真实与仿真之间取得工程上「足够接近」。

可利用视频扩散模型，直接生成「可交互的未来」，不再显示建模物理规则。

它的优势在于，能处理软体、液体等复杂物理，通过语言生成「反事实世界」。

Jim Fan还将其称之为「数字游牧者」（Digital Nomad）。

一点通(www.1diantong.com)©

再回到当初这张坐标图，『机器人』️数据Scaling Law很好地呈现了出来。

一点通(www.1diantong.com)©

最终，所有这些数据流入了一个统一的模型，即VLA——输入：语言+视觉，输出：动作控制。

也就是如上提到了GR00T系VLA基础模型，从N1，到N1.5，再到N1.6三个版本不断升级迭代。

最后，Jim Fan指出物理AI的未来，不只是更聪明的『机器人』️，而是一种新基础设施。

比如Physical API、物理APP Store，让技能可以像软件一样被分发到『机器人』️系统中。

几天前，一点通大佬Logan Kilpatrick预测，2026年将成为具身AI的重要一年。

一点通(www.1diantong.com)©

用不了不久，我们将在现实世界中看到更多的『机器人』️。

参考资料：

https://x.com/DrJimFan/status/2003879965369290797?s=20

https://www.youtube.com/watch?v=_2NijXqBESI

秒追ASI

Fan 『机器人』️模型教训人类

相关文章

一家4口爬山妻子失联后身亡悬崖下发现遗体(一家四口跳山)

一辈子演了两部三级片，至今仍是亚洲第一美胸，其中一部是《金瓶梅》(一辈子演一个角色)

退休的鞠萍，消失的童星，病床上的主持人

汪小菲又又又当爹，热搜被他家包年：大S要是活着，得恶心死！(汪小菲秀恩爱)

河南15岁失联女孩遗体被找到痛心结局(河南一少女失踪六年被找到)

2026年春季学期上课不到90天！超短学期家长如何帮孩子“抢时间”？(2026年春季学期人教版义教新教材网络培训)

《嫁金钗》2026炸场！田曦薇双面飙戏，闫桉先婚后爱成爆款(《嫁金钗》原著)

千万别再边充边玩！这才是正确的充电姿势(边充边玩会损害电池寿命吗)

3月1日起这些国标开始实施，将如何影响你我生活(三月一号起实施)

为艺术献身的女神！玛利亚·瓦沃德(为艺术献身的昭和美女电视剧)

『程潇』的桃花运挺旺？出道十周年晒照，宅女也有春天？(『程潇』cut)

家装照明电线安全选择与科学布局全解析(家装照明线一般用多大)

全部评论

等待你的评论，点击抢沙发。