Figure AI 在 太平洋时间 5 月 13 日上午 9 点开了一场 YouTube 直播:三台一模一样的 Figure 03 人形机器人,运行完全本地的 Helix-02 神经网络,固定三机位长镜头,在不锈钢传送带前分拣小型带条码的纸盒包裹。公开目标是 连续 8 小时全自主、零遥操作、零人工干预。导火索是机器人圈评论员 **Scott Walter(@scottyspectacular)**在 X 上的公开质疑——他几个礼拜前丢出一句:人形机器人在商业上没有任何意义,除非 **「随便哪家公司」**敢拿出一段 不剪辑的连续 8 小时班次。
Brett Adcock 回了三个词:「We’ll do it live」(咱直播一个),然后把摄像头打开了。
24 小时后,那三台机器人——被直播弹幕戏称为 Bob、Frank、Gary——已经越过了 24 小时大关,分拣超过 28,000 件,零故障,峰值约 200 万人同时在线。Adcock 在 X 上钉了一条:「这是未知领域。」
直播实际展示了什么
按 Figure 自家直播页 与 Interesting Engineering 5 月 14 日报道:
- 3 台 Figure 03 人形机器人,硬件一致,Helix-02 权重一致。
- 任务:识别小包裹条码 → 抓起 → 把条码面朝下翻转 → 放到传送带上。
- 节拍:峰值 每件约 2.6 秒(Figure 自报数据),同任务下 人类平均约 3 秒 一件。
- Helix-02 完全在机器人本地推理。没有遥操作,没有远端推理回路。Adcock 在置顶贴里把这一点说了两遍——大概因为过去两年每场人形 demo 底下,第一条评论都是「是不是遥控的」。
- 机器人展现了一些 「相当像人的小动作」,包括 摸自己脑袋、遇到一堆乱包裹时短暂愣住。Figure 没在直播中解释这是「模仿学习从人类视频里习得的涌现行为」还是「人为预设的恢复策略」。
- 包裹卡住时,系统会 自主触发重启 继续干活——这本身不是小本事,过去两年所有「持续自主」demo 死在的那一步,正是恢复。
- 原定的 8 小时节点在 5 月 13 日下午 5 点平稳越过。Figure 没说一句话,摄像头继续开。24 小时大关在 5 月 14 日上午 9 点附近通过。按 BigGo Finance 的复盘,峰值同时在线超过 200 万人。
Scott Walter 的那一句赌比 demo 本身更重要
绝大多数人形 demo 是剪辑后的 60 秒短视频,配上震撼标题就发了。Helix-02 这场耐力赛,是第一次以公开点名行业评论员的明确赌注为起点:固定任务、固定最低时长、固定不剪辑摄像头。Scott Walter 在 X 上提的赌 非常具体:他问 任何一家人形公司,能不能 跑一次单独 8 小时、全自主、不剪辑的班。隐含标杆就是 Figure 已经挂在嘴边两个月的 BMW Spartanburg 班次——但 Figure 一直没把那个班的连续时间戳镜头交出来。
Adcock 用更老实的版本接了赌:直播、公开、计时器走着、把要求时长拉到原来的 3 倍才停。
那是 行业第一次在公开场合接受一次可证伪的测试。它没证明技术泛化——它证明的是「三台特定机器人,在一个特定的分拣任务上,一条固定速率的传送带上,可以跑满 24 小时」。但杠杆点动了。
怀疑派在说什么
TechRadar 5 月 14 日的文章 把怀疑派的几条理由拢成一张单子:
- 任务太窄。 「条码面朝下放好」是现代工业机器人最容易的操作之一——条码扁、矩形、对比度高、规格一致。这个 demo 暗示的「家庭与仓库的多任务长时程自主」是它的严格超集。这个 demo 是必要条件,不是充分条件。
- 整套设备的成本没披露。 Helix-02 跑在 Figure 03 硬件上,Adcock 之前只说工业部署单价是 「六位数美元」,从没给过一个公开 ASP。三台机器人,每台六位数,连开 24 小时,对一家拿到 D 轮的公司来说就是个周日下午预算。仓储部署规模下单位经济能不能跑通,是另一个问题。
- 「无遥操」从外部不可验证。 Helix-02 的权重和推理延迟都没公开。直播显示的是机器人行为,不是网络路径。理性的怀疑读法是:这个 demo 既能跟「完全本地推理」一致,也能跟「低延迟远端推理回路」一致。Figure 的信誉现在压在这条断言上。
- 「28,000 件」这个数字得有参考系才算厉害。 FedEx Ground 一个分拣中心一个班大概处理 15 万件小包裹,由约 80 名人工分拣员完成。三台 Figure 03 跑 24 小时 ≈ 每台机器人每天约 9,300 件。换算成「人形与单人单班等价」,Figure 03 现在约 0.7 倍单个人工分拣员。三台机器人替代 ~2 个工人,还没把维护、充电、停机时间和摊销硬件成本算进去。经济账还没到点。能力曲线在动。
每一条都成立。没有任何一条改变结构性事实:「全自主人形机器人耐力」的标杆刚刚从「demo」抬到了「直播无剪辑 24 小时」。
这对队列里其他玩家意味着什么
| 公司 | 最新耐力声明 | 公开形式 | 是否可外部验证 |
|---|---|---|---|
| Figure 03 | 24 小时,2.8 万件,3 台机器人,5月13–14日 | 直播,约 200 万观众 | 外部端到端可观测 |
| Atlas 001 | 倒立 + L-sit(技巧 demo) | 剪辑短片 | 技巧是,耐力否 |
| Unitree G1 | UniStore 24 个 app,$3,949 | 静态商品页 + 价格 | 能力是,耐力否 |
| Tesla Optimus | 厂内数据采集 | 无外部镜头 | 未演示 |
| Agibot G2 | 8 小时龙旗直播 | 直播 | 已在 2026 年 4 月演示 |
| 1X NEO | 家庭试点 | 精选片段 | 技巧是,耐力否 |
Agibot 4 月 19 日的龙旗 8 小时直播 是此前的标杆。Figure 03 在 5 月 13–14 日的 24 小时跑 是它的 3 倍。三个严肃的耐力声明里,两个现在是中美两家公司公开直播、无剪辑摄像头的演示。日欧玩家(本田、ABB、被 Schaeffler 部署的 Humanoid)在公开记录上没有任何同级证据。
这个赛道刚刚分成了两个阵营:
- 可验证耐力阵营:Figure、Agibot。公开直播、点名任务、有时长声明、有聊天记录。
- 剪辑短片阵营:其他所有人。
可验证阵营只有两家公司。谁第一个把同样的演示,换一个不同的任务,不重新搭场地,再放一次直播,谁就赢下一个新闻周期。
接下来盯什么
- Helix-02 权重发布 / 模型卡片。 Figure 之前发过 Helix-01 的论文,但没发过权重。一份 Helix-02 模型卡片——带 任务覆盖表、失败模式披露、本地推理延迟——能把 demo 从一个市场断言变成一个可评估能力。这份披露的压力现在结构性地存在。
- 第二任务复盘。 任何「我们干了 24 小时」demo 最干净的证伪方式,是用同一套硬件和权重在另一个任务上跑同样时长——分拣套件、bin pick、缠膜、洗碗机装载。Figure 在试点画面里展示过 4 分钟洗碗机装卸。一场 24 小时厨房任务直播,是下一个更难、更可信的标杆。
- BMW Spartanburg 试点的时间戳产出。 Figure 把 BMW 试点当成王牌参考部署 已经将近一年,但公开吞吐数据始终很少。5 月 14 日这场直播把一个老问题重新打开:Figure 能不能放出 车间地板 上的连续在线数字,而不只是实验室直播数字。
- Adcock 对第三方耐力审计的反应。 直到 Figure 之外的某个人按下计时器,Helix-02 这个结果都不能直接换成企业销售。第一家机器人保险承保商或第三方实验室公布 Figure 03 耐力审计的那一刻,会定下整个行业一整年都在猜的单位经济数字。
第二天早晨读下来的判断是:人形机器人现在有了 第一份可证伪、公开、不剪辑、在真实工业任务上跑出 24 小时的全自主耐力结果。三台机器人,约 2.8 万件,约 200 万观众,零故障——起点是 X 上一个人要求看证据。Adcock 说这是「未知领域」。Walter 没认赌,但他也不再发推问 8 小时大关能不能过了。
这周唯一重要的数字,就这一个。