机器人 2026年5月15日 —

Figure 03，5月13–14日直播：三台 Helix-02 人形机器人被观众戏称「Bob、Frank、Gary」，把自己定下的 8 小时目标硬生生跑成 24 小时、28,000 件包裹的全自主分拣——起因是机器人圈一位评论员在 X 上「叫板」Brett Adcock，结尾 Adcock 自己说这是「未知领域」，约 200 万人在线围观

三台 Figure 03 人形机器人，搭载完全本地运行的 Helix-02，5 月 13 日开播、原本是 8 小时全自主分拣小包裹的公开直播，结果一路跑到 5 月 14 日跨过 24 小时，分拣超过 28,000 件，零故障，无任何遥操作，约 200 万人在线。Brett Adcock 在 X 上称之为「未知领域」。这场直播的起点，是机器人圈评论员 Scott Walter 公开「赌」整个人形机器人行业凑不出一个连续 8 小时无剪辑的班次。

作者 LostJobs 编辑部

Figure 03，5月13–14日直播：三台 Helix-02 人形机器人被观众戏称「Bob、Frank、Gary」，把自己定下的 8 小时目标硬生生跑成 24 小时、28,000 件包裹的全自主分拣——起因是机器人圈一位评论员在 X 上「叫板」Brett Adcock，结尾 Adcock 自己说这是「未知领域」，约 200 万人在线围观

Figure AI 在太平洋时间 5 月 13 日上午 9 点开了一场 YouTube 直播：三台一模一样的 Figure 03 人形机器人，运行完全本地的 Helix-02 神经网络，固定三机位长镜头，在不锈钢传送带前分拣小型带条码的纸盒包裹。公开目标是 连续 8 小时全自主、零遥操作、零人工干预。导火索是机器人圈评论员 **Scott Walter（@scottyspectacular）**在 X 上的公开质疑——他几个礼拜前丢出一句：人形机器人在商业上没有任何意义，除非 **「随便哪家公司」**敢拿出一段 不剪辑的连续 8 小时班次。

Brett Adcock 回了三个词：「We’ll do it live」（咱直播一个），然后把摄像头打开了。

24 小时后，那三台机器人——被直播弹幕戏称为 Bob、Frank、Gary——已经越过了 24 小时大关，分拣超过 28,000 件，零故障，峰值约 200 万人同时在线。Adcock 在 X 上钉了一条：「这是未知领域。」

直播实际展示了什么

按 Figure 自家直播页与 Interesting Engineering 5 月 14 日报道：

3 台 Figure 03 人形机器人，硬件一致，Helix-02 权重一致。
任务：识别小包裹条码 → 抓起 → 把条码面朝下翻转 → 放到传送带上。
节拍：峰值 每件约 2.6 秒（Figure 自报数据），同任务下人类平均约 3 秒一件。
Helix-02 完全在机器人本地推理。没有遥操作，没有远端推理回路。Adcock 在置顶贴里把这一点说了两遍——大概因为过去两年每场人形 demo 底下，第一条评论都是「是不是遥控的」。
机器人展现了一些「相当像人的小动作」，包括 摸自己脑袋、遇到一堆乱包裹时短暂愣住。Figure 没在直播中解释这是「模仿学习从人类视频里习得的涌现行为」还是「人为预设的恢复策略」。
包裹卡住时，系统会 自主触发重启 继续干活——这本身不是小本事，过去两年所有「持续自主」demo 死在的那一步，正是恢复。
原定的 8 小时节点在 5 月 13 日下午 5 点平稳越过。Figure 没说一句话，摄像头继续开。24 小时大关在 5 月 14 日上午 9 点附近通过。按 BigGo Finance 的复盘，峰值同时在线超过 200 万人。

Scott Walter 的那一句赌比 demo 本身更重要

绝大多数人形 demo 是剪辑后的 60 秒短视频，配上震撼标题就发了。Helix-02 这场耐力赛，是第一次以公开点名行业评论员的明确赌注为起点：固定任务、固定最低时长、固定不剪辑摄像头。Scott Walter 在 X 上提的赌非常具体：他问 任何一家人形公司，能不能 跑一次单独 8 小时、全自主、不剪辑的班。隐含标杆就是 Figure 已经挂在嘴边两个月的 BMW Spartanburg 班次——但 Figure 一直没把那个班的连续时间戳镜头交出来。

Adcock 用更老实的版本接了赌：直播、公开、计时器走着、把要求时长拉到原来的 3 倍才停。

那是 行业第一次在公开场合接受一次可证伪的测试。它没证明技术泛化——它证明的是「三台特定机器人，在一个特定的分拣任务上，一条固定速率的传送带上，可以跑满 24 小时」。但杠杆点动了。

怀疑派在说什么

TechRadar 5 月 14 日的文章把怀疑派的几条理由拢成一张单子：

任务太窄。 「条码面朝下放好」是现代工业机器人最容易的操作之一——条码扁、矩形、对比度高、规格一致。这个 demo 暗示的「家庭与仓库的多任务长时程自主」是它的严格超集。这个 demo 是必要条件，不是充分条件。
整套设备的成本没披露。 Helix-02 跑在 Figure 03 硬件上，Adcock 之前只说工业部署单价是「六位数美元」，从没给过一个公开 ASP。三台机器人，每台六位数，连开 24 小时，对一家拿到 D 轮的公司来说就是个周日下午预算。仓储部署规模下单位经济能不能跑通，是另一个问题。
「无遥操」从外部不可验证。 Helix-02 的权重和推理延迟都没公开。直播显示的是机器人行为，不是网络路径。理性的怀疑读法是：这个 demo 既能跟「完全本地推理」一致，也能跟「低延迟远端推理回路」一致。Figure 的信誉现在压在这条断言上。
「28,000 件」这个数字得有参考系才算厉害。 FedEx Ground 一个分拣中心一个班大概处理 15 万件小包裹，由约 80 名人工分拣员完成。三台 Figure 03 跑 24 小时 ≈ 每台机器人每天约 9,300 件。换算成「人形与单人单班等价」，Figure 03 现在约 0.7 倍单个人工分拣员。三台机器人替代 ~2 个工人，还没把维护、充电、停机时间和摊销硬件成本算进去。经济账还没到点。能力曲线在动。

每一条都成立。没有任何一条改变结构性事实：「全自主人形机器人耐力」的标杆刚刚从「demo」抬到了「直播无剪辑 24 小时」。

这对队列里其他玩家意味着什么

公司	最新耐力声明	公开形式	是否可外部验证
Figure 03	24 小时，2.8 万件，3 台机器人，5月13–14日	直播，约 200 万观众	外部端到端可观测
Atlas 001	倒立 + L-sit（技巧 demo）	剪辑短片	技巧是，耐力否
Unitree G1	UniStore 24 个 app，$3,949	静态商品页 + 价格	能力是，耐力否
Tesla Optimus	厂内数据采集	无外部镜头	未演示
Agibot G2	8 小时龙旗直播	直播	已在 2026 年 4 月演示
1X NEO	家庭试点	精选片段	技巧是，耐力否

Agibot 4 月 19 日的龙旗 8 小时直播 是此前的标杆。Figure 03 在 5 月 13–14 日的 24 小时跑 是它的 3 倍。三个严肃的耐力声明里，两个现在是中美两家公司公开直播、无剪辑摄像头的演示。日欧玩家（本田、ABB、被 Schaeffler 部署的 Humanoid）在公开记录上没有任何同级证据。

这个赛道刚刚分成了两个阵营：

可验证耐力阵营：Figure、Agibot。公开直播、点名任务、有时长声明、有聊天记录。
剪辑短片阵营：其他所有人。

可验证阵营只有两家公司。谁第一个把同样的演示，换一个不同的任务，不重新搭场地，再放一次直播，谁就赢下一个新闻周期。

接下来盯什么

Helix-02 权重发布 / 模型卡片。 Figure 之前发过 Helix-01 的论文，但没发过权重。一份 Helix-02 模型卡片——带 任务覆盖表、失败模式披露、本地推理延迟——能把 demo 从一个市场断言变成一个可评估能力。这份披露的压力现在结构性地存在。
第二任务复盘。 任何「我们干了 24 小时」demo 最干净的证伪方式，是用同一套硬件和权重在另一个任务上跑同样时长——分拣套件、bin pick、缠膜、洗碗机装载。Figure 在试点画面里展示过 4 分钟洗碗机装卸。一场 24 小时厨房任务直播，是下一个更难、更可信的标杆。
BMW Spartanburg 试点的时间戳产出。 Figure 把 BMW 试点当成王牌参考部署已经将近一年，但公开吞吐数据始终很少。5 月 14 日这场直播把一个老问题重新打开：Figure 能不能放出 车间地板 上的连续在线数字，而不只是实验室直播数字。
Adcock 对第三方耐力审计的反应。 直到 Figure 之外的某个人按下计时器，Helix-02 这个结果都不能直接换成企业销售。第一家机器人保险承保商或第三方实验室公布 Figure 03 耐力审计的那一刻，会定下整个行业一整年都在猜的单位经济数字。

第二天早晨读下来的判断是：人形机器人现在有了 第一份可证伪、公开、不剪辑、在真实工业任务上跑出 24 小时的全自主耐力结果。三台机器人，约 2.8 万件，约 200 万观众，零故障——起点是 X 上一个人要求看证据。Adcock 说这是「未知领域」。Walter 没认赌，但他也不再发推问 8 小时大关能不能过了。

这周唯一重要的数字，就这一个。