Figure AI 在 太平洋時間 5 月 13 日上午 9 點開了一場 YouTube 直播:三台一模一樣的 Figure 03 人形機器人,運行 完全本地的 Helix-02 神經網路,固定三機位長鏡頭,在不鏽鋼輸送帶前分揀有條碼的小型紙盒包裹。公開目標是 連續 8 小時全自主、零遙操作、零人工介入。導火索是機器人圈評論員 Scott Walter(@scottyspectacular) 在 X 上的公開質疑——他幾個禮拜前丟出一句:人形機器人在商業上沒有任何意義,除非 「隨便哪家公司」 敢拿出一段 不剪輯的連續 8 小時班次。
Brett Adcock 回了三個詞:「We’ll do it live」(咱直播一個),然後把鏡頭打開了。
24 小時後,那三台機器人——被直播彈幕戲稱為 Bob、Frank、Gary——已經越過了 24 小時大關,分揀超過 28,000 件,零故障,峰值約 200 萬人同時在線。Adcock 在 X 上釘了一條:「這是未知領域。」
直播實際展示了什麼
按 Figure 自家直播頁 與 Interesting Engineering 5 月 14 日報導:
- 3 台 Figure 03 人形機器人,硬體一致,Helix-02 權重一致。
- 任務:辨識小包裹條碼 → 抓起 → 把條碼面朝下翻轉 → 放到輸送帶上。
- 節拍:峰值 每件約 2.6 秒(Figure 自報數據),同任務下 人類平均約 3 秒 一件。
- Helix-02 完全在機器人本機推論。沒有遙操作,沒有遠端推論回路。Adcock 在置頂貼裡把這一點說了兩遍——大概因為過去兩年每場人形 demo 底下,第一條評論都是「是不是遙控的」。
- 機器人展現了一些 「相當像人的小動作」,包括 摸自己頭、遇到一堆亂包裹時短暫愣住。Figure 沒在直播中解釋這是「模仿學習從人類影片裡習得的湧現行為」還是「人為預設的恢復策略」。
- 包裹卡住時,系統會 自主觸發重啟 繼續做事——這本身不是小本事,過去兩年所有「持續自主」demo 死在的那一步,正是恢復。
- 原定的 8 小時節點在 5 月 13 日下午 5 點平穩越過。Figure 沒說一句話,鏡頭繼續開。24 小時大關在 5 月 14 日上午 9 點附近通過。按 BigGo Finance 的覆盤,峰值同時在線超過 200 萬人。
Scott Walter 的那一句賭,比 demo 本身更重要
絕大多數人形 demo 是剪輯後的 60 秒短片,配上震撼標題就發了。Helix-02 這場耐力賽,是第一次以 公開點名業界評論員的明確賭注 為起點:固定任務、固定最低時長、固定不剪輯鏡頭。Scott Walter 在 X 上提的賭 非常具體:他問 任何一家人形公司,能不能 跑一次單獨 8 小時、全自主、不剪輯的班。隱含標桿就是 Figure 已經掛在嘴邊兩個月的 BMW Spartanburg 班次——但 Figure 一直沒把那個班的連續時間戳鏡頭交出來。
Adcock 用更老實的版本接了賭:直播、公開、計時器走著、把要求時長拉到原來的 3 倍才停。
那是 業界第一次在公開場合接受一次可證偽的測試。它沒證明技術泛化——它證明的是「三台特定機器人,在一個特定的分揀任務上,一條固定速率的輸送帶上,可以跑滿 24 小時」。但槓桿點動了。
懷疑派在說什麼
TechRadar 5 月 14 日的文章 把懷疑派的幾條理由攏成一張單子:
- 任務太窄。「條碼面朝下放好」是現代工業機器人最容易的操作之一——條碼扁、矩形、對比度高、規格一致。這個 demo 暗示的「家庭與倉庫的多任務長時程自主」是它的嚴格超集。這個 demo 是必要條件,不是充分條件。
- 整套設備的成本沒揭露。 Helix-02 跑在 Figure 03 硬體上,Adcock 之前只說工業部署單價是 「六位數美元」,從沒給過公開 ASP。三台機器人,每台六位數,連開 24 小時,對一家拿到 D 輪的公司來說就是個週日下午預算。倉儲部署規模下單位經濟能不能跑通,是另一個問題。
- 「無遙操」從外部不可驗證。 Helix-02 的權重和推論延遲都沒公開。直播顯示的是機器人行為,不是網路路徑。理性的懷疑讀法是:這個 demo 既能跟「完全本機推論」一致,也能跟「低延遲遠端推論回路」一致。Figure 的信譽現在壓在這條斷言上。
- 「28,000 件」這個數字得有參考系才算厲害。 FedEx Ground 一個分揀中心一個班大概處理 15 萬件小包裹,由約 80 名人工分揀員完成。三台 Figure 03 跑 24 小時 ≈ 每台機器人每天約 9,300 件。換算成「人形與單人單班等價」,Figure 03 現在約 0.7 倍單個人工分揀員。三台機器人替代 ~2 個工人,還沒把維護、充電、停機時間和攤銷硬體成本算進去。經濟帳還沒到點。能力曲線在動。
每一條都成立。沒有任何一條改變結構性事實:「全自主人形機器人耐力」的標桿剛剛從「demo」抬到了「直播不剪輯 24 小時」。
這對隊列裡其他玩家意味著什麼
| 公司 | 最新耐力聲明 | 公開形式 | 是否可外部驗證 |
|---|---|---|---|
| Figure 03 | 24 小時,2.8 萬件,3 台機器人,5月13–14日 | 直播,約 200 萬觀眾 | 外部端對端可觀測 |
| Atlas 001 | 倒立 + L-sit(技巧 demo) | 剪輯短片 | 技巧是,耐力否 |
| Unitree G1 | UniStore 24 個 app,$3,949 | 靜態商品頁 + 價格 | 能力是,耐力否 |
| Tesla Optimus | 廠內資料採集 | 無外部鏡頭 | 未演示 |
| Agibot G2 | 8 小時龍旗直播 | 直播 | 已在 2026 年 4 月演示 |
| 1X NEO | 家庭試點 | 精選片段 | 技巧是,耐力否 |
Agibot 4 月 19 日的龍旗 8 小時直播 是此前的標桿。Figure 03 在 5 月 13–14 日的 24 小時跑 是它的 3 倍。三個嚴肅的耐力聲明裡,兩個現在是中美兩家公司公開直播、不剪輯鏡頭的演示。日歐玩家(Honda、ABB、被 Schaeffler 部署的 Humanoid)在公開記錄上沒有任何同級證據。
這個賽道剛剛分成了兩個陣營:
- 可驗證耐力陣營:Figure、Agibot。公開直播、點名任務、有時長聲明、有聊天記錄。
- 剪輯短片陣營:其他所有人。
可驗證陣營只有兩家公司。誰第一個把同樣的演示,換一個不同的任務,不重新搭場地,再放一次直播,誰就贏下一個新聞週期。
接下來盯什麼
- Helix-02 權重釋出 / 模型卡片。 Figure 之前發過 Helix-01 的論文,但沒發過權重。一份 Helix-02 模型卡片——帶 任務涵蓋表、失敗模式揭露、本機推論延遲——能把 demo 從一個市場斷言變成一個可評估能力。這份揭露的壓力現在結構性地存在。
- 第二任務複盤。 任何「我們做了 24 小時」demo 最乾淨的證偽方式,是用同一套硬體和權重在另一個任務上跑同樣時長——分揀套件、bin pick、纏膜、洗碗機裝載。Figure 在試點畫面裡展示過 4 分鐘洗碗機裝卸。一場 24 小時廚房任務直播,是下一個更難、更可信的標桿。
- BMW Spartanburg 試點的時間戳產出。 Figure 把 BMW 試點當成王牌參考部署 已經將近一年,但公開吞吐數據始終很少。5 月 14 日這場直播把一個老問題重新打開:Figure 能不能放出 產線地板 上的連續在線數字,而不只是實驗室直播數字。
- Adcock 對第三方耐力稽核的反應。 直到 Figure 之外的某個人按下計時器,Helix-02 這個結果都不能直接換成企業銷售。第一家機器人保險承保商或第三方實驗室公布 Figure 03 耐力稽核的那一刻,會定下整個行業一整年都在猜的單位經濟數字。
第二天早晨讀下來的判斷是:人形機器人現在有了 第一份可證偽、公開、不剪輯、在真實工業任務上跑出 24 小時的全自主耐力結果。三台機器人,約 2.8 萬件,約 200 萬觀眾,零故障——起點是 X 上一個人要求看證據。Adcock 說這是「未知領域」。Walter 沒認賭,但他也不再發推問 8 小時大關能不能過了。
這週唯一重要的數字,就這一個。