機器人 2026年5月15日 —

Figure 03，5月13–14日直播：三台 Helix-02 人形機器人被觀眾戲稱「Bob、Frank、Gary」，把自己定下的 8 小時目標硬生生跑成 24 小時、28,000 件包裹的全自主分揀——起因是機器人圈一位評論員在 X 上「叫板」Brett Adcock，結尾 Adcock 自己說這是「未知領域」，約 200 萬人在線圍觀

三台 Figure 03 人形機器人，搭載完全本地運行的 Helix-02，5 月 13 日開播、原本是 8 小時全自主分揀小包裹的公開直播，結果一路跑到 5 月 14 日跨過 24 小時，分揀超過 28,000 件，零故障，無任何遙控操作，約 200 萬人在線。Brett Adcock 在 X 上稱之為「未知領域」。這場直播的起點，是機器人圈評論員 Scott Walter 公開「賭」整個人形機器人行業湊不出一個連續 8 小時不剪輯的班次。

作者 LostJobs 編輯部

Figure 03，5月13–14日直播：三台 Helix-02 人形機器人被觀眾戲稱「Bob、Frank、Gary」，把自己定下的 8 小時目標硬生生跑成 24 小時、28,000 件包裹的全自主分揀——起因是機器人圈一位評論員在 X 上「叫板」Brett Adcock，結尾 Adcock 自己說這是「未知領域」，約 200 萬人在線圍觀

Figure AI 在太平洋時間 5 月 13 日上午 9 點開了一場 YouTube 直播：三台一模一樣的 Figure 03 人形機器人，運行 完全本地的 Helix-02 神經網路，固定三機位長鏡頭，在不鏽鋼輸送帶前分揀有條碼的小型紙盒包裹。公開目標是 連續 8 小時全自主、零遙操作、零人工介入。導火索是機器人圈評論員 Scott Walter（@scottyspectacular） 在 X 上的公開質疑——他幾個禮拜前丟出一句：人形機器人在商業上沒有任何意義，除非 「隨便哪家公司」 敢拿出一段 不剪輯的連續 8 小時班次。

Brett Adcock 回了三個詞：「We’ll do it live」（咱直播一個），然後把鏡頭打開了。

24 小時後，那三台機器人——被直播彈幕戲稱為 Bob、Frank、Gary——已經越過了 24 小時大關，分揀超過 28,000 件，零故障，峰值約 200 萬人同時在線。Adcock 在 X 上釘了一條：「這是未知領域。」

直播實際展示了什麼

按 Figure 自家直播頁與 Interesting Engineering 5 月 14 日報導：

3 台 Figure 03 人形機器人，硬體一致，Helix-02 權重一致。
任務：辨識小包裹條碼 → 抓起 → 把條碼面朝下翻轉 → 放到輸送帶上。
節拍：峰值 每件約 2.6 秒（Figure 自報數據），同任務下人類平均約 3 秒一件。
Helix-02 完全在機器人本機推論。沒有遙操作，沒有遠端推論回路。Adcock 在置頂貼裡把這一點說了兩遍——大概因為過去兩年每場人形 demo 底下，第一條評論都是「是不是遙控的」。
機器人展現了一些「相當像人的小動作」，包括 摸自己頭、遇到一堆亂包裹時短暫愣住。Figure 沒在直播中解釋這是「模仿學習從人類影片裡習得的湧現行為」還是「人為預設的恢復策略」。
包裹卡住時，系統會 自主觸發重啟 繼續做事——這本身不是小本事，過去兩年所有「持續自主」demo 死在的那一步，正是恢復。
原定的 8 小時節點在 5 月 13 日下午 5 點平穩越過。Figure 沒說一句話，鏡頭繼續開。24 小時大關在 5 月 14 日上午 9 點附近通過。按 BigGo Finance 的覆盤，峰值同時在線超過 200 萬人。

Scott Walter 的那一句賭，比 demo 本身更重要

絕大多數人形 demo 是剪輯後的 60 秒短片，配上震撼標題就發了。Helix-02 這場耐力賽，是第一次以 公開點名業界評論員的明確賭注 為起點：固定任務、固定最低時長、固定不剪輯鏡頭。Scott Walter 在 X 上提的賭非常具體：他問 任何一家人形公司，能不能 跑一次單獨 8 小時、全自主、不剪輯的班。隱含標桿就是 Figure 已經掛在嘴邊兩個月的 BMW Spartanburg 班次——但 Figure 一直沒把那個班的連續時間戳鏡頭交出來。

Adcock 用更老實的版本接了賭：直播、公開、計時器走著、把要求時長拉到原來的 3 倍才停。

那是 業界第一次在公開場合接受一次可證偽的測試。它沒證明技術泛化——它證明的是「三台特定機器人，在一個特定的分揀任務上，一條固定速率的輸送帶上，可以跑滿 24 小時」。但槓桿點動了。

懷疑派在說什麼

TechRadar 5 月 14 日的文章把懷疑派的幾條理由攏成一張單子：

任務太窄。「條碼面朝下放好」是現代工業機器人最容易的操作之一——條碼扁、矩形、對比度高、規格一致。這個 demo 暗示的「家庭與倉庫的多任務長時程自主」是它的嚴格超集。這個 demo 是必要條件，不是充分條件。
整套設備的成本沒揭露。 Helix-02 跑在 Figure 03 硬體上，Adcock 之前只說工業部署單價是「六位數美元」，從沒給過公開 ASP。三台機器人，每台六位數，連開 24 小時，對一家拿到 D 輪的公司來說就是個週日下午預算。倉儲部署規模下單位經濟能不能跑通，是另一個問題。
「無遙操」從外部不可驗證。 Helix-02 的權重和推論延遲都沒公開。直播顯示的是機器人行為，不是網路路徑。理性的懷疑讀法是：這個 demo 既能跟「完全本機推論」一致，也能跟「低延遲遠端推論回路」一致。Figure 的信譽現在壓在這條斷言上。
「28,000 件」這個數字得有參考系才算厲害。 FedEx Ground 一個分揀中心一個班大概處理 15 萬件小包裹，由約 80 名人工分揀員完成。三台 Figure 03 跑 24 小時 ≈ 每台機器人每天約 9,300 件。換算成「人形與單人單班等價」，Figure 03 現在約 0.7 倍單個人工分揀員。三台機器人替代 ~2 個工人，還沒把維護、充電、停機時間和攤銷硬體成本算進去。經濟帳還沒到點。能力曲線在動。

每一條都成立。沒有任何一條改變結構性事實：「全自主人形機器人耐力」的標桿剛剛從「demo」抬到了「直播不剪輯 24 小時」。

這對隊列裡其他玩家意味著什麼

公司	最新耐力聲明	公開形式	是否可外部驗證
Figure 03	24 小時，2.8 萬件，3 台機器人，5月13–14日	直播，約 200 萬觀眾	外部端對端可觀測
Atlas 001	倒立 + L-sit（技巧 demo）	剪輯短片	技巧是，耐力否
Unitree G1	UniStore 24 個 app，$3,949	靜態商品頁 + 價格	能力是，耐力否
Tesla Optimus	廠內資料採集	無外部鏡頭	未演示
Agibot G2	8 小時龍旗直播	直播	已在 2026 年 4 月演示
1X NEO	家庭試點	精選片段	技巧是，耐力否

Agibot 4 月 19 日的龍旗 8 小時直播 是此前的標桿。Figure 03 在 5 月 13–14 日的 24 小時跑 是它的 3 倍。三個嚴肅的耐力聲明裡，兩個現在是中美兩家公司公開直播、不剪輯鏡頭的演示。日歐玩家（Honda、ABB、被 Schaeffler 部署的 Humanoid）在公開記錄上沒有任何同級證據。

這個賽道剛剛分成了兩個陣營：

可驗證耐力陣營：Figure、Agibot。公開直播、點名任務、有時長聲明、有聊天記錄。
剪輯短片陣營：其他所有人。

可驗證陣營只有兩家公司。誰第一個把同樣的演示，換一個不同的任務，不重新搭場地，再放一次直播，誰就贏下一個新聞週期。

接下來盯什麼

Helix-02 權重釋出 / 模型卡片。 Figure 之前發過 Helix-01 的論文，但沒發過權重。一份 Helix-02 模型卡片——帶 任務涵蓋表、失敗模式揭露、本機推論延遲——能把 demo 從一個市場斷言變成一個可評估能力。這份揭露的壓力現在結構性地存在。
第二任務複盤。 任何「我們做了 24 小時」demo 最乾淨的證偽方式，是用同一套硬體和權重在另一個任務上跑同樣時長——分揀套件、bin pick、纏膜、洗碗機裝載。Figure 在試點畫面裡展示過 4 分鐘洗碗機裝卸。一場 24 小時廚房任務直播，是下一個更難、更可信的標桿。
BMW Spartanburg 試點的時間戳產出。 Figure 把 BMW 試點當成王牌參考部署已經將近一年，但公開吞吐數據始終很少。5 月 14 日這場直播把一個老問題重新打開：Figure 能不能放出 產線地板 上的連續在線數字，而不只是實驗室直播數字。
Adcock 對第三方耐力稽核的反應。 直到 Figure 之外的某個人按下計時器，Helix-02 這個結果都不能直接換成企業銷售。第一家機器人保險承保商或第三方實驗室公布 Figure 03 耐力稽核的那一刻，會定下整個行業一整年都在猜的單位經濟數字。

第二天早晨讀下來的判斷是：人形機器人現在有了 第一份可證偽、公開、不剪輯、在真實工業任務上跑出 24 小時的全自主耐力結果。三台機器人，約 2.8 萬件，約 200 萬觀眾，零故障——起點是 X 上一個人要求看證據。Adcock 說這是「未知領域」。Walter 沒認賭，但他也不再發推問 8 小時大關能不能過了。

這週唯一重要的數字，就這一個。