NVIDIA剛剛把人形機器人靈巧操作的第一條「Scaling Law」開源出去。頭條數字是Apache 2.0授權下的20,854小時陌生人GoPro影片

4月28日NVIDIA釋出Isaac GR00T N1.7——一款Apache 2.0、商用免授權的開放視覺-語言-動作(VLA)模型,使用20,854小時人類第一人稱影片做預訓練。它附帶人形靈巧操作領域第一條公開的scaling law:把人類GoPro素材從1k小時擴到20k小時,任務完成率翻一倍以上。在宇樹G1、智元Genie 1與YAM雙臂桌上型機器人三套不同硬體上完成驗證。三種不同機器人,一顆可下載的大腦,沒有按席次授權費。

NVIDIA剛剛把人形機器人靈巧操作的第一條「Scaling Law」開源出去。頭條數字是Apache 2.0授權下的20,854小時陌生人GoPro影片

本週最有意義的人形機器人發布不是一台新機器人。它是一個模型權重檔、一個Hugging Face連結,加一份授權書。

4月28日,NVIDIA釋出了Isaac GR00T N1.7——開放的人形機器人視覺-語言-動作(VLA)基礎模型——以Apache 2.0授權同步推上GitHub與Hugging Face,NVIDIA開發者論壇同日發了Early Access公告。技術稿把底層研究作為EgoScale發表在arXiv上,這篇論文裡幾乎是順帶提了一下NVIDIA所謂的第一條靈巧操作scaling law

人形機器人這一行已經吵了六年——感測器堆疊選什麼、關節拓撲選什麼、哪家OEM的手值得用。NVIDIA現在的回答是這三件事都不重要——重要的是你手上有多少小時陌生人廚房檯面、工廠車間、手術托盤上的GoPro影片,而把這個數字和機器人靈巧度連起來的那個函數,現在已經發表了,對數線性,免費。

實際釋出的是什麼

Hugging Face模型卡GitHub儲存庫NVIDIA開發者論壇文

  • 授權: Apache 2.0。完全商用——物料搬運、包裝、檢測,所有不在Apache標準排除清單上的應用都可以。沒有按席次授權費,沒有用量門檻,發布跑這個模型的機器人不需要NVIDIA Enterprise合約。
  • 底座模型: Cosmos-Reason2-2B視覺語言模型,取代N1.6裡較早的推理堆疊。同樣是2B參數級。
  • 預訓練資料: EgoScale——20,854小時人類第一人稱影片,覆蓋20多種任務類別,「從製造、零售到醫療和家庭場景」。這套資料集比此前所有公開的人到機器人策略遷移資料集加總還要大20倍以上。
  • 架構: 基於flow的VLA策略。先用2萬小時人類手腕和手部動作預測做預訓練,再混入多樣化機器人示範資料。輸出是從像素和狀態歷史直接出力矩——和Figure3月份Helix 02發布的端到端架構同款。
  • 驗證平台: 宇樹G1、智元Genie 1、YAM雙臂桌上型機械臂。三種不同機身、三種不同關節數、三種不同夾爪拓撲——同一個checkpoint,開箱即用拿到baseline表現,不需要按平台微調。
  • 手部規格: 單手22自由度、手指級控制、能做小零件組裝這類接觸密集任務。

Apache 2.0這一條是大家都會跳過去而不應該跳過去的那一行。NVIDIA本可以把它鎖在Enterprise後面、鎖在Omniverse Cloud後面、按機器人收授權金。它沒有,它選了和Linux同款的授權。深圳、Sunnyvale、東京、慕尼黑的每一家人形OEM週三早上一睜眼,就發現一個零成本、可以fork的baseline競爭對手大腦已經躺在那裡。

Scaling law

會比模型權重檔本身活得更久的科學貢獻,是EgoScale那篇論文。頭條圖是一張log-log座標圖:x軸是人類第一人稱影片小時數,y軸是22自由度靈巧操作基準上的平均完成率。這條線從1000小時一直到20,854小時,乾淨的對數線性,右端看不到任何拐平。

具體來說:

  • 1,000小時人類GoPro素材: 基準靈巧度分數。
  • 20,000小時: 完成率翻一倍以上
  • 人類手腕/手部動作預測的驗證loss: 與資料量呈乾淨的對數線性關係。NVIDIA的說法是,這個loss曲線隨小時數擴展能可預測地外推,而且這個loss和真實機器人在長時序任務上的表現強相關。

這跟GPT-3時代的語言模型scaling law(Kaplan等2020)是同一個形狀。同樣的對數線性曲線、同樣還看不到漸近線、同樣的「再餵資料指標還在漲」。只是這次餵的不是reddit和arxiv tokens,是更多人類第一人稱影片。

如果這個scaling在20K小時之後繼續成立——NVIDIA論文裡loss曲線預測它會成立——那麼人形機器人下一階段唯一重要的指標就是這一個數:你能往模型裡餵多少小時第一人稱人類影片。算力不是瓶頸(NVIDIA賣算力)。硬體不是瓶頸(Apache 2.0意味著每家OEM都拿到baseline平價)。資料是瓶頸。誰能採集、買到、爬到最多ego-video,誰就贏下下一輪。

為什麼驗證平台清單很重要

模型卡上明確寫了在三個平台上驗證過GR00T N1.7:

  • 宇樹G1——宇樹主打的中國大眾市場人形,2026年的出貨目標是兩萬台,緊趕科創板IPO。機身緊湊,夾爪拓撲常見。
  • 智元Genie 1——上海智元的通用人形,3月底剛突破1萬台的那個平台。關節數不同,夾爪不同。
  • YAM雙臂——一台桌上型雙臂研究裝置,外形跟前兩個完全不同。

三種物理形態差距巨大的平台,同一個checkpoint,三個上都能開箱拿到baseline。這就是NVIDIA從GTC 2024的Isaac GR00T N1開始一直在講的cross-embodiment(跨機身)主張,N1.7是驗證矩陣第一次寬到可以說這個主張已經shipped。

對OEM一側的含義殘酷得很有用:差異化不再是「我有模型」或「我有機身」。現在所有人都有模型。差異化是誰的手能吃下22自由度的靈巧上限。這就把硬體競爭壓到一根軸上:關節數量、手指感測器密度、單自由度物料成本(BOM)。誰能規模化交付最便宜的22自由度手,誰就是那個能免費拿到GR00T全隊升級的平台,因為模型本身已經原生支援22自由度。

這對中美競賽意味著什麼

把這條新聞和本月初TrendForce發布的中國人形機器人產量預測對照看——預計中國人形產量2026年激增94%,宇樹和智元合計將拿下全球出貨量約80%。NVIDIA把GR00T N1.7在宇樹G1智元Genie 1上都做了驗證,從善意角度看是DevRel決策,從不那麼善意的角度看,這是NVIDIA認清量在哪兒,發布一個能最大化可觸達機器人母體規模的模型。

美國這邊:Figure有自己的Helix 02不會跑GR00T(不同的堆疊、不同的垂直整合論點)。Tesla Optimus跑Tesla自己的基礎模型。波士頓動力的Atlas正在切到自己的NVIDIA合作管線,但2026和2027年的產能已經包給現代和Google DeepMind。Apptronik的Apollo跑自己學習出來的控制器。

所以截至4月28日,GR00T艦隊大概是這個形狀:中國大眾市場的大量機身跑在美國發布的Apache 2.0大腦上,外加一個偏小的美國研究裝置做驗證。任何2026年想在歐洲或韓國新建人形OEM的團隊,現在可以完全跳過基礎模型自研,第一週就把N1.7部署上去。參與人形競賽的成本剛剛降到零。贏下它的成本則正好等於你比對手多採集多少小時第一人稱人類影片的成本。

LostJobs在盯什麼

  • EgoScale的loss曲線在20K小時之外是否仍然成立。 NVIDIA說會。第一個把GR00T N1.7再餵5萬到10萬小時第一人稱資料、並報告靈巧基準是否繼續對數線性上升的獨立團隊,會決定這是GPT-3式的無盡擴張,還是會像很多視覺模型scaling law那樣很快拐平。
  • 下一輪人形OEM募資裡「沒有基礎模型護城河」會不會被price in。 Figure在390億美元估值上募資,部分押的就是Helix有差異化。如果市場把N1.7讀作夠用,任何非垂直整合人形的下一輪Series C都得用美元解釋清楚他們的模型差異化值多少錢。盯Skild AI、Physical Intelligence,以及Q2募資的更小的中國玩家。
  • 第一人稱影片資料市場會不會成為一個獨立賽道。 如果GoPro小時數變成新的GPU短缺,一個市場會形成:資料中介把工作場景的第一人稱影片賣給人形訓練方,方式很像Scale AI賣標註。第一筆5000萬美元以上的「機器人用第一人稱影片」新創募資就是信號。

乾涸的尾聲:週三早上轉發最多的不是GR00T發布稿、也不是Levie那篇評論。是一位機器人工程師的一行推文,他在太平洋時間凌晨4:23下載了GR00T-N1.7權重,早上7:15在自家車庫的YAM裝置上跑完了雙臂硬幣翻轉基準,然後發了一句:「我博士論文三年的工作剛剛被一張model card淘汰了。」 點讚最多的回覆是:「至少是Apache 2.0。上個禮拜,被淘汰你還得交按席次授權費。」