本周最有意义的人形机器人发布不是一台新机器人。它是一个模型权重文件、一个Hugging Face链接,和一份许可证。
4月28日,NVIDIA发布了Isaac GR00T N1.7——开放的人形机器人视觉-语言-动作(VLA)基础模型——以Apache 2.0许可的形式同步推上GitHub与Hugging Face,NVIDIA开发者论坛同日发了Early Access公告。技术稿把底层研究作为EgoScale发表在arXiv上,这篇论文里几乎是顺带提了一下NVIDIA所谓的第一条灵巧操作scaling law。
人形机器人这一行已经吵了六年——传感器栈选什么、关节拓扑选什么、哪家OEM的手值得用。NVIDIA现在的回答是这三件事都不重要——重要的是你手上有多少小时陌生人厨房台面、工厂车间、手术托盘上的GoPro视频,而把这个数字和机器人灵巧度连起来的那个函数,现在已经发表了,对数线性,免费。
实际放出来的是什么
按Hugging Face模型卡、GitHub仓库和NVIDIA开发者论坛帖:
- 许可证: Apache 2.0。完全商用——物料搬运、包装、检测,所有不在Apache标准排除清单上的应用都可以。没有按位授权费,没有用量门槛,发布运行它的机器人不需要NVIDIA Enterprise合同。
- 底座模型: Cosmos-Reason2-2B视觉语言模型,替换N1.6里更早的推理栈。同样是2B参数级。
- 预训练数据: EgoScale——20,854小时人类第一人称视频,覆盖20多个任务类别,「从制造、零售到医疗和家庭场景」。这套数据集比此前所有公开的人到机器人策略迁移数据集加起来还要大20倍以上。
- 架构: 基于flow的VLA策略。先用2万小时人类手腕和手部动作预测做预训练,再混入多样化机器人示范数据。输出是从像素和状态历史直接出力矩——和Figure3月份Helix 02发布的端到端架构同款。
- 验证平台: 宇树G1、智元Genie 1、YAM双臂台式机械臂。三种不同的机身、三种不同的关节数量、三种不同的夹爪拓扑——同一个checkpoint,开箱即用拿到baseline表现,不需要按平台微调。
- 手部规格: 单手22自由度、手指级控制、能做小零件装配这种接触密集型任务。
Apache 2.0这一条是大家都会跳过去而不应该跳过去的那一行。NVIDIA本可以把它锁在Enterprise后面、锁在Omniverse Cloud后面、按机器人收授权费。它没有,它选了和Linux同款的许可证。深圳、Sunnyvale、东京、慕尼黑的每一家人形OEM周三早上一睁眼,就发现一个零成本、可以fork的baseline竞争对手大脑已经躺在那里。
Scaling law
会比模型权重文件本身活得更久的科学贡献,是EgoScale那篇论文。头条图是一张log-log坐标图:x轴是人类第一人称视频的小时数,y轴是22自由度灵巧操作基准上的平均完成率。这条线从1000小时一直到20,854小时,干净的对数线性,右端没有看到任何拐平。
具体来说:
- 1,000小时人类GoPro素材: 基准灵巧度分数。
- 20,000小时: 完成率翻一倍以上。
- 人类手腕/手部动作预测的验证loss: 与数据量呈干净的对数线性关系。NVIDIA的说法是,这个loss曲线随小时数扩展能可预测地外推,而且这个loss和真实机器人在长时序任务上的表现强相关。
这跟GPT-3时代的语言模型scaling law(Kaplan等2020)是同一个形状。同样的对数线性曲线、同样还看不到渐近线、同样的「再喂数据指标还在涨」。只是这次喂的不是reddit和arxiv tokens,是更多人类第一人称视频。
如果这个scaling在20K小时之后继续成立——NVIDIA论文里loss曲线预测它会成立——那么人形机器人下一阶段唯一重要的指标就是这一个数:你能往模型里喂多少小时第一人称人类视频。算力不是瓶颈(NVIDIA卖算力)。硬件不是瓶颈(Apache 2.0意味着每家OEM都拿到baseline平价)。数据是瓶颈。谁能采集、买到、爬到最多ego-video,谁就赢下下一轮。
为什么验证平台清单很重要
模型卡上明确写了在三个平台验证过GR00T N1.7:
- 宇树G1——宇树主打的中国大众市场人形,2026年的出货目标是2万台,紧赶科创板IPO。机身紧凑,夹爪拓扑常见。
- 智元Genie 1——上海智元的通用人形,3月底刚突破1万台的那个平台。关节数不同,夹爪不同。
- YAM双臂——一台台式双臂研究装置,外形跟前两个完全不同。
三种物理形态差距巨大的平台,同一个 checkpoint,三个上都能开箱拿到baseline。这就是NVIDIA从GTC 2024的Isaac GR00T N1开始一直在讲的cross-embodiment(跨机身)主张,N1.7是验证矩阵第一次宽到可以说这个主张已经shipped。
对OEM一侧的含义残酷得很有用:差异化不再是「我有模型」或「我有机身」。现在所有人都有模型。差异化是谁的手能吃下22自由度的灵巧上限。这就把硬件竞争压到一根轴上:关节数量、手指传感器密度、单自由度物料成本(BOM)。谁能规模化交付最便宜的22自由度手,谁就是那个能免费拿到GR00T全队升级的平台,因为模型本身已经原生支持22自由度。
这对中美竞赛意味着什么
把这条新闻和本月初TrendForce发布的中国人形机器人产量预测对照看——预计中国人形产量2026年激增94%,宇树和智元合计将拿下全球出货量的约80%。NVIDIA把GR00T N1.7在宇树G1和智元Genie 1上都做了验证,从善意角度看是DevRel决策,从不那么善意的角度看,这是NVIDIA认清量在哪儿,发布一个能最大化可触达机器人种群规模的模型。
美国这边:Figure有自己的Helix 02不会跑GR00T(不同的栈、不同的垂直一体化论点)。特斯拉Optimus跑特斯拉自己的基础模型。波士顿动力的Atlas正在切到自己的NVIDIA合作管线,但2026和2027年的产能已经包给现代和Google DeepMind。Apptronik的Apollo跑自己学习出来的控制器。
所以截至4月28日,GR00T舰队大概是这个形状:中国大众市场的大批量机身跑在美国发布的Apache 2.0大脑上,外加一个偏小的美国研究装置做验证。任何2026年想在欧洲或韩国新建人形OEM的团队,现在可以完全跳过基础模型自研,第一周就把N1.7部署上去。参与人形竞赛的成本刚刚降到了零。赢下它的成本则正好等于你比对手多采集多少小时第一人称人类视频的成本。
LostJobs在盯什么
- EgoScale的loss曲线在20K小时之外是否仍然成立。 NVIDIA说会。第一个把GR00T N1.7再喂5万到10万小时第一人称数据、并报告灵巧基准是否继续对数线性上升的独立团队,会决定这是GPT-3式的无尽扩张,还是会像很多视觉模型scaling law那样很快拐平。
- 下一轮人形OEM融资里「没有基础模型护城河」会不会被price in。 Figure在390亿美元估值上融资,部分押的就是Helix有差异化。如果市场把N1.7读作够用,任何非垂直一体化人形的下一轮Series C都得用美元解释清楚他们的模型差异化值多少钱。盯Skild AI、Physical Intelligence,以及Q2融资的更小的中国玩家。
- 第一人称视频数据市场会不会成为一个独立赛道。 如果GoPro小时数变成新的GPU短缺,一个市场会形成:数据中介把工作场景的第一人称视频卖给人形训练方,方式很像Scale AI卖标注。第一笔5000万美元以上的「机器人用第一人称视频」初创融资就是信号。
干涩的尾声:周三早上转发最多的不是GR00T发布稿、也不是Levie那篇评论。是一位机器人工程师的一行推文,他在太平洋时间凌晨4:23下载了GR00T-N1.7权重,早上7:15在自家车库的YAM装置上跑完了双臂硬币翻转基准,然后发了一句:「我博士论文三年的工作刚刚被一张model card淘汰了。」 点赞最多的回复是:「至少是Apache 2.0。上个礼拜,被淘汰你还得交按位授权费。」