引言
英伟达GEAR实验室的一支由八台机器人手臂组成的团队,在过去几周里自学了插针、安装显卡和剪扎带。参与其中的人类,只是后来撰写论文的研究人员。
ENPIRE框架
这项技能源自ENPIRE——一个由英伟达、卡内基梅隆大学和加州大学伯克利分校的研究人员在周二发表的论文中详细阐述的框架。ENPIRE将训练机器人的全部工作交给AI编码代理——也就是那些已经能自主编写和测试代码的软件——并让它们直接在物理硬件上运行这一流程。
像OpenAI的Codex、Anthropic的Claude Code和Moonshot的Kimi Code这样的编码代理,在过去一年里一直在进行研究人员所谓的“自动研究”——编写代码、测试代码、再重写代码,全程无需人工干预。这个循环过去大多停留在屏幕上,重置一个失败的实验几乎零成本。而ENPIRE将它拖入了物理世界,在这里重置一个实验意味着要移动真实的机器人手臂。
工作流程
该系统将工作分为两个阶段。第一阶段,人类引导代理构建两个永久性工具:一个重置程序,用于将工作区域恢复到初始位置;一个奖励函数,通过摄像头画面评估成功程度——本质上是一个永不休息、永不打盹的裁判。这套设置只需进行一次,之后每次尝试都可复用。
自主训练过程
一旦这些工具就绪,代理便完全接管。它会查阅已发表的研究寻找灵感,在模仿学习、强化学习或手工编写的规则等训练方法之间做出选择,然后重写自己的代码,并在机器人上测试结果。整个循环中不需要任何人监督——至于这是令人解放还是稍感不安,取决于你对机器人无人看管时手持剪刀的看法。
实验设置与结果
英伟达在八台双臂机器人工作站上进行了实验,每台工作站拥有独立的硬件、计算机和编码代理。这些工作站通过Git(程序员用来合并代码的同一工具)交流进展,因此一个成功的想法能在数分钟内传遍整个集群。
研究人员在“Push-T”任务(机器人仅用推动方式将T形块滑入目标区域)和插针任务(将针插入4毫米孔中)上衡量了效果。从单台机器人扩展到八台,掌握Push-T的时间从大约五小时缩短到两小时,插针任务从超过90分钟缩短到约40分钟。
根据论文,在测试的四项真实世界任务中,代理驱动的策略达到了99%的成功率。在插针任务中,代理达到近乎完美可靠性的速度,快于需要人类每天到场干预的传统方法。
英伟达GEAR实验室联合负责人、公司AI研究主管Jim Fan表示,该项目旨在首次在物理世界实现自动研究。Fan说,团队将一支机器人舰队、GPU配额和令牌预算交给代理,然后退后一步,让机器人接管一切。
模拟与现实之间的差距几乎立即显现。论文指出,三个编码代理都在模拟器中成功完成了Push-T,但当同一任务转移到真实机器人上时,其中两个失败了。模拟器没有摩擦问题,而真实的桌面有。
英伟达还在RoboCasa(一个模拟厨房基准测试)中测试了ENPIRE,该基准通过成功率来评估机器人完成开柜门、关炉灶等家务的能力——好在没有烧毁厨房的风险。在这里,ENPIRE的表现优于英伟达自己的端到端模型GR00T以及完全跳过自动研究循环的工具使用代理CaP-X。
与先前工作的对比
ENPIRE扩展了英伟达在2023年首次提出的Eureka理念。Eureka是一个利用语言模型在模拟器中为机器人编写奖励函数的系统,无需人类工程师手动操作。ENPIRE则将这一自我改进循环从模拟器迁移到真实硬件上,并且代理不仅设计自己的奖励函数,还设计自己的测试任务。
行业趋势
这项成果发布的同时,阿里巴巴也推出了自己的具身智能方案——Qwen-Robot Suite,一个包含机器人导航、操控和物理仿真三大基础模型的套件。阿里巴巴正在为它不制造的机器人躯体打造软件大脑;而英伟达则测试代理能否在它自己拥有的硬件上运行完整的研究循环。两者都指向同一趋势:物理机器人正在成为编码代理角逐的下一个舞台。

交易所
交易所排行榜
24小时成交排行榜
人气排行榜
交易所比特币余额
交易所资产透明度证明
去中心化交易所
资金费率
资金费率热力图
爆仓数据
清算最大痛点
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
ETF追踪
索拉纳ETF
瑞波币ETF
香港ETF
比特币持币公司
加密资产反转
以太坊储备
HyperLiquid钱包分析
Hyperliquid鲸鱼监控
大额转账
链上异动
比特币回报率
稳定币市值
期权分析
新闻
文章
财经日历
专题
钱包
合约计算器
账号安全
资讯收藏
自选币种
我的关注