谷歌深度思维将街景融入Genie 3 开创交互式人工智能世界
谷歌深度思维近期迈出重要一步,将其街景影像直接整合至通用世界模型项目Genie中,从而在物理世界与数字世界间搭建桥梁。这项在谷歌开发者大会上公布的集成技术,允许用户生成以真实地理位置为锚点的交互式可探索环境,其基础正是谷歌二十余年来收集的街景数据。
从街景到模拟现实
二十年间,谷歌通过装备摄像头的汽车和背负式采集设备,在全球110个国家收集了超过2800亿张图像。如今,这个庞大的数据集正在赋能Genie 3——一个能够通过文本提示或图像生成多样化、交互式3D环境的世界模型。深度思维开放式研究团队的科学家指出,将真实世界数据与生成式模拟相结合,为机器人技术和人类探索开辟了强大的应用场景。
他解释道,这项技术对智能体及机器人应用,以及人类的体验而言都极具潜力。例如,一个在常年阴雨的伦敦部署的机器人,可以利用街景数据生成的模拟晴天进行训练,从而避免维多利亚时代建筑突然反射的阳光干扰其传感器。同样,计划在冬季前往纽约的旅行者,可以用此工具将特定街区的景象可视化调整为雪天版本,按需调整天气条件。
机器人学与自动驾驶训练
谷歌旗下自动驾驶公司Waymo已在利用Genie 3模拟极其罕见的事件——例如龙卷风或意外的动物遭遇——以训练其自动驾驶车辆。研究人员指出,虽然Waymo拥有专注于汽车视角的模拟器,但街景集成允许将视角转移到其他智能体,如行人或配送机器人,从而实现更全面的训练场景。
将模拟锚定到真实地理位置的能力,有望加速Waymo在全球新城市的扩张,使其人工智能驾驶员能够接触多样化的道路布局、标志和环境条件,而无需实际部署车队。
仍处发展阶段的技术实验
尽管演示效果令人印象深刻——包括对水下街区的模拟——但该技术仍处于实验阶段。深度思维的产品经理提醒,Genie中的街景功能仍在开发中。在向媒体展示的样本中,环境虽可识别,但仅达到电子游戏的画质水平,而非照片级真实感。模型也缺乏物理感知:在一个模拟场景中,一位女性跑过积雪的约书亚树丛时,直接穿过了仙人掌和灌木。
研究人员承认这一差距,并将Genie目前的准确性类比于6至12个月前的视频生成模型。他表示这将是团队致力解决的问题,并指出物理理解将通过被动观察直观地形成,类似于生物的学习方式。
谷歌地图负责人,一位拥有12年街景项目经验的资深人士强调,真正的突破在于空间连续性。当用户旋转360度时,人工智能能正确记忆并模拟其身后的环境,并在此基础上构建新环境。他表示,团队长期致力于思考如何基于街景数据构建最优质、最丰富的世界模型。
可用性与后续计划
谷歌于今日起向美国部分高级用户开放Genie中的街景功能,并将逐步扩大在美国的访问范围。全球高级用户将在未来几周内获得访问权限。产品经理表示,研究团队的目标是让尽可能多的人使用这项能力,但他同时强调,提升准确性仍是优先任务。
通过将二十年的现实世界影像与生成式人工智能连接,谷歌深度思维正在为一类全新的交互式模拟奠定基础。尽管仍处早期阶段,将街景融入Genie 3标志着人工智能系统在理解、模拟并与物理世界交互的道路上迈出了重要一步,这对机器人技术、自动驾驶、城市规划及沉浸式教育等领域均具有深远意义。
常见问题解答
问:什么是Genie 3?
答:Genie 3是谷歌深度思维的通用世界模型,能够根据文本提示或图像生成交互式、可探索的3D环境。其设计用途涵盖机器人训练、游戏及教育体验。
问:街景集成如何运作?
答:该集成使Genie 3能够利用谷歌庞大的街景图像数据集——来自110个国家的超过2800亿张图像——作为生成以真实世界位置为锚点的模拟基础。用户可以交互式探索这些环境,并调整天气等条件。
问:模拟是否具有物理准确性?
答:目前尚未达到。当前版本缺乏物理感知,意味着物体可能无法真实交互(例如角色穿过固体物体)。谷歌预计随着模型通过更多数据直观学习物理规律,此问题将在未来6至12个月内得到改善。

交易所
交易所排行榜
24小时成交排行榜
人气排行榜
交易所比特币余额
交易所资产透明度证明
去中心化交易所
资金费率
资金费率热力图
爆仓数据
清算最大痛点
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
ETF追踪
索拉纳ETF
瑞波币ETF
香港ETF
比特币持币公司
加密资产反转
以太坊储备
HyperLiquid钱包分析
Hyperliquid鲸鱼监控
大额转账
链上异动
比特币回报率
稳定币市值
期权分析
新闻
文章
财经日历
专题
钱包
合约计算器
账号安全
资讯收藏
自选币种
我的关注