谷歌发布Gemini 2.5 Flash图像模型
周二,谷歌正式推出Gemini 2.5 Flash图像模型,这款新型AI工具在图像生成与编辑精度、角色一致性方面超越前代产品,试图缩小与OpenAI旗下ChatGPT的差距。
多模态AI竞赛升级
科技巨头将高级图像编辑功能整合至Gemini的举措,反映了AI平台将图像生成视为标配功能的行业趋势。该工具现已登陆Gemini全系应用平台,用户可通过自然语言指令实现复杂编辑——包括姿势调整、多图融合等操作,同时保持人脸与场景的真实性。
谷歌在技术博客中介绍:"新模型支持将同一角色置于不同场景,或从多角度展示产品......所有操作都能保持主体完整性。"
技术细节曝光
该模型最初以"纳米香蕉"代号现身众测平台LMArena,其无缝编辑能力引发关注。谷歌周二确认这是其秘密研发的项目。
官方说明显示,系统具备多图融合、角色一致性维护(适用于故事创作与品牌宣传)等功能,并能结合"世界知识"解析图表或整合参考资料——所有这些仅需单条指令即可完成。
商业化与竞争格局
在谷歌云平台,该模型定价为每百万输出token30美元(约合单图0.04美元),同时通过OpenRouter和fal.ai渠道分发。
OpenAI于2024年5月推出GPT-4o模型,2025年3月新增图像生成功能,推动ChatGPT周活跃用户突破7亿。相比之下,谷歌2025年8月公布的Gemini月活用户为4亿,周活数据明显落后。
安全措施
谷歌表示所有输出内容将植入不可见的SynthID数字水印和元数据标签,以标识AI生成属性,应对滥用风险和真实性争议。