自选
我的自选
查看全部
市值 价格 24h%
  • 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

谷歌发布Veo 3.1:以逼真AI视频音频对决OpenAI的Sora 2

2025-10-17 02:04:36
收藏

人工智能之战进入白热化阶段

随着各大科技公司不断发布新模型,这场创新竞赛正变得愈发激烈。谷歌不愿只做旁观者,最新推出的Veo 3.1视频生成AI配备了声音、对话和全新编辑功能。面对Sora 2的病毒式传播,这家山景城公司打出了叙事精准度和创意控制力的王牌。

核心亮点

Veo 3.1整合了音频、对话和音效,大幅提升AI生成场景的沉浸感。该工具面向专业创作者,提供多种编辑选项和专业格式支持。其三大核心模块包括:图像合成、创意转场和平滑片段延展。值得注意的是,谷歌AI更注重视觉连贯性,这有时会以动作速度为代价。

科技对决:谷歌挑战视频AI王座

当估值5000亿美元却未上市的OpenAI在9月30日推出Sora 2时,其成功堪称现象级——五天内在App Store下载量突破百万次。其秘诀在于采用了适合内容分享和二次创作的"抖音化"界面。

谷歌选择了不同赛道。Veo 3.1定位明确:服务专业创作者而非网红。该模型支持生成1080P横竖屏视频,可集成环境音效、同步语音和逼真特效。通过Flow、Vertex AI和Gemini API提供服务,提供两种方案:快速版(0.15美元/秒)和标准版(0.4美元/秒)。

谷歌特别强调其音频能力——在所有模块中实现了突破性的唇形同步技术,精度超越所有竞品。与Sora追求视觉冲击不同,Veo选择保持画面元素稳定,这是追求精准度必须付出的代价。这种定位与Meta或Luma Labs追求速度和"惊艳效应"的策略形成鲜明对比。

会讲故事的人工智能

Veo 3.1的最大突破在于叙事沉浸感。声音的加入让谷歌实现了从"展示画面"到"讲述故事"的跨越。三大特色功能尤为突出:

「素材成片」:组合多张参考图,AI自动生成包含物体和角色的场景;
「转场生成」:提供首尾画面,AI制作连贯过渡;
「片段延展」:基于最后一秒画面自动延续视频内容。

该工具还能智能增删元素,并精确计算光影变化。这种细节处理能力正是其优势所在——堪称内置在AI界面中的电影工作室。

现存局限

当指令偏离视觉逻辑时,AI仍会出现跳帧、角色丢失或氛围突变等问题。正如谷歌官方博客所述:"Veo 3.1带来更丰富的音频、更强的叙事控制和增强的真实感",但这项技术仍在发展中。与其他竞品不同,Veo 3.1的目标不是娱乐,而是触动人心。

高门槛UX与惊艳效果:当AI成为创作工具

Veo 3.1的用户体验不同于社交平台产品,它不是即开即用的消费品,而是需要钻研的专业工具。创作者需要学习与AI沟通的语言——不准确的提示词或偏离参考图的指令都可能导致效果不佳。

用户社区已开始分享使用技巧:比如先用Seedream生成精确的初始画面再导入Veo;或在提示词中明确标注需要的声音效果。值得关注的数据:
• 自Flow平台推出以来已生成2.75亿条视频
• 三大创意模块可自由组合使用
• 使用成本比Sora 2 Pro低50%
• 支持最长1分钟带声音视频
• 目前仅三款模型支持语音生成

创作门槛与回报

虽然需要耐心学习和技巧掌握,但熟练使用后能产出具有罕见真实感的视频——精确的语调、可信的角色表现。当然,这还需要充值的创作积分支持。

谷歌已不再掩饰其称霸生成式AI领域的野心。Veo 3.1的推出证明该公司不甘追随,而是要制定行业标准。更令人瞩目的是,其AI系统最近破解了被认为不可能解决的数学难题。这传递出明确信号:这个AI巨头才刚刚开始发声。

免责声明:

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证,网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用,不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责,与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容,并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文
更多新闻