• 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

ElevenLabs与Stability AI发布新款AI音乐模型——能否挑战Suno地位?

2026-05-28 04:59:24
收藏

两大AI音乐模型更新相继落地

本周迎来两项重要的AI音乐模型更新,它们均非来自Suno。总部位于波兰的语音AI公司ElevenLabs,在今年二月完成5亿美元D轮融资后估值已达110亿美元,此次推出了Music v2模型。而推出Stable Diffusion的Stability AI也发布了Stable Audio 3.0,这是一个包含四个模型的系列,提供开源权重并支持生成超过六分钟的音频。

这一动向的背景是相关行业机构于2024年对Suno和Udio提起的版权诉讼,使得“基于授权数据训练”成为AI音乐发布中最关键的声明。ElevenLabs和Stability均在此方面着力强调,确保用户生成内容不会引发版权争议。

Music v2:单曲贯通歌剧与重金属

Music v2是ElevenLabs推出的第二代音乐模型,距初代发布约十个月。其核心亮点在于复杂指令下的连贯性。据官方介绍,单首曲目可从歌剧风格转向重金属再回归原调,在快速说唱段落保持结构完整,并能嵌入非音乐音效,同时确保作品整体不崩解。

当生成提示词变得复杂时,AI音频往往容易失去连贯性,因此该特性值得关注,尤其在生成长篇作品时。局部重绘功能现已实用化:用户可选择片段重新生成,其余部分保持不变。还支持分段落创作,模型能保持章节间的连续性而非视作独立片段。多语言支持亦有所提升,但具体细节未公开。

该模型支撑三个平台:面向创作者的ElevenMusic、面向开发者的ElevenAPI以及面向品牌的ElevenCreative。前两个平台已上线,API访问需通过销售团队申请。ElevenLabs同步下调了v1与v2模型的定价,并透露其年度经常性收入已达5亿美元。音乐业务虽占比尚小,但今年四月推出的消费者应用ElevenMusic正直接瞄准Suno的用户群体。

Stable Audio 3.0:开源权重与设备端运行

Stable Audio 2.0此前最长生成时长为三分钟,发布时已落后于Suno。新版推出四个模型:小型音效模型(设备端运行)、小型全曲模型(设备端作曲)、中型模型(最长6分20秒,需更强硬件)及大型模型(仅限API调用)。其中三个模型在开源平台提供权重。

小型模型参数量为4.59亿,无需GPU即可运行。中型模型参数量达14亿,在专业GPU上生成6分20秒音频仅需约1.31秒。大型模型27亿参数仅向年营收超百万美元的组织开放API服务。秒级生成精度可精确控制音频时长。

该架构采用全新设计的语义声学自动编码器,确保长音频的旋律连贯性。支持LoRA微调技术,艺术家可用自有作品数据定制模型。局部重绘功能支持单段/多段修改及因果延续扩展。模型权重开源策略延续了其图像领域的成功经验,通过与大型音乐集团建立的合作,其授权清晰度达历史最佳。

行业竞逐:挑战王者Suno

若将ChatGPT比作AI文本领域的王者,Suno便是AI音乐领域的统治者。其背后公司在2025年11月估值已达24.5亿美元,年度经常性收入突破3亿美元,用户规模约1亿,每日生成歌曲约700万首。

为规避版权争议,ElevenLabs已与多家音乐版权方达成授权合作。Stability则获得了两大音乐集团的支持。早前涉诉的Udio现已转为封闭生态平台。目前Stable Audio 3.0的中小型模型已在开源平台上线,ElevenMusic用户可免费使用基础服务,商业需求可通过对应平台获取。

免责声明:

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证,网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用,不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责,与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容,并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文
更多新闻
自选
我的自选
查看全部
市值 价格 24h%