Suno爆火没一个月，文生音乐的头把交椅就要换人了？

Original 郝博阳腾讯科技 2024-04-25

文 / 腾讯科技郝博阳

Suno爆火没一个月，文生音乐的头把交椅就迎来了新的挑战者——Udio。

几天前，知情人士透露说看到了一个比Suno强两倍的AI音乐产品演示，给了他自Sora之后的最大震撼。他认为靠着这个模型，AI音乐将席卷全球。

AI音乐已经席卷全球两次了。

2023年初，AI孙燕姿的出现让孙燕姿本人说出“人类无法超越AI”。

上个月，Suno的出现让音乐人们集体表示，低端编曲行业已经没有存在的必要了。

比Suno还要强两倍？那AI音乐的制作水位怕是要淹到知名制作人的脚面上了。

4月10日，这个会“改变音乐行业”的产品终于正式发布。到底能不能比Suno高两倍？

我们先听听他的宣传视频曲：

题材上有点中规中矩？那再来个百老汇版《沙丘2》配乐

有没有超越Suno两倍我不确定，但这一波Udio确实秀出挑战Suno的肌肉。

Udio，把生成式音乐带向录音棚水平

Udio想要称王靠的绝活就是“还原度”。

在进行过一轮深入的比对后，Udio在音质还原方面确实完胜Suno的。不论是器乐还是人声，Udio都几乎达到了乱真的水平。

这就是它敢自称强上Suno两倍的底气。

过去的音乐生成软件也可以生成高达32kHz以上的音乐，但无论如何，它们离真实音乐总隔着一点“合成味”，就算是Suno也逃不掉。但Udio基本上跨过了这道音质还原性的坎儿。

比如说，“合成味”经常表现在声音与声音之间的联系中，过去的音乐生成，音与音之间似乎总有个变化的桥，切割并不干脆。但Udio生成的音乐声音非常清晰。音与音之间的联系不像之前的音乐生成软件那么粘，切分清晰。

(Udio生成的音乐：Nocturne Whispers）

（Suno生成的音乐：Lost in the City Lights）

另一个“合成味”的重灾区在器乐音色上。过去的合成音乐中器乐带有一种合成未果的擦音，以及有点乌突秃的质感。但在Udio这里器乐上几乎完全没有了合成的音色，还原拟真达到了全新的高度。而且和弦更丰富，混响更饱满。

(Udio生成的音乐：Alien Ocean）

（Suno生成的音乐：Shattered Chains）

人声方面Udio的提升就更加明晰哪了。Suno的“合成味”是相当明显的，在一句的结尾或开头都可能会留下失真的残影。但Udio的人声几乎达到了和11 Lab之类合成音一样的真实度。

(Udio生成的音乐：Blossom Serenade）

（Suno生成的音乐：十年生死两茫茫）

除去音质还原这个最容易识别的差一点外，Udio在编曲的丰富度上也完全不输Suno，完全可以生成出多变的音乐发展部。

(Udio生成的音乐：Shade of Yesterday）

但Udio为什么能有这么好的效果，它在模型方面做了什么，我们基本上一无所知。和Suno一样，没开源，没论文，甚至连个技术博客都没有。

作为挑战者的致命短板

Udio在声音特质上确实“遥遥领先”的。

但它也存在的“致命弱点”。这些弱点很可能会让Udio与C端流行无缘。

最要命的就是生成时间问题。

在腾讯科技之前分析Suno成功的原因，将其定位在它能够理解乐曲的长结构上。它过往的产品默认生成片段和理解能力都限制在30s左右，因此根本没法理解到乐曲的结构，也形成不了完整的乐曲。

但Udio的默认生成长度也仅有33秒。这与Suno默认的生成长度就在1分半以上差了三倍。在它自己的产品介绍里，这大概是6句歌词的长度。这能够用？

所以Udio是不是和它的前辈一样，理解不了乐曲的结构？

并不是。Udio提供了延展生成的选项。过去的AI音乐生成的延展可能只是接着生成，而非按照结构去生成，因为它们理解不了结构。与它们不同，在Udio的延展中，你可以选择延展段落是在结构中的什么部分，可以延展出引子、结尾，从而生成成具有完整结构的乐曲。

这说明Udio其实是可以理解整个乐曲的结构的。

我用《谢天谢帝》做了个尝试，它的延展做的非常完美，保持了曲风的一致性，且理解了乐曲的结构，正确的做出了引子。

（谢天谢帝短版）

（谢天谢帝长版）

然而这个步骤其实相当复杂。想要形成一首完整乐曲，你至少得对同一首乐曲延展2次，加个开头和结尾，每次都需要再单独生成。

更要命的是，它生成的时间相当死板，33秒的默认生成长度，你想延长也是又一个33秒。每次延长都是固定的时长。这对于自定义歌词的模式来讲非常的不友好。歌词长了，放不下，歌词短了，就像上面的例子一样，Udio可能会自动给你用生成的歌词把空填上。而且更糟糕的是，如果你写的歌词是中文的话，因为Udio的中文生成支持有限，它只能生成一些莫名其妙的呢喃。

我其实并不理解Udio如此设置的逻辑，哪怕是按歌词长度适应性生成也远好过目前这种方式。

这个短板会让创作被限制到完全不自由的程度。你得按音乐速度自己算出需要多少句歌词，然后再去填词。

好好的一键生成的快乐游戏变成写律诗了。

其次是产品。

Udio的产品界面和Suno高度相似。边栏都分为探索广场/ 我的创作 / 喜欢的音乐库三个部分，在上部直接输入Prompt就可以生成音乐。

但问题出在创作栏上。

在你生成音乐的过程中，会出现下拉菜单，有三个比较重点的功能。

最上面有个开关，是“手动模式”，根据其介绍，手动模式下Udio会严格按照你的Prompt去产出乐曲。如果不打开这个选项，模型会自动把你的指使翻译润色一遍后再生成。

中间，你可以选择音乐的类型，不让它因为对你Prompt的错误理解而跑的太偏。

下面是三种歌词方面的选项，包括“自定义歌词”，“纯器乐”和“自动生成”三种选择，选择自定义歌词的话会有下拉框可以填入歌词。

横置的Prompt窗口，过分压缩的功能界面。这一切都会让用户产生一种堆积感，让你觉得填不了什么东西进去。

而在Suno中，只要你进入了创作界面里，创作信息在左栏，栏目本身也提供了足够上下两行的文字框，压缩感一下就降低了。但在Udio这里，就算进入了创作页面，其创作栏永远在上面，还是一样的缺乏延伸的体验。这会大大打压创作者的输入积极性。

而一个明显定位toC的创意性产品，能不能让用户有创作欲望才是核心的胜负手。

核心团队全部来自谷歌的期货项目

Udio背后的公司是去年十二月才成立的。它的核心成员有David Ding, Conor Durkan, Charlie Nash, Yaroslav Ganin, Andrew Sanchez，全部都是从谷歌Deepmind出来创业的。

这四名研究员并非业界赫赫有名的大腕，但这家公司一经初创就拿到了包括a16z和Instagram CTO Mike Krieger等硅谷大佬的投资。Krieger还说了一段褒扬团队的话：“这些技术型的合伙人是那种可以很务实的人，因为我们的进展一直非常快。”

这是肯定的。因为这个公司创始的三名核心技术人员，包括CEO David Ding在内，在出走谷歌之前，都曾经为谷歌最新的AI音乐生成软件Lyria做出了重要的研究贡献。

（Lyria项目的声明和致谢部分）

（谷歌lyria项目博客页）

Lyria这个产品在去年11月份谷歌初次发布的时候就引发了相当的轰动。它对音色的还原水平是当时所有其他音乐生成AI望尘莫及的。尤其是人声还原，水平相当惊艳。就算是与Udio相比，差异也并不太明显。

（Lyria的演示版本）

这时候距离Suno出世还有4个月的时候。大家都觉得这个生成应用的完成度确实足以“改变音乐的未来”。

谷歌制定了雄心勃勃的计划，打算把它整合进Youtube里，作为短视频免版权配乐生产工具，并给它起名叫Dream Track。

但实际上，到今天为止，你在Youtube上都用不到它。这款工具只在1-2月份非常少量的开放给了一小群Youtube上的创作者，从来没有批量放开过。

谷歌小心翼翼的试用，不敢放开迎来的后果就是Suno从天而降。自己手上这张本可能被视为音乐领域的Sora的牌，响不了了。

而且从Udio的表现来看，我们也知道，它本是可以响的。

这不禁让我们想起当年谷歌本来作为行业领先者，Transformer模型的提出者。明明手头都有功能类似ChatGPT 的AI CahtBot，就是担心舆论不敢发布。最终被OpenAI划了时代，自己成了紧追的后来者。

而这个习惯，到了2023年也没怎么改。谷歌的AI部门还是一直发论文，但三四个月后才给产品、放模型。那些让人眼馋的新功能、尖模型最后都是期货。

Udio今天的发布，又让我们再次确认：谷歌如果会在AI时代被埋葬，那就是因为他天天只发期货。

强的理由，也是Udio的阿喀琉斯之踵

不过，谷歌一直按而不发Lyria，也许也是迫不得已。因为它可能解决不了训练模型的版权问题。

过往OpenAI的成功，就是一直在证明着Scaling Law的有效性。更多的数据，更大参数的模型=更好的效果。

Suno和Udio突然突破过往AI文生音乐的各种瓶颈，一方面是依靠着模型上的进步。但能够实现跨越性的突破，海量的数据是跨不过的坎。

在之前文章中分析Suno的技术突破时，我就提到更多的训练素材也许就是这一突破的关键。过往的文生音乐模型中，谷歌，OpenAI和Meta给出的有版权的训练库集中都只有大概30万小时以内的音乐，也就是150万首歌左右。

然而可用的音乐有多少?根据Music Business Worldwide的统计，在2022年年底，Apple Music确认曲库就拥有超过1亿首歌曲。当年，环球音乐集团首席执行官兼董事长卢西恩·格兰奇（Grainge）在新加坡举行的“Music Matters”论坛上透露，每天大约有10万首新歌曲被上传到音乐流媒体平台上。150万首，不过是可用音乐的沧海一粟而已。

Suno虽然现在还没有被抓包，有明确的利用音乐家声音的情况。但才发出两天，Udio就已经被发现有相当多的可疑歌声了。

在滚石杂志的相关文章中，他们确认Udio生成的音乐中有用Tom Petty声音合成的演唱。Twitter上也有网有发现类似约翰·列侬嗓音的生成歌曲。

（一位专注AI音乐的开发者就质疑其中一首生成歌曲和知名Rapper Common的声线重合度99%）

在这一点上，Udio的CEO也心知肚明。

在接受MusicAlly的采访时，David Ding在回答其数据来源问题时表示“对于语言模型和图像模型，事实已经证明，要获得高质量的输出，您必须对大量高质量的输入进行训练。“但显然，这里的目标不是复制披头士乐队或类似的东西。如果我想重现披头士乐队，我可以直接听披头士乐队的歌”。

不是复制但用了是吧？

（OpenAI CTO米拉·穆拉蒂在接受WSJ访谈时，被问及Sora训练内容源时的经典尴尬表情）

看到有点走偏，另一个联创Sanchez赶紧补充说到“这就是为什么我们有非常强大的艺术家过滤器和版权重点，以确保我们不会反刍出任何版权音乐。”

但是你训练用了也不行啊。最近环球音乐还有Concord都加入了一项名为”公平训练“的音乐家项目，就是呼吁在未经允许的情况下，禁止利用音乐家的版权内容进行训练。这在音乐家群体内部基本上也是共识。

不同于文字或者视频领域存在着诸多模糊的版权界限。音乐领域的版权墙一直都是最高的，基本上所有音乐都有着相应的版权，从编曲到歌手的声音无所不包，而且这些版权都有具体的唱片公司维护。作为以内容为核心资产的公司，他们都有着极强的诉讼能力。

这也是谷歌就算手握Youtube Music的版权库，也不敢用它去训练AI。就算Lyria真的用了，它也不敢放出来的核心原因。

所以也许Udio在登顶文生音乐之前，就得绊倒在版权上。

推荐阅读‍

继续滑动看下一个

腾讯科技

向上滑动看下一个

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

公告：将付尔乐收入师门

Suno爆火没一个月，文生音乐的头把交椅就要换人了？

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

公告：将付尔乐收入师门

生成图片，分享到微信朋友圈

Suno爆火没一个月，文生音乐的头把交椅就要换人了？

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！