查看原文
其他

生成式AI专题报告:下一颗最闪亮的星,视频+引擎

(报告出品方/作者:天风证券,孔蓉、李泽宇)

1、生成式AI在视频/3D/游戏等领域的渗透加速

生成算法模型不断突破创新,下游应用场景不断拓展

基础的生成算法模型不断突破创新,基础能力日新月异,从图像向视频和3D扩展,更广泛地应用于下游应用场景 。生成对抗网络(GAN)是早期最著名的生成模型之一,尽管在图像生成上产生了卓越的效果,但其训练常常受到梯度消失和模式崩 溃等问题的影响。与GAN相比,扩散模型(Diffusion Model)只需要训练“生成器”,不需要训练别的网络(判别器、后验分布 等),训练时仅需模仿一个简单的前向过程对应的逆过程,实现简练过程的简化。扩散模型相对GAN来说具有更灵活的模型架构和 更精确的对数似然计算,生成图像质量明显优于GAN,已经成为目前最先进的图像生成模型。

此前扩散模型主要适用于生成2D图像,23年Runway的最新研究成果将扩散模型扩展到视频领域,在未加字幕的视频和配对的文本 -图像数据的大规模数据集上训练出视频扩散模型。NeRF(神经辐射场)的出现为3D场景生成带来了新的可能性,进一步拓宽生成算法领域下游的应用场景。NeRF (Neural Radiance Field)是一种基于神经网络的 3D 重建技术,不同于传统的三维重建方法把场景表示为点云、网格、体素等显式的表达, NeRF将场景建模成一个连续的 5D 辐射场隐式存储在神经网络中,输入多角度的 2D 图像,通过训练得到神经辐射场模型,根据模 型渲染出任意视角下的清晰照片。

Runway:生成式AI内容平台,Gen-1可实现用文字和图像从现有视频中生成新视频

Runway是一家生成式AI内容平台,致力于让所有人都能进行内容创作。Runway创 立于2018年,总部位于纽约,提供图片、视频领域的生成式AI服务。Runway得到众 多资本青睐,获得谷歌领投的D轮融资。创立以来,Runway已获得Felicis、Coatue、 Amplify、Lux、Compound等顶级投资机构投资。23年6月,Runway获得由谷歌领 投的1亿美元的D轮融资,这笔融资交易包括三年内7500万美元的谷歌云积分和其他服 务,估值达到15亿美元。

主要产品为Gen-1和Gen-2,Gen-1可实现用文字和图像从现有视频中生成新视频, Gen-2可实现文字生成视频功能。Gen-1:不需要灯光、相机和动捕,通过将图像或文本提示的结构和风格应用于源视 频的结构,逼真且一致地合成新视频,且具有表现力、电影感和一致性。Gen-1提供给用户五种不同的视频制作模式:1)Stylization:将任何图像或提示的 风格转移到视频的每一帧;2)Storyboard:将模型变成完全风格化和动画的渲染。3) Mask:隔离视频中的主题并使用简单的文本提示对其进行修改;4)Render:通过应 用输入图像或提示,将无纹理渲染变成逼真的输出;5)Customization:通过自定义 模型以获得更高保真度的结果,释放 Gen-1 的全部功能。Gen-1的性能优势:基于用户研究,GEN-1 的结果优于现有的图像到图像和视频到 视频的转换方法,比Stable Diffusion 1.5 提升 73.83%,比 Text2Live 提升 88.24%。

Gen-2是一个多模态的人工智能系统,可以用文字、图像或视频片段生成新颖的视频。Gen-2在Gen-1的基础上迭代,保留通过将图像或文本提示的结构和风格应用于源视 频的结构合成新视频的功能,新增了只用文字便可生成视频的的功能。Gen-2在Gen-1的五种视频制作模式上新增了三项新的模式:1)Text to Video:仅 通过文本提示合成任何风格的视频;2)Text + Image to Video:使用图像和文本提 示生成视频;3)Image to Video:用一张图片生成视频(变体模式)。Gen-2已于2023年6月上线,用户可以通过网页端和移动端App免费体验文字生成视 频的功能。收费模式上,Runway采用订阅模式,分为Standard和Pro两个版本:Standard 15美元/月;Pro 35美元/月。订阅版本提供更高的credits(制作视频消耗 credits)、更长的视频长度、更高的分辨率等。

Luma AI:3D内容解决方案平台,基于NeRF上线文字转3D和视频转3D功能

Luma AI是一家3D内容解决方案平台。Luma AI创立于2021年,总部位于加州。公司创始人在 3D视觉、机器学习、实时图形学上有所建树:CEO & Cofounder Amit Jain曾于苹果任职,在 3D计算机视觉、摄像头、ML、系统工程和深度技术产品方面有者丰富经验;CTO & Cofounder Alex Yu致力于推动神经渲染和实时图形领域的发展,研究成果包括Plenoxels、 PlenOctrees和pixelNeRF。Luma AI深耕3D领域,也发布多项3D生成产品。22年10月开放网页版Luma;22年12月推出 文生3D模型功能;23年1月iOS版App开始支持NeRF Reshoot;23年2月推出网页版全体积 NeRF渲染器;23年3年iOS版App支持AR预览,同月推出视频转3D API。23年4月发布Luma Unreal Engine alpha,帮助开发者在Unreal 5中进行完全体积化的渲染,无需对几何结构或材 质进行修补。

主要产品:Luma App:目前只推出iOS客户端,可以通过iPhone上传视频,基于NeRF生成3D场景。Luma App支持导入视频,以及引导模式和自由模式三种:导入模式,和Web模式功能类似, 对设备和视频理论上要求最低;引导模式,需要360度拍摄,App将具体提示框提醒拍摄视角、 拍摄位置;自由模式,支持非360度(部分视角)拍摄,App不会给出明确提示框,需要尽可能 拍摄多个角度。网页端:目前集成了三大主流功能:网页版Luma、文字转3D模型、视频转3D API。网页版 Luma:上传照片、视频来进行三维重建,网页版可以上传更大的文件,目前视频和图片(ZIP 压缩包)体积最大限制5GB;文字转3D模型:输入文字描述生成对应的3D模型。视频转3D API:效果基本和网页版一致。收费模式为按次收费,转换一个视频费用为1美元,转换时间在 30分钟左右。

Unity:制作和运营交互式实时 3D (RT3D) 内容平台,结合AI大模型赋能游戏业务

Unity是一家全球领先的制作和运营交互式实时 3D (RT3D) 内容的平台,也是全球最大的游戏 引擎公司。收购ironSource之后,其主营业务包括与开发相关的引擎类产品Create和与广告营 销相关的产品Grow。Unity 成立于 2004 年,起初为 Over the Edge Entertainment 并进行游戏开发工作,2005 年公司在游戏开发基础上转型工具, 并于 2005 年发布 Unity1.0 版本。20余载,Unity 先后登 陆并支持苹果IOS平台、OS平台、Windows平台等,伴随着iPhone以及整个移动互联网的发 展,Unity迎来用户数量的快速增长。同时,经过长期的迭代升级以及并购,公司逐步建立起游 戏以及其他领域的业务,形成当前公司的主要业务架构,实现全平台全产业链覆盖的高兼容特 性。2023年,公司发布AI产品:Unity Muse、Unity Sentis,宣布结合AI大模型赋能游戏业务。

主要产品:Unity Muse:提供AI驱动协助的扩展平台,它加速了像视频游戏和数字孪生这样的实时3D应用 和体验的生成。在Muse上,用户能够通过自然语言在Unity编辑器中开发游戏,打破技术壁垒。Unity Sentis:嵌入神经网络,解锁全新实时体验。在技术层面, Unity Sentisl连接神经网络 与Unity Runtime,因此,AI模型能够在Unity运行的任何设备上运行。Sentis是第一个也是唯 一一个将AI模型嵌入到实时3D引擎中的跨平台解决方案。Sentis在用户的设备而非云端运行程 序,因此其复杂性、延迟和成本都大大降低。Muse Chat :基于AI,用户可以搜索跨越Unity文档、培训资源和支持内容,以获取来自Unity的 准确且最新的信息。Muse Chat能够帮助开发者快速获取相关信息,包括工作代码样本,以加速 开发进程和提供解决方案。

Open AI:3D生成技术Point-E与Shap-E的更新迭代

Point-E是一个3D模型生成器,可以在几分钟内生成3D图像。Point-E是一个机器学 习系统,可以通过文本输入制作3D物体,由OpenAI于2022年12月发布到开源社区。Point-E本身包括两个模型:GLIDE模型和image-to-3D模型。前者类似于DALL-E 或Stable Diffusion等系统,可以从文本描述生成图像。第二个模型由OpenAI使用图 像和相关的3D物体进行训练,学习从图像中生成相应的点云。

NVIDIA:3D MoMa、Magic3D、NVIDIA Picasso与Neuralangelo

3DMoMa:从二维图像中提取三维物体。2022年6月,NVIDIA推出3D MoMa,可通过图像输入 生成三角网格组成的3D模型,并可直接导入图形引擎。这项方案的重点是,可直接导入支持三角形 建模的3D建模引擎、游戏引擎、电影渲染器,可以在手机、浏览器上运行。3D MoMa生成的3D 模型自带三角形网格,将3D模型生成自动化,将有望加速艺术、游戏、影视等内容创作。Magic3D:高分辨率的文本到3D内容创建技术。2022年11月,英伟达推出Magic3D,采用了与 DreamFusion类似的两段式生成技术路线,但使用不同的生成模型。Magic3D可以在40分钟内创 建高质量的三维网格模型,比DreamFusion快2倍,并实现了更高的分辨率 NVIDIA Picasso:用于构建生成式AI视觉应用程序的云服务。2023年3月,英伟达推出NVIDIA Picasso,企业、软件创建者和服务提供商可以在其模型上运行推理,在专有数据上训练NVIDIA Edify基础模型,或者从预训练的模型开始,从文本提示生成图像、视频和3D内容。Picasso服务 针对GPU进行了全面优化,并在NVIDIA DGX Cloud上简化了训练、优化和推理。此外,NVIDIA 也与Adobe、Getty Images、Shutterstock等企业进行了合作,共同开发NVIDIA Picasso模型。

Apple:发布3D生成API Object Capture与3D场景生成模型GAUDI

2021年6月,苹果发布了面向Mac的摄影测量API“Object Capture”。Apple Object Capture 为Apple设备用户提供了一种相对快速和简单的方法来创建现实世界对象的3D表示——这意味着可 以将物理对象转换为数字对象。使用iPhone或iPad,可拍摄对象的照片,并使用macOS Monterey上新的对象捕获API将其转换为针对增强现实(AR)进行优化的3D模型。物体捕捉功能使 用摄影测量技术将 iPhone 或 iPad 上拍摄的一系列照片转换为 USDZ 文件,这些文件可以在 “AR 快速查看”中查看,无缝整合到 Xcode 项目中,或在专业的 3D 内容工作流程中使用。2022年7月,来自苹果的 AI 团队推出了 3D 场景生成的最新神经架构—— GAUDI 。GAUDI是一 个能够捕捉复杂而真实的三维场景分布的生成模型,可以从移动的摄像机中进行沉浸式渲染,采用 了一种可扩展但强大的方法来解决这个具有挑战性的问题。研究人员首先优化一个隐表征,将辐射 场和摄像机的位置分开,然后将其用于学习生成模型,从而能够以无条件和有条件的方式生成三维 场景。GAUDI在多个数据集的无条件生成设置中取得了sota的性能,并允许在给定条件变量(如 稀疏的图像观测或描述场景的文本)的情况下有条件地生成三维场景。

Google技术路径剖析:从Dream Fields到DreamFusion的迭代升级

Dream Fields:训练Dream Fields算法时需要多角度2D照片,完成训练后便可生成3D模型、合成新视角。而CLIP的作用,依然是评 估文本生成图像的准确性。文本输入至Dream Fields后,未训练的NeRF模型会从单个视角生成随机视图,然后通过CLIP来评估生成 图像的准确性。也就是说,CLIP可以用来纠正和训练NeRF模型生成图像。这个过程将从不同的视角重复2万次,直到生成符合文本描 述的3D模型。DreamFusion是一种从文本提示生成 3D 模型的新方法,它采用了与Dream Field类似的方法,但模型中的损失函数基于概率密度蒸馏, 最小化基于【扩散中前向过程共享的高斯分布族】与【预训练的扩散模型所学习的分数函数】之间的KL散度。技术步骤:先使用一个预训练2D扩散模型基于文本提示生成一张二维图像。然后引入一个基于概率密度蒸馏的损失函数,通过梯度下降法优化一个随机初始化的神经辐射场NeRF模型。

DreamFusion 结合了两种关键方法:神经辐射场和二维扩散。它逐步改进初始的随机 3D 模型,以匹配从不同角度显示目标对象的 2D 参考图像:现有 AI 模型(如 Nvidia 的Instant NeRF )使用的 方法。然而,与 Instant NeRF 不同,参考不是真实物体的照片,而是由 OpenAI 的DALL-E 2和 Stability.ai 的Stable Diffusion使用 的类型的 2D 文本到图像模型生成的合成图像。在这种情况下,2D 扩散模型是 Google 自己的Imagen,但总体结果是相同的:生成的 3D 模型与原始文本描述生成的 2D 参考图像相 匹配。至关重要的是,整个过程既不需要3D训练数据,也无需修改图像扩散模型,完全依赖预训练扩散模型作为先验——这可能为开发 实用的、大众市场的基于 AI 的文本到 3D 工具铺平了道路。

2、生成式AI下游应用场景展望

生成式AI将实现对视频/3D/游戏等下游应用场景的渗透

今年以来,我们已经看到生成式AI在文本领域、代码生成、图像领域的快速发展,如GPT-4的推出,Midjourney、Stable Diffusion的版本迭代, Github Copilot X升级等等。生成式AI在视频和3D模型领域的发展相对较慢,但随着海外科技大厂及初创公司纷纷布局并推出基础的3D和视频生成模型和产品,未来在创意领 域(如电影、游戏、VR、建筑和实体产品设计)的应用潜力广阔。

我们认为生成式AI将实现对视频/3D/游戏等下游应用场景的渗透。在短视频、创作工具、游戏等下游领域,Runway、Luma AI等AI 原生产品有望融入工作流,增强用户体验、降低用户使用壁垒、进一步降低使用成本。

视频与建模工具或与传统工具/工作流结合,进一步拉动生成式AI的需求

我们的观点:内容创作工具的重要性如何?我们认为关键在于拉动远比工具本身更大的市场,类似于短视频时代的前身GIF创作工具,如剪映这种 创作工具和抖音这种内容生态,Maya这种创作工具和动画的内容生态,视频与建模工具将进一步大幅拉动生成式AI的需求。模型能力或出现明显分化。我们认为当前Diffusion开源模型下各公司生成图片的能力尚未明显出现分化,但建模和视频更重要的在于 和传统工具与工作流的结合 。海外接下来半年关注什么?我们认为从能力来看,图片生成的可控性快速提高或将出现,矢量图、结构、视频、3D模型生成也将提速。尤其关注Unity与Apple的合作,在AI生成内容/建模/App适配上将会如何塑造空间计算的内容与应用的标准生态。

报告节选:

























(本文仅供参考,不代表我们的任何投资建议)

文琳编辑

免责声明:转载内容仅供读者参考,观点仅代表作者本人,不构成投资意见,也不代表本平台立场。若文章涉及版权问题,敬请原作者添加 wenlin-swl  微信联系删除。

为便于研究人员查找相关行业研究报告,特将2018年以来各期文章汇总。欢迎点击下面红色字体查阅!

文琳行业研究 2018年—2023年11月文章汇总

▼长按2秒识别二维码关注我们

今日导读:点击下面链接可查阅

公众号 :文琳行业研究

  1. 卫星互联网行业深度报告:明年此日青云去,前程路险莫蹉跎

  2. 卫星导航及遥感行业研究:时空大数据撬动智慧城市

  3. 航空运输与机场行业专题报告:国际航线,水将到、渠已成

  4. 惯性导航系统专题报告:测量感知的基础,精确制导的利

  5. 2023年仓储物流行业研究报告:正在加速迭代高标仓赛道

  6. 工业互联网标识行业应用指南(家电)

  7. 2023全球区块链应用市场暨产业图谱报告

  8. 2023网络安全产业人才发展报告

《文琳资讯》

提供每日最新财经资讯,判断经济形势,做有价值的传播者。欢迎关注

▼长按2秒识别二维码关注我们

今日导读:点击链接可查阅
  1. 中央政治局会议10个关键词解读

  2. 盘点2023中国金融界十大校友圈

  3. 暴跌80%,市值蒸发超3635亿,海底捞,还在寻“底”

  4. 不差钱!头部房企大动作,回购、增持双管齐下,释放什么信号?

  5. 多城发动“总部争夺战”

  6. 事关彩礼,最高法最新发声!

公众号 :就业与创业
点击下方可看
  1. 断舍离:丢掉这160样东西,让人生更美好

  2. 刘姓商人被抓?京东最新回应:梁某某,行拘!

  3. 突发!华夏银行天津分行行长坠亡

  4. 985研究生上岸专业不对口单位,干成了抑郁症

  5. 暴跌80%,市值蒸发超3635亿,海底捞,还在寻“底”



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存