生成式AI专题报告：下一颗最闪亮的星，视频+引擎

文琳行业研究 2024-04-11

（报告出品方/作者：天风证券，孔蓉、李泽宇）

1、生成式AI在视频/3D/游戏等领域的渗透加速

生成算法模型不断突破创新，下游应用场景不断拓展

基础的生成算法模型不断突破创新，基础能力日新月异，从图像向视频和3D扩展，更广泛地应用于下游应用场景。生成对抗网络（GAN）是早期最著名的生成模型之一，尽管在图像生成上产生了卓越的效果，但其训练常常受到梯度消失和模式崩溃等问题的影响。与GAN相比，扩散模型（Diffusion Model）只需要训练“生成器”，不需要训练别的网络（判别器、后验分布等），训练时仅需模仿一个简单的前向过程对应的逆过程，实现简练过程的简化。扩散模型相对GAN来说具有更灵活的模型架构和更精确的对数似然计算，生成图像质量明显优于GAN，已经成为目前最先进的图像生成模型。

此前扩散模型主要适用于生成2D图像，23年Runway的最新研究成果将扩散模型扩展到视频领域，在未加字幕的视频和配对的文本 -图像数据的大规模数据集上训练出视频扩散模型。NeRF（神经辐射场）的出现为3D场景生成带来了新的可能性，进一步拓宽生成算法领域下游的应用场景。NeRF （Neural Radiance Field）是一种基于神经网络的 3D 重建技术，不同于传统的三维重建方法把场景表示为点云、网格、体素等显式的表达， NeRF将场景建模成一个连续的 5D 辐射场隐式存储在神经网络中，输入多角度的 2D 图像，通过训练得到神经辐射场模型，根据模型渲染出任意视角下的清晰照片。

Runway：生成式AI内容平台，Gen-1可实现用文字和图像从现有视频中生成新视频

Runway是一家生成式AI内容平台，致力于让所有人都能进行内容创作。Runway创立于2018年，总部位于纽约，提供图片、视频领域的生成式AI服务。Runway得到众多资本青睐，获得谷歌领投的D轮融资。创立以来，Runway已获得Felicis、Coatue、 Amplify、Lux、Compound等顶级投资机构投资。23年6月，Runway获得由谷歌领投的1亿美元的D轮融资，这笔融资交易包括三年内7500万美元的谷歌云积分和其他服务，估值达到15亿美元。

主要产品为Gen-1和Gen-2，Gen-1可实现用文字和图像从现有视频中生成新视频， Gen-2可实现文字生成视频功能。Gen-1：不需要灯光、相机和动捕，通过将图像或文本提示的结构和风格应用于源视频的结构，逼真且一致地合成新视频，且具有表现力、电影感和一致性。Gen-1提供给用户五种不同的视频制作模式：1）Stylization：将任何图像或提示的风格转移到视频的每一帧；2）Storyboard：将模型变成完全风格化和动画的渲染。3） Mask：隔离视频中的主题并使用简单的文本提示对其进行修改；4）Render：通过应用输入图像或提示，将无纹理渲染变成逼真的输出；5）Customization：通过自定义模型以获得更高保真度的结果，释放 Gen-1 的全部功能。Gen-1的性能优势：基于用户研究，GEN-1 的结果优于现有的图像到图像和视频到视频的转换方法，比Stable Diffusion 1.5 提升 73.83%，比 Text2Live 提升 88.24%。

Gen-2是一个多模态的人工智能系统，可以用文字、图像或视频片段生成新颖的视频。Gen-2在Gen-1的基础上迭代，保留通过将图像或文本提示的结构和风格应用于源视频的结构合成新视频的功能，新增了只用文字便可生成视频的的功能。Gen-2在Gen-1的五种视频制作模式上新增了三项新的模式：1）Text to Video：仅通过文本提示合成任何风格的视频；2）Text + Image to Video：使用图像和文本提示生成视频；3）Image to Video：用一张图片生成视频（变体模式）。Gen-2已于2023年6月上线，用户可以通过网页端和移动端App免费体验文字生成视频的功能。收费模式上，Runway采用订阅模式，分为Standard和Pro两个版本：Standard 15美元/月；Pro 35美元/月。订阅版本提供更高的credits（制作视频消耗 credits）、更长的视频长度、更高的分辨率等。

Luma AI：3D内容解决方案平台，基于NeRF上线文字转3D和视频转3D功能

Luma AI是一家3D内容解决方案平台。Luma AI创立于2021年，总部位于加州。公司创始人在 3D视觉、机器学习、实时图形学上有所建树：CEO & Cofounder Amit Jain曾于苹果任职，在 3D计算机视觉、摄像头、ML、系统工程和深度技术产品方面有者丰富经验；CTO & Cofounder Alex Yu致力于推动神经渲染和实时图形领域的发展，研究成果包括Plenoxels、 PlenOctrees和pixelNeRF。Luma AI深耕3D领域，也发布多项3D生成产品。22年10月开放网页版Luma；22年12月推出文生3D模型功能；23年1月iOS版App开始支持NeRF Reshoot；23年2月推出网页版全体积 NeRF渲染器；23年3年iOS版App支持AR预览，同月推出视频转3D API。23年4月发布Luma Unreal Engine alpha，帮助开发者在Unreal 5中进行完全体积化的渲染，无需对几何结构或材质进行修补。

主要产品：Luma App：目前只推出iOS客户端，可以通过iPhone上传视频，基于NeRF生成3D场景。Luma App支持导入视频，以及引导模式和自由模式三种：导入模式，和Web模式功能类似，对设备和视频理论上要求最低；引导模式，需要360度拍摄，App将具体提示框提醒拍摄视角、拍摄位置；自由模式，支持非360度（部分视角）拍摄，App不会给出明确提示框，需要尽可能拍摄多个角度。网页端：目前集成了三大主流功能：网页版Luma、文字转3D模型、视频转3D API。网页版 Luma：上传照片、视频来进行三维重建，网页版可以上传更大的文件，目前视频和图片（ZIP 压缩包）体积最大限制5GB；文字转3D模型：输入文字描述生成对应的3D模型。视频转3D API：效果基本和网页版一致。收费模式为按次收费，转换一个视频费用为1美元，转换时间在 30分钟左右。

Unity：制作和运营交互式实时 3D (RT3D) 内容平台，结合AI大模型赋能游戏业务

Unity是一家全球领先的制作和运营交互式实时 3D (RT3D) 内容的平台，也是全球最大的游戏引擎公司。收购ironSource之后，其主营业务包括与开发相关的引擎类产品Create和与广告营销相关的产品Grow。Unity 成立于 2004 年，起初为 Over the Edge Entertainment 并进行游戏开发工作，2005 年公司在游戏开发基础上转型工具，并于 2005 年发布 Unity1.0 版本。20余载，Unity 先后登陆并支持苹果IOS平台、OS平台、Windows平台等，伴随着iPhone以及整个移动互联网的发展，Unity迎来用户数量的快速增长。同时，经过长期的迭代升级以及并购，公司逐步建立起游戏以及其他领域的业务，形成当前公司的主要业务架构，实现全平台全产业链覆盖的高兼容特性。2023年，公司发布AI产品：Unity Muse、Unity Sentis，宣布结合AI大模型赋能游戏业务。

主要产品：Unity Muse：提供AI驱动协助的扩展平台，它加速了像视频游戏和数字孪生这样的实时3D应用和体验的生成。在Muse上，用户能够通过自然语言在Unity编辑器中开发游戏，打破技术壁垒。Unity Sentis：嵌入神经网络，解锁全新实时体验。在技术层面， Unity Sentisl连接神经网络与Unity Runtime，因此，AI模型能够在Unity运行的任何设备上运行。Sentis是第一个也是唯一一个将AI模型嵌入到实时3D引擎中的跨平台解决方案。Sentis在用户的设备而非云端运行程序，因此其复杂性、延迟和成本都大大降低。Muse Chat ：基于AI，用户可以搜索跨越Unity文档、培训资源和支持内容，以获取来自Unity的准确且最新的信息。Muse Chat能够帮助开发者快速获取相关信息，包括工作代码样本，以加速开发进程和提供解决方案。

Open AI：3D生成技术Point-E与Shap-E的更新迭代

Point-E是一个3D模型生成器，可以在几分钟内生成3D图像。Point-E是一个机器学习系统，可以通过文本输入制作3D物体，由OpenAI于2022年12月发布到开源社区。Point-E本身包括两个模型:GLIDE模型和image-to-3D模型。前者类似于DALL-E 或Stable Diffusion等系统，可以从文本描述生成图像。第二个模型由OpenAI使用图像和相关的3D物体进行训练，学习从图像中生成相应的点云。

NVIDIA：3D MoMa、Magic3D、NVIDIA Picasso与Neuralangelo

3DMoMa：从二维图像中提取三维物体。2022年6月，NVIDIA推出3D MoMa，可通过图像输入生成三角网格组成的3D模型，并可直接导入图形引擎。这项方案的重点是，可直接导入支持三角形建模的3D建模引擎、游戏引擎、电影渲染器，可以在手机、浏览器上运行。3D MoMa生成的3D 模型自带三角形网格，将3D模型生成自动化，将有望加速艺术、游戏、影视等内容创作。Magic3D：高分辨率的文本到3D内容创建技术。2022年11月，英伟达推出Magic3D，采用了与 DreamFusion类似的两段式生成技术路线，但使用不同的生成模型。Magic3D可以在40分钟内创建高质量的三维网格模型，比DreamFusion快2倍，并实现了更高的分辨率 NVIDIA Picasso：用于构建生成式AI视觉应用程序的云服务。2023年3月，英伟达推出NVIDIA Picasso，企业、软件创建者和服务提供商可以在其模型上运行推理，在专有数据上训练NVIDIA Edify基础模型，或者从预训练的模型开始，从文本提示生成图像、视频和3D内容。Picasso服务针对GPU进行了全面优化，并在NVIDIA DGX Cloud上简化了训练、优化和推理。此外，NVIDIA 也与Adobe、Getty Images、Shutterstock等企业进行了合作，共同开发NVIDIA Picasso模型。

Apple：发布3D生成API Object Capture与3D场景生成模型GAUDI

2021年6月，苹果发布了面向Mac的摄影测量API“Object Capture”。Apple Object Capture 为Apple设备用户提供了一种相对快速和简单的方法来创建现实世界对象的3D表示——这意味着可以将物理对象转换为数字对象。使用iPhone或iPad，可拍摄对象的照片，并使用macOS Monterey上新的对象捕获API将其转换为针对增强现实(AR)进行优化的3D模型。物体捕捉功能使用摄影测量技术将 iPhone 或 iPad 上拍摄的一系列照片转换为 USDZ 文件，这些文件可以在 “AR 快速查看”中查看，无缝整合到 Xcode 项目中，或在专业的 3D 内容工作流程中使用。2022年7月，来自苹果的 AI 团队推出了 3D 场景生成的最新神经架构—— GAUDI 。GAUDI是一个能够捕捉复杂而真实的三维场景分布的生成模型，可以从移动的摄像机中进行沉浸式渲染，采用了一种可扩展但强大的方法来解决这个具有挑战性的问题。研究人员首先优化一个隐表征，将辐射场和摄像机的位置分开，然后将其用于学习生成模型，从而能够以无条件和有条件的方式生成三维场景。GAUDI在多个数据集的无条件生成设置中取得了sota的性能，并允许在给定条件变量（如稀疏的图像观测或描述场景的文本）的情况下有条件地生成三维场景。

Google技术路径剖析：从Dream Fields到DreamFusion的迭代升级

Dream Fields：训练Dream Fields算法时需要多角度2D照片，完成训练后便可生成3D模型、合成新视角。而CLIP的作用，依然是评估文本生成图像的准确性。文本输入至Dream Fields后，未训练的NeRF模型会从单个视角生成随机视图，然后通过CLIP来评估生成图像的准确性。也就是说，CLIP可以用来纠正和训练NeRF模型生成图像。这个过程将从不同的视角重复2万次，直到生成符合文本描述的3D模型。DreamFusion是一种从文本提示生成 3D 模型的新方法，它采用了与Dream Field类似的方法，但模型中的损失函数基于概率密度蒸馏，最小化基于【扩散中前向过程共享的高斯分布族】与【预训练的扩散模型所学习的分数函数】之间的KL散度。技术步骤：先使用一个预训练2D扩散模型基于文本提示生成一张二维图像。然后引入一个基于概率密度蒸馏的损失函数，通过梯度下降法优化一个随机初始化的神经辐射场NeRF模型。

DreamFusion 结合了两种关键方法：神经辐射场和二维扩散。它逐步改进初始的随机 3D 模型，以匹配从不同角度显示目标对象的 2D 参考图像：现有 AI 模型（如 Nvidia 的Instant NeRF ）使用的方法。然而，与 Instant NeRF 不同，参考不是真实物体的照片，而是由 OpenAI 的DALL-E 2和 Stability.ai 的Stable Diffusion使用的类型的 2D 文本到图像模型生成的合成图像。在这种情况下，2D 扩散模型是 Google 自己的Imagen，但总体结果是相同的：生成的 3D 模型与原始文本描述生成的 2D 参考图像相匹配。至关重要的是，整个过程既不需要3D训练数据，也无需修改图像扩散模型，完全依赖预训练扩散模型作为先验——这可能为开发实用的、大众市场的基于 AI 的文本到 3D 工具铺平了道路。

2、生成式AI下游应用场景展望

生成式AI将实现对视频/3D/游戏等下游应用场景的渗透

今年以来，我们已经看到生成式AI在文本领域、代码生成、图像领域的快速发展，如GPT-4的推出，Midjourney、Stable Diffusion的版本迭代， Github Copilot X升级等等。生成式AI在视频和3D模型领域的发展相对较慢，但随着海外科技大厂及初创公司纷纷布局并推出基础的3D和视频生成模型和产品，未来在创意领域（如电影、游戏、VR、建筑和实体产品设计）的应用潜力广阔。

我们认为生成式AI将实现对视频/3D/游戏等下游应用场景的渗透。在短视频、创作工具、游戏等下游领域，Runway、Luma AI等AI 原生产品有望融入工作流，增强用户体验、降低用户使用壁垒、进一步降低使用成本。

视频与建模工具或与传统工具/工作流结合，进一步拉动生成式AI的需求

我们的观点：内容创作工具的重要性如何？我们认为关键在于拉动远比工具本身更大的市场，类似于短视频时代的前身GIF创作工具，如剪映这种创作工具和抖音这种内容生态，Maya这种创作工具和动画的内容生态，视频与建模工具将进一步大幅拉动生成式AI的需求。模型能力或出现明显分化。我们认为当前Diffusion开源模型下各公司生成图片的能力尚未明显出现分化，但建模和视频更重要的在于和传统工具与工作流的结合。海外接下来半年关注什么？我们认为从能力来看，图片生成的可控性快速提高或将出现，矢量图、结构、视频、3D模型生成也将提速。尤其关注Unity与Apple的合作，在AI生成内容/建模/App适配上将会如何塑造空间计算的内容与应用的标准生态。