星河AI网络白皮书

文琳行业研究 2024-04-11

•进入数字经济时代以来，算力成为推动各行业数字化转型，赋能经济蓬勃发展的重要引擎，同时也成为衡量国家综合实力的重要指标之一。随着以ChatGPT、GPT4为代表的AI大模型的发布，智算需求快速爆发，并迅速掀起了新一轮人工智能技术的发展浪潮。

•近年来，OpenAI的ChatGPT、DeepMind的AlphaGo、华为的盘古等规模达到数千亿参数的大模型，通过在海量数据上进行预训练，极大地推动了AI语言理解和多模态能力的进步。然而，训练如此复杂的模型需要投入极大的计算资源。

•随着ChatGPT等AI应用场景的快速增长，业界对更大规模的AI模型训练需求日益殷切。这对支撑基础训练的数据中心网络的性能提出了新的要求。我们需要提供极致的通信性能、计算能力和稳定性，以支撑万亿级甚至更高规模参数的模型训练。如何通过网络技术突破来满足训练任务的规模、效率需求，已成为一个非常关键的研究方向。

AI发展全面加速，智能未来走深向实

随着ChatGPT引爆国内人工智能(Al,artificialintelligence)市场，行业进入了生成式人工智能时代，将人工智能深度学习这波高潮推向了顶峰。当前，AI训练模型正在从万千小模型走向百模千态的大模型时代，AI技术在干行百业中呈现出百模千态的繁荣局面，同时也对网络提出了新的需求。

在科技发展的浪潮中，AI的发展由算法、算力和数据三个核心要素决定，算法可以看成是人工智能这艘巨舰的“舵”，而算力和数据则分别是推动人工智能发展的“发动机”和“石油”。

算法:迈入万亿参数大模型时代，开启通用人工智能的大门

自2017年Google提出Transformer模型以来，至今AI大语言模型已取得了飞速的发展。

当前大语言模型皆是由Transformer模型结构演进而来，Transformer模型由编码器(Encoder)-解码器(Decoder)结构组成。2018年，Google提出了仅有编码器(Encoder-only)的BERT模型，随后在2018年~2021年期间，Google、Meta、微软和百度等公司也在BERT基础上提出了改进的编码器模型。然而在2021年之后，编码器结构模型路线几乎停止演进。另一方面，Google和Meta在2019年分别推出T5(Text-To-TextTransferTransformer)模型和基于编码器-解码器结构的BART,且Google在过去几年仍持续优化演进T5模型。目前，大语言模型的主战场主要聚焦在解码器结构模型。随着模型结构发展至今，除了OpenAl公司的GPT系列模型(包括GPT1、GPT2、GPT3、InstructGPT、ChatGPT3.5和GPT4)外，Google的PaLM系模型、Meta的LLaMa系模型，以及国内华为的盘古(PanGu-∑)、百度的文心一言(ERNIE)等主流模型都采用解码器结构。通常，解码器结构的大语言模型在预训练时，表现出了更好的泛化能力。

大模型扩展定律驱动模型规模持续增长

根据AI大模型的扩展定律(Scalinglaw)，增大模型的参数规模、训练数据集，投入更多的算力，就能持续提升大模型性能。此外，Google的研究5表明AI大模型表现出一种无法预测和解释的现象一涌现能力。所谓涌现能力就是由大模型的量变，即更大的参数规模、更多的训练样本以及更高的算力供给，引发的质变，使得AI大模型在解决通用问题上表现出非常优异的性能。正是扩展定律和涌现能力，驱动着AI大模型规模的持续增大。随着GPT4、盘古等万亿模型的发布，也正式标志着，AI大模型进入了万亿模型时代。但与此同时，AI大模型的持续扩展开始面临着模型规模提升带来的收益递减的挑战。

多模态模型开启通用人工智能大门

OpenAl在GPT4模型中引入了多模态处理能力，能同时处理文本、图像、视频等多元化数据。多模态处理能力可以对不同呈现形式的信息进行融合理解，进一步提升AI大模型的学习能力，帮助AI从多维度更好的理解真实的物理世界，对于通用人工智能的实现有着重要的作用。目前文本、音频、图像等单模态大语言模型已经相对成熟，大模型正加速朝着多模态模型的方向发展。从VisionTransformer的提出，再到GPT4的图文处理能力，多模态模型取得了明显的进步。

数据:数据需求持续增长，对高质量数据需求迫切

随着AI大模型能力的持续优化，更大的模型需要基于更海量数据集训练。OpenAI的GPT1模型曾在110亿样本的BooksCorpus数据集上训练。发展到GPT4，模型需要在总共13万亿样本的多个数据集上训练。由此可见，AI大模型预训练所需要的数据集数量飞速增长。研究者在数据集规模上，也发现了类似模型规模扩展定律的规律，即同一模型，在更多的数据集上训练，模型性能就越好3。斯坦福大学的吴恩达教授更是号召AI的发展要从以模型为中心走向以数据为中心7，提出AI的研究要更加专注于数据的价值，以高质量数据集的构建，进一步推动AI模型的性能突破，并且提出AI模型的二八定律，即为了获得更好、更优的AI模型，人类的投入应为80%的数据投入和20%的模型算法投入。

【完整版获取见文末】