ChatGPT全景图之三 | 全球竞争格局篇（上）

Original 李光华DavidLee David的AI全景图 2023-11-22

收录于合集 #AI全景图 6个

从来就没有横空出世的爆品，只有一种看不见的强大势能日积月累。

本文试着思考一个问题：ChatGPT“横空出世”背后的势能何在？大型语言模型在全球的竞争格局如何？中国的大语言模型何在？

整理了一些粗浅的吸收和思考，分成上下两篇。这是上篇，Enjoy~

一、研究机构

先看全球范围内，有可能研发出大语言模型（LLM）的研发机构，我罗列了一下国内外顶尖AI Lab：（不全，欢迎反馈补充）

以高校为代表的学院派在这种大算力（动辄上千块GPU）、大数据（上百亿训练参数）需求的实验场景，研究成果有限，声量微弱。

较为强势的是市场派和新崛起的研发机构。

市场派主要包括全球主流互联网公司的人工智能研究院（AI Lab）。这类研究院的成立初衷，往往是为公司主营业务赋能（比如字节的文本和音视频推荐场景、阿里巴巴的电商场景、百度的搜索场景）。在不少场景，AI确实实实在在赋能了业务，但也不排除大量发了Paper但无法落地的项目，因此，前几年已经出现一波AI Lab骨干回流学术圈的现象。

相比之下，类似OpenAI、国内的新智源研究院（BAAI）等新研发机构，具备一定的集中人才和资金办大事的优势，并且没有互联网企业内部这种KPI压力，可以容忍较长时间的探索。但据说OpenAI 在2019年也面临资金压力，国内新研发机构也爆出过抄袭论文事件，可见夹在学术研究和落地应用之间的研究机构也有自己的问题。

总体来说，目前的局势看，互联网公司AI Lab和新型研发机构应该代表国内最高水平。

BTW，2月7日，百度官方已经发布消息，近期即将发布类似ChatGPT的产品，取名“文心一言”。

二、人才篇

一位NLP（自然语言处理）的前辈说过，他们在找NLP合作方时，会先找几个老专家的“徒子徒孙”。如果一个企业内部没有这几个老专家的徒子徒孙，那这个项目很可能是一个伪NLP项目。

深度学习大火的时间其实不久，寻根溯源，比如深度学习三巨头，Hinton去了Google，Yann LeCunn去了Meta（原Facebook），Joshua Benjio在学界。而OpenAI联合创始人IIya Sutskever即Hinton的学生。这之外，自己创立公司的吴恩达、斯坦福大学的李飞飞、Google DeepMind负责人Demis Hassabis都是该领域执牛耳的人物。

左起：Yann LeCunn，Geoffrey Hinton，Joshua Bengio

从数据方面，找到两份调研报告。分别来自美国MacroPolo 和中国清华的Aminer。

MacroPolo的结论：

美国在顶级AI研究方面大幅领先于其他国家，近60%的顶级AI人才为美国大学和公司工作。美国的领先优势建立在吸引国际人才的基础上，在美国工作的顶级人工智能研究人员中，超过2/3的人在其他国家获得本科学位。

中国是顶级AI人才的最大来源，其中29%的研究人员在中国获得本科学位。但这些中国研究人员中的大多数（56%）后来都在美国学习、工作和生活。

在所有顶级人工智能研究人员中，超过一半（53%）是移民或外国公民。

比如全球顶尖AI人才工作地点，59%在美国，11%在中国。而人才来源方面，中国是最大的AI人才输送国。可见国内AI人才吸引力和环境还不容乐观。

下面是AI人才从本科到工作地点的流动示意图。

By https://macropolo.org/digital-projects/the-global-ai-talent-tracker/

另一份，来自国内的Aminer《自然语言处理报告》，中国乃至整个亚洲，和欧美在自然语言人才方面差距较大。

By Aminer自然语言处理学者全球分布

三、全球大语言模型统计

国内外均有超大语言模型，在训练参数量上，参数量不输国外。当然参数量只是最终质量的一个变量。

关于大语言模型，不得不提斯坦福大学李飞飞联合多名学者发布的论文《论基础模型的机遇与风险》。

在 BERT 出现（2018 年）之前，语言模型的自监督学习本质上只是 NLP 的一个子领域，与其他 NLP 子领域并行发展。但在 BERT 横扫 11 项 NLP 任务之后，这种格局被打破了。2019 年之后，使用自监督学习构造语言模型俨然已经成为一种基础操作，因为使用 BERT 已经成为一种惯例。这标志着大模型时代的开始。

这一时代的重要标志是“同质化”。如今，NLP 领域几乎所有的 SOTA模型（State of the arts ，指本任务下当前性能最优的模型）都是少数几个基于 Transformer 的大模型进化而来。而且，这种趋势正在向图像、语音、蛋白质序列预测、强化学习等多个领域蔓延。整个 AI 社区似乎出现了大一统的趋势。

这种大一统也意味着风险，正如这篇论文摘要中写的：

这种同质化提供了强大的杠杆作用，但需要谨慎，因为基础模型的缺陷会被下游所有模型所继承。尽管基础模型即将广泛部署，但我们目前对它们如何工作、何时失效，以及由于它们的涌现特性、对于甚至它们能够做什么，都缺乏清晰的了解。为了解决这些问题，我们相信，大部分基础模型的关键研究，都需要相应的深度跨学科合作。

四、一些非结构化感想：

极大的势能需要远大的愿景。比如GPT大语言模型背后是深度学习这种范式的支撑。在Yann LeCunn自传《科学之路》中，记录了他和Geoffrey Hinton熬过深度学习寒冬，终于守得云开见月明的心路历程。

比如在BERT和GPT路线之争中，OpenAI也经历了“寒冬”比如坚持“老”技术路线、没有实质的创新，不发paper，但坚守和持续打磨模型和数据，做算法工程师眼中的脏活累活——数据工程。

下图是DeepMind和OpenAI近7年公开发表论文的情况，可见OpenAI的工程倾向。

在算力方面居功至伟的英伟达创始人黄仁勋，也说过他愿景：科学计算的平民化。因为有了NVIDIA GPU，研究人员使用一个GeForce卡就可以做出AlexNet这样的突破，而不需要依靠云计算中的超级计算机。

没有仰望星空就没有脚踏实地。看不见星空的结果，就是一种退而求其次的心态。而退而求其次的心态，和前沿创新所需要的那种舍我其谁、all in和极致精神是相悖的。把目标设定为追求二流的团队，结局只能是三流四流。比如曾经中国版的Google、最懂中文的XXX，到如今的中国版的ChatGPT。

看不见星空，低头就只看到对手。于是，大家在阴沟里刨食，用难看的姿势掐架。

关于合作与竞争。正如李飞飞等学者在论文中呼吁的跨学科深度合作，微软的Azure和OpenAI、Stability AI的开源，都体现了海洋文明与生俱来的合作思维。在一个成熟的商业生态中，有辅助前沿技术探索的学术机构，也有OpenAI这样提供技术模型的基础设施层，还有基于大模型的创业公司，深入不同的应用场景，实现整体生态平衡和规模效应。反观国内部分媒体，似乎没有背叛和拔刀相见的话题，就没有可以报道的内容了。

当然，在Google、微软、Meta、中国机构之间，存在竞争和制衡是合理的。但在这样人类面临的重大机遇和风险面前，理应有大片的空白，需要联合大家的力量去拓荒。就像有人不理解为何放特斯拉的专利，但如果看到特斯拉的愿景是“加速全球向可持续能源转变”——答案就很清晰了，电动车的阵营越强大，这个愿景和目标就越接近。

国内同类的大语言模型何在？其实国内训练不少大模型了，训练参数上甚至远超GPT，比如智源研究院2021年发布的悟道1.0就已经1.75万亿参数，是GPT的10倍。国内各家AI Lab和研究机构，是否有可能集中力量来攻坚一个这样的项目？各家做好算法、算力、数据的分工，训练好一个大模型。而不是一拥而上，各自训练一个半成品，刷榜和PR之后，杳无声息。

无论是谁复刻ChatGPT，那个以这个为起点，仰望星空，那个奔向不雷同于OpenAI 的星辰大海，那个值得大家信任的人，那个能用宏大愿景团结众人的人，何在？

-End-

One more thing，福利：

1、有10+比较值得研读的AIGC报告，在本公众号后台回复“chatgpt”可下载；

2、建了“ChatGPT全景图”交流群。如群二维码过期，可加笔者微信（备注公司+姓名）：jeusmypower

附：名词解释

AIGC：AI Generated Content ，人工智能自动生成内容

NLP：Natural Language Processing，自然语言处理

LLM：Large language model，大语言模型

AGI：Artificial general intelligence，通用人工智能

NLU：Natural language understanding，自然语言理解

Prompt：提示词

Fine-tuning：模型调优

ML：Machine Learning，机器学习

DL：Deep Learning，深度学习

GPU：Graphics Processing Unit ，深度学习用的显卡

BERT：Bidirectional Encoder Representations from Transformers”，双向编码器表示

RLHF：Reinforcement Learning from Human Feedback，基于人类反馈的强化学习

【往期精选】ChatGPT全景图 | 产品+商业篇 ChatGPT全景图 | 背景+技术篇机器翻译产品全景图机器翻译什么时候跟人工翻译一样好

继续滑动看下一个

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

“家属和记者取得联系”：记者的退场意味深长

圈内疯传某谣言

不要放过这些人渣

“被指居者”之死：嫌犯身体遭长时间束缚，警方称指居使用械具是惯例

ChatGPT全景图之三 | 全球竞争格局篇（上）

一、研究机构

二、人才篇

三、全球大语言模型统计

您可能也对以下帖子感兴趣

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

“家属和记者取得联系”：记者的退场意味深长

圈内疯传某谣言

不要放过这些人渣

“被指居者”之死：嫌犯身体遭长时间束缚，警方称指居使用械具是惯例

生成图片，分享到微信朋友圈

ChatGPT全景图之三 | 全球竞争格局篇（上）

一、研究机构

二、人才篇

三、全球大语言模型统计

您可能也对以下帖子感兴趣