谷歌Gemini中文基准测评出炉！总分51，不敌GPT4｜SuperCLUE

Original SuperCLUE CLUE中文语言理解测评基准 2023-12-08

收录于合集 #热点模型评测 11个

本测评结果仅用于学术研究。

12 月 6 日，谷歌官宣Gemini1.0版正式发布，被认为是谷歌最大、最强的人工智能模型，效果超过GPT4。Gemini是一个多模态大模型，当前公布有三种型号，Gemini Ultra（最强版本，明年推出）、Gemini Pro（中端版本，已在Bard上应用）和Gemini Nano（移动端应用）。

据Google官方介绍，Gemini在32个多模态基准测试中取得了30个SOTA，并且在MMLU测评上首次超过人类，高于GPT-4为3.6%。

那么，Gemini在中文上的表现如何？与国内外代表性大模型相比处于什么位置？在各项基础能力上如计算推理、知识百科、生成创作上会有怎样的表现？

我们基于SuperCLUE通用大模型综合性中文测评基准，对Gemini进行了全方位测评。

测评环境

参考标准：SuperCLUE-OPEN中文多轮开放式测评基准

评测模型：Gemini Pro（通过Bard网页产品测评https://bard.google.com）

评测集：SuperCLUE-Open多轮开放式11月评测集，1052道多轮简答题，包括专业技能与知识、语言理解与生成、AI智能体和安全性四大维度的十项基础任务。

模型GenerationConfig配置：

可参考谷歌Gemini官方文档：

测评方法：

本次测评为多轮开放式自动化评测，通过引入基准模型，在测试题库上使用一个待评估模型与一个基准模型（如gpt-3.5-turbo）进行对比，让超级模型选出哪个模型的回答更好。

候选项包括胜、平、负，最终计算待评估模型胜率方式获得总分。

先说结论

结论1：在SuperCLUE-OPEN基准上，Gemini Pro综合能力较GPT4尚有较大差距，低于GPT4有21.97分，低于GPT4-Turbo有46.49分。

结论2：在SuperCLUE-OPEN基准上，Gemini Pro表现与GPT3.5较为接近，4项能力领先，6项能力落后。Gemini Pro在知识百科表现较好，在生成与创作和安全能力上优化空间很大。

结论3：与国内第一梯队模型相比，Gemini Pro在中文能力上没有特别的优势。在多数任务上的表现不如国内第一梯队模型。

以下是我们从定量和定性两个角度对模型进行的测评分析。

测评分析

1 定量分析

在SuperCLUE-OPEN测评中，Gemini Pro的表现如下：

SuperCLUE-OPEN（11月）

注：国内第一梯队模型为11月SuperCLUE-Open中Top10模型

在SuperCLUE-OPEN多轮开放问题测评基准上，Gemini Pro取得51.04分，较GPT3.5-Turbo低6.12分，较GPT4和GPT4-Turbo差距较大。

Gemini Pro在十大基础能力上的表现

Gemini Pro在十大能力上测评中，知识百科表现较好，高出GPT4有7.40分。另外在逻辑与推理、语言理解与抽取、工具使用三个能力上有超过GPT3.5的表现，其余6项能力均低于GPT3.5。

其中，生成与创作和安全能力的表现与其他国外代表模型差距较大。

与国内第一梯队大模型相比，Gemini Pro在计算能力上略高于国内第一梯队平均水平，其余9项基础能力均落后。其中，在代码、生成创作、安全能力上与国内第一梯队平均水平有较大差距。

小结：

从评测结果我们发现，Gemini Pro在综合能力上表现与GPT4差距较大，与国内第一梯队平均水平也有一定差距。在部分能力上与GPT3.5-Turbo较为接近。其中，知识百科表现较好，生成与创作、安全能力还有很大的优化空间。

2 定性分析

通过一些典型示例，对比定性分析Gemini Pro的特点。

（建议：在电脑端查看获得更好体验）

维度一：专业技能与知识

能力1：计算

能力2：代码

能力3：逻辑与推理

能力4：知识与百科

维度二：语言理解与生成能力5：语言理解与抽取

能力6：上下文对话

能力7：生成与创作

能力8：角色扮演

维度三：AI智能体能力9：工具使用

维度四：安全

能力10：传统安全

小结：

从定性分析的示例中我们可以发现，Gemini Pro在有些能力上表现与GPT3.5持平，有些能力上表现不如GPT3.5，在知识百科能力上优于GPT3.5。

更多模型测评信息，请加入SuperCLUE-Gemini交流群。

延伸阅读：技术报告：SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark，https://arxiv.org/abs/2307.15020

SuperCLUE排行榜：https://www.superclueai.com

CLUE官网地址：https://www.cluebenchmarks.com

GitHub地址：https://github.com/CLUEbenchmark/SuperCLUE

点击阅读原文，查看SuperCLUE排行榜

继续滑动看下一个

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

劲爆！为了姜萍两位女CEO互揭老底！

谁会想到，裁员会裁到总编辑头上

消失11天的姜萍，这回麻烦大了…

“环评”提质增效助力高质量发展？

谷歌Gemini中文基准测评出炉！总分51，不敌GPT4｜SuperCLUE

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

劲爆！为了姜萍两位女CEO互揭老底！

谁会想到，裁员会裁到总编辑头上

消失11天的姜萍，这回麻烦大了…

“环评”提质增效 助力高质量发展？

生成图片，分享到微信朋友圈

谷歌Gemini中文基准测评出炉！总分51，不敌GPT4｜SuperCLUE

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

“环评”提质增效助力高质量发展？