查看原文
其他

谷歌Gemini中文基准测评出炉!总分51,不敌GPT4|SuperCLUE

SuperCLUE CLUE中文语言理解测评基准 2023-12-08

本测评结果仅用于学术研究。

12 月 6 日,谷歌官宣Gemini1.0版正式发布,被认为是谷歌最大、最强的人工智能模型,效果超过GPT4。Gemini是一个多模态大模型,当前公布有三种型号,Gemini Ultra(最强版本,明年推出)、Gemini Pro(中端版本,已在Bard上应用)和Gemini Nano(移动端应用)。

据Google官方介绍,Gemini在32个多模态基准测试中取得了30个SOTA,并且在MMLU测评上首次超过人类,高于GPT-4为3.6%。
那么,Gemini在中文上的表现如何?与国内外代表性大模型相比处于什么位置?在各项基础能力上如计算推理、知识百科、生成创作上会有怎样的表现?
我们基于SuperCLUE通用大模型综合性中文测评基准,对Gemini进行了全方位测评。
测评环境

参考标准:SuperCLUE-OPEN中文多轮开放式测评基准

评测模型:Gemini Pro(通过Bard网页产品测评https://bard.google.com)


评测集:SuperCLUE-Open多轮开放式11月评测集,1052道多轮简答题,包括专业技能与知识、语言理解与生成、AI智能体和安全性四大维度的十项基础任务。


模型GenerationConfig配置:

  • 可参考谷歌Gemini官方文档:

测评方法:

本次测评为多轮开放式自动化评测,通过引入基准模型,在测试题库上使用一个待评估模型与一个基准模型(如gpt-3.5-turbo)进行对比,让超级模型选出哪个模型的回答更好。

候选项包括胜、平、负,最终计算待评估模型胜率方式获得总分。


先说结论
结论1:在SuperCLUE-OPEN基准上,Gemini Pro综合能力较GPT4尚有较大差距,低于GPT4有21.97分,低于GPT4-Turbo有46.49分。
结论2:在SuperCLUE-OPEN基准上,Gemini Pro表现与GPT3.5较为接近,4项能力领先,6项能力落后。Gemini Pro在知识百科表现较好,在生成与创作和安全能力上优化空间很大。

结论3:与国内第一梯队模型相比,Gemini Pro在中文能力上没有特别的优势。在多数任务上的表现不如国内第一梯队模型。

以下是我们从定量和定性两个角度对模型进行的测评分析。

测评分析
1  定量分析
在SuperCLUE-OPEN测评中,Gemini Pro的表现如下:

SuperCLUE-OPEN(11月)

注:国内第一梯队模型为11月SuperCLUE-Open中Top10模型

在SuperCLUE-OPEN多轮开放问题测评基准上,Gemini Pro取得51.04分,较GPT3.5-Turbo低6.12分,较GPT4和GPT4-Turbo差距较大。

Gemini Pro在十大基础能力上的表现

Gemini Pro在十大能力上测评中,知识百科表现较好,高出GPT4有7.40分。另外在逻辑与推理、语言理解与抽取、工具使用三个能力上有超过GPT3.5的表现,其余6项能力均低于GPT3.5。
其中,生成与创作和安全能力的表现与其他国外代表模型差距较大。

与国内第一梯队大模型相比,Gemini Pro在计算能力上略高于国内第一梯队平均水平,其余9项基础能力均落后。其中,在代码、生成创作、安全能力上与国内第一梯队平均水平有较大差距。

小结


从评测结果我们发现,Gemini Pro在综合能力上表现与GPT4差距较大,与国内第一梯队平均水平也有一定差距。在部分能力上与GPT3.5-Turbo较为接近。其中,知识百科表现较好,生成与创作、安全能力还有很大的优化空间。
2  定性分析
通过一些典型示例,对比定性分析Gemini Pro的特点。
(建议:在电脑端查看获得更好体验)

维度一:专业技能与知识

能力1:计算


能力2:代码

能力3:逻辑与推理能力4:知识与百科


维度二:语言理解与生成能力5:语言理解与抽取能力6:上下文对话能力7:生成与创作

能力8:角色扮演

维度三:AI智能体能力9:工具使用

维度四:安全

能力10:传统安全



小结


从定性分析的示例中我们可以发现,Gemini Pro在有些能力上表现与GPT3.5持平,有些能力上表现不如GPT3.5,在知识百科能力上优于GPT3.5。

更多模型测评信息,请加入SuperCLUE-Gemini交流群。
延伸阅读:技术报告:SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark,https://arxiv.org/abs/2307.15020

SuperCLUE排行榜:https://www.superclueai.com

CLUE官网地址:https://www.cluebenchmarks.com

GitHub地址:https://github.com/CLUEbenchmark/SuperCLUE
   点击阅读原文,查看SuperCLUE排行榜
继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存