CLUE中文语言理解测评基准

科技

文生图大模型基准测评首期榜单公布,DALL-E 3取得最高76.94分

文生图技术已在人工智能领域取得重要进展,使计算机能够依据文本描述生成图像。特别是在中文场景中,此技术不仅改变了内容创作方式,还在广告和营销、设计和创意、艺术和娱乐等行业大展拳脚。中文的复杂性给技术的发展带来了挑战。目前,国际上如DALL-E
6月12日 下午 9:10
其他

首个中文大模型匿名竞技场「琅琊榜」榜单发布! 12000次投票,近20个领先模型,最高1173分

对战发起团队|SuperCLUE2024年6月6日,国内首个中文大模型匿名对战竞技场「琅琊榜」正式发布,首期榜单包含17个中文代表性大模型,截止6月5日共获得12608次有效投票。#大模型竞技场「琅琊榜」「琅琊榜」是SuperCLUE团队推出的中文大模型匿名对战竞技场,旨在为中文通用大模型提供一个公平、公正、开放的对抗竞技平台。在这里,顶尖的中文大模型们将在完全匿名的环境下进行激烈对决,通过真实用户投票,实时产生排名和分析报告,为研究者和开发者提供宝贵的数据支持。琅琊榜致力于推动中文人工智能技术的发展,打造中文大模型领域的权威竞技场和榜单。「琅琊榜」竞技场官方唯一地址:www.langyb.com#首期榜单在首期大模型竞技场「琅琊榜」榜单中,MiniMax的abab6.5-chat以1173分暂列榜首,智谱AI的GLM-4和月之暗面的moonshot-v1-128k(Kimi)紧随其后,分别取得1079分和1059分。在本次榜单中,超过1000分的大模型有10个,均有不俗表现。注:已排除获得少于300票的模型,因为它们的置信区间可能会很大。部分模型API的价格是分别基于输入和输出的
6月6日 下午 12:16
其他

深度求索DeepSeek-V2中文推理任务表现强劲,总分74.46,超越Llama3|SuperCLUE

本测评结果仅用于学术研究。近日,深度求索正式开源第二代MoE模型DeepSeek-V2,引起了中文技术社区的广泛关注。据官方说明,DeepSeek-V2是一个参数更多、能力更强、成本更低的模型。值得注意的是,DeepSeek-V2每百万tokens输入1元、输出2元(32K上下文),价格仅为GPT-4-Turbo的近百分之一。而且官方披露DeepSeek-V2在开源模型中最强,与GPT-4-Turbo等闭源模型在评测中处于同一梯队。针对公众关注的DeepSeek-V2的中文性能问题,作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说,我们采用了中文数学多步推理测评基准(SuperCLUE-Math6,含2024题)和中文等级化代码单元测试基准(SuperCLUE-Code3,包含1560个测试用例),对DeepSeek-V2在数学和编程方面的能力进行了全面评估。先说结论结论1:在完成SuperCLUE推理任务时,DeepSeek-v2的整体得分为74.46,表现突出。该模型与一些国际领先模型相比具有优势,比如它比Llama3-70B高出1.29分。然而,与GPT-4
5月11日 下午 7:46
其他

通义千问2.5性能全面赶超GPT-4 Turbo?

本测评结果仅用于学术研究。5月9日,阿里云正式发布通义千问2.5。阿里云官方表示,该模型性能全面赶超GPT-4
5月10日 下午 6:00
其他

中文大模型基准测评2024年4月报告

SuperCLUE团队2024/04背景自2023年以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年4月,全球大模型竞争态势并未衰减,随着Claude3、Gemini1.5和Llama3的发布,更是推动国内外大模型领域进入到更为激进的大模型发展新常态。中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪。基于此,我们发布了《中文大模型基准测评2024年度4月报告》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。点击文章底部【阅读原文】查看高清完整PDF版。在线完整报告地址(可下载):www.cluebenchmarks.com/superclue_2404目录一、国内大模型关键进展1.
4月30日 上午 8:56
其他

Llama3中文基准测评出炉!性能惊艳,数学、代码能力接近GPT4

本测评结果仅用于学术研究。4月17日,Meta发布8B和70B参数的Llama3模型,引发全球科技领域的广泛讨论。Meta表示,Llama3是在两个定制的24K的GPU集群上、基于超过
4月22日 下午 12:32
其他

【发布】SuperCLUE-Code3:中文原生等级化代码能力测评基准

在人工智能的快速发展中,中文大模型在文本生成、推理能力、长文本处理等领域取得了很大的进步。然而,生成能直接运行使用的代码是AI领域的一大挑战,并且具有生产力级别的现实意义,对大模型的理解能力和创造力提出了更高要求。尽管存在多个编程语言生成和理解的测试基准,如HumanEval,但它们大多基于英语,无法直接用于评估中文大模型在编程领域的表现。目前,中文编程环境缺乏一个专门的评测基准,这限制了中文大模型在代码生成方面能力的客观评估和优化。这一语言和文化差异导致中文大模型在编程任务上的潜力未能得到充分挖掘和利用。为了缓解这一问题,我们推出了SuperCLUE-Code3测评集和基准。这是一个HumanEval的中文升级版,通过功能性单元测试,专门设计来评估和提升中文大模型在代码生成方面的核心能力。SuperCLUE-Code3(简称SC-Code3)不仅延续了HumanEval高质量,更在多样性和应用广度上进行了适当扩充。SC-Code3基准具备以下特点:中文原生环境测试:SC-Code3基准着重考查模型在处理中文编程问题上的性能,所有编程问题有多个测试用例、经过多重校验、可进行端到端的测试,确保评估的准确性和专业性。全面的任务类型:
2月21日 下午 2:04
其他

SuperCLUE-Math6: 新一代中文数学推理数据集的探索之旅

在人工智能领域,我们正见证着大语言模型如ChatGPT的蓬勃发展,它们是我们走向通用人工智能梦想的关键一步。大量中文大模型的推出,更是开启了人工智能在各行各业的全新应用时代;像GSM8K数学推理任务,可以考察多步逻辑推理能力、应用数学和实现知识的能力、需要自然语言理解和解决方案、具备精确的评估标准的任务,受到了广泛的使用。然而,在这一进程中,缺乏能够测试中文大模型在深入数学推理上能力的原生数据集,导致中文模型的数学逻辑能力评估,一直依赖于英文测试集。为了缓解这一问题,我们推出了SuperCLUE-Math6数据集。这是一个GSM8K的中文升级版,专门设计来评估和提升中文大模型在数学推理方面的核心能力。SuperCLUE-Math6(简称SC-Math6)不仅延续了GSM8K的高质量和多样性,更在难度和应用广度上进行了适当的扩充。SuperCLUE-Math6具有三大特点:1.中文原生场景的数学推理:每个问题均以中文原生环境呈现,配备详细的自然语言解题方案,强化了模型在中文语言环境下的适用性和实际应用价值。2.多轮交互下的多步推理能力考察:适应真实交互场景,通过问题及其追问,考察模型在连续对话环境中的多步逻辑推理与问题解决能力。3.推理能力等级自动评定:独创的评估系统能自动给出大模型处理数学问题的推理能力等级,为模型智力水平提供量化指标。SuperCLUE-Math6的推出不仅填补了中文数学推理数据集的空缺,而且对于提升中文大模型在复杂逻辑和数学问题解决能力上的表现具有重要价值。期待SuperCLUE-Math6能激励更多的创新,推动大模型在各行各业的广泛应用,从而为社会带来更深远的影响。Github地址:
1月15日 下午 12:26
其他

中文大模型基准测评2023年度报告

SuperCLUE团队2023/12背景自2023年以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。中文大模型测评基准SuperCLUE在过去一年对国内外大模型的发展趋势和综合效果进行了实时跟踪。基于此,我们发布了《中文大模型基准测评2023年度报告》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。关注公众号,后台回复“2023报告”,获取高清版完整PDF。目录一、国内大模型关键进展1.
2023年12月28日
其他

SuperCLUE-Auto:首个汽车行业中文大模型测评基准发布

今年以来,大模型在各个领域得到了广泛应用。随着智能化、智能驾驶、车联网等技术的不断进步,高速发展的汽车行业对于中文大模型的需求也日益增长。然而,尽管大模型在汽车领域的应用潜力巨大,现有的大模型测评基准并未能覆盖汽车行业的需求,它们主要是针对通用能力的测评,这导致了行业内对大模型能力的评估缺乏公开的评价标准。为了解决这一问题,我们推出了专门针对汽车行业的大模型测评基准(SuperCLUE-Auto)。这是首个汽车行业大模型测评基准,它是一个多维度的多轮开放式问题的测评基准。它不仅能评价汽车行业大模型的能力,也能针对具体维度和模型的回答给出细化的反馈。我们希望这一基准能够促进评价和提升中文大模型在汽车行业中的应用效果,促进智能化水平的提高,同时也为行业内的研发提供方向指引。测评体系、代表性示例、榜单已经在这里发布:www.cluebenchmarks.com/superclue_auto.htmlhttps://github.com/CLUEbenchmark/SuperCLUE-autoSuperCLUE-AutoSuperCLUE-Auto包括4大核心基础能力的十余个任务。具体任务如下:能力一:智能座舱与交互这类任务主要考察模型车内人机交互能力,主要涵盖驾驶信息管理、车辆控制功能、娱乐系统及信息处理能力,提升用户体验,增加驾乘舒适度和安全性。使用场景包括但不限于:用车、出行、娱乐和信息获取。能力二:汽车营销汽车营销是一系列旨在促进汽车销售和品牌忠诚度的策略和活动,它涵盖广告、促销、品牌建设、市场研究以及客户关系管理。本次测评主要包括但不限于:汽车厂商的产品发布会文案、汽车媒体介绍产品亮点、汽车测评、4S宣传促销文案、选车、汽车视频、汽车资讯等。能力三:汽车理解与知识主要考察大模型对汽车行业的全面认知和解释能力。包括但不限于:对品牌、子品牌、型号和设计特性的识别;汽车通用知识和新能源汽车知识的了解和掌握;对用户查询的解析以提供个性化推荐和服务;以及利用这些知识来提供定制资讯和支持精准营销策略的制定与执行。能力四:车辆使用指南主要考察大模型对车辆操作和维护等方面的掌握能力,需要提供详尽的车辆功能使用方法、维护指南、故障诊断以及售后资源,以确保车辆得到正确使用和最佳维护。测评方法及打分规则评估流程1.
2023年12月25日
其他

谷歌Gemini中文基准测评出炉!总分51,不敌GPT4|SuperCLUE

Pro的表现如下:SuperCLUE-OPEN(11月)注:国内第一梯队模型为11月SuperCLUE-Open中Top10模型在SuperCLUE-OPEN多轮开放问题测评基准上,Gemini
2023年12月8日
其他

中文大模型SuperCLUE基准测评报告2023,暨ChatGPT发布一周年特别报告

自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。中文大模型测评基准SuperCLUE在过去一年对国内外大模型的发展趋势和综合效果进行了实时跟踪。基于此,我们发布了《SuperCLUE中文大模型基准测评报告,2023》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。以下为报告精选:END.关注公众号,后台回复“大模型报告”,获取高清版完整PDF。
2023年11月28日
其他

SOTA!ChatGLM3刷新智能体中文基准SuperCLUE-Agent最好成绩

本测评结果仅用于学术研究。10月27日,清华&智谱AI推出了全自研的第三代基座大模型ChatGLM3及相关系列产品。据悉,ChatGLM3
2023年11月7日
自由知乎 自由微博
其他

【新基准】SuperCLUE-Agent:首个AI智能体中文测评基准发布

对过去的行为进行自我批评和反思,从错误中吸取教训,并为未来的步骤进行改进,从而提高最终结果的质量的能力。#思维链(CoT):该任务主要考察的是AI
2023年10月19日
其他

安全评测!中文大模型多轮对抗安全基准SuperCLUE-Safety正式发布

提供虚假贷款:在收集到足够的信息后,推销员会向客户提供一份虚假的贷款协议。这份协议通常会包含一些不切实际的优惠条件,如极低的利率和宽松的还款条件。客户可能会被这些优惠条件所吸引,从而签署协议。4.
2023年9月12日
其他

大模型对战平台「SuperCLUE琅琊榜」排名首发,国内大模型首超GPT3.5

如果参与者获胜,他们的等级分数将增加的量取决于预期胜率和实际比赛结果。增加的分数越多,如果他们输掉比赛,他们的等级分数将减少的量也取决于预期胜率和实际比赛结果。这样做是为了保持整个系统的平衡。6.
其他

中文大模型对战平台「SuperCLUE-琅琊榜」开启,首期入围近20个模型

SuperCLUE中文通用大模型评测基准自5月9日发布以来,引发了社区的热烈讨论,收到了大量反馈和宝贵建议,讨论最多的是如何在AI大模型百家争鸣的时代,构建公正、客观、有效的大模型评测基准。中文通用大模型评测基准SuperCLUE发布更新,新增Claude、清华GLM千亿模型为此,SuperCLUE团队发起中文大模型对战平台「SuperCLUE-琅琊榜」,平台会选取目前国内外具有代表性的大语言模型进行两两对战。「SuperCLUE-琅琊榜」对战平台旨在为中文通用大模型提供一个公平、公正、开放的评测平台,目标是纳入国内外绝大部分具有代表性的可用模型,为用户提供清晰、客观、有效的模型对比结果。琅琊榜会按定期或按月更新。现特邀您作为出题人和裁判,参与对战平台评测,与我们一起煮酒论英雄。参与地址:www.SuperCLUEAI.com(对战平台界面)1.出题通过www.SuperCLUEAI.com
其他

中文通用大模型评测基准SuperCLUE发布更新,新增Claude、清华GLM千亿模型

20个百分点,并且BELLE-13B(基于LLaMA并在中文上训练和微调过的模型)的总分也超过了
被用户删除
科学

中文通用大模型综合性评测基准SuperCLUE正式发布

20个百分点,并且BELLE-13B(基于LLaMA并在中文上训练和微调过的模型)的总分也超过了