2023中国通用大模型内容生成及安全性能力评测报告
摘要:根据报告显示,中国已经发布了79个大模型,与美国共同占据全球80%的大模型数量。这显示出中国在大模型领域取得了显著成就。然而,随着技术的发展,大模型也面临新的安全挑战。因此,要确保人工智能技术持续健康发展,需要将技术引导进入合规的范畴。
报告将大模型评测分为6个维度、27个细化指标,包括基础服务能力、交互响应能力、理解创作能力、深度推理能力、专业领域能力和安全体系能力。其中,国产通用大模型在基础服务能力、交互响应能力和理解创作能力方面展现出了与GPT3.5不相上下的实力。这表明中国本土通用大模型的能力正在显著提升,已经初步形成了不同的能力梯队。
特别值得关注的是,中国通用大模型在安全体系能力方面已经拉开了与GPT3.5的差距。对于明确的违法问题,国产模型能够准确识别并执行相关任务;对于存在争议的内容,模型能客观持中地给出相关信息;对于逻辑复杂且存在诱导性的任务,模型能够基于社会主义价值观针对性地做出正确指引。这显示出中国大模型在安全性方面具备了更强大的能力。
然而,在深度推理能力和专业领域能力方面,评测的所有通用大模型都还存在优化空间。一些模型的回馈信息中包含大量无效或缺乏实践证明的说辞,也存在知识更新不及时、归纳能力不足等问题。这为我们看到了进一步改进和提升的方向。
来源:TE智库
报告内容文琳编辑
免责声明:转载内容仅供读者参考,观点仅代表作者本人,不构成投资意见,也不代表本平台立场。若文章涉及版权问题,敬请原作者添加 wenlin-swl 微信联系删除。
为便于研究人员查找相关行业研究报告,特将2018年以来各期文章汇总。欢迎点击下面红色字体查阅!
▼长按2秒识别二维码关注我们
《文琳资讯》
提供每日最新财经资讯,判断经济形势,做有价值的传播者。欢迎关注
今日导读:点击下面链接可查阅
▼长按2秒识别二维码关注我们