查看原文
其他

国内大模型竞争加剧!百川智能「Baichuan4」全网首测,以总分80.64刷新SuperCLUE中文基准

SuperCLUE CLUE中文语言理解测评基准
2024-09-05

本测评结果仅用于学术研究。

据悉,百川智能于5月22日正式发布Baichuan4。SuperCLUE团队于5月19日受百川智能官方邀请,对Baichuan4SuperCLUE通用大模型综合性中文测评基准上,进行了全方位综合性测评。

Baichuan4体验地址:

https://www.baichuan-ai.com/(已官方更新为准)

测评环境

参考标准:SuperCLUE综合性测评标准

评测模型:Baichuan4(官方于5月19日提供的内测API版本)


评测集:SuperCLUE综合性测评基准4月评测集,2194道多轮简答题,包括计算、逻辑推理、代码、长文本在内的基础十大任务。


模型GenerationConfig配置:

  • temperature=0.3

  • repetition_penalty=1.05

  • top_p=0.85

  • max_new_tokens=2048

  • stream=false


测评方法:

本次测评为自动化评测,具体评测方案可点击查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。

先说结论
结论1:国内最佳成绩
SuperCLUE综合基准上的评测中,Baichuan4以总得分80.64分刷新了国内记录。不仅如此,它在中文综合能力测试中以1.51分的领先优势超过了GPT-4-Turbo-0125,展现了其在大模型方面的强大实力。
结论2:分类任务表现分析

理科表现:在理科领域,Baichuan4虽然以国内最佳成绩领先,但与GPT-4-Turbo-0125相比还有4.23分的差距,显示出进一步优化的空间。

文科表现:在文科任务中,Baichuan4以83.13分的高分不仅领先国内,也是国际上的最高分,比GPT-4-Turbo-0125高出5.33分,验证了其在文科领域的卓越能力。

结论3:全面而均衡的能力展示

Baichuan4在多个领域展示了其均衡的能力,特别是在知识百科、长文本理解、工具使用、语义理解和创意生成等方面处于领先地位。这使得Baichuan4非常适合应用于知识运用、智能体、内容创作和长程对话等多种场景。然而,它在代码能力方面仍有提升的潜力。

对比模型数据来源:SuperCLUE, 2024年4月30日

以下是我们从定量和定性两个角度对模型进行的测评分析。

测评分析
1  定量分析
在SuperCLUE测评中,Baichuan4总体表现如下:
Baichuan4总体表现

注:对比模型数据均来源于SuperCLUE,Baichuan4为5月19日测试结果,SenseChat V5和Yi-Large取自2024年5月11日,其余所有模型取自2024年4月30日。由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距0.25分区间的模型定义为并列,以上排序不代表实际排名。

在SuperCLUE通用综合测评基准上,Baichuan4取得80.64分,表现出色,刷新了国内大模型的最好成绩。并且,Baichuan4在中文综合能力上较GPT-4-Turbo-0125高1.51分。

Baichuan4在理科任务上的表现

对比模型数据来源:SuperCLUE

Baichuan4在理科任务上表现不俗,取得76.90分,国内模型中排名第一,略高于SenseChat V5,较GPT-4-Turbo-0125低4.23分,还有一定提升空间。其中,逻辑推理(74.4)、工具使用(80.8)均刷新国内最好成绩;在代码能力上还有一定优化空间。

Baichuan4在文科任务上的表现

对比模型数据来源:SuperCLUE
Baichuan4在文科任务上表现出色,取得83.12的高分,国内外模型中排名第一,较GPT-4-Turbo-0125高5.33分。其中,知识百科(89.8)、长文本(80.8)、生成创作(83.4)、传统安全(90.2)均刷新国内最好成绩;
对比数据来源:SuperCLUE, 2024年4月30日

将Baichuan4与国内大模型平均得分对比,我们可以发现,Baichuan4在所有能力上均高于平均线,展现出较均衡的综合能力。尤其在逻辑推理(+18.64)、代码(+18.89)、长文本(+20.77)能力上远高出平均线15分以上。

Baichuan4与国外代表模型对比

将Baichuan4与国外代表大模型对比,Baichuan4在文科类中文任务上好于国外大模型,尤其在知识百科、长文本、生成创作能力较为领先。在理科如计算、逻辑推理、代码能力上与GPT-4-Turbo-0125还有一定提升空间。

Baichuan4与Baichuan3对比

对比数据来源:SuperCLUE, 2024年4月30日

将Baichuan4与Baichuan3对比,Baichuan4在绝大部分能力上有一定提升。其中,计算(+5)、逻辑推理(+5.8)、逻辑推理(+5.8)、工具使用(+6.4)、知识百科(+7.8)、长文本(+16.2)、角色扮演(+5.2)、语义理解(+7.2)、生成创作(+12.0)、传统安全(+9.8)任务上均有超过5分的提升。在代码能力上有2.2分的下降,是后续可以优化的方向之一。

小结


从评测结果我们发现,Baichuan4综合能力上表现不俗,在总分上刷新了国内外最好成绩,其中文科任务上有超过GPT-4 Turbo的表现,理科任务上刷新国内最好成绩,与GPT-4 Turbo还有一定距离。
2  定性分析
通过一些典型示例,对比定性分析Baichuan4的特点。
(建议:在电脑端查看获得更好体验)
示例1:长文本示例2:逻辑推理


示例3:知识百科


测评局限性

1.随着国内外大模型的技术和应用进展,当前通用测评中的任务维度还存在继续优化空间。

2.自动化评估方式,虽然已经与人类评估有较高一致性,但仍然存在一定波动,需要继续提升量化模型性能的方法。

3.在目前的评估框架中,我们主要关注大模型效果表现,未能探讨其核心技术的来源和质量。未来,会持续尝试多种方式并探索深层次的大模型测评方法。

更多Baichuan4模型的测评信息,请加入SuperCLUE Baichuan4交流群。

扩展阅读

[1] SuperCLUE在线完整4月报告地址(可下载):

www.cluebenchmarks.com/superclue_2404

[2] CLUE官网:www.CLUEBenchmarks.com

[3] SuperCLUE排行榜网站:www.superclueai.com

[4] Github地址:https://github.com/CLUEbenchmark/SuperCLUE

   点击阅读原文,查看SuperCLUE排行榜
继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存