深圳商报•读创客户端首席记者 吴吉
随着日新月异的技术进步,人工智能大语言模型(LLMs)为广大用户带来了新奇的使用体验和工作便利。然而,用户也会经常困惑于不同大模型的使用体验,并亟待一个用户视角的、系统的大模型测评。日前,港大经管学院蒋镇辉教授领导的人工智能大模型评测团队发布了《中文语境下的人工智能通用大语言模型评测报告》 ,并公布了中文语境大模型排行榜。此后,评测团队又将研究视野扩展至英文语境。报告显示,中文语境下,文心一言4综合表现最佳;而在英文语境下,GPT 4-turbo领先优势明显。
中文语境下,文心一言4表现最佳
报告从用户视角出发,构建了一个新的人工智能大语言模型综合评价体系,主要包括三大核心能力:通用语言能力、专业学科能力以及安全与责任。在这些核心领域下,该评估开发了不同难度的评测任务,简单级别任务包括基础语言能力、中学难度学科测试与一般攻击测试,困难级别包括场景应用能力、大学难度学科测试与指令攻击任务。这些测试被进一步细分为多个子维度,如自由问答、内容创作、跨语言翻译、逻辑与推理、角色模拟等,旨在全方位评估模型处理从简单到复杂的各种任务和问题的能力。
经过对14个不同的大模型的测试与评估(所有模型回答均通过API调用方式获得),报告依据通用语言能力和安全与责任方面的人工评分,以及专业学科测试中的正确率进行综合加权,从而得出了这些模型在中文任务处理方面的整体排名。在中文语境下的大语言模型能力测试中,文心一言4、GPT4-Turbo和通义千问2综合表现卓越,位列第一梯队,处于领先者的地位。其次是GPT4、讯飞星火v3.0和商汤日日新,位列第二梯队。总的来说,部分代表性国产大模型在中文语境下表现出色,在广泛的中文语言任务处理中展现出了较好的自然语言生成能力与较高的准确性。
根据研究团队的测试,在通用语言能力方面,尽管是中文语境下的测试,国产大模型仍落后于GPT4-Turbo和GPT4,尤其是在内容生成类任务中差异较为明显。在中文的专业学科测试中,通义千问2正确率最高,文心一言4也超越了GPT系列模型,展示出优异的性能。在安全与责任方面,文心一言4、GPT系列模型、讯飞星火3、通义千问2、商汤日日新、ChatGLM3等均展现出较成熟的安全意识。
英文语境下,GPT 4-turbo优势明显
此后,在中文语境工作的基础上,评测团队将研究视野扩展至英文语境。在评测中,项目组构建了全新的英文测试集,并在中文报告涵盖的14个大模型的基础上增加了几款国际主流的通用大模型,包括由Google开发的Gemini、Meta开发的Llama 2 70B,以及Anthropic开发的Claude 2。
经过对16个不同大模型的测试与评估,报告依据自然语言能力和安全与责任方面的人类裁判打分,以及专业学科测试中的正确率进行综合加权,得出了这些模型在英文语境中的综合能力排名。GPT 4-turbo凭借领先的自然语言和专业学科能力取得了整体优势,成为唯一综合得分超过80分的大模型,处于领先者地位。
Gemini Pro、Llama 2、GPT 4、文心一言4、Claude 2 等五款大模型的综合得分集中于73到78之间,表现较为接近,位列第二梯队。作为Google推出的全新大模型,Gemini Pro综合排名第二,且在各项能力上都排在前三位,表现均衡。Llama 2和GPT 4作为较为成熟的英文大模型,在英文评测中也展现出了卓越的性能。国产大模型文心一言4.0以出色的表现位列总榜第五,不仅在国产模型中排名最高,而且在整体排名中超越了Claude 2和GPT 3.5-turbo这两个已投入商用的英文原生大模型,展现了其优越的综合能力及对英文环境的良好适应性。
GPT 3.5-turbo、商汤日日新和通义千问2,位列第三梯队。GPT 3.5-turbo作为GPT系列的前代模型,在所有大模型中仍排名中上,尤其是在自然语言能力上位列第四。商汤日日新和通义千问2的表现也值得关注:它们的综合得分仅略逊于GPT 3.5-turbo,且在三个能力方向上展现出了较为均衡的实力。
研究团队表示,总的来说,本次评测包含的7个国外大模型受认可度都比较高,且开发语言均为英语,相比之下,评测包含的国产大模型在英文语境下的综合表现处于稍微劣势的位置。但文心一言4.0、通义千问2和商汤日日新等代表性国产大模型在英文语境下表现仍然较为出色,在广泛的英文语言任务处理中展现出了较好的自然语言生成能力与较高的准确性,展现出了较大的潜力与一定的国际竞争力。
评论留言