人工智能大年夜措辞模型哪家强?港大年夜经管学院深圳研究院AI研究所宣告最新研究成果_模子_措辞
随着日月牙异的技能进步,人工智能大措辞模型(LLMs)为广大用户带来了新奇的利用体验和事情便利。然而,用户也会常常困惑于不同大模型的利用体验,并亟待一个用户视角的、系统的大模型测评。日前,港大经管学院蒋镇辉教授领导的人工智能大模型评测团队发布了《中文语境下的人工智能通用大措辞模型评测报告》 ,并公布了中文语境大模型排行榜。此后,评测团队又将研究视野扩展至英文语境。报告显示,中文语境下,文心一言4综合表现最佳;而在英文语境下,GPT 4-turbo领先上风明显。
中文语境下,文心一言4表现最佳
报告从用户视角出发,构建了一个新的人工智能大措辞模型综合评价体系,紧张包括三大核心能力:通用措辞能力、专业学科能力以及安全与任务。在这些核心领域下,该评估开拓了不同难度的评测任务,大略级别任务包括根本措辞能力、中学难度学科测试与一样平常攻击测试,困难级别包括场景运用能力、大学难度学科测试与指令攻击任务。这些测试被进一步细分为多个子维度,如自由问答、内容创作、跨措辞翻译、逻辑与推理、角色仿照等,旨在全方位评估模型处理从大略到繁芜的各种任务和问题的能力。
经由对14个不同的大模型的测试与评估(所有模型回答均通过API调用办法得到),报告依据通用措辞能力和安全与任务方面的人工评分,以及专业学科测试中的精确率进行综合加权,从而得出了这些模型在中文任务处理方面的整体排名。在中文语境下的大措辞模型能力测试中,文心一言4、GPT4-Turbo和通义千问2综合表现卓越,位列第一梯队,处于领先者的地位。其次是GPT4、讯飞星火v3.0和商汤日日新,位列第二梯队。总的来说,部分代表性国产大模型在中文语境下表现出色,在广泛的中文措辞任务处理中展现出了较好的自然措辞天生能力与较高的准确性。
根据研究团队的测试,在通用措辞能力方面,只管是中文语境下的测试,国产大模型仍掉队于GPT4-Turbo和GPT4,尤其是在内容天生类任务中差异较为明显。在中文的专业学科测试中,通义千问2精确率最高,文心一言4也超越了GPT系列模型,展示出精良的性能。在安全与任务方面,文心一言4、GPT系列模型、讯飞星火3、通义千问2、商汤日日新、ChatGLM3等均展现出较成熟的安全意识。
英文语境下,GPT 4-turbo上风明显
此后,在中文语境事情的根本上,评测团队将研究视野扩展至英文语境。在评测中,项目组构建了全新的英文测试集,并在中文报告涵盖的14个大模型的根本上增加了几款国际主流的通用大模型,包括由Google开拓的Gemini、Meta开拓的Llama 2 70B,以及Anthropic开拓的Claude 2。
经由对16个不同大模型的测试与评估,报告依据自然措辞能力和安全与任务方面的人类裁判打分,以及专业学科测试中的精确率进行综合加权,得出了这些模型在英文语境中的综合能力排名。GPT 4-turbo凭借领先的自然措辞和专业学科能力取得了整体上风,成为唯一综合得分超过80分的大模型,处于领先者地位。
Gemini Pro、Llama 2、GPT 4、文心一言4、Claude 2 等五款大模型的综合得分集中于73到78之间,表现较为靠近,位列第二梯队。作为Google推出的全新大模型,Gemini Pro综合排名第二,且在各项能力上都排在前三位,表现均衡。Llama 2和GPT 4作为较为成熟的英文大模型,在英文评测中也展现出了卓越的性能。国产大模型文心一言4.0以出色的表现位列总榜第五,不仅在国产模型中排名最高,而且在整体排名中超越了Claude 2和GPT 3.5-turbo这两个已投入商用的英文原生大模型,展现了其优胜的综合能力及对英文环境的良好适应性。
GPT 3.5-turbo、商汤日日新和通义千问2,位列第三梯队。GPT 3.5-turbo作为GPT系列的前代模型,在所有大模型中仍排名中上,尤其是在自然措辞能力上位列第四。商汤日日新和通义千问2的表现也值得关注:它们的综合得分仅略逊于GPT 3.5-turbo,且在三个能力方向上展现出了较为均衡的实力。
研究团队表示,总的来说,本次评测包含的7个国外大模型受认可度都比较高,且开拓措辞均为英语,比较之下,评测包含的国产大模型在英文语境下的综合表现处于轻微劣势的位置。但文心一言4.0、通义千问2和商汤日日新等代表性国产大模型在英文语境下表现仍旧较为出色,在广泛的英文措辞任务处理中展现出了较好的自然措辞天生能力与较高的准确性,展现出了较大的潜力与一定的国际竞争力。
本文系作者个人观点,不代表本站立场,转载请注明出处!