谁是最强“AI记者”？每日经济***大年夜模型评测申报（第1期）宣告_模子_消息

2024-12-19 09:16:08 AI简讯

那么，面对“百模大战”，面对市情上数量浩瀚的大模型，媒体行业事情者或内容创作者，究竟该如何选择大模型？在内容创作的特定场景选择哪个大模型？

谁是最强“AI记者”？每日经济新闻大年夜模型评测申报（第1期）宣告_模子_消息 AI简讯

面对上述困惑，近期，由30余位逐日经济***精良、编辑和子公司每经科技工程师组建的 “逐日经济***大模型评测小组”，对市场上主流大模型在财经***事情场景中的表现与能力进行了历时2个月深入评测，并推出《逐日经济***大模型评测报告》（第一期）。

《逐日经济***大模型评测报告》（第一期）显示，国产大模型正在全面赶超外洋大模型，零一万物 Yi-Large成为最大“黑马”，在“财经***标题创作”“微博***写作”“文章差错校正”“财务数据打算与剖析”四大运用处景的总分排名第一。
幻方求索DeepSeek-V2、百川智能Baichuan4则在“财务数据打算与剖析”场景显示出强大的数据打算和剖析能力。
而一贯备受各界推崇的GPT 4.0在本次评测中表现不佳，乃至在“财经***标题创作”场景中排名垫底。

逐日经济***作为中国主流财经媒体，早在2020年就提出 “AI化+***化”的科技智媒转型计策，陆续推出每经AI快讯系统，每经AI电视，雨燕智宣——AI短***自动天生平台，智能媒资库等一系列AI产品，赢得市场赞誉。
同时，在天生式AI爆发后，每经浩瀚采编职员深耕大模型领域，呈现了30余位精良的提示工程师和技能工程师。
专业的财经***采编能力与不断深耕的AI技能能力，为大模型评测供应了坚实保障。

后续，“逐日经济***大模型评测小组”将环绕更多的大模型运用处景，定期发布大模型评测报告。

⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

《逐日经济***大模型评测报告》目的，是关注企业和个人用户的实际需求，通过评测大模型在实际运用处景中的表现，进而帮助用户在事情、学习、生活等场景中，找到最得当的大模型工具，提升效率。

对此，“逐日经济***大模型评测小组”选取了GPT 4.0，百度文心，月之暗面等15款市场主流的国内外大模型，环绕“财经***标题创作”“微博***写作”“文章差错校正”“财务数据打算与剖析”四个财经***的紧张运用处景，进行第一期测评。
评测均通过各款大模型API端口，在每经科技自主开拓的“雨燕智宣AI创作+”大模型测试台上进行。
评测结果出来后，由15位逐日经济***资深和编辑进行严格的人工核准、评分和排名。

评测结果显示，零一万物 Yi-Large成为“黑马”，总分排名第一。
Anthropic Claude 3 Opus和幻方求索DeepSeek-V2分居第二、第三。
各个大模型在不同场景和不同任务中的表现差异明显。
GPT 4.0的表现令人意外，仅名列倒数第五。

报告完全版以及测评题目，评分指标细则及部分案例，可访问：逐日经济***大模型评测报告（第1期）

结论一：国产大模型正全面赶超

国产大模型正逐渐展现出其竞争力。
与国外大模型比较，它们在多个任务上的表现已经显示出赶超之势。

国产大模型在多个测试场景中排名靠前。
商汤商量SenseChat-5三次霸占前五席位，两次击败谷歌Gemini 1.5 Pro。
在国外模型中，Anthropic Claude 3 Opus同样在三个测评场景中排名前五，谷歌Gemini 1.5 Pro在“财经***标题创作”和“文章差错校正”两个场景中排名第一。
令人意外的是，一贯备受各界推崇的GPT 4.0却在本次评测中整体表现不佳，在每个场景中都未能斩获前五名，乃至在“财经***标题创作”中排名垫底。

“财经***标题创作”场景中，商汤商量SenseChat-5、字节豆包Doubao-pro-32k和百度ERNIE 4.0等，在信息提炼准确和主要***点突出方面与谷歌的Gemini 1.5 Pro不相上下。

“微博***写作”场景中，百度文心ERNIE 4.0、商汤SenseChat-5等模型的总分与国外模型Anthropic Claude 3 Opus并列第一。

“文章差错校正”场景中，零一万物 Yi-Large是唯一一款得分超过100分的国产大模型。
国产大模型比国外大模型更能理解汉语句式和表达规范。
但在查找并修正错别字、标点利用不当、数字和量词缺点、事实和信息缺点等哀求更精准的任务方面，还有提升空间。

“财务数据打算和剖析”场景中，Anthropic Claude 3 Opus总分虽领先，但对幻方求索DeepSeek-V2和零一万物Yi-Large的上风并不大。
尤其是幻方求索DeepSeek-V2成为此场景评测中一匹“黑马”，其“财务数据剖析”能力突出。

结论二：大模型各有专长

不同模型在特定场景、特定维度、特定指标上的表现差异显著。
表示了它们在各自领域的专长。

例如，谷歌Gemini 1.5 Pro在“财经***标题创作”和“文章差错校正”两大场景中排名第一。
在“微博***写作”场景中，该模型整体排名靠后。

Anthropic Claude 3 Opus、幻方求索DeepSeek-V2、百川智能Baichuan4则显示出了强大的数据打算能力。

结论三：在跨措辞环境下差异明显

以“微博***写作”场景为例，百度文心ERNIE 4.0、商汤商量SenseChat-5与Anthropic Claude 3 Opus并列第一。
这反响了国产大模型在微博这一海内社交媒体场景下的卓越表现。
国产大模型更能够准确把握微博用户的内容偏好和互换办法，天生符合平台特性和用户期待的微博文案。

比较之下，谷歌Gemini 1.5 Pro在微博写作的运营维度上得分为0，可能源于其对微博平台特性和用户行为的不熟习。

在中文语境之下，GPT 4.0在全部4个场景中的排名均不理想。
这一征象突显了大模型在跨措辞和文化环境中的适应性问题，也表明了国产大模型在本土化运用上具有天然上风。

结论四：信息提取能力参差不齐

从文章中准确提取关键信息，是对大模型能力的一项关键寻衅。
本期评测中“文章差错校正”场景正包含了对这一能力的测试。

谷歌Gemini 1.5 Pro凭借其在错别字、标点利用不当、数字和量词缺点、事实和信息缺点的查找和纠错方面与其他大模型拉开了差距。

比较之下，零一万物Yi-Large在病句查找和纠错方面则位居首位，本可以寻衅谷歌Gemini 1.5 Pro，但在缺点查找方面的表现拖了后腿。

大模型信息提取能力的差异可能与模型的演习数据、算法设计以及对措辞细微差别的捕捉能力有关。
增强大模型的信息提取能力，可以提高其天生结果的准确度，更能让大模型适用于对准确性哀求极高的***事情。

逐日经济***大模型评测小组2024年6月

⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

接下来，“逐日经济***大模型评测小组”将连续深入探索大模型的无限可能，从实际运用处景出发，对各个大模型进行全方位的评测，并定期推出专业报告，带来最前沿的洞察和创造。

在此，我们诚挚地约请您，加入评测项目。

如果您是研发企业，想要展示自家大模型的实力，与其他大模型进行比拼，请将参评大模型的详细信息发送至我们的邮箱：damoxing@nbd.com.cn。