那么,面对“百模大战”,面对市情上数量浩瀚的大模型,媒体行业事情者或内容创作者,究竟该如何选择大模型?在内容创作的特定场景选择哪个大模型?

谁是最强“AI记者”?每日经济新闻大年夜模型评测申报(第1期)宣告_模子_消息 AI简讯

面对上述困惑,近期,由30余位逐日经济***精良、编辑和子公司每经科技工程师组建的 “逐日经济***大模型评测小组”,对市场上主流大模型在财经***事情场景中的表现与能力进行了历时2个月深入评测,并推出《逐日经济***大模型评测报告》(第一期)。

《逐日经济***大模型评测报告》(第一期)显示,国产大模型正在全面赶超外洋大模型,零一万物 Yi-Large成为最大“黑马”,在“财经***标题创作”“微博***写作”“文章差错校正”“财务数据打算与剖析”四大运用处景的总分排名第一。
幻方求索DeepSeek-V2、百川智能Baichuan4则在“财务数据打算与剖析”场景显示出强大的数据打算和剖析能力。
而一贯备受各界推崇的GPT 4.0在本次评测中表现不佳,乃至在“财经***标题创作”场景中排名垫底。

逐日经济***作为中国主流财经媒体,早在2020年就提出 “AI化+***化”的科技智媒转型计策,陆续推出每经AI快讯系统,每经AI电视,雨燕智宣——AI短***自动天生平台,智能媒资库等一系列AI产品,赢得市场赞誉。
同时,在天生式AI爆发后,每经浩瀚采编职员深耕大模型领域,呈现了30余位精良的提示工程师和技能工程师。
专业的财经***采编能力与不断深耕的AI技能能力,为大模型评测供应了坚实保障。

后续,“逐日经济***大模型评测小组”将环绕更多的大模型运用处景,定期发布大模型评测报告。

⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

《逐日经济***大模型评测报告》目的,是关注企业和个人用户的实际需求,通过评测大模型在实际运用处景中的表现,进而帮助用户在事情、学习、生活等场景中,找到最得当的大模型工具,提升效率。

对此,“逐日经济***大模型评测小组”选取了GPT 4.0,百度文心,月之暗面等15款市场主流的国内外大模型,环绕“财经***标题创作”“微博***写作”“文章差错校正”“财务数据打算与剖析”四个财经***的紧张运用处景,进行第一期测评。
评测均通过各款大模型API端口,在每经科技自主开拓的“雨燕智宣AI创作+”大模型测试台上进行。
评测结果出来后,由15位逐日经济***资深和编辑进行严格的人工核准、评分和排名。

评测结果显示,零一万物 Yi-Large成为“黑马”,总分排名第一。
Anthropic Claude 3 Opus和幻方求索DeepSeek-V2分居第二、第三。
各个大模型在不同场景和不同任务中的表现差异明显。
GPT 4.0的表现令人意外,仅名列倒数第五。

报告完全版以及测评题目,评分指标细则及部分案例,可访问:逐日经济***大模型评测报告(第1期)

结论一:国产大模型正全面赶超

国产大模型正逐渐展现出其竞争力。
与国外大模型比较,它们在多个任务上的表现已经显示出赶超之势。

国产大模型在多个测试场景中排名靠前。
商汤商量SenseChat-5三次霸占前五席位,两次击败谷歌Gemini 1.5 Pro。
在国外模型中,Anthropic Claude 3 Opus同样在三个测评场景中排名前五,谷歌Gemini 1.5 Pro在“财经***标题创作”和“文章差错校正”两个场景中排名第一。
令人意外的是,一贯备受各界推崇的GPT 4.0却在本次评测中整体表现不佳,在每个场景中都未能斩获前五名,乃至在“财经***标题创作”中排名垫底。

“财经***标题创作”场景中,商汤商量SenseChat-5、字节豆包Doubao-pro-32k和百度ERNIE 4.0等,在信息提炼准确和主要***点突出方面与谷歌的Gemini 1.5 Pro不相上下。

“微博***写作”场景中,百度文心ERNIE 4.0、商汤SenseChat-5等模型的总分与国外模型Anthropic Claude 3 Opus并列第一。

“文章差错校正”场景中,零一万物 Yi-Large是唯一一款得分超过100分的国产大模型。
国产大模型比国外大模型更能理解汉语句式和表达规范。
但在查找并修正错别字、标点利用不当、数字和量词缺点、事实和信息缺点等哀求更精准的任务方面,还有提升空间。

“财务数据打算和剖析”场景中,Anthropic Claude 3 Opus总分虽领先,但对幻方求索DeepSeek-V2和零一万物Yi-Large的上风并不大。
尤其是幻方求索DeepSeek-V2成为此场景评测中一匹“黑马”,其“财务数据剖析”能力突出。

结论二:大模型各有专长

不同模型在特定场景、特定维度、特定指标上的表现差异显著。
表示了它们在各自领域的专长。

例如,谷歌Gemini 1.5 Pro在“财经***标题创作”和“文章差错校正”两大场景中排名第一。
在“微博***写作”场景中,该模型整体排名靠后。

Anthropic Claude 3 Opus、幻方求索DeepSeek-V2、百川智能Baichuan4则显示出了强大的数据打算能力。

结论三:在跨措辞环境下差异明显

以“微博***写作”场景为例,百度文心ERNIE 4.0、商汤商量SenseChat-5与Anthropic Claude 3 Opus并列第一。
这反响了国产大模型在微博这一海内社交媒体场景下的卓越表现。
国产大模型更能够准确把握微博用户的内容偏好和互换办法,天生符合平台特性和用户期待的微博文案。

比较之下,谷歌Gemini 1.5 Pro在微博写作的运营维度上得分为0,可能源于其对微博平台特性和用户行为的不熟习。

在中文语境之下,GPT 4.0在全部4个场景中的排名均不理想。
这一征象突显了大模型在跨措辞和文化环境中的适应性问题,也表明了国产大模型在本土化运用上具有天然上风。

结论四:信息提取能力参差不齐

从文章中准确提取关键信息,是对大模型能力的一项关键寻衅。
本期评测中“文章差错校正”场景正包含了对这一能力的测试。

谷歌Gemini 1.5 Pro凭借其在错别字、标点利用不当、数字和量词缺点、事实和信息缺点的查找和纠错方面与其他大模型拉开了差距。

比较之下,零一万物Yi-Large在病句查找和纠错方面则位居首位,本可以寻衅谷歌Gemini 1.5 Pro,但在缺点查找方面的表现拖了后腿。

大模型信息提取能力的差异可能与模型的演习数据、算法设计以及对措辞细微差别的捕捉能力有关。
增强大模型的信息提取能力,可以提高其天生结果的准确度,更能让大模型适用于对准确性哀求极高的***事情。

逐日经济***大模型评测小组2024年6月

⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

接下来,“逐日经济***大模型评测小组”将连续深入探索大模型的无限可能,从实际运用处景出发,对各个大模型进行全方位的评测,并定期推出专业报告,带来最前沿的洞察和创造。

在此,我们诚挚地约请您,加入评测项目。

如果您是研发企业,想要展示自家大模型的实力,与其他大模型进行比拼,请将参评大模型的详细信息发送至我们的邮箱:damoxing@nbd.com.cn。

如果您是大模型的利用者,请见告我们您希望在哪些场景中利用大模型,或者希望我们测试大模型的哪些能力。
打开逐日经济***App,在“个人中央”——“见地反馈”栏中留下您的想法和需求。

期待您的参与,共同探索大模型的无限可能。

逐日经济***