1月17日,诗人·浦语2.0(InternLM2)发布会暨诗人·浦源大模型寻衅赛启动仪式在上海举行。
上海人工智能实验室与商汤科技联合喷鼻香港中文大学和复旦大学正式发布新一代大措辞模型书⽣·浦语2.0。

上海AI实验室诗人·浦语2.0正式开源回归措辞建模本质_模子_才能 绘影字幕

InternLM2是在2.6万亿token的高质量语料上演习得到的。
沿袭第一代诗人·浦语(InternLM)的设定,InternLM2包含7B及20B两种参数规格及基座、对话等版本,知足不同繁芜运用处景需求。
秉持“以高质量开源赋能创新”理念,上海人工智能实验室连续供应InternLM2免费商用授权。

InternLM2的核心理念在于回归措辞建模的实质,致力于通过提高语料质量及信息密度,实现模型基座措辞建模能力得到质的提升,进而在数理、代码、对话、创作等各方面都取得长足进步,综合性能达到同量级开源模型的领先水平。

为促进AI生态发展,推动大模型在各行业的运用落地,诗人·浦源大模型寻衅赛同日启动。
赛事由上海市经济和信息化委员会、上海市科学技能委员会、徐汇区公民政府共同辅导,上海人工智能实验室主理,上海市人工智能行业协会承办,首期赛事包含行业运用和创新创意两个赛道,即日起面向环球进行场景和赛队征集。

回归措辞建模实质,支持200K超长高下文

大模型运用生态的发展和繁荣建立在模型基座强大的通用根本能力之上。
上海人工智能实验室联合团队研究认为,大模型各项性能提升的根本在于措辞建模能力的增强,对付大模型的研究应回归措辞建模实质,通过更高质量的语料以及更高的信息密度,筑牢大模型能力根本。

为此,联合团队提出新一代数据洗濯过滤技能,包括多维度数据代价评估,即基于措辞质量、信息密度等维度对数据代价进行综合评估与提升;高质量语料驱动的数据富集,即利用高质量语料的特色从物理天下、互联网以及语料库中进一步富集类似语料;针对性的数据补齐,即针对性补充语料,重点加强现实天下知识、数理、代码等核心能力。
上海人工智能实验室表示,目前InternLM背后的数据洗濯过滤技能已经历三轮迭代升级,仅利用约60%的演习数据即可达到利用第二代数据演习1T token的性能表现,模型演习效率大幅提升。

长语境输入及理解能力能显著拓展大模型的运用处景,比如支持大型文档的处理、繁芜的推理演算和实际场景的工具调用等。
然而大模型有限的高下文长度仍为当前学界及业界面临的主要难题。
通过拓展演习窗口大小和改进位置编码,InternLM2支持200K token的高下文,能够一次性接管并处理约30万汉字(约五六百页的文档)的输入内容,准确提取关键信息,实现长文本中“大海捞针”。

参考业界范例,研究职员对InternLM2进行了“大海捞针”试验,也便是将关键信息随机插入一段长文本的不同位置并设置问题,测试模型能否从中提取出关键信息。

InternLM2“大海捞针”试验效果。

上图展示了InternLM2在不同长度的高下文(横轴)及高下文中不同位置(纵轴)上召回关键信息的准确率(Recall)。
赤色代表较低的召回准确率,而绿色则代表较高的召回率。
上海人工智能实验室表示,试验结果表明,InternLM2在高下文长度延展到200K时依旧保持了近乎完美的召回成功率,验证了InternLM2对付超长高下文坚实的支持能力。

为测试InternLM2在真实长文本处理任务中的能力,研究职员将一份时长3小时的公开会议录音转录稿输入模型中,并哀求InternLM2从中提取出关键信息。
测试结果表明,只管在未校正的文本中存在较多错别字,但InternLM2仍从中准确提炼出了关键信息,并总结了发言人的紧张不雅观点。

会做高档数学,支持繁芜智能体搭建

根据大措辞模型的运用办法和用户关注的重点领域,研究职员定义了措辞、知识、推理、数学、代码、考试等六个能力维度,在55个主流评测集上对多个同量级模型的表现进行综合评测。
结果显示,InternLM2的轻量级(7B)及中量级(20B)版本性能在同量级模型中表现精良。

表格比拟了InternLM2各版本与ChatGPT(GPT-3.5)以及GPT-4在范例评测集上的表现。
InternLM2只用20B参数的中等规模即在整体表现上达到与ChatGPT比肩的水平。

综合性能的增强带来下贱任务的全方位能力提升。
新发布的InternLM2供应更好的对话及创作体验,支持多轮任务方案及工具调用,并供应实用的数据剖析能力。
InternLM2-Chat可以精准地理解和遵照用户意图,具备较强的共情能力和丰富的构造化创作能力,比如它能以富有人文关怀的回答开解用户,也能在严格的格式哀求下体例课程大纲。

提问InternLM2“觉得每天在努力和摆烂之间摇摆,有些精神内耗怎么办”。
InternLM2给出回答,在对话中与用户“共情”。

InternLM2设计的课程大纲精准遵照用户哀求,如格式、数量、内容等。

上海人工智能实验室表示,对话和创造的体验进步,一方面是由于根本措辞能力显著增强,另一方面也得益于微调技能的提升。
InternLM2进行微调的过程利用了经由第三代数据洗濯过滤技能处理的指令微调语料,同时也采取了更强的Online RLHF【注:常规RLHF(人类反馈强化学习)只进行一次微调,Online RLHF会进行多轮微调,根据上一轮更新过的模型进行新的褒奖模型和强化学习演习】。

研究职员在微调InternLM2的过程中,对褒奖模型和对话模型进行了三轮迭代更新,每一轮更新均针对前一轮模型的表现更新偏好数据与提示词。
在褒奖模型演习(RM)和近端策略优化(PPO)阶段,研究职员均衡采取各种提示词,不仅提高了对话的安全性,也提升了用户体验。

基于更强大、更具泛化性的指令理解、工具筛选与结果反思等能力,InternLM2可支持繁芜智能体的搭建,支持对工具进行多轮有效调用及多步骤方案,完成繁芜任务。
通过工具调用,大措辞模型可凭借搜索、打算、代码阐明器等获取知识并处理更繁芜的问题,从而拓展运用边界。
研究职员对模型调用工具流程履行细粒度的拆解和剖析,针对方案、推理、工具选择、理解、实行、反思等步骤进行了针对性增强和优化。

数学能力是大模型逻辑思维和推理能力的主要表示。
上海人工智能实验室对InternLM2的数学能力进行全面提升,在不依赖打算器等外部工具的情形下,在100以内的大略数学运算上能够做到靠近100%的准确率,在1000以内达到80%旁边的运算准确率。

InternLM2与ChatGPT的数学能力评测结果比拟。

为应对各种繁芜打算,InternLM2-Chat还可借助代码阐明器(Code-Interpreter)编写代码进行打算,或对推理的结果进行形式化验证,从而办理打算哀求更高或者演算过程更加繁芜的问题。
InternLM2可以和代码阐明器结合办理较繁芜的高档数学问题。
在范例的数学评测集GSM8K和MATH上,合营代码阐明器,InternLM2的评测分数得到提高。
个中对付难度更高的MATH数据集,InternLM2的打算精度从32.5大幅提升到51.2。
基于在打算及工具调用方面强大的根本能力,InternLM2在措辞模型中具备了数据剖析和可视化实用能力,进一步贴近用户利用场景。

以下为开源链接

Github:https://github.com/InternLM/InternLM

HuggingFace:https://huggingface.co/internlm

ModelScope:https://modelscope.cn/organization/Shanghai_AI_Laboratory