商汤科技李斌：AI数字人赋能教诲数字化的 “最后一公里”_商汤_数字

2024-10-21 20:53:56 计算机

4月27-28日，芥末堆在北京举办以“中行独复，教诲重构科技”为主题的GET2024春季教诲科技大会。
在4月27日下午的主论坛中，商汤科技数字文娱奇迹部高等产品总监李斌以《AI数字人赋能教诲数字化的“末了一公里”》为题，先容了商汤科技在过去十年中的积淀和近年来在大模型领域的领先实践和前沿成果，同时着重分享了教诲行业的落地场景。
李斌提到，商汤科技于近日举办了技能互换日活动，带来了全新升级的日日新SenseNova 5.0大模型，其综合能力全面对标GPT-4 Turbo；同时也开拓和更新了多款产品的矩阵，包含商汤如影数字人，商汤如影希望通过数字人+大模型，赋能教诲培训行业。

商汤科技李斌：AI数字人赋能教诲数字化的 “最后一公里”_商汤_数字计算机

以下为演讲实录，经编辑：

拿到这个标题时，实在我们有点忐忑。
什么是教诲行业的“末了一公里”，什么是教诲数字化的“末了一公里”？我想这不一定是有定论的。
以是我问了一下商汤的大模型，看到它给出的答案（下图）之后，我们的心里也有了谱。

大家从第一句就可以看到，可以将知识更有效地通报至每一个学生，这是我们所谓的教诲的“末了一公里”。
如果从这个角度来看，AI技能的发展确实可以做到这一点，本日我也会跟大家分享一些详细案例。

首先先容一下商汤科技，商汤科技有很多领先的人工智能干系算法技能的落地运用。
我们的员工中，科研职员占比三分之二。
公司已成立10年，我们已经在行业里取得了一些小小的成绩，在此不一一赘述。

现在看一家人工智能企业是否靠谱，核心指标是看算力。
目前来说，商汤已经于2022年自建了亚洲规模最大之一的AI超算中央，这也是中国最大的根本举动步伐之一。
我们现在有4.5万张GPU卡。

算力也是人工智能大模型演习的保障。
商汤的大模型叫做日日新，这个名称来自于“苟日新，日日新，又日新”。
我们以为它非常契合于人工智能行业当前日月牙异的发展状态。

从技能演进角度来看，这一轮人工智能技能发展浪潮最关键的是深度学习。
当前大模型爆发，正是源自家当界和学术界十几年来在不同领域对大模型深度学习的积累。
有一个大略的比喻，如果RNN模型是蒸汽机，Transformer大模型便是内燃机，这是一个从量变到质变的过程。
从小模型到大模型，变革的永久是规模和效率，不变的是深度学习这条路，这也是商汤科技坚持走了近十年的道路。

近期（2024年4月23日）我们发布了日日新5.0版，这个版本目前来说是中国首个同GPT-4 Turbo大模型进行对标的，现在有6000亿参数，我们增强了知识、数据和推理代码能力。
在主流的一些客不雅观评测标准上，我们基本上达到或超越了GPT-4 Turbo的水平。
基于日日新大模型体系，我们也开拓了多款产品矩阵，希望能够赋能各行各业。

先容完商汤大模型能力，接下来重点跟大家先容一下商汤如影数字人的能力。
我们推出商汤如影数字人的愿景是希望将来每个人都可以拥有一个数字人，基于日日新的全站式AIGC数字人天生平台，产品目前紧张具备了四大能力。

第一是AIGC数字人天生技能，大家看到的像口型驱动、面部表情、肢体动作自然度……这些都是通过AIGC数字人技能天生的；第二是措辞大模型能力，也便是日日新大模型的能力；第三是语音大模型能力，我们非常重视这个方面，并且于今年4月发布了针对不同行业的语音大模型，包括教诲行业、企业做事行业、电商行业优化等。
第四是AIGC形象天生能力，通过“无中生有”可以使数字人利用规避一些版权问题。

这里是如影数字人整体办理方案的架构，从下往上看，大家可以看到我们涵盖了从根本举动步伐到AI引擎，到如影平台，再到终极落地的场景，每个环节都完成了自研闭环。

我们终极交付给客户的产品有两个系列，用户可以利用SaaS产品，也便是通过App端或者外部端，用手机号就可以进行数字人平台注册；同时也可以通过PasS平台接口，对接更多B端客户进行互助；当然也支持一些项目定制。

这个是商汤在推动可信数字人行业标准建立上作出的一些贡献，我们深度参与了中国信息通信研究院（简称“中国信通院”）制订的可信数字人标准，它可以帮助客户避免形象盗用或一些形象版权问题，真正做到隐私保护和权责可追溯。
而说到如影数字人详细如何制作，为什么会如此逼真？紧张源于三个方面。

这里我想先容一下，我们拥有非常风雅的背景分割技能。
数字人形象和声音克隆过程当中，难免会有一些比较细节的部分。
现在可以细到什么程度？在商汤算法下的数字人背景分割可以做到发丝级别的处理。
经由多年研究，我们创造数字人的实现过程中，核心都是细节，细节堆叠越多、处理越好，用户的感想熏染才能更加真实。
其余，我们今年操持重点提升措辞和动作的匹配，使数字人可以有更丰富的感情表达。

接下来，我们一起来看看教诲行业干系的运用案例，也希望收成更多来自大家的反馈。

场景一，让课程***制作更快更便捷。
如果有了数字人形象并在此根本上添加大模型天生的文本，就可以快速天生西席的课件。
同时我们也配置了相应的海量模板，如果老师有自己的课件，便可以通过上传课件快速天生自己的数字人***课程。
这个场景已经在落地了，而且力度非常大。

场景二，轻松制作名师推广***。
我们会和一些教诲行业的客户互助做一些营销类***，我认为现在教诲行业获客的本钱还是蛮高的，如果客户有自己数字人的形象，也可以快速天生一些名师推广***。

场景三，名师AI直播永不下线。
AI直播课程现在也非常多，在这个领域我们大概能供应这几个上风：首先是不间断授课；其次是更高效地开课；第三是西席矩阵管理；第四是我们目前已经同商汤如影和日日新大模型整合实现了实时师生互动，这非常关键；当然我们也支持多措辞和助教模式，包括主讲西席和助教老师同时在线的直播效果。

详细先容一下直播互动功能，直播互动功能有四种，这四种功能都是和各个直播平台打通的。
第一是助教接管，可在直播过程中随时接管数字人，利用麦克风口播驱动数字人直播实时回答用户的问题；第二是弹幕互动，我们支持抓取直播间弹幕，数字人可以自动回答弹幕问题；第三是事宜互动，数字人可以依据教室直播间人数、直播间评论数等直播间事宜触发互动；第四是定时互动，可实现定时随机在直播间插入互动。

第四个场景是一对一专属助教在线答疑解惑，第五是外语口语传授教化一对一陪练。

现阶段外语传授教化陪练是大模型和数字人相结合的一个非常前沿的领域。
这个中最关键的是要做到快速相应，也正是由于数字人产品体系和商汤日日新产品体系的打通，才能实现快速反馈的效果，目前可以做到2-3秒，比较靠近于和真人互动的觉得。
场景六是3D数字人和元宇宙让教室更多样，使教室氛围更加生动。

以上是我本日的分享内容，非常希望将来能和大家有更多互助，欢迎互换！