从大会现场的演示看到,多模态技能可以让大模型更像人一样感知和互动,支撑只能体验升级,百灵的多模态能力已运用于“支付宝智能助理”上,未来还将支持支付宝上更多智能体升级。

2024世界人工智能大年夜会|蚂蚁百灵大年夜模型最新进展:已具备原生多模态能力_多模_模子 AI简讯

图说:蚂蚁集团副总裁徐鹏先容百灵大模型原生多模态能力 采访工具供应(下同)

据理解,百灵大模型多模态能力,在中文图文理解MMBench-CN评测集上达到GPT-4o水平,在信通院多模态安全能力评测达到精良级(最高),具备支持规模化运用的能力,能支持AIGC、图文对话、***理解、数字人等一系列下贱任务。

多模态大模型技能能够使AI更好地理解人类天下的繁芜信息,也让AI落地运用时更符合人类的交互习气,在智能客服、自动驾驶、医疗诊断等多个领域展现出巨大的运用潜力。

蚂蚁集团有着丰富的运用处景,百灵大模型的多模态能力,也已被运用在生活做事、搜索推举、互动娱乐等场景。
在生活做事上,蚂蚁集团利用多模态模型实现了ACT技能,让智能体具备一定方案实行能力,比如根据用户语音指定直接在星巴克小程序下单一杯咖啡,目前这一功能已在支付宝智能助理上线。
在医疗领域,多模态能力为用户实现繁芜任务的操作,可以对超过100多种繁芜的医学考验检测报告进行识别和解读,还可以检测毛发康健和脱发情形,为治疗供应赞助。

图说:不雅观众在蚂蚁展厅现场体验利用支付宝智能助理点咖啡

发布现场,蚂蚁集团副总裁徐鹏展示了新升级的多模态技能可实现的更多运用处景:通过***对话的自然形式,AI助理能为用户识别穿着打扮,给出约会的搭配建议;根据用户不同的意图,从一堆食材中搭配出不同的菜谱组合;根据用户描述的身体症状,从一批药物中,挑选出可能得当的药,并读出服用辅导,供用户参考等。

基于百灵大模型多模态能力,蚂蚁集团已在探索规模运用落地家当的实践。

论坛上同时发布的“支付宝多模态医疗大模型”,便是这一探索的实践。
据理解,支付宝多模态医疗大模型添加了包含报告、影像、药品等多模态信息在内的百亿级中英文图文、千亿级医疗文本语料,以及千万级高质量医疗知识图谱,具备专业医学知识,在中文医疗LLM评测榜单promptCBLUE上,取得A榜第一,B榜第二的成绩。

基于百灵大模型多模态能力,由蚂蚁集团与武汉大学联合研发的遥感模型SkySense,也在论坛上公布了开源操持。
SkySense是目前参数规模最大、覆盖任务最全、识别精度最高的多模态遥感根本模型。

“从单一的文本语义理解,到多模态能力,是人工智能技能的关键迭代,而多模态技能催生的‘看听说写画’的运用处景,将让AI的表现更真实,更靠近人类,从而也能更好地做事人类。
蚂蚁会持续投入原生多模态技能的研发。
”徐鹏说。

新民 金志刚