它办理了不同模态数据的问题,包括如何利用统一的框架处理自然措辞、2D 图像、3D 点云、音频、高光谱图、时序数据等。
该框架将各模态的原始输入数据,转换为共享的 token 空间,然后利用拥有冻结参数的编码器,提取输入数据的高等语义特色。

港中大年夜团队设计多模态进修框架实现同时处理12种模态统一进修_模态_数据 云服务

图丨论文第一作者喷鼻香港中文大学博士研究生张懿元(来源:张懿元)

该研究相对付传统的单模态感知事情实现了重大打破,对天然须要多个模态联合处理的领域有主要的代价。
Meta-Transformer 最主要的意义在于,让人们看到了通用感知智能的曙光。
一方面,Meta-Transformer 通过统一的编码办法,能够以同一套参数处理多达 12 种模态,有效地解释了深度神经网络在感知方面具备通向类人智能的潜力。

另一方面,Meta-Transformer 摆脱了目前多模态学习领域中,不再依赖于内容干系的配对数据的问题,这让模型演习更加灵巧及泛化,能够最大程度地发挥出多模态、多数据演习的潜力。

图丨干系论文(来源:arXiv)

不久前,干系论文以《元转换器:多模态学习的统一框架》(Meta-Transformer: A Unified Framework for Multimodal Learning)为题揭橥在 arXiv[1]。
论文第一作者为喷鼻香港中文大学博士研究生张懿元、龚凯雄,合著者包括喷鼻香港中文大学李鸿升教授与上海人工智能实验室的欧阳万里教授和乔宇教授,共同通讯作者为喷鼻香港中文大学岳翔宇教授和上海人工智能实验室张凯鹏研究员。

岳翔宇表示,人脑方向于接管多种信息来源来提高感知或决策的准确率,不同信息来源对应数据里的多种模态。
Meta-Transformer 促进了深度网络的多模态感知,也使得神经网络的处理流程离人脑处理多信息源的流程更近一步。

图丨多模态学习统一框架 Meta-Transformer(来源:arXiv)

人工智能承载着未来或成为新一代的社会根本举动步伐的期望,这就暗含着而一个条件,即人工智能须要变得足够通用,来做事全社会的各行各业。

该团队通过实验验证,创造 Meta-Transformer 作为根本模型能够支持一系列的下贱运用。
张凯鹏举例说道,例如景象预测、卫星遥感、自动驾驶、聪慧医疗、3D 识别等,它可以处理自然措辞、图像、点云、音频、***、红外、超光谱、X 射线、韶光序列、表格、图形数据等多种模态的数据,以及语音***识别等,并在更多的领域做事于社会。
详细如下:

语音、***、图像、温度——智能家居:Meta-Transformer 可用于智能家居设备,如智能音箱、智能电视等,供应更加个性化和智能化的做事。
例如,它可以理解和预测用户的需求,自动调度家庭环境,如温度、照明等。

韶光序列数据——智能城市:在智能城市的培植中,Meta-Transformer 可在剖析城市数据方面运用,例如交通流量、能源花费以及自动驾驶技能,优化城市运营和提高城市生活质量。

卫星遥感、图像——农业:在农业领域,Meta-Transformer 可用于预测作物产量、剖析土壤质量或者帮助农人做出栽种决策。

表格数据、图像——制造业:在制造业中,Meta-Transformer 可以用于优化生产流程,预测设备故障,或者帮助设计更有效的产品。

图丨元转换器由数据到序列的标记化、统一的特色编码和下贱任务学习组成。
(来源:arXiv)

张懿元在研究初期确定博士阶段研究方案时,就与岳翔宇谈论模态通用智能对付当古人工智能领域发展的主要性。
他们同等认为,未来的强人工智能一定会是多模态人工智能。
但是,目前对付多模态学习算法,仍依赖于多个模态专家网络的在内容相匹配多模态数据来构建。

“我之前的研究是关于图像-文本之间的表征学习,当时也创造图像和文本的专家模型也可以共享一部分的参数。
于是,我以为可能会存在一套神经网络的参数能够同时处理三个模态的信息,比如文本、图片以及 3D 点云。
”张懿元说。

经由 1 个多月的实验验证,研究团队创造该结论完备成立。
在这个积极的进展的根本上,他们猜想,可能会有一套神经网络的参数能够同时编码更多的模态。
于是,研究职员陆续在语音、***、红外、医用 X 射线以及卫星遥感的高光谱数据方面进行考试测验,皆得到了积极的实验进展。

除了这些传统的感知任务,研究团队还意识到,韶光序列、离散图、表格、与惯性丈量单元的数据在机器人、智能预测与数据挖掘领域是非常主要的模态。
于是,接着在这四个模态上进行了实验。

“每新增一个模态,对我们来说都是在探索新的未知领域与新的方法。
正是在不断的探索未知与实验验证后,我们也逐渐看到了通用感知智能的曙光正在前方。
”龚凯雄说。

据先容,在创造图片、文本、点云这三个模态可以通过同一套参数进行编码,且语音与***两个模态能够直接被 Meta-Transformer 兼容到现有框架的那天,张懿元激动得晚上难以入睡。
他说:“我当时意识到,Meta-Transformer 可能真的能做到统一的多模态感知。

(来源:arXiv)

张凯鹏认为,通用人工智能是 AI 研究的主要追求之一,也便是说,用 AI 模型高水平地完成人类能完成或较难完成的任务。

研究团队操持将 Meta-Transformer 拓展成多模态感知的基线模型,有望使其更好地做事各下贱模态、推理的框架,并在数据有效性、打算有效性、模型性能等方面发挥主要浸染。
并且,通过开源社区的力量丰富 Meta-Transformer 的运用处景,也可能用其赞助办理一些目前极具寻衅的 AI 任务,如具身智能和自动驾驶。

“我们希望可以将 Meta-Transformer 的多模态感知能力与现有的大措辞模型相结合,来扩展大措辞模型的用场以及感知能力。
用开玩笑的说法,希望它能够影响到 GPT-5 乃至 GPT-6 的设计。
”张懿元说。

据悉,下一步,该团队操持探索 Meta-Transformer 这种统一的多模态感知的产品化方案。

参考资料:

1.Zhang,Y., et al. Meta-Transformer: A Unified Framework for Multimodal Learning. arXiv (2023). https://doi.org/10.48550/arXiv.2307.10802