CVPR'24 Highlight｜一个框架搞定人物动作生成精细到手部运动_动作_场景

2024-11-19 00:55:43 AI快讯

本文作者蒋楠是北京大学智能学院二年级博士生，辅导西席朱毅鑫教授，与北京通用人工智能研究院黄思远博士联合开展研究事情。
他的研究重点是人-物交互理解和数字人的动作天生，并于ICCV，CVPR和ECCV等顶会揭橥多篇论文。

CVPR'24 Highlight｜一个框架搞定人物动作生成精细到手部运动_动作_场景 AI快讯

近年来，人物动作天生的研究取得了显著的进展，在浩瀚领域，如打算机视觉、打算机图形学、机器人技能以及人机交互等方面得到广泛的关注。
然而，现有事情大多只关注动作本身，以场景和动作种别同时作为约束条件的研究依然处于起步阶段。

为理解决这一问题，北京通用人工智能研究院联合北京大学、北京理工大学的研究员提出了一种利用自回归条件扩散模型的动作天生框架，实现真实、带有语义、符合场景且无长度限定的动作天生。
此外，文章发布了大规模人物 - 场景交互数据集 TRUMANS，包含准确且丰富的针对人物动作以及三维场景的标注信息。

论文链接：https://arxiv.org/pdf/2403.08629

项目主页：https://jnnan.github.io/trumans/

代码、数据链接：https://github.com/jnnan/trumans_utils

研究概述

图 1. 人物 - 场景交互动作天生方法和 TRUMANS 数据集

与场景物体的交互是人们日常活动的主要组成部分，例如坐在椅子上、拿起瓶子或打开抽屉等动作。
如今，仿真人类肢体动作已成为打算机视觉、打算机图形学、机器人技能和人机交互等领域的一项主要任务。
天生人体动作的核心目标在于创造自然、逼真且多样化的动态模式。
深度学习技能的兴起使人体动作天生方法得到飞速发展。
人体建模技能的重大打破也使构建弘大的人体动作数据库变得更为便捷。
基于这些进展，近年来以数据为驱动的人体动作天生技能越来越受到研究界的重视。

目前，多数动作天生的方法以语义作为掌握变量，在给定交互物体 [1] 和场景 [2] 的条件下天生动作的研究仍处于起步阶段，这紧张由于缺少高质量人体动作与场景交互数据集。
现有的真实场景数据集在人体动作捕捉质量方面仍有不敷。
只管通过 VICON 等设备录制的动作捕捉数据集能够带来质量的提升，但这些数据集缺少多样化的 3D 场景中人与物体的交互。
最近，利用虚拟仿真技能的合成数据集因其低本钱和高适应性而引起研究者们的关注。

针对现有方法的不敷，本文提出了一种领悟场景和语义信息的动作天生框架，由自回归的扩散模型作为驱动，能够在给定动作种别和路径点的条件下，天生符合场景约束的人物动作。
为了获取场景中的动作数据，本事情发布了一个全新的人物 - 场景交互数据集 TRUMANS，包含在真实天下捕捉的 15 小时动作数据，并合成到 3D 虚拟场景中，覆盖了寝室、餐厅和办公室等 100 个场景配置。
TRUMANS 包含寻路、物体操作、及与刚性和铰接物体的交互等全面的日常行为。

动作天生框架

图 2. 本文提出的动作天生框架利用自回归机制，将场景和动作种别作为条件掌握动作的天生。

本研究提出的方法采取自回归的办法逐段天生动作。
段内的起始动作源于上一段末端，后续动作由扩散模型天生。
为了使天生的动作符合场景约束，作者基于空间霸占网格提出一个局部场景感知器，将每段动作终点附近环境的特色编码，并纳入动作天生模型的条件。
为了将逐帧的动作标签作为可控条件纳入，动作信息编码器将韶光信息整合到动作片段中，使得模型可以在任意时候接管指令，并天生符合给定动作标签的运动。

本文提出的方法可以支持路径轨迹约束以及精确的枢纽关头位置掌握。
由于本文方法采取了自回归逐段天生的机制，路径和关节约束可以通过为每段动作天生设定子目标的办法实现。
对付行走动作掌握，每个子目标描述了当前段末端人物骨盆在水平面的预设位置。
根据当前段的起始和终止位置之间的场景信息，模型天生包含骨盆运动轨迹在内的全身动作。
例如，当子目标位于椅子上时，须要让角色坐下。
对付涉及物体抓握的动作，手部的位置掌握也利用相同的技能。
例如天生抓取瓶子或推门等动作时，将手部枢纽关头位置设为子目标，并由用户设置在物体上的期望位置。
模型将枢纽关头上的噪声归零并补全别的部分的人体动作。
进一步的风雅打仗通过优化手与物体的相对位置的办法实现。

本地场景感知器用于获取本地场景几何信息，并将其作为运动天生的条件。
详细来说，给定一个场景，首先天生一个全局占用网格，每个单元格被分配一个布尔值表示其是否可达，1 表示可达，0 表示不可达。
本地占用网格因此当前循环节的子目标为中央的三维网格，垂直范围内从 0 米到 1.8 米，方向与第一帧中角色骨盆的偏航方向对齐。
本地占用网格的值通过查询全局占用网格获取。
本文提出利用 Vision Transformer (ViT) 对体素网格进行编码。
通过沿 xy 平面划分本地占用网格，将 z 轴视为特色通道来构建 Token，并将这些 Token 输入到 ViT 模型中。
场景经由 ViT 编码后的输出被用作动作天生模型的条件。

与之前基于单一动作描述天生完全动作序列的方法不同，本文在天生长期动作时逐帧利用动作标签作为条件。
在这个模型中，一个特定动作可能会超过一个循环节，并在多个循环节中连续。
因此模型须要理解动作实行的进程。
为理解决这个问题，本研究引入了一个进度标识符，用于支持逐帧的动作种别标签。
详细实现办法为在原始 multi-hot 动作标签上，对每段完全的交互添加一个 0 到 1 之间随韶光线性增长的数。
这样的操作使得模型能够应对跨多个循环节的动作，增强天生动作序列的语义完全性和连续性。

数据集

数据方面，本文发布了全新的人物 - 场景交互数据集 TRUMANS，精确地复制了 3D 合成场景到物理环境中，兼具数据质量与规模；包括 15 小时的长序列人体动作捕捉，配套 100 个室内场景，种别包含寝室，客厅和办公室等。
只管场景是合成的，作者通过对每个合成场景的细致还原，确保了人与物体之间的交互保持自然且精确。
TRUMANS 动作涵盖日凡人物行为，包括寻路、抓取，以及与刚性和铰接物体的交互。
为了进一步提高数据的可扩展性，本文运用了一种基于现有数据进行数据增强办法，使得数据集中的物体可以在一定范围内改变位置和尺寸，并自动更新人物动作以匹配变革。

图 3. TRUMANS 动作捕捉数据集

图 4. 根据变革的物体尺寸自动调度动作，高效扩展数据规模

实验结果

下面是本文所提出的动作天生方法的运用处景示例。

（1）基于给定的路径关键点，本文方法能够天生多样的场景中行走动作，且人物对场景中的障碍物有自然的反馈。

（2）本文方法适用于手持小物体的抓取和交互动作天生。
例如走近并抓取放置于桌子上的水瓶，并做出喝水的动作。
完成过程中须要根据场景布局调度动作。

（3）基于给定手部运动轨迹，天生知足该轨迹的全身动作，且不与场景中的物体发生冲突。

图 5. 动作天生的多样性展示

图 6. 给定手部运动轨迹和场景的全身动作天生

图 7. 手持小物体的交互动作天生

为了量化本文方法的性能，作者根据交互物体可动与否构建了两套评价体系。
对付静态交互物体，本文评测的动作包含坐，躺，以及在场景中的走动。
评测指标紧张针对动作是否与场景发生穿模，脚部滑动，以及被试对天生质量的主不雅观评价。
而对付动态交互物体，本文关注抓握的过程以及后续的交互动作。
评价指标量化了动作是否符合给定的种别，动作的多样性，穿模程度，以及被试主不雅观评价。
此外，研究还比拟了利用 TRUMANS 以及现有的 PROX 和 GRAB 数据集演习得到的动作天生质量。
实验结果证明了本文所提方法的优胜性，以及 TRUMANS 数据对人物 - 场景交互天生任务带来的全面质量提升。

表 1-2. 动态与静态物体交互动作天生结果在不同方法和数据集演习结果的比较