仅需2张图AI便可生成完整运动过程_作风_症结

2024-08-02 10:05:16 计算机

先给一张侧脸（关键帧1）：

仅需2张图AI便可生成完整运动过程_作风_症结计算机

再给一张正脸（关键帧2）：

然后仅仅根据这两张图片，AI处理了一下，便能天生全体运动过程：

而且不但是大略的那种，连在运动过程中的眨眼动作也“照顾”得很到位。

效果一出，便在Reddit上引发了不少热议：

仅需2个关键帧，如何实现完全运动？

不须要冗长的演习过程。
不须要大量的演习数据集。
这是论文作者对本次事情提出的两大亮点。
详细而言，这项事情便是基于关键帧将***风格化。
先输入一个***序列 I ，它由N个帧组织，每一帧都有一个掩膜Mi来划分感兴趣的区域。
与此前方法不同的是，这种风格迁移因此随机顺序进行的，不须要等待顺序靠前的帧先完成风格化，也不须要对来自不同关键帧的风格化内容进行显式合并。
也便是说，该方法实际上是一种翻译过滤器，可以快速从几个异构的手绘示例 Sk 中学习风格，并将其“翻译”给***序列 I 中的任何一帧。
这个图像转换框架基于 U-net 实现。
并且，研究职员采取基于图像块（patch-based）的演习办法和抑制***闪烁的办理方案，办理了少样本演习和韶光同等性的问题。
而为了避免过拟合，研究职员采取了基于图像块的演习策略。
从原始关键帧（Ik）中随机抽取一组图像块（a），在网络中天生它们的风格化对应块（b）。
然后，打算这些风格化对应块（b）相对付从风格化关键帧（Sk）中取样对应图像块的丢失，并对偏差进行反向传播。
这样的演习方案不限于任何特定的丢失函数。
本项研究中，采取的是L1丢失、对抗性丢失和VGG丢失的组合。
另一个问题便是超参数的优化。
这是由于不当的超参数可能会导致推理质量低下。
研究职员利用网格搜索法，对超参数的4维空间进行采样：Wp——演习图像块的大小；Nb——一个batch中块的数量；α——学习率；Nr——ResNet块的数量。
对付每一个超参数设置：
（1）实行给定时间演习；
（2）对不可见帧进行推理；
（3）打算推理出的帧（O4）和真实值（GT4）之间的丢失。
而目标便是将这个丢失最小化。
团队先容
这项研究一作为Ondřej Texler，布拉格捷克理工大学打算机图形与交互系的博士生。
而除了这次的事情之外，先前他和团队也曾做过许多故意思的事情。
例如一边画动手绘画，一边让它动起来。
再例如给一张卡通图片，便可让***中的你顶着这张图“声情并茂”。
想理解更多有趣的研究，可戳下方链接。
参考链接：
[1]https://www.reddit.com/r/MachineLearning/comments/n3b1m6/r_fewshot_patchbased_training_siggraph_2020_dr/[2]https://ondrejtexler.github.io/patch-based_training/index.html
— 完 —
量子位 QbitAI · 号签约
关注我们，第一韶光获知前沿科技动态