前沿分享丨AI生成3D主题乐园角色建筑批量生成风格保持一致_样例_不雅点
原题目:AI天生3D主题乐园,角色建筑批量天生,风格保持同等 | SIGGRAPH 2024
王振伟 投稿量子位 | 公众号 QbitAI
最少只需1个3D样例,即可天生3D主题乐园。
来自喷鼻香港城市大学、上海人工智能实验室和南洋理工大学S-Lab的研究职员提出了一种名为ThemeStation的新颖框架。
它可以从少量3D样例中天生主题同等的高质量3D画廊。
还能基于文本掌握,天生想要的3D资产。比如“穿正装的猫头鹰”。
要知道,虚拟天下和游戏等运用中,常常须要大规模主题同等的3D模型,如古城中的建筑群、虚拟生态系统中的怪物阵容。
只管一位资深3D建模师可以创作出多少主题同等的作品,但要创建大规模内容丰富、风格同等的3D画廊却是一大寻衅。
即便最近的3D内容天生(3D AIGC)在文本到3D、图像到3D等领域取得了长足进展,大大降落了3D内容创作的门槛。但由于输入模态中3D信息有限,它们仍旧存在3D模糊和不一致的问题,且无法充分担保与输入样例主题的同等性。
因此研究职员提出了这项事情。目前该论文已被SIGGRAPH 2024吸收,方法已开源。
由主题驱动的3D到3D天生
ThemeStation的紧张贡献包括:
提出了一种用于主题驱动3D到3D天生的两阶段框架,其目标是仅从一个或几个3D样例天生在主题同等性和内容多样性方面均符合哀求的新3D资产。首次考试测验将扩散先验扩展到3D到3D内容天生这一寻衅性任务上。引入了双重分数蒸馏(DSD),通过在不同噪声水平运用参考先验和观点先验,实现了在3D到3D天生中同时利用两种相互冲突的扩散先验。与现有的文本到3D、图像到3D的技能不同,ThemeStation接管3D样例作为输入。与文本和图像比较,3D样例可以供应更多关于几何和纹理的3D信息,大大减少了3D天生中的多视角不一致问题,使得天生更高质量的3D模型成为了可能。
然而,直接在少量3D样例上演习的3D天生器缺少先验信息,只能大略地重复、缩放和微调输入样例,无法天生多样化且主题同等的3D资产。为此,ThemeStation采取了一种两阶段的天生方案,模拟了实际3D建模事情流程:
第一阶段:主题驱动的观点图像天生
在第一阶段,ThemeStation利用给定3D样例的多视角渲染图像对预演习的文本到图像(T2I)扩散模型进行了微调,以天生一系列与输入3D示例保持同等主题的观点图像,类似于实践中的观点草图设计过程。与DreamBooth等主体驱动的微调技能不同,该阶段的目标并非完备拟合给定3D样例。
因此,在该阶段,研究职员利用低学习速率和少演习步骤来微调预演习的扩散模型以提取3D样例中的主题信息并避免过拟合,终极实现了主题同等且多样化的3D变体观点草图天生。
第二阶段:参考信息驱动的3D资产建模在第二阶段,ThemeStation进行参考信息驱动的3D资产建模。给定一张第一阶段天生的观点草图和输入的3D样例,ThemeStation,首先利用现有的图像到3D技能天生粗糙的3D模型作为初始化。然后,它利用所提出的双重分数蒸馏(DSD)丢失函数来逐步优化这个初始模型。
双重分数蒸馏(DSD)丢失是ThemeStation的技能核心,它结合了两种扩散先验:观点先验和参考先验。观点先验来自第一阶段合成的观点草图,通过整体调度布局和颜色来确保观点图的重修。参考先验则来自输入的3D样例,通过利用多视角渲染图像和法线图中的3D同等信息来规复更丰富的高频细节。
详细而言,研究者分别利用观点草图和输入3D样例的渲染图片微调了两个定制化的T2I扩散模型来供应不同的扩散先验。
值得把稳的是,由于观点图和输入的3D样例并非同一3D物体,同时利用这两种相互冲突的先验信息作为优化目标并非易事。与大略组合这两种先验(可导致严重的丢失冲突)不同,ThemeStation的研究者创新性地根据扩散模型的去噪韶光步分配不同的先验丢失——在高噪声下掌握全局布局(观点先验)并在低噪声下精雕细琢(参考先验)。
在这样的设计下,两个冲突的先验得以领悟,避免了信息丢失。这一设计灵感来自图像风格迁移算法和T2I扩散模型中反向扩散过程的基于韶光步长的由粗糙到细致的动态变革,如下图所示:
由此基于ThemeStation,就能快速得到主题风格同等的大量3D资产。
项目主页:https://3dthemestation.github.io/
代码:https://github.com/3DTopia/ThemeStation
论文:https://arxiv.org/abs/2403.15383
— 完 —
【免责声明】转载出于非商业性的教诲和科研目的,只为学术***信息的传播,版权归原作者所有,如有侵权请立即与我们联系,我们将及时删除。
本文系作者个人观点,不代表本站立场,转载请注明出处!