解决AI绘画模型的世界不雅观偏见360人工智能研究院宣告中文原生AI绘画模型BDM_模子_英文
AI绘画模型的天下不雅观偏见问题
22年基于扩散模型的图像天生技能的打破,迅速引发了一场环球性的图像AIGC研发热潮和运用变革。这个中非常值得一提的是由Stability公司开拓并开源的Stable Diffusion[1]模型,让普通人也可以快速体会到AI技能对现实生产力的切实改变和推动。环绕着开源的Stable Diffusion模型,浩瀚开源开拓者和AI绘画爱好者已经形成了浩瀚弘大的AI绘画社区,如Civitai[2],Stable Diffusion Online[3]等等,并在这些社区中不断推出各种衍生工具和模型,形成推动AI绘画技能进步的主要力量。
中文AI绘画模型的研发在整体上掉队于英文AI绘画模型。AI绘画模型属于CV大模型的范畴,演习一个AI绘画模型须要海量的演习数据并对演习算力要较高的哀求。以Stable Diffusion 2.1为例,根据公开资料[4]: SD2.1仅base模型的演习就动用了256块A100 GPU,演习折算20万卡时,共28.7亿的图文样本演习量。而海内能够同时知足算力和数据哀求的研发机构屈指可数。这就导致大量的中文AI绘画产品背后实际上都因此开源的英文SD模型及其微调模型为能力基座。
但是,以SD为代表的英文AI绘画模型,包括且不限于SD1.4/1.5/2.1以及DALLE-2[5]、Midjourney[6]等都普遍带有明显的英文天下偏见。如事情[7]所指出的,当前英文模型天生的人物形象更倾向于白人和男性。除人物形象外,如下图1所示,物品、建筑、车辆、衣饰、标志等等都存在普遍的英文天下偏见。除此之外,之前遭到网友们调侃的“车水马龙”、“红烧狮子头”[8]等征象,实质上也是由于中文观点无法被英文AI绘画模型准确天生。
图1 英文AI绘画模型的天下不雅观偏见示例,天生的车辆、建筑、人物、旗帜、标志等都具有明显的英文天下倾向。从左到右分别是:SDXL,Midjourney,海内友商B,海内友商V
中文AI绘画模型的路线选择
中文AI绘画模型的研发从易到难当前有如下的几种办法:
英文模型 + 翻译。这种办法大略粗暴,除了翻译外几无本钱,可以说是最低本钱的“中文化”选择,并在大量AI绘画产品中得到了广泛采取。但这种办法只能办理表面上的中文输入问题,并不能办理英文模型由于模型偏见而无法准确天生符合中文天下认知形象的问题。
英文模型 + 隐式翻译。与显式的调用翻译做事的办法不同,这种办法是将英文模型的text encoder更换为中文text encoder,并利用翻译模型演习中利用的中英文平行语料对中文text encoder进行演习,使其输出的embedding空间与原来的英文text encoder对齐。实质上属于一种隐式翻译。
英文模型 + 隐式翻译 + 微调。在上面方法的根本上,将对齐了text encoder的模型利用中文图文数据进行进一步的整体微调以提升AI绘画模型对中文形象的输出能力。这种办法可以在一定程度上缓解英文基底模型带来的模型偏见问题,但由于其隐式翻译的实质,对多义词的理解和绘制能力总有漏洞。这方面的代表性事情有IDEA太乙[9]、天工[10]等。8月31日面向公众年夜众开放的文心一言也同样存在这方面的问题[11]。
图2 最新版本的文心一言仍存在隐式翻译带来的英文多义词绘制稠浊问题[11]
英文模型的构造,利用中文数据从头演习。这是一种非常彻底的中文化方案,由于模型利用中文数据完备从头演习,因此可以担保终极演习得到的模型具有完全的原生中文能力:理解中文输入,并能给出符合中文天下认知的图像输出结果。这方面的代表性事情有阿里达摩院[12]和华为的悟空画画[13]等。这种办法的优点是具备最优的中文能力,完备没有前述几种路线的英文模型偏见问题,但这种办法在实际落地运用中也有着非常大的不敷:除了演习本钱高外,最致命的问题是无法复用英文AI绘画社区的已有成果,如各种不同风格的微调模型、LoRA、ControlNet等等。
表1 当前中文AI绘画模型的不同路线选择及其优缺陷比较
BDM中文原生AI绘画模型
如表1所总结的,当前的中文AI绘画模型路线中,中文从头演习能够为中文用户供应最为完全的原生中文能力,但代价是中文模型与英文SD模型不兼容,因此在英文SD模型上衍生出的大量社区资源如微调模型、LoRA、Dreambooth、ControlNet等无法直策应用,理论上这些模型都须要针对中文模型重新进行适配演习。这就导致中文模型很难形成社区效应,并可能持续掉队于英文社区的进步速率。
能否在原生中文能力之上,进一步打通中文原生模型与英文SD社区的兼容性问题,就成为我们所要占领的一个关键难题。经由近半年的技能攻关,我们提出了一种新的扩散模型构造,称为“Bridge Diffusion Model”(BDM),以办理上述的困境。BDM不仅可以精确的天生中文语义图片,办理了英文模型的天下偏见问题,同时又保持了和英文社区之间的互通性,无缝兼容各种英文SD社区插件,这也是命名中“Bridge”的由来。BDM通过主干-旁支的架构结合原始英文模型,同时利用纯中文数据演习,打造中文原生AI绘画模型。
论文链接:https://arxiv.org/abs/2309.00952
1、模型框架
BDM采取类似ControlNet[14]的主干-旁支网络构造,如图3(b)所示。个中主干网络采取Stable Diffusion 1.5的构造并利用其预演习参数进行初始化,旁支网络则是由主干网络派生出来的可学习副本构成。与ControlNet比较,BDM在构造上的不同之处在于不存在旁支中的条件图像卷积层,这是由于在BDM中,中文prompt是通过旁支网络而非主干网络进行处理。我们选择了Chinese CLIP text encoder[15]做为中文的文本编码器。主干网络的英文text encoder可以去掉只通过旁支网络支持中文prompt,或者也可以保留从而实现中英双语的支持。在我们的实现中我们选择保留英文text encoder,因此BDM同时具备中英双语绘画的能力。BDM网络构造的一个关键优点在于,主干网络包含了完全的英文SD构造并在演习中冻结,因此BDM的隐空间与英文SD模型保持同等,从而可以无缝兼容各种适配于英文SD模型的社区插件。
图3 ControlNet和BDM的网络构造图,左图是ControlNet,右图是BDM
2、演习策略
BDM的整体演习loss如图4所示,扩散模型[16]算法学习一个网络εθ,以根据一组条件来预测添加到带噪图像zt中的噪声,这些条件包括韶光步长t,用于主干的文本输入cent以及用于旁支的文本输入cnlt。然而仅有这样的网络构造和演习目标是不足的,由于在演习过程中同时将语义信息注入到主干和旁支并不可行,这是由于经由预演习的主干已经包含了强大的英文语义信息,这会阻碍旁支的中文语义学习。因此,BDM利用了一个关键的演习策略——演习阶段主干的文本输入始终为空字符串,即cent始终为“”。这是由于在SD1.5演习过程中,文本输入有10%的概率置为空,因此可以认为空字符串对应的隐空间是SD1.5天生图像整体的均匀隐空间。对付BDM,主干供应英文模型的均匀隐空间,同时旁支在这个空间中学习中文语义,探求中文语义在英文空间中的偏移,这样就真正将BDM中文原生模型和英文社区有机的结合在了一起,使得BDM可以无缝接入英文社区。
图4 BDM演习loss
3、推理策略
在演习阶段,主干参数始终锁去世,主干文本输入也始终为空字符串,但在推理阶段可以有很多不同的选择。首先我们可以将主干的正/负文本输入都设置为空字符串,这和演习阶段保持同等,只用中文正/负输入来注入语义。我们不雅观察到,对付演习早期的BDM模型,推理阶段在主干利用通用的正/负文本输入显著改进了图像质量;然而对付演习末期的BDM模型,中文旁支已经得到了充分演习,英文正/负输入对图像质量的影响就很小了。当然,为了实现更好的天生效果,中文和英文的正/负输入都可以根据用户的需求进行自适应调度。BDM也可以和英文社区的各种插件无缝结合。当结合LoRA[17]时,将LoRA模型嵌入到BDM主干构造中即可,和常规的英文模型嵌入LoRA办法相同,然后从旁支输入所需中文提示即可。如果LoRA包含触发词,那么推理时候须要将触发词输入到主干中。同样,当结合ControlNet时,可以将ControlNet分支嵌入到BDM主干上,这样就形成了主干—双旁支构造。当结合checkpoint或者Dreambooth[18]时,把BDM主干从SD1.5切换到对应的底模即可。结合Textual Inversion[19]时,可以直接把对应的embedding加载到主干的文本输入中即可。以上操作可以根据需求任意组合。
4、效果展示
如图5是BDM利用SD1.5和realisticVisionV51[20]分别作为主干来天生中文观点,可以看到中文独占观点以及英文多义词观点都天生的很合理。
图5 中文观点天生
如图6是BDM分别用不同风格的checkpoint[21][22][23][24]作为主干进行天生,由于不同模型天生特定风格所需条件不同,比如有的须要触发词,有的须要风格词,推理时候中/英文正/负输入会根据风格条件进行微调,以达到更好的效果;但可以肯定的是,微调的文本只涉及触发词或者风格词,详细图像内容只会从中文文本来输入。
图6 不同风格checkpoint效果
如图7是BDM分别结合不同LoRA[25][26][27]进行天生
图7 不同风格LoRA效果
如图8是BDM结合ControlNet[28]的天生
图8 结合ControlNet效果
如图9是BDM结合不同Dreambooth的天生,利用了6个名人的底模[29]。
图9 不同Dreambooth效果
如图10是BDM结合Textual Inversion[30]的天生,利用了年事调节Textual Inversion。
图10 不同Textual Inversion效果
未来事情
BDM1.0模型利用360内部网络的12亿中文互联网图文数据演习得到,如前面所展示的,BDM具有非常好的中文原生AI绘画能力,且能无缝兼容当前英文SD社区的各种模型和插件。基于BDM1.0能力开拓的中文AI绘画产品“360鸿图”也将于近期面向"大众开放,体验入口:https://ai.360.cn/。
BDM的构造非常灵巧,除了可以与SD1.5结合外,基于相同的事理也可以将BDM与SDXL、DALLE-2、Imagen等等模型构造相结合,进一步提升中文原生AI绘画模型的规模和能力。
此外,众所周知的,当前AI绘画模型对文本prompt的理解能力仍旧存在非常显著的毛病,要想得到好的天生结果,prompt指令更多的是各种关键词/邪术词的堆砌,与人类互换中利用的自然措辞仍相去甚远。提升AI绘画模型对prompt指令的遵照能力,也是我们目前在多模态LLM(SEEChat: https://github.com/360CVGroup/SEEChat)与AIGC结合方面着力的重点。
作者简介
冷大炜:360人工智能研究院视觉方向卖力人,目前带领研究院视觉团队在多模态大模型,视觉AIGC,跨模态图文学习,开放天下目标检测,开放词表***剖析,AIoT等方向进行前沿探索和工业落地事情。
刘山源:360人工智能研究院视觉引擎部算法专家,目前在AIGC的天生、编辑、多观点等方向进行前沿探索
参考文献
[1] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjorn Ommer. High-resolution image synthesis with latent diffusion models. In 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Jun 2022
[2] https://civitai.com
[3] https://stablediffusionweb.com
[4] https://huggingface.co/stabilityai/stable-diffusion-2-1
[5] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with CLIP latents. CoRR, abs/2204.06125, 2022.
[6] https://www.midjourney.com
[7] Alexandra Sasha Luccioni, Christopher Akiki, Margaret Mitchell, and Yacine Jernite. Stable bias: Analyzing societal representations in diffusion models. CoRR, abs/2303.11408, 2023.
[8] https://news.mydrivers.com/1/898/898682.htm
[9] Jiaxing Zhang, etc. Fengshenbang 1.0: Being the foundation of chinese cognitive intelligence. CoRR, abs/2209.02970, 2022
[10] https://github.com/SkyWorkAIGC/SkyPaint-AI-Diffusion
[11] https://www.zhihu.com/question/619921556/answer/3190626893
[12] https://modelscope.cn/models/damo/multi-modal_chinese_stable_diffusion_v1.0
[13] https://xihe.mindspore.cn/modelzoo/wukong
[14] Lvmin Zhang and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. CoRR, abs/2302.05543,2023.
[15] An Yang, Junshu Pan, Junyang Lin, Rui Men, Yichang Zhang, Jingren Zhou, and Chang Zhou. Chinese CLIP: Contrastive vision-language pretraining in chinese. arXiv preprint arXiv:2211.01335, 2022.
[16] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Neural Information Processing Systems,Neural Information Processing Systems, Jan 2020.
[17] EdwardJ. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv: Computation and Language,arXiv: Computation and Language, Jun 2021.
[18] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. CoRR, abs/2208.12242, 2022.
[19] Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit Haim Bermano, Gal Chechik, and Daniel Cohen-Or. An image is worth one word: Personalizing text-to-image generation using textual inversion. In The Eleventh International Conference on Learning Representations, ICLR 2023, Kigali, Rwanda, May 1-5, 2023. OpenReview.net, 2023.
[20] https://civitai.com/models/4201/realistic-vision-v51
[21] https://civitai.com/models/4384/dreamshaper
[22] https://civitai.com/models/35960/flat-2d-animerge
[23] https://civitai.com/models/65203/disney-pixar-cartoon-type-a
[24] https://civitai.com/models/80/midjourney-papercut
[25] https://civitai.com/models/73756/3d-rendering-style
[26] https://civitai.com/models/25995/blindbox
[27] https://civitai.com/models/16014/anime-lineart-manga-like-style
[28] https://huggingface.co/lllyasviel/control_v11f1p_sd15_depth
[29] https://civitai.com/models/59622/famous-people
[30] https://civitai.com/models/65214/age-slider
本文系作者个人观点,不代表本站立场,转载请注明出处!