AIGC Trend

About AIGC Recent Trends

AIGC Trend
Photo by DeepMind / Unsplash

对近期所发布的内容进行整合归纳:

  1. Dreambooth
  • 1.dreambooth论文方法公开
    • 官方介绍:它就像一个照相馆,但一旦捕捉到主体,就可以在你的想像所及之处融入它的身影。
    • 功能特性:主体重构、文本指导的视图合成、外观修改和艺术渲染(同时保留主体的关键特征)。
    • google research团队基于自家imagen模型研发、而不是stable diffusion模型
  • 2.diffusers代码实现了Dreambooth这一功能 并且适配了Stable diffusion 模型
    • diffusers 是一个提供跨模态的预训练扩散模型 基于pytorch实现的推理和训练扩散模型的模块化工具箱 (cli命令行程序 (可以通俗理解为没有gui的sd-webui) 通过终端 命令行参数 及脚本变量 与程序交互))
  1. instruct-pix2pix

    instruct-pix2pix作者团队提出了一种通过人类自然语言指令编辑图像的方法。他们的模型能够接受一张图像和相应的文字指令(也就是prompt),根据指令来编辑图像。作者团队使用两个预训练模型(一个是语言模型GPT-3, 另一个是文本到图像模型Stable Diffusion) 生成大量编辑图像的样例数据,然后基于这些数据训练出InstructPix2Pix模型,能够在推理过程中适用于真实图像和用户提供的指令。由于它在前向传播中执行编辑并且不需要对每个示例进行fine-tine或 inversion,模型仅需几秒钟就可快速完成图片的编辑

teaser

也就是说,可以用人话来生成AI了

  1. ControlNet

    ControlNet是一款插件,目前能做到骨骼绑定,精准控线,依据3D视图的法线进行绘图,线稿上色,依据深度图结构透视精准重绘,猜想模式/非提示模式

    1. 基础画图
    • OpenPose(骨骼绑定)

      用户可以输入一张姿势图片(推荐使用真人图片)作为AI绘画的参考图,输入prompt后,之后AI就可以依据此生成一副相同姿势的图片;当然,也可以只输入姿势图

    • 精准控线

      • Canny模型

        用户输入一张动漫图片作为参考,程序会对这个图片预加载出线稿图,之后再由AI对线稿进行精准绘制(细节复原能力强)

      • Hed模型

        相比Canny自由发挥程度更高

      • Scribble模型

        涂鸦成图,比Canny自由发挥程度更高,以下为低权重成图

      • Seg模型

        区块标注,适合潦草草图上色

      • Mlsd模型

        建筑物线段识别

    • 三维制图

      • Normal模型

        适用于3维制图,用于法线贴图,立体效果

        AI会提取用户输入的图片中3D物体的法线向量,以法线为参考绘制出一副新图,此图与原图的光影效果完全相同

      • Depth模型

        该模型可以较好的掌握图片内的复杂3维结构层次,并将其复现。它会从用户输入的参考图中提取深度图,再依据此重现画面的结构层次

        这也就说明了我们可以直接通过3D建模软件直接搭建出一个简单的场景,再将其抛给AI绘画"Depth"模型去”渲染“

  1. 常用的模型训练方法

    现在常用的技术方案有三种:Fine-Tuning、DreamBooth、Textual-Inversion

    • Fine-Tuning -- 模型训练、原生框架
      • 优点:功能最全,效果最好,prompt 控制精确,是优质精细模型的统一技术方案
      • 缺点:训练复杂,硬件要求高,训练时间长,训练图片需要标记词
    • DreamBooth -- 模型训练、简易框架、添加特殊标识符
      • 优点:训练简单、速度快、硬件要求相对低、不需要精确的图片标记词,能较好地生成不同风格的图片,开放模型最常用方案
      • 缺点:受限于 [X][类别] 的表示方式,训练SD模型中不存在的类效果会差一些,整体出图质量低于Fine-Tune,模型文件:2-4G
    • Textual-Inversion -- 新定义特征向量,不改变模型本身
    • 优点:需要图片数量少:3-5张,训练文件小:几十KB
    • 缺点:对于原SD中不存在的创新的物体、画风等出图效果不好,暂无商业用例