查看原文
其他

可以集多个AI绘画开源模型于一体的“工作台”——invokeAI使用测评

唐通 MiX 跨学科知识分享 2024-04-14



当AI绘画模型和平台越来越多,你是否想使用统一美观的界面来使用你所有的AI绘画模型?invokeAI——这个精致的WebUI工具可以帮助你创建一个统一美观的工作环境:

invokeAI简介及原理


自Stable Diffusion模型发布以来,一组人(从@Lstein开始)一直致力于将生成高质量图像的最佳工具汇集到单个易于使用的存储库中。2022 年9月,InvokeAI 团队正式成立。


invokeAI究竟是什么?invokeAI是一个在网页上使用的AI绘画生成界面,通俗点讲,它其实是嵌套在生成模型上的一个网页外观。不同的生成模型例如stable diffusion和Dream booth等,通过导入invokeAI内,可以将不同模型的界面替换成invokeAI的界面,从而统一工作环境。



一、主要功能及特点


1、功能介绍


使用界面:比较美观的使用界面,最左侧是功能栏,分为三个已有功能和三个未上线功能;旁边是调节栏,用来输入和调节参数;中间是生成的图像展示,最右侧是你最近生成的图像库:



功能栏:


文字生成图片:像大多数AI图像生成工具一样,输入文字并产出图片;


图片生成图片:类似于垫图功能,基于上传的图片和文字生成对应的图片;


画布拓展:先生成较小的图片,然后生成可以自由地拓展你的画布,将图像延展出去。在invokeai中,若硬件合适,这一功能似乎可以延展出无穷的画布。



预计推出:


节点:目前正在开发基于节点的图像生成系统。请继续关注有关此惊人功能的更新。


后处理:调用 AI 提供了多种后处理功能。图像放大和面部恢复已经在WebUI中可用。您可以从“文本到图像”和“图像到图像”选项卡的“高级选项”菜单访问它们。您还可以使用当前图像显示上方或查看器中的图像操作按钮直接处理图像。不久将发布专用 UI,以促进更高级的后处理工作流程。Invoke AI 命令行界面提供了各种其他功能,包括 Embiggen。


训练:一个专用的工作流程,用于从 Web 界面使用文本反转和 Dreambooth 训练您自己的嵌入和检查点。InvokeAI 已经支持使用主脚本使用文本反转来训练自定义嵌入。



模型转换:


invokeAI下载安装之后,默认附带了较为常用的五种模型可以使用,供用户体验不同模型的生成效果(位置在界面上方):


紧挨着这个选项框还有一个模型管理器按钮,进入后可以上传你的模型,网上已有相关教程(【InvokeAI更好用了!可以加载指定模型】https://www.bilibili.com/video/BV1zd4y1E7jF?vd_source=3328dfb7f2791f8dfba7a6a8076b7fbe):




2、特点功能


invokeAI中拥有大部分的基本AI绘画生成功能,例如文生图,图生图、种子值、放大图像等等,下面拿了invokeAI的一些特别的功能进行了测评。


不过invokeAI中的功能虽然在界面中都可以调节,但是如果当前使用的模型算法不支持,可能会不起作用。



面部修复:


其中Strength表示修复强度:值范围从0到1,范围内值越高修复效果越强;下面两张是多组测试中效果较明显的一组,他们有相同的种子值,关键词为“A girl's face”:


第一张,没有打开面部修复时的生成效果:


打开面部修复后:

这一功能主要是略微优化脸部结构,同时图片的锐度下降,并产生一定的磨皮、平滑效果。


画布拓展


几乎可以将画布无限延展,这是这个功能最吸引人的特点。你可以在这个界面里自定义延展框的大小、比例、甚至创建遮罩等,将你原来的模型进行放大:


考虑到每次图像拓展可能会产生接缝线,官方在左侧的调节栏里设置了接缝校正功能如下,但是模型不同,这个调节的效果也会不同:







二、对比其他模型的优劣势


invokeAI主要是基于开源模型的界面设计,它与著名的非开源AI图像生成模型midjourney相比,有哪些优缺点呢?

在进行大量的出图时,midjourney采用的是上下滚动的翻阅设计,而invokeAI采用的是将图片集中放在右侧栏中的设计,invokeAI在直接选取之前的图像上更加方便。


invoke将所有的图像集中右侧:


midjourney的滚动浏览:


在对于生成的一些微调功能方面,midjourney需要在输入框中将所有的指令通过指定格式表达出来,但是invokeAI采用了部分使用滑块等调节的方式,交互方式更加直观便捷。同时有的开源模型没有较为完善的界面设计,对于编程基础较弱的用户不是很友好。但是如果将模型导入invokeAI,就可以在统一的界面中使用模型,也节省了熟悉新模型的时间。invokeAI在每个功能按钮旁都有一个小问号,鼠标停留时会有详细的功能说明,这是非常人性化的交互体验。


例如invokeAI中对种子值的说明:


相比于midjourney,invokeAI将文生图、图生图、画布拓展三个大功能拆分开并将其作为主结构向下细分的结构设计也是不错的,相对应的功能在颜色上也做出了区分。但在图片储存上midjourney使用频道的方式,在进行图片分类、储存方面更加完善,可以将不同的图片分配到不同的频道内进行储存,目前invokeAI还没有将图片分类储存的功能。


midjourney丰富的频道系统:


在社交属性上,midjourney能更快地直达社区和看见他人生成的内容,invokeAI更像单独使用的工具。


对于一般开源软件同样地,下面两张界面图对比,相比stable diffusion比较单调并且没有功能说明,invokeai使用起来更人性化:




对于本地配置要求来说,相比midjourney完全云端的优势,invokeIA安装对于本地配置的要求较高。而且目前为止使用invokeai的成员较少,网上相对应的使用教程也比较少,需要根据官方说明书一步步执行。invokeAI下载时携带了五个模型包,占用很大的内存,并且运行在本地对于显卡的要求也比较高,有条件可以尝试在云端服务器运行。


统一UI在提供便利的同时也会带来一些缺点,固定的UI界面可能无法完全适配自定义模型的功能。而且invoke目前功能比较基础,如果可以自定义增加调节模块并出相应的官方教程就更好了。





三、总结


总的来说,invokeai作为作为一个界面精美的webUI而言,已经可以将开源模型导入进行统一的工作,并且在使用体验上媲美midjourney;我十分推荐需要使用较多模型的创作者拿它来整合模型并作为一个统一的工作界面,随着即将推出的新功能,相信这款工具可以越做越好。



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存