一键总结音视频内容
Attention is All you Need
📝 Stablediffusion模型与模型训练背后的事
在你使用AI绘画的时候,你有没有想过这样的一个问题? 为什么Midgenny仅仅只需要一个5.2模型就这么的能打? 各种各样的画风,二次元,真人的,2.5D,像素风,星海城,皮克斯,毕加索,画人,画动物,画场景,全都没有问题。 而当我们使用Stable Division的时候,画人要用真人模型,画动漫要用二次元模型,画赛博朋克风格要加载专门的LOL,画一只猫或者一只狗要切换到通用大模型。 正常情况下,你必须得配备5到10个不同类型的大模型,还有各种各样的LOL模型,硬盘塞得满满当当的。 每次生成图片的时候都要在不同模型之间犹豫到底要选哪一个。 今天就来和大家聊聊模型与模型训练背后的那些事。
嗨,大家好,我是李晨,欢迎来到CG迷。
Midgenny模型
Midgenny实际上就只有两个大模型,一个是V系列的通用大模型,一个是立体二次元模型。 我们设定好模型后,只需要输入例如Photovoltaic,Pixels,Ghibli,Gamepixels等不同的提示词就可以得到我们想要的风格了。
Stable Division模型
而在Stable Division里面,我们首先得选定一个真人的、二次元的,还是2.5D的TrackPoint大模型。 要实现指定的特征和风格表现,那么我们还得加入多个LOL模型。 为了优化画面,甚至还要加入不同的Embedded和OVAE模型,有时候还会用到Hyperlevel超网络模型来产出特定的画面效果。 这种不同模型之间的相互搭配方式本身就已经是够麻烦了。 再加上即便同为真人大模型,或者是同为二次元大模型,同一个类别里面的模型还有很多不同的模型可以选择。 并且每个模型都有自己特定的触发词,和与模型训练时对应的参数要设置。 这对于新手或者是普通使用者来说是非常不友好的。
Stable Division模型的训练成本
那么为什么Stable Division就不能像Midrange那样有一款好用、全能的通用大模型呢? 我们不妨来看看原始Stable Division V1.5版本的这个模型,它是通过几百个超级GPU连续训练上万个小时来完成的。 这么庞大的训练量不是一般人能训练出来的。 训练这个模型单单成本耗资就高达60万美元,按理来说这么昂贵的成本训练出来的模型效果应该很好才对,但实际上并非如此。 实际上Stable Division的官方大模型和Midrange的官方大模型不太一样,它的目的并不是给大家用来直接生成图片的,而是通过学习海量的图像数据来做预训练,提升模型整体的基础知识水平。 就是因为它有了海量的文本和图像基础信息,从而大大的降低了开源社区用户训练模型的门槛。 通过Stable Division v1.5来作为底模,后面训练的要求和训练的成本就大大降低了,这样对众多练单爱好者来说,只需要一张民用级的显卡,在官方模型的基础上加上少量的文本图像数据,训练个几个小时就能获得定制化风格的模型了。 对于微调模型LoRa那就更加的轻便简单了,各种一键链单的程序也是纷纷推出市场,于是乎就有了现在的这样的情况,训练模型的人只需要准备好一些相关风格类型的图片素材,简单预处理一下图片,给图片打标生成关键词后,选上一个对应的基础底模,他们甚至不需要了解训练模型的底层原理,按照网上教程的训练参数进行设置,或者直接就用默认设置去生成模型,这样就可以快速的制作出一个所谓的全新的模型了。
模型同质化问题
由于模型训练门槛越来越低,这样就导致模型的同质化非常严重,很多模型都是只能产出单一风格的图片,由于他们在训练的时候没有考虑clip panning的问题,提示时的兼容性也不管,画风被融入进去的LoRa牢牢固定住了,因此这些模型的通用性和兼容性都是很差的。 加上现在很多模型平台都在搞模型创作激励活动,鼓励用户创作模型,用户发布的模型越多,被下载的次数越多,就能获得更多的奖励资金,而模型更新越频繁,平台给予的推荐位置就越靠前,所以很多人就开始大量的在模型网站上发布自己的模型,从而达到薅羊毛的目的。 问题是需要频繁更新的模型大多都是通过融合的方式来快速制作而成的,而真正优质的模型反而更新频率很低,因为模型作者在一开始已经通过丰富完整的数据将模型训练得很好了,因此在这样的模型大环境下,一些好的模型很可能就被埋没在模型海里面了。
如何辨别好坏模型
那么我们怎么才能辨别一个模型好与坏呢? 我非常同意Ghostmix模型作者提出的一个观点,就是大模型要解决的是做得到的问题,然后通过lora和controller等方法来解决做得对的问题。 一个好的大模型首先第一直观印象就是看出图效果,这个可以从模型主页的效果图来辨别,但并不是说它展示的图片好看就是一个好的模型,我们还要通过实际的使用情况来加以辨别,该模型的总体良图率达不达标,出图结果准确率如何,对提示词识别的准确程度怎么样,模型对不同画风的兼容性如何,模型对不同lora的兼容性如何,是否有乱加细节的情况,能否保持模型的纯净度,模型中是否有额外的垃圾数据,内置色彩处理的怎么样等等。 这些都是要求模型作者在训练模型时不断的反复调试,反复回炉修改,所以我们得向真正用心制作模型的作者致敬,因为他们是真的花了很多心思心血去调教模型的,然后无私的分享出来,这就是stable division开源的魅力。
推荐模型
首先是通用系大模型,第一款首推jim shepard,梦想地道者,这应该是一款无人不知无人不晓的模型,C站综合评分排名第一,看到这个标字了吗,就是无限的意识,它是一款致力于对标miss jenny的通用大模型,主打就是权能,人物,动物,汽车,机甲,物件,场景,写实风格,二次元漫画,2.5D全都能胜任,必备模型之一。 第二款deliberate,同样是一款通用百搭型模型,这款模型非常适合生成各种创意艺术画面,如果你有什么奇奇怪怪的提示词,有什么天马行空的想法,都可以用这款模型来测试一下,它的表现力是非常丰富的,另外我也很喜欢用它来测试一下不同lora模型之间的融合效果。
真实系模型推荐
realistic v5.1,一款看似平平无奇,实际上非常优秀的真人模型,虽然国内很多真人模型确实能生成很好看的美女脸蛋,但当你刷了几十张上百张图片后,你会发现,好多真人模型生成的都是公式化的表情和动作,生成的图片风格过于单一,基本都是同一张脸,而realistic模型它不追求生成完美的AI脸,会给你呈现真实细腻的皮肤质感,脸上的毛孔,瑕疵都会清晰的表现出来,人物的表情和动作更加的丰富,而且不光光能生成女性人物,男性,年轻的,年纪大的,不同种族的人物都能生成出来,C站评分4.91分,非常推荐大家尝试一下。 epic vision也是一款大而全,适应性很强的老牌真人模型,一直保持着版本更新的状态,如果你不想生成画面风格过于单一,有时候想生成一个看起来更加真实素颜的人物,epic vision模型也是非常值得推荐的,C站评分4.92分。 metriMax Realistic,前面推荐的两款都是国外的真人模型,虽然也能生成亚洲面孔,但单论亚洲女性效果肯定比不上这款卖橘的写实模型了,目前metriMax Realistic更新到V6版本,这个版本融进了更多真实的人脸,增加了画面的写实度,脸部依然保持之前一贯的街道审美,画面观影感觉也有所加强,是生成真实系小姐姐必不可少的模型之一。
二次元系列模型推荐
动漫效果是stable division的强项,在这方面优秀的模型就有很多了,ghost mix,C站综合评分排名第二,仅次于dream shape的模型,模型作者在制作该模型的时候没有融进任何的loa,因此它对各种不同风格的loa模型兼容性非常出色,而且在色彩表现和细节度方面都非常优异,是二次元模型的全能型选手,出片率很高,C站评分4.97分,非常离谱的高分模型。 counterfeit,目前更新到3.0版本,这是一款生成经典动画画风的模型,它不像ghost mix那样给你生成很多夸张的细节,反而用简单舒服的颜色线条给你呈现可爱的卡通形象和传统的动漫画风,C站评分4.9分,也是非常推荐大家尝试一下。 mana mix,刚刚介绍的counterfeit才更新到3.0版本,而mana mix已经迭代到v11版本了,这是一款典型的融合型模型,它通过对十多个模型进行加权合并,调配融合而成的,是一款精致感满满的二次元模型,由于融合了多个模型,它甚至不需要加载loa,通过提示词就可以简单直接高效的出片了,C站评分4.9分,也是非常高分的模型。 万象炉anything v5,是一款适用性非常广的二次元模型,它对提示词识别很准确,同时也非常适合搭配各种动漫人物的loa模型来使用,画二次元没有灵感的时候用这个模型来测试一下就对了。 另外,通友这款模型也非常推荐大家使用,它有着强烈的欧美画风调性,色彩表现大胆张扬,看你的二次元美女的话,用这个模型来生成画面,绝对能给你耳目一新的感觉。 2.5D系列模型,第一款我会推荐REVANIMATE,尽管这款模型作者
🎙️ 模型推荐
Stablediffusion模型
这款模型在今年4月16号停止维护,但在C站上仍然保持着4.94的高评分,综合排名第三。它是一款2.5D全能型模型,无论是画人物、建筑还是动物,都能产生高质量和高效果的图像。此外,它还能兼容不同的画风,对于不同的loa兼容性十分友好。使用这款模型时,只需提供少量提示词,就能得到细节丰富的画面。它是一款看似普通但实际上越用越喜欢的综合型模型。
Real Cutting 3D
Real Cutting 3D是一款融合模型,作者希望模型不仅能产出相对固定的人物样貌,还能融合和调教多个自己喜欢的模型,实现人物角色的多样性。此外,该模型在机甲场景方面也表现出色,是一款2.5D通用模型。在REVANIMATE更新的情况下,Real Cutting 3D是一个不错的替补模型。
大棵树(Dark Susie)
大棵树是一款2.5D模型,英文名为Dark Susie。该模型最初用于生成暗色系风格的图片,因此模型名称中带有"Dark"一词。在融合模型时,作者将优秀的模型像做树丝一样融入其中,因此将其改名为Dark Susie。随着版本的更新,该模型不再局限于暗色系,对不同亮度的图片都有出色的光影表现。它不仅适合绘制人物,还非常适合绘制复杂的二次元场景。尽管评分只有4.99分,但评分人数并不多,所以这个分数只是参考。
XXmaxMV5
XXmaxMV5的画风非常独特,可以根据不同的提示词创建个性化的画面风格。然而,它对不同的lora兼容性就没有那么好了。
迪士尼皮克斯卡通模型
迪士尼皮克斯卡通模型非常热门,适合男女老少。它具有大头可爱的风格,类似盲盒风格,适用于各种卡通手办。
以上这些热门模型已经全部打包好,大家可以直接在评论区自取。如果有某因的同学,可以留言模型,我会私信给你们下载链接。
Stable Division的发展
Stable Division的发展得益于开源环境,让我们有了很多选择。但同时也带来了一些困扰,因为模型太多,让人眼花缭乱,不知从何下手。
随着Stable Division官方最新的XDXR超级模型的推出,未来的模型都将朝着综合化、全能型的方向发展。期待将来能将大量模型汇聚成几个少数的集合。
我们只需要从几个集合中选择一个大模型,然后通过加载不同的lora来实现特定的画风表现。开源社区从多模型多lora转向少模型多lora的发展,这样会更加合理一些。
好了,本期教程到这里就结束了。如果觉得教程还不错的话,请不要吝啬你们的小爱心,记得点赞收藏一下啦。感谢大家的三连,我们下期再见,拜拜。