强烈建议先阅读:一文弄懂 Diffusion Model
(相关资料图)
标题:Multi-Concept Customization of Text-to-Image Diffusion
作者:Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan Zhu.
原文链接:https://arxiv.org/pdf/2212.04488.pdf
代码链接:https://www.cs.cmu.edu/~custom-diffusion/
2. 引言最近通过文本生成图像的深度学习相关技术取得了非常大的进展,2021已经成为了图像生成的一个新的milestone,诸如DALL-E和Stable diffusion这种模型都取得了长足的进步,甚至达到了“出圈”的效果。通过简单文本prompts,用户能够生成前所未有的质量的图像。这样的模型可以生成各种各样的对象、风格和场景,并把它们进行组合排序,这让现有的图像生成模型看上去是无所不能的。
但是,尽管这些模型具有多样性和一些泛化能力,用户经常希望从他们自己的生活中合成特定的概念。例如,亲人、朋友、宠物或个人物品和地点,这些都是非常有意义的concept,也和个人对于生成图像的信息有对齐。由于这些概念天生就是个人的,因此在大规模的模型训练过程中很难出现。事后通过详细的文字,来描述这种概念是非常不方便的,也无法保留足够多的视觉细节来生成新的personal的concepts。这就需要模型具有一定的“定制”能力。也就是说如果给定少量用户提供的图像,我们能否用新概念(例如宠物狗或者“月亮门”,如图所示)增强现有的文本到图像扩散模型?经过微调的模型应该能够将它们与现有概念进行概括并生成新的变化。这带来了几个比较严峻的挑战:
首先,模型倾向于遗忘现有概念的含义:例如,在添加“moon gate”这一concept的时候,“moon”的含义就会丢失。其次,由于stable diffusion这样的网络往往参数会超级多,所以在小数据上训练模型,容易造成对训练样本进行过拟合,而且采样中变化也有限。此外,论文还关注了一个更具挑战性的问题,即组group fine-tuning,即能够超越单个个体concept的微调,并将多个概念组合在一起。学习多个新的concepts同时也是存在一定的挑战的,比如 concept mixing以及concept omission。在这项工作中,论文提出了一种fine-tuning技术,即文本到图像扩散模型的“定制扩散”。我们的方法在计算和内存方面都很有效。为了克服上述挑战,新方法固定一小部分模型权重,即文本到潜在特征的key值映射在cross-attention layer中。fine-tuning这些足以更新模型的新concepts。为了防止模型丧失原来强大的表征能力,新方法仅仅使用一小组的图像与目标图像类似的真实图像进行训练。我们还在微调期间引入data的augamation,这可以让模型更快的收敛,并获得更好的结果。论文提出的方法实验是构建在Stable Diffusion之上,并对各种数据集进行了实验,其中最少有四幅训练图像。对于添加单个concept,新提出的方法显示出比相似任务的作品和基线更好的文本对齐和视觉相似性。更重要的是,我们的方法可以有效地组成多个新concepts,而直接对不同的concepts进行组合的方法则遇到困难,经常会省略一个。最后,我们的方法只需要存储一小部分参数(模型权重的3%),消耗的GPU memory非常有限,同时也减少了fine-tuning的时间。
3. 方法总结来讲,论文提出的方法,就是仅更新权重的一小部分,即模型的交叉注意力层。此外,由于目标概念的训练样本很少,所以使用一个真实图像的正则化集,以防止过拟合。
对于Single-Concept Fine-tuning,给定一个预训练的text-to-image diffusion model,我们的目标是在模型中加入一个新的concept,只要给定四张图像和相应的文本描述进行训练。fine-tuning后的模型应保留其先验知识,允许根据文本提示使用新概念生成新的图像类型。这可能具有挑战性,因为更新的文本到图像的映射可能很容易过拟合少数可用图像。所以保证泛化性就非常有必要,也比较有挑战。所以就仅仅fine-tuning新的K和V,而对于query,则保持不变,这样就可以增加新概念的同时,保证模型的表征能力不受到太多的影响。优化目标还是diffusion的形式:
概括起来实际上非常简单,就是训练一个k和v的矩阵,来扩充维度,增加模型的表征能力,使其能生成更为丰富的图像内容。
而对于Multiple-Concept Compositional Fine-tuning,为了对多个概念进行微调,我们将每个概念的训练数据集合并,并使用我们的方法将它们联合训练。为了表示目标概念,我们使用不同的修饰符的
由于我们的方法仅更新与文本特征相对应的key和value投影矩阵,因此我们可以将它们合并,以允许使用多个微调概念生成。让集合
强烈建议先阅读:一文弄懂DiffusionModel1 论文信息标题:Multi-ConceptCustomizationofText-to-Ima
皮肤不仅储藏着大量的脂肪和水分,还有蛋白质,糖,维生素等,这些物质都参与整个人体的代谢,所以,当...
3岁以上儿童可以接种新冠疫苗。接种后留观30分钟观察有无不良反应。拓展阅读:儿童接种前身体不适能打新...
面对市场调整的压力,不少基金经理在反思中优化投资框架,放弃“景气赛道+集中押注”的简单投资模式,转...
》》》天津智慧养犬小程序操作流程(2023最新)1、打开微信,下拉微信在搜索框内输入“天津智慧犬管”,...
沈阳免费防疫包哪些人能领?沈阳免费防疫包领取对象:60岁以上老年人以及城乡低保家庭人员、低保边缘家庭...
焦点财经讯盼盼12月28日,奥园集团有限公司发布“21奥园债”2022年第二次债券持有人会议决议的公告。12...
2023浙江卫视跨年演唱会晚会主题:“想把我唱给你听”晚会门票:本次演唱会以线上直播形式播出,未出售...
国泰君安(香港)发布研究报告称,重申滔搏(06110)“买入”评级,预计线下零售短期仍将承压。展望未来...
证券代码:601579 证券简称:会稽山 公告编号:202...
12月20日,由21世纪经济报道主办的第十七届21世纪亚洲金融年会盛大举行。此次年会上,由21世纪金融研究...
智通财经APP讯,之江生物发布公告,2022年12月1日至2022年12月25日期间,公司实际控制人兼董事长邵俊斌...
这是我们今年发布的新产品,它能同时识别两个人的动作情况,属业内首创。12月25日,成都拟合未来科技有...
近日,吕良伟的老婆杨小娟罕见地在社交平台上更新了动态,是为老公庆祝67岁生日的动态,并配文称:“吕...
(原标题:分析师:LG集团可能成为苹果(AAPL US)电动汽车合作伙伴)智通财经APP获悉,KB证券公司分析师...
文|阳光贝拉总编|唐迪铭影GTX10603GD5战将显卡3GB黑色之前要739元,之前降价还要699元,现在活动到手只...
12月21日,省委反腐败协调小组会议在海口召开,深入学习贯彻党的二十大精神,总结交流经验,研究部署有...
*ST天马(002122)12月21日在投资者关系平台上答复了投资者关心的问题。
【国内监测流行变异株有哪些手段?能否及时监测到变异情况?中疾控回应】中国疾控中心病毒病所所长许文...
证券代码:872895证券简称:花溪科技主办券商:开源证券新乡市花溪科技股份有限公司关于欺诈上市赔偿投资
1前言最近电脑坏了,开源项目的进度也受到一些影响这篇酝酿很久了,作为本系列第二部分(API接口开发)...
12月18日,胡润研究院发布《2022水肌因·胡润中国食品行业百强榜》。本次榜单中的“中国食品企业”是指...
这个“双十二”去得悄无声息,反而是药品、抗原、口罩被大家伙一扫而光。随着全国不少城市陆续优化调整...
同花顺(300033)金融研究中心12月16日讯,有投资者向德固特(300950)提问,董事长你好,贵公司有没有...
截至2022年12月15日收盘,中铁装配(300374)报收于14 74元,下跌3 85%,换手率9 37%,成交量17 72万...
X 关闭
X 关闭