作者 | 图形起源CEO史海天
编辑 | 石亚琼
今年AI生成图像能力进步得非常快。快到什么程度呢?三四月份的时候,AI还很难画出一个正常的人脸,到九月份的时候,AI已经可以把人脸画的惟妙惟肖了。
(资料图)
要知道,我们对人脸的观察是非常敏锐的,很容易能察觉到哪怕很细微的错误。
而下面这几张图都是用户使用今天的AI在30s的时间里画出来的图:
用户在Draft.art上创作的人像作品
可见,今天的AI对“人应该长什么样”的理解已经非常准确了。
AI和人不同的是,一旦它画出了一张漂亮的人脸,它就可以持续地画。而且随着从更多的数据中学习,水平还能不断提高。
因此也难怪周围美术行业的朋友感慨要失业了。
那么,AI“画”一张图的原理是什么?它的学习方式是什么?未来AI作画会以多快的速度进步?AI作画会如何影响创作者们的利益?
我们可以从第一性原理出发,来逐个分析这几个问题:
AI作图的原理
AI创作能力的根源来自神经网络这项技术。
我们争取用最简单的方法给没有知识背景的同学讲清楚什么是神经网络,为什么神经网络可以在30s的时间里把一张精美的图像画出来。
人的神经元长这样:
人的神经元
科学家受人类神经元启发,设计出的人工神经网络长下面这样:
人工神经网络
一般讲神经网络就是指这种人工的网络。
其实实际的神经网络都是用数学公式表示的,没有实体结构,图里面的这些圈和连线是对神经网络的一种可视化呈现。
这些圆圈起什么作用呢,我们想象每个圆圈里都有一个计数器,当这个计数器接收到左边连线传来的数时,会进行一次简单的计算,然后把计算结果(也是一个数)输出,通过连线传给右边的圆圈,继续重复类似的过程,直到数字从最右侧的圆圈输出。
我们脑子里的不同神经元之间连接的强度是不一样的,有些粗一点,有些细一点。正是这些连接强度,让我们产生了记忆和知识。
对于计算机神经网络来说,也有相似的规律:圆圈和圆圈之间的连线的“权重”不同。权重是连线的一个属性,当数字在一条连线上传递的时候,要乘上这个连线代表的“权重”。因此,当数字经过这些连线以后,会因为乘过了不同的权重,导致输出结果的改变。
因此,对于整张神经网络而言,其中的各个圆圈之间的连接权重,决定了神经网络的输出!
神经网络连接
神经网络运行的过程是:
我们给神经网络左边输入一系列数字,神经网络会按照圆圈里的计算规则,和连线上的权重,把数字从左到右计算和传递,最终,从最右侧的圆圈输出一系列数字。输入一组数、输出另一组数,这就是神经网络的运行过程。
为什么这样一个网络可以“生成图片”呢?
我们看看图片是什么:
计算机里的图片是由像素组成的,每个像素代表一个颜色,当像素排列的足够多、足够密集的时候,一张有内容有颜色的图片就出现了。
我们知道,眼睛看到的颜色是由光的三原色组成的,相似地,计算机里的颜色也是由3种基本色组合成的。
每个像素的颜色都可以用三种基本色(红、绿、蓝)叠加出来。
像素颜色
那么,如果用数字来记录每个像素中红、绿、蓝的比例,我们就可以把一张图片表达成一张由数字组成的表格了:
图片的像素表格
当我们把这堆数字展开,按特定顺序排成一排的时候,图片就变成了一串数字。
反之,我们把一串符合长度要求的数字堆在一起,再从里面按照红、绿、蓝的比例还原出色彩的时候,我们就把一串数变成了一张“图片”。
而文字又是什么呢?
假设计算机共存储了10w个汉字,我们把十万个数字“0”从左到右排列起来,让每个汉字对应一个位置并记录其对应关系。
当我们想表达某个字的时候,我们找到这串数里对应这个字的位置,然后把这个位置的0改为1,其余位置仍然是0。这样,我们就可以把一个汉字转化成这样 0,0,0, ..., 1, ...,0,0 的一串数。
当我们用多串这样的数连在一起的时候,我们就可以表达一个包含多个汉字的句子了。
当句子可以被转化成一串数以后,就可以被输入“神经网络”了。
比如我们把 1, 5, 4, 9, 3 这串数输入神经网络,意思就是,让计算机把 1、5、4、9、3 分别加到第一排的这些圆圈上,并按照规则继续往后传递。
数字输入神经网络
数字们在神经网络的圆圈和连线之间不断传递,最后通过最右侧的圆圈输出:
神经网络运算
输出的结果也是一串数字。
此时,我们按照数字转图片的规则把输出的这串数转换成一张图片,那么从原理上我们就实现了“通过句子生成图片”的目标。
只不过,当我们没有对神经网络进行训练的时候,其输出的数字是很随机的,因此转换出来的图片内容也是完全混乱的。
为了让神经网络输出“正确”的图片,我们需要对神经网络进行“训练”。
按照前面的知识,我们知道影响神经网络输出的是神经网络的权重。
那么如何改变神经网络里的连接权重,来让神经网络输出我们希望输出的内容呢?
比如我们想让神经网络生成一只猫的图片。
第一步,让没有训练过的(也就是随机权重的)神经网络接收到“猫”这个词,直接进行计算。按照我们上面的知识,代表“猫”的一串数经过从左到右的传递后,出来的这串数可以转化成一张图片。
但此时因为没有训练,得到的这个图片是一堆乱码,和猫没有关系。
神经网络生成猫图
我们粗略认为,如果神经网络输出的图像和猫的图像比较接近的话,说明神经网络“更理解”猫长什么样,说明神经网络更会画“猫”;如果和猫的图像差距很大的话,证明神经网络不太会画“猫”。
有知识背景的同学知道这里面存在很多隐含假设,但是通俗来讲,训练神经网络的基本思路就是希望就是通过改变神经网络的权重,使得神经网络输出的图片和正确图片之间的差距变小。
如何量化两张图片之间的差距呢?
方法就是用代表两张图片的那两串数直接做减法,相减后结果越接近0,说明两张图片“越像”。
训练后神经网络生成猫图过程
那么我们如何让神经网络的权重朝着这种“结果差距变小”的方向改变呢?
这里用到了一个“反向传播”的方法。“反向传播”就是我们可以让输出结果之间的“差距”,去返回去改变神经网络的权重,让代表结果的差距的信号在神经网络中“反向”传播。感受一下这个过程:
训练过程
怎么用结果的差距改变权重呢?
最简单的理解是,你让一个权重增大一点,试试结果如何,如果结果的“差距”变小了,说明权重增大是正确的,那么你就真的增加这个权重;如果“差距”反而变大了,那就说明权重增大是错误的,你就减小这个权重。以此类推,在固定住其他权重的情况下,把每个权重都按这种方法优化一下。经过漫长的很多次循环之后,理想情况下,整个神经网络的权重分布就会让输出的结果越来越接近“正确”结果了!
训练结果反向训练
比如当这样优化500轮之后,神经网络输出的数字转化成的图片已经很接近“正确”的猫的图片了,那我们就可以认为,这个神经网络已经学会画“猫”啦!
那么,理解了最基本的神经网络原理以后。我们看看今天最先进的AI生成技术是什么样的。
它其实就是几个不同神经网络的组合!大概长这个样子:
(右图是简化版本)
里面有三个神经网络在起作用。
【句子转换网络】的作用就是把输入的提示语转化成一个后面网络更好理解的数串。
【生成网络】的作用是接收到代表提示语的数串和处理后的参考图后,输出一张图像。
【放大网络】的作用是把生成网络输出的图像进一步放大,提高分辨率和清晰度。
根据上面的原理,其实一个网络经过大量训练,理论上就可以完成词语转换和生成图片的全部任务。为什么要设计多个网络分工的结构呢,是因为经过大量科学家的探索,发现这样的结构,在训练成本上和出图效果上都比较理想。
未来可能会出现更复杂的生成式AI模型设计,但神经网络的这种基本原理不会有太大的变化。
AI创作能力会如何变化?
明白了AI作图的原理后,我们想知道未来AI创作会如何变化呢?
我们来做一个小实验:
打开Draft.art,输入提示语:“精灵宝可梦照片”
Draft官网
等待30s,得到的结果如下:
训练结果
可以发现,AI画出来的宝可梦不够理想。
为什么AI有时候能画出让人惊喜的完美作品,比如前面的人脸;有时候又不够理想?
这和AI学习到(用于训练)的数据有关。
我们找到今天知名的AI生成模型Stable Diffusion所用的真实训练数据看一看:
Stable Diffusion训练数据
可以发现,Stable Diffusion主要学习的是真实照片,还有一少部分美术作品。
使用什么样的数据训练AI,AI就会掌握这种数据代表的知识。因此如果数据里面缺少比如“宝可梦”等元素的时候,输入“宝可梦”等关键词,AI当然就很难生成理想的结果。
我们进一步来验证以上观点:
我们试着对模型进行单独地训练,增加一些我们希望学习的数据。
搜集一组宝可梦的图片,我们让AI针对这26张图片进行新的一轮训练,
AI针对模型训练
训练约半个小时后,再次运行AI模型,输入:“精灵宝可梦照片”
得到了下面一组截然不同的结果:
AI针对模型训练后生成结果
能看出来,训练后的AI明显学习到了宝可梦的线条、配色、动物的特征和调皮的风格。甚至能有机地把不同小精灵的特征结合在一起了。
而实现以上过程,我们只用了26张图和20分钟的训练时间。
可见,AI目前最大的问题不是“不够聪明”,而是“书读得太少”。
如果我们使用大规模的、精准整理、完善标注过的图片数据,供AI学习,在特定领域下,AI生成的能力将会大幅度提高。
AI创作能力在未来短时间内的进步速度,也将取决于各行各业收集和训练行业优质数据的工作。
AI会引发创作行为的范式转移
首先说结论:
从2022年开始,AI生成会对视觉内容的创作和分发带来一次巨大的范式转移。
范式转移是托马斯·库恩在《科学革命的结构》中提出的一个概念。
蒸汽机、电话、火车、计算机、互联网行业的出现都是范式转移的典型代表。
想象一下,在这些产业出现之前,人们已经有了一整套成熟的办法去解决生产、通信、交通等问题。
但当这些新技术出现之后,此前的解决方案和相关产业在短时间内就被彻底颠覆了;同时,围绕新技术路线产生的产品快速接管了人们的需求。比如互联网上出现的各种网站和智能手机上出现的各类app,分别替代了互联网出现之前的各类线下服务——这就是范式转移的力量。
为什么AI会带来一次视觉创作的范式转移呢?
我们从第一性原理出发,看一看今天的视觉创作流程长什么样:
以概念设计师为例,今天一位概念设计师的工作流程是:
接到需求——搜集参考——构思——出图——和甲方沟通修改
设计师理解需求后,一般会先找一找相关的作品,获取思路。
概念设计师会在哪里找作品:
概念设计师常用官网
搜索引擎、Pinterest这样的推荐引擎、Artstation这样的原创作品网站。
设计师在搜索引擎上找到的图片来自更上游的原创作品网站,比如artstation、behance等。
比如我们在Pinterest和A站上搜索“机器人”,能看到大量机器人的设计方案。
Pinterest和A站
设计师从这些作品中获得什么?
获得创意和想法。
比如,机器人的体型怎么设计好看;有哪些好看的配色方案;应该选取圆润还是锐利的线条特征;画面中应该有哪些机械元素;机器人的表情应该长什么样;有哪些材质;什么样的光影更有表现力...
设计师人脑思考
这些创意由知名的设计师或艺术家,根据自己的生活观察、天赋和行业经验创作出来,以图片的形式发布在各个网站上,受到版权的保护,获取收益。
而设计师为了获取创意,通过搜索引擎、推荐系统、付费购买等办法来搜集这些作品。
这些作品给设计师提供的创意,是设计师用来构思方案的重要“原材料”。设计师用这些原材料结合自己的想法,围绕设计需求,反复组合、探讨、筛选,最终产生了新的方案。
AI创作带来了什么改变呢?
AI因为能够直接从互联网上学习几乎所有的图片作品,并具有强大的抽象能力,因此AI几乎可以把设计师需要的配色、构图、笔触、线条、光影等细节都学习到。
AI拥有了这些视觉知识后,当使用者给出一段提示语时,就能够立刻在自己高达数百维的高维知识空间中寻找匹配的特征,快速进行排列组合,然后画出一张组合了多个艺术家风格和创意的作品。
AI模型创作
整个过程都是在1分钟以内完成的。
比如之前举的机器人和仙人掌怪物的例子:
AI生成图片效果
设计师的目标是要设计一款致敬某个游戏画风的、方块形态的仙人掌怪物角色。
虽然荒野乱斗、方块形态、仙人掌、怪物,都不是生僻的概念,但是想在互联网上直接找到一张同时结合了以上特征的方案,很难,很少。
而AI生成就不一样了,这种多个特征的有机组合对AI来说非常容易
只要AI通过数据分别学习到了什么是荒野乱斗、什么是方块、什么是仙人掌、什么是怪物角色,AI就可以毫不费力地把这些概念完美地融合在一起,真的像一个设计师一样想出来一个靠谱的方案给你。
这是今天的互联网图片网站不具有的能力。
这显然是非常鲜明的“新范式”特征——过去的解决方案望尘莫及。
“新范式”特征
这种范式带来的核心变化是:
建立了一个可以不通过图像传递创意的通路。
新范式核心变化
当AI从源头学习到艺术家的创意和情绪,并在终端按照具体需求画出来的时候,中间大部分的图片文件存储、传输、分发和交易环节,就失去了其价值。
所以我想AI创作最大的价值并不是画图本身,而是它带来了一种全新的创意流通方式,在“创意—图片—网站—图片—创意”之间建立了一个更短的:
“创意—AI—创意”通路。
对创作者的影响
那么,这种新范式下,上游的创作者会受什么影响呢?
自AI创作逐渐走入公众视野后,大量反对的声音来自上游的艺术家。原因是AI对原有的图片版权造成了巨大的破坏。
我们看下面这张图:
500px上摄影作品
这是一张500px上的摄影作品。
500px是一个版权保护很好的摄影网站,当你在这个图片上点击右键想保存的时候,他会提醒你这是某位艺术家的原创作品。
而计算机会怎么获取这张图片呢?
进入开发者模式,逐个检查网页元素,直到找到这张图片所在的元素:
开发者模式对该照片的分析
点击其来源链接:
https://drscdn.500px.org/photo/1054244408/q%3D80_m%3D2000/v2?sig=a7273d918c7482ba81dae3be9c139849e29ad29e442e8e8480eb7e17d8687b50
我们就直接得到了这张图片的高清原始文件。
原始图片
因此,计算机用脚本拿到一张图片比人容易很多。哪怕图片网站做了层层保护,让我们无法用脚本获取原图,从原理上说,只要是人能看到的图片,从技术上都变成被AI学习的数据。
因为可以截图。
对于AI来说,裁掉一些边角、有水印,都不是问题,你把截图交给AI,它仍然能学习到图片特征。
所以AI从原理上确实会对今天互联网图片版权产生影响。
如果AI会影响版权生意,那么过去以版权作为收入的艺术家们该怎么办呢?
其实艺术家反而可以利用这个变量为自己获得新的收益。
艺术家的贡献在于能够产生优质的“创意”,而下游创作者需要的正是“创意”本身。
创意是比图片更本质的价值载体,是这些图片背后的价值。
因此如果能够把艺术家在“创意”交易中的贡献进行定价,那么理论上我们就可以为艺术家带来一种适应AI创作的新型收益模式。
我们能不能量化艺术家在AI创作中的贡献呢?
可以。
研究生成式AI的算法会发现,在生成图像的过程中引入一种“注意力机制”,就可以准确定位词语对画面的影响。
比如我们用AI生成“一只熊和一只鸟的照片”,得到以下结果:
AI生成“一只熊和一只鸟的照片”
在生成过程中,如果我们对“熊”这个词引入注意力机制,就可以把“熊”这个词对画面的贡献记录下来:
熊
同理,也可以把“鸟”这个词对画面的贡献记录下来:
鸟
我们可以清楚地看出“熊”和“鸟”两个关键词分别在不同的区域,以不同的强度对最终的图像产生了影响。通过计算每个关键词影响的区域面积和强度,我们就可以量化各个关键词的贡献了。
对神经网络来说,“熊”“鸟”等词,和一位艺术家的名字是没有差别的,可以使用同样的方法量化它们的贡献。
如果我们将艺术家关键词对生成图像的贡献视为艺术家本人的贡献,我们从原理上就可以为艺术家的创意价值定价了。
如何具体计算艺术家应得的收益呢?
一次的生成费用乘以本次生成过程中某位艺术家的贡献比例,就是这位艺术家在这次生成任务中产生的价值。
产生的价值扣除平台的分成,就是艺术家理论上因贡献创意产生的收益。
假设一个月内,平台共生成1000w张作品,涉及该艺术家关键词的作品有50w张,平均每张贡献为0.2,每张的平均生成费用为1元,平台分成20%,那么艺术家本月在平台上的税前收入为:50w×0.2×1元×80%=8万元。
如果艺术家的关键词出图效果很好,被足够多的用户反复使用的时候,他的收入很快会超过传统的版权收入。
需要注意的一点是,在AI新范式下创作,要考虑什么样的内容更利于AI学习和AI生成使用。
因为AI学习的是图片内容和提示词的对应关系,因此与其花大量时间创作一张包含很多内容、画面特征复杂、很难用一句画描述清楚的作品,不如创作很多小作品。
比如,用统一的尺寸和构图、最好是三视图,创作出一个角色后,更换不同的装备、发色、身材,出一整套图。然后清晰、详细地用语言描述每个图的特点,用的什么装备、代表哪种身材、发色是什么、角度是什么。
创作的时候就想象使用者在进行AI生成的时候,会对AI提出哪些要求,按照这些维度去创作图像和提示语。这样的数据会更容易被AI学习,更利于用户使用和付费。
AI新范式下创作
经常使用AI创作的朋友会发现,国外AI创作论坛里公开的提示语中经常会包含一些特定的人名,他们很多是CG领域的知名艺术家。
比如上图的这位greg rutkowski,就是A站上的一位波兰艺术家。
A站上的一位波兰艺术家
他的作品估计被收录进了训练数据当中,所以可以被AI生成出来。
因为他的画面风格鲜明,类似油画的厚重笔触和有史诗感的配色风格,放在提示语中会大大提高最终的画面效果,因此今天很多用户都把他的名字作为提示语的一部分。
艺术家的风格分析
如果greg rutkowski在一个根据关键词计算贡献给他分成的平台上入驻,为这个平台提供自己作品的高清数据集,号召用户使用其关键词生成作品,按照他今天可能每天上百万次的关键词引用频率,也许已经实现日入数万甚至数十万的收益了。
总结
最后放一些作者的思考。
一直以来,艺术创作和设计都是少数人的工作。
虽然大多数人都有审美,能判断好的内容,但两个因素限制了普通人创作它们:一个是创意,普通人不可能每天在海量的作品中学习积累创意;另一个是表达,就算脑子里有一个画面,要做成图像,总得借助些技能。比如素描、油画、水彩,包括3D建模,对普通人来讲都有很高的门槛。
今天的AI解决两个问题:一个是学习创意,它比以往的模型都能更准确地学习画面中的创意,而且学习的范围是整个互联网当中的图像,没有任何一个勤奋的画家能够学这么多作品。二是视觉表达,AI在理解创意的基础上,生产出一张图像的速度远远高于人类画师。同时边际成本也很低,画一张画,也就是正向传播一次神经网络的算力成本,大约在几分钱到几毛钱之间。也就是说今天的AI从底层改变了游戏规则,接下来会看到以下变化:
1)不会画画的人用AI生产高质量视觉作品
2)互联网上难以估量的图像数据被重新组织起来,围绕模型训练和数据标注产生新的生意
3)图片版权名存实亡,参与建立AI数据集成为艺术家的主要收益
4)传统图像处理软件、3D建模软件被围绕AI范式建立的新工具取代
10年后再往回看,这可能会成为一个历史节点。
新的节点
“铁匠在啤酒中洒下眼泪,悲叹自己没有办法在铁路时代卖马掌,但是这并不会使他们的马掌更受欢迎。那些学习变成机械师的铁匠才会保住自己的饭碗。”