上个月,当我在文章中提及AI绘画工具Disco Diffusion(下称DD)时,它还仅被我当做一个例证,用来证明AI从事创意性内容的局限,因为它直接用来生成人脸、动物还存在缺陷,需要人力加工。但AI绘画工具的迭代和升级,远超我的想象。DDv5.6新更新的portrait generator模组,就大幅提升人脸生成效果。虽然某些角度还是会有变形,或者看上去带有“玻尿酸感”,但是越来越像“人”了。
(资料图片)
(文章配图均来自西乔的生成图,有额外标注和水印除外)
虽然在AI发展的时间线上,调教AI画画并不是一件新鲜事,早在2015年谷歌就推出过DeepDream,初试AI的“艺术创作能力”。但在2022年,以DD为代表的最新一批AI绘画工具的出圈,不仅源于技术层面的突破,更在于其生成图,所带来的视觉冲击。
人们愈发认真地,讨论AI绘画是否会对美术行业产生影响——即使它可能无法真正替代人类艺术家,但它目前所展现的生产力,已经足以有效地辅助人类创作,成为底稿、成为素材、成为灵感。
除了成为设计师、插画师的工具,AI绘画也向普通人铺开画布,无需美术基础,通过对照教程,编写描述词、调节参数,就能够用文字的想象交换图像成果。并且拥有一些“平易近人”的应用,比如和菜头拿它来画公众号的封面,两个月里封图来源已经从某某图库/版权,变成了“和菜头的小肉手”。
鉴于行业里已经有专业对口的文章科普技术原理,介绍各类AI绘画工具及使用教程。我更好奇的,是AI绘画正在给人们带来哪些变化,以及人们在变化中如何行动。
带着这些疑问我找到了西乔。她是一名设计师、漫画《神秘的程序员》的主创。今年5月起,她几乎全身心投入AI绘画的尝试中,除了每天跑图,也看论文、写科普。她对AI绘画抱以极大的期待,相信“AI对艺术及插画的冲击,等同另一次‘相机的发明’,艺术史又可以分册了。”
如果你想找到“AI绘画工具是什么”的答案,建议阅读更专业系统的文章,比如西乔公众号里的教程(神秘的程序员们:coderstory)。但如果你好奇AI绘画“和我有什么关系” “我能用它做什么” “它会带来什么”,不妨接着往下读。
中文网络中关于AI绘画的讨论,集中出现在今年4月。随美术圈、程序圈从业者的使用和交流,AI绘画工具DD逐渐被更多人知晓。这是一个GitHub开源项目,尚未封装,在谷歌Colab中以代码的形式呈现,其绘制过程,可以简单概括为输入关键词就能生成图像。相较于早前AI绘画的刻板风格,缺少整体美感以及完成度欠佳,DD在构图、色彩、氛围感等方面,都呈现很大突破。
与此同时,OpenAI结合扩散模型和CLIP在今年4月提出的DALL·E 2,DD作者Somnai所在公司推出的Midjourney等工具也开始进入人们的讨论和使用。设计师、插画师开始制作“从0开始学习AI绘画”教程,例如@JZ_打个比方在B站发布教学视频,@Simon_阿文在微博持续更新AI绘画资料,又或者人们在知乎讨论“像disco diffusion这类ai绘画会对美术行业产生什么样的影响?”
和大多数专业画师一样,西乔被AI绘画击中的原因,是因为“可能性”。这种“可能性”既可以像PS、3D辅助软件等工具带来的创作流程的变革,也能够在内容上带来的解放,“它能够帮助我去创造一些我之前不会,甚至不敢去创造的风格。”
但比起将AI视为“创作者”,西乔认为更合适的表述是,AI是她画布上的另一只手。有时可以“放手”,交给AI自己去跑,会带来很多意想不到的惊喜。例如在她《西藏往事》的系列作品中,AI在雪山顶上放了一个塔吊。
在Prompt (提词)设计和无尽头的参数分析机调整之外,还有另一种具有高可控性的玩法。当画师对于生成图的结果有预期目标时,可以通过设计底图、设置底图跳过步数(跳过步数越多,AI生成图越接近底图)进行人工引导。或取得生成过程中的中间步骤,对中间步骤进行修改后放回AI里继续生成。还可以根据同一提词,调整参数输出多组结果,在后期中人工选择更符合创作者预期的局部进行合成甚至重绘等形式进行二次创作。
两只手画画,正带给她创作的解放,探索学习新知识的乐趣、以及一种近乎于开盲盒的快乐,“晚上写好队列,等早上起来捡图,只是费点电,获得的快乐是一样的。”而且比起盲盒有限的选择,AI绘画能够完成的组合,理论上是无限大的。
有赖于专业的爱好者编译的中文资料、保姆式教程、封装的程序、支持中文描述词的AI绘画工具,AI绘画逐渐出现“出圈”的苗头,进入大众讨论语境。比如和菜头自今年5月以来,多次推文介绍AI绘画。
技术的向下兼容,让AI绘画为更多普通人打开绘画的可能性。毕竟绘画对于大多数人来说,要么是一扇从没有打开过的门,要么就是有着很高门槛。但通过AI,却能让一部分从没有试过画画的人,不需要依赖多年学习和经验积累,就能够去创造图像。
“人们创造图像的直觉是与生俱来的。你会发现很多人画画的巅峰其实是在小时候,随着他逐渐长大,接受越来越多已有的视觉绘制模式,后天的输入就把这种直觉覆盖了。”
当先天的图像创作直觉被现实规训后,“多数人试图去创作的,不是凭借直觉把脑子里的东西画出来,而是尽可能让自己画的东西符合现有的绘画,比如模仿照片、模仿别人的画,涂填色书,等慢慢发现自己在模仿上差距太远,就放弃画画这件事了。”
当“绘画”可以像“自拍”一样,能够用于分享,满足成就感时,AI绘画工具或许能帮助普通人找到被偷走的自由,享受到创作带来的快乐。为此,一些AI绘画平台也正在利用这一价值实现商业回报,例如提供将AI生成画印刷成挂画的服务,以供用户购买实物。
DD这类通过文字生成图像的AI绘画工具,绕不来一个叫“CLIP”的模型,它是AI如何“理解”人类语义这一问题的关键。CLIP (Contrastive Language–Image Pre-training),是一种基于对比的图片-文本学习的跨模态预训练模型,由OpenAI于去年1月发布。同一时间发布的,还有初代DALL·E图片生成模型。
DD正是运用CLIP来“理解”用户输入的文本,再使用扩散模型来生成图像。这一过程可以理解为:给AI输入文本关键词,它基于训练数据集的学习,从一堆噪点中把这个图像反推出来,通过不断进行文本与图像的匹配,检查搜索结果是否符合文字描述,进而逐步消除噪声,添加细节,最终生成图像。
“宇航员骑马”和“马骑宇航员”是解释AI理解语义的一个常用例子,AI有能力描绘前者,但由于后者的“反经验”,就不那么容易实现。
AI得以生成带有风格化的图像,也源自于数量庞大的训练数据集灌输的画家风格。以DD为例,prompt是影响生成图中一个重要的构成因素,包含作品媒介、描绘对象或主题、各种风格和质感的修饰词、参考艺术家等。
根据西乔的实验和理解,AI会提炼一个艺术家画作中特征,比如整体创作的主题和对象、笔触、肌理、明暗度、调色板等。其学习成果也受到画家部分作品知名度和主题多样性的影响,像是AI所理解的塞尚、雷诺阿这样的画家,其特征可能源于所有的作品,但如果一些画家有特别出名的作品,那么该幅画的特征权重也会相对较高。
例如,西乔使用DD生成一幅蓝色海洋风景画,将画家设定为卡斯帕·大卫·弗里德里希(Caspar David Friedrich),发现生成的多幅的作品都带有黑衣背影。她推断这一元素出自弗里德里希的《雾海旅人》。
(左为西乔的AI生成画,右为《雾海旅人》)
除了学习艺术作品、画家的国籍、文化背景也会影响AI的理解。例如使用中国艺术家画建筑,就会看起来很像中国风,使用画日漫的艺术家输出肖像画,人物大概率能是锥子脸,眼睛也比正常的大。
上图是基于同一张底图生成的肖像实验。除了参考艺术家之外,题词和参数都相同。左图参考艺术家为anime girl,右图参考艺术家是陈逸飞。
理解AI如何“思考”,从而调节描述词的编写方式和技巧,也是为了让AI更好地“理解”创作者意图。
(如何编写描述词,是教程的一大内容)
从目前行业已有的应用来看,AI绘画工具对于“绘画”的改变将会是系统性的——在创作过程中,作为生产工具提供新的技能点;成为艺术品的新变量,影响作品创作风格和价值;以NFT、拍卖画等形式,直接参与艺术品市场交易。
在AI绘画工具辅助创作的维度上,它可以被用于生成底图,画师以其为底稿,进行二次创作,或者直接用作远景贴图。
画师也可以通过简单的色块勾出底稿,交给AI生成“幻想生物”,作为灵感素材。
在AI绘画工具的介入下,工具链将可能面临重新整合,从AI生成的十几张结果中挑选,用作插画创作中的局部素材,再利用PS或其他的鼠绘工具进行调光、调色、边缘处理、纹理整合等。
另一方面,AI也正在成为影响艺术评价的新变量。
“艺术品的价值评判标准就是很主观的,而且这个评价也不是一成不变的。一个新的流派、新的媒介诞生之初,肯定是存在一个接受和过渡的时期。”人们对于AI绘画的评判,在当下必然是需要面临不少争议的。
但随着AI绘画的普及,人们是沿用已有的评价体系去看AI绘画,还是说会出现一套适用于AI画的评论标准,目前还难说。西乔认为,这可能会成为接下来几年里艺术史研究、艺术评论家的选题,学者会寻找到一套他的评价体系,大众也会选择自己的标准。
(对于AI生成图的两极化评价)
在她看来,尽管AI绘画工具正展现出不错的生产力,但就实际应用的场景,还是存在较大差异的。比如AI特别擅长产出场景概念图,这一特点会使它在游戏、动漫、设计等领域里有着不错的表现,用于辅助创作。但如果拿去做工业设计,生成产品或者设计服装,尚未展现出足够的应用能力。
此外,影响一项技术是否投入于商用,有两个需要考虑的内容,第一是否满足需求,第二衡量投入产出比。就目前而言,AI输出图片的尺寸还比较小,由于切片算法和模型的局限DD在生成宽边超过1280的图时,布局会很不理想。、MidJourney最大为(1664,1664)、DALL·E 2(1024,1024)。如果要做出一个能够被打印的尺寸,需要经过后期放大或者再生成。
至于AI生成画直接被用于售卖,已经有过行业先例。2018年一幅由巴黎艺术团体Obvious使用GAN(生成对抗网络)完成的肖像画拍出432500美元。
也有AI绘画平台及创作者将生成画铸造成NFT,但这笔买卖也面临很大的不确定性,比起想通过NFT赚得盆满钵满,AI挑战图库的生意,或许更为现实。
随着AI绘画工具的普及,部分功能也有着被挪用,造成负面影响的可能。例如通过添加“蒙版”可以对图像的部分内容进行重新绘制,将一张大象的背影更改为大象的正面照,或者在空无一物的茶几上,自然地放进一个苹果。
工具对所有人的想象开放,意味着它既可以被用来进行艺术创作和表达,也可能在别有用心的人的使用下,成为伪造图像,制造假新闻的“凶器”。
前车之鉴是能替换视频中视觉和音频内容的“Deepfakes”,被用于伪造名人色情视频、欺诈勒索、假新闻等内容,而遭限制使用。2019年,在国内一夜爆红的AI换脸应用“ZAO”,也受到用户隐私、信息安全等问题的质疑。
除却用户使用上造成可见的“垃圾内容”,在AI的图像学习过程中,也不可避免地吸纳了人类认知中对于性别、职业、种族的刻板印象和偏见,并潜移默化反映在AI绘画的生成结果中。
为应对上述可能存在的负面影响,AI绘画工具的开发者们所采取的,是以谨慎的开放、更长的内测期、调试图像描述词的过滤器等方式,加之控制。
由国内开发者设计的AI绘画工具Tiamat,向用户解释为什么内测周期较长时写道,“AI生成艺术是一个比较敏感,也是全新的领域,里面的不可控性,合规性,以及用户体验都需要我们多次迭代,包括其中的云端部署,模型调整等等,我们也很希望TIA尽早和大家相见,但客观上技术是不允许的。”
OpenAI的订阅邮件显示,DALL·E在近期的更新中,“减少了对于人种的偏见,更准确地反映世界人口的多样性。”未来,还将根据用户的反馈和标记进一步优化。
至于开发者们对过滤器的调试,目前仍处在摸索阶段。从西乔的个人体验来看,她多次被过滤器“绊倒”。
(系统疑似把“悬崖边祈祷”判定为“消极内容”)
AI绘画另一大被诟病的问题是“侵权的边界”,就目前而言这是一个灰色地带,且尚未有行业定论。
以DD为例,工具遵循MIT开源协议,理论上生成图可以免费商用。但在实际使用中也会存在,因为描述词使用造成的画风雷同,这就容易造成抄袭争议。此外,“如果你用别人的作品‘垫’成底图,再把skip开得很高,最终出来的结果,也是很难定义是否构成作品侵权。”
事实上,界定真人画手是否抄袭,是否构成侵权也存在种种复杂的争议,放到AI绘画的侵权问题上,或许也需要足够多的经验和案例,形成行业认知。
最后西乔也补充到,AI绘画也有面临“负反馈”的可能,即人们用AI绘画工具生成的图像,又进一步作用于AI的优化和训练中,“AI 模型可能会呈现类似放大器的效果,最后会是出现什么情况,大家现在是不知道的。”
西乔喜欢拿“相机”比喻AI绘画,“相机刚诞生的时候成像非常慢,暗房冲洗也很麻烦,设备的携带及使用都不便,成像效果也不一定好。”当时的肖像画画家们,对于拿相机拍摄人像,有很多的批评和嘲讽。
“但我们知道在几十年之后,画家几乎都会使用相机拍摄的照片作为绘画时的参考。因为一天内光线的变化非常快,你的模特也不太愿意在那儿坐上几个小时。”
不仅是肖像画、风景画,以照片为基础后期加工完成的数字绘画创作等,或多或少都因为相机应用,带来艺术形式变革。
而在社会层面,“照相”也从一种背靠特定阶级的特定生活方式,走进市民阶级,记录社会变迁和普通人的日常生活。这种技术力的解放和扩散,随今天智能手机发展尤盛,普通人以更低廉的成本,更便捷的使用,掌握相机的摄影摄像能力。
可以预见的是,AI绘画工具的技术迭代用不了像“相机”发展所需的几十上百年。除了上文提到的DD、DALL·E 2、Midjourney等工具,互联网大厂们也相继入局,谷歌的Imagen/Parti、Meta的Make a scene、微软的NUWA等等。国内的开发者们也致力于接壤全球AI艺术的浪潮,例如正在举办“千人共创-AI艺术创作大赛”的Tiamat。
人们对于AI绘画的使用和认知,时间尚短,其影响力目前还是更多的存在于艺术圈和程序圈。但在未来,AI绘画是否能像“相机”那样,跨越阶级、圈层,浸润进普通人生活,是一件引发足够遐想的事情。
本文来自微信公众号“互联网指北”(ID:hlwzhibei),作者:指北BB组双桥君,36氪经授权发布。