别慌，AI绘画杀不死艺术-第1页-宁波猫的窝

AI 绘画一日，人间一年。

上半年走红的 Dall-E 2、Midjourney，下半年风头完全被 Stable Diffusion 盖过。

近期火热的绘图产品，名字里都有“diffusion”，它们均得益于人工智能“扩散”算法。该算法突破了 AI 绘画的应用临界点，更易上手，效果更好。

由Stable Diffusion生成

机器作画已经有半个世纪的历史，而两年之内，AI 绘画忽然成了“进击的巨人”，不仅质量肉眼可见的提升，生成图片的速度也从年初的几个小时缩短到十几秒钟。

AI 绘画技术的大幅度进步，激发了人们对“创意 AI”的兴趣——从美术到诗歌，一系列 AI 工具正在模仿人类的创造力。但没有什么人真正觉得惶恐。

前一阵子，有不少人猜测生物学家颜宁离美归国，是因为 AlphaFold 人工智能系统能够预测蛋白质结构，被抢了饭碗。

实际上，能写新闻资讯的软件早就存在，并没有记者为此失业。AI 连写豆腐块的人都无法替代，更不用说能替代顶尖科学家了。

扩散算法是什么？

当下的人工智能模型，使用的都是深度学习神经网络。自学习模型，比如 GPT-3 是其中最著名的模型，它会在大约 45 TB 文本数据的神经网络上“学习”，生成和人类产出相差无几的作品。

Stable Diffusion 是深度学习家族的一部分。具体来说，Stable Diffusion 通过潜在的扩散模型，学习图像和文本之间的联系。它的工作原理是，获取图像数据，并对其添加“噪点”。

噪点，也叫噪声，是指数码摄影器材拍摄的图像中，存在的粗糙点，一般受电子干扰产生。

一幅画面被逐步加入噪点，一直到整个画面都变成白噪点。该模型记录这一过程，进行逆转，给 AI 学习。

从 AI 的角度，先看到的是一幅布满噪点的画面，再看到画面一点点变清晰，最后成为画作。AI 学的是整个去噪点的过程，特别是如何处理高斯噪声，最后生成画作。

高斯噪声指的是概率密度函数服从高斯分布（即正态分布）的一类噪声，扩散算法添加高斯噪声，一是为了验证“实际”图像的有效性，因为使用环境里的图像都是带噪点的；一是为了方便学习，只要噪点不符合标准正态分布，就算失效。

Stable Diffusion 的基础数据库叫 LAION-Aesthetics，包含了带图说的图像，还根据“审美风格”进行过滤。

其他经训练的人工智能模型也对数据库进行“修正”，来预测人们如何回答“你有多喜欢这幅画”时的打分评级，以便消除一些黄暴内容。

和“前辈”有何差别？

Stable Diffusion 和 Dall-E 2、Midjourney 类似，都要靠“文字描述”生成图像。

不过，Stable Diffusion 是开源的，其基础代码也是公开的。而 Open AI 和 Google 都没有开放自己的人工智能模型。

Stability AI 由 4000 多个英伟达 A100 GPU 组成，在亚马逊云（AWS）中运行。据报道，Stability AI 公司的运营和云支出成本，超过 5000 万美元。

该公司声称可以提供“速度和质量的突破”，内存低于 10G 的 GPU 也能跑。他们还会提供运行在 AMD、苹果 M1/M2 芯片的版本——普通消费者也玩得起。

目前，Stable Diffusion 的功能是，可以在几秒内将文本转换为 512x512 像素的图像；图像可以转换、放大、修改和替换；使用 GFP-GAN 建模，允许用户上传模糊的面部图像，进行放大或恢复原貌。

上个月，Stability AI 公司融资 1.01 亿美元。首席执行官 Emad Mostaque 毕业于牛津大学，获数学和计算机科学硕士学位，此前曾在多家对冲基金担任分析师。

目前，该公司估值 10 亿美元，除了 Stable Diffusion，还有 Dance Diffusion——可以进行音乐剪辑。

宁波猫的窝