谷歌的一个研究团队谷歌 AI 宣布了一种改进扩散模型技术的新方法,该方法向低分辨率图像添加噪声,处理它们直到它们成为纯噪声,然后从那里创建高分辨率图像。从图像质量较差的低分辨率图像生成高分辨率图像的技术是机器学习有望广泛使用的任务之一,从恢复旧照片到改善医学图像。
对抗性生成网络 GAN、VAE 和自回归模型等生产模型通常用于从低分辨率图像中恢复高分辨率图像。但是,GANs 存在崩溃等问题,生成的图像大部分是重复的,自回归模型存在合成速度慢等问题。
另一方面,据说谷歌AI在2015年宣布的被称为扩散模型的生成模型最近正在审查,因为它的学习稳定性高,生成的图像和语音质量高。谷歌 AI 最新宣布,它已成功使用两种新的扩散模型方法提高了扩散模型图像合成的质量:SR3(通过重复细化的超分辨率)和 CDM(级联扩散模型)。
SR3 首先缓慢地将高斯噪声添加到低分辨率图像中,破坏它直到它成为纯噪声图像。之后,神经网络将图像损坏过程进行逆向处理,去除噪声,并创建超过原始分辨率的高分辨率图像。
事实上,研究小组展示了从原始图像和低分辨率图像中通过各种方法生成的图像,并让他们确定哪个是原始图像。与 FSRGAN(人脸超分辨率生成对抗网络)、PULSE 和回归方法相比,当 16×16 像素图像为 128×128 像素时,SR3 的混淆率为 47.4%。
Google AI 还发布了 CDM,这是一种在大型图像识别数据集 ImageNet 上训练的类条件扩散模型。由于 ImageNet 包含多种数据集,生成的图像可能与原始图像不同步,但 CDM 可以通过将生成模型和标签信息缓慢升级到多个空间分辨率来生成高质量的图像。相关信息可以在这里找到。