生成模型的类型
生成模型近年来广受欢迎。这些主要用于无监督学习的创新算法能够熟练处理数据的底层分布并生成与原始训练数据相当的复杂输出,例如图像、音乐和自然语言。
阅读本章,探索三种突出且最广泛使用的生成模型:生成对抗网络 (GAN)、自动编码器和变分自动编码器 (VAE)。
生成对抗网络 (GAN)
生成对抗网络 (GAN) 由 Ian Goodfellow 及其队友于 2014 年推出。GAN 是一种生成建模方法,基于深度神经网络架构,可生成类似于原始训练数据的新复杂输出。 GAN 框架有两个神经网络 - "生成器"和"鉴别器"。
GAN 的工作原理
让我们借助下图了解 GAN 模型的工作原理 −
如图所示,GAN 有两个主要组件:生成器网络和鉴别网络。
该过程首先为生成器提供随机种子/噪声向量。现在,生成器使用此输入来创建新的合成样本。然后,这些生成的样本与真实数据样本一起提供给判别网络。
然后,判别网络评估这些样本的真实性,即样本是真实的还是假的。最后,判别器通过反向传播调整生成器的参数,对生成器的输出提供反馈。
然后,生成器和判别器继续相互学习和适应,直到生成器生成可以欺骗判别器的高度逼真的样本。
GAN 的应用
生成对抗网络 (GAN) 在各个领域都有应用。事实上,OpenAI 开发的特定模型 DALL-E 结合了 GAN 和转换器的思想,可根据文本描述生成图像。
GAN 的其他一些应用包括以下 −
- 图像生成
- 数据增强
- 文本到图像合成
- 视频生成和预测
- 异常检测
- 面部老化和年轻化
- 风格转换和图像编辑
自动编码器
另一种广泛使用的生成模型彻底改变了从计算机视觉到自然语言处理等各个领域,它就是自动编码器。
自动编码器是一种人工神经网络 (ANN) 旨在以无监督的方式学习数据编码。传统的神经网络用于分类和回归等监督学习任务,将输入数据映射到相应的输出标签。另一方面,自动编码器通过将高维输入数据解码为低维表示来学习重建输入数据。
自动编码器的架构
自动编码器的架构由三个主要部分组成 −
- 编码器 −它通过将输入数据映射到低维表示来将信息压缩为密集编码。
- 瓶颈层(潜在空间) −在此层中,潜在空间表示以压缩形式捕获输入数据的基本特征。
- 解码器 −它通过重建压缩表示将其解压缩回原始输入空间。该模块的主要目的是尽量减少重建误差。
自动编码器的应用
下面列出了自动编码器的一些应用 −
- 图像压缩和重建
- 特征学习和表示
- 异常检测
- 降维
- 自然语言处理
变分自动编码器
变分自动编码器 (VAE) 是一类基于我们研究过的自动编码器概念的生成模型以上。
传统的自动编码器学习输入和潜在空间表示之间的确定性映射。另一方面,VAE 生成潜在空间中概率分布的参数。此功能使 VAE 能够捕获输入数据样本的底层概率分布。
VAE 的架构和组件
与自动编码器一样,VAE 的架构由两个主要组件组成:编码器和解码器。在 VAE 中,编码器不像自动编码器那样使用确定性映射,而是提出将概率建模到潜在空间中。
下面给出了 VAE 的关键组件 −
- 编码器 − 它将输入数据样本映射到潜在空间中概率分布的参数。映射后,编码器给出每个数据点的均值和方差向量。
- 潜在空间 − 此组件表示编码器学习到的输入样本数据的概率。
- 解码器 − 它使用来自潜在空间的样本重建数据样本。解码器的目的是匹配输入数据分布。
变分自动编码器 (VAE) 的应用
变分自动编码器 (VAE) 可应用于自动编码器等各种领域。其中一些列于下方 −
- 图像生成
- 数据可视化
- 特征学习
- 异常检测
- 自然语言处理
在后续章节中,我们将详细讨论这些突出且使用最广泛的生成模型类型。
结论
在本章中,我们概述了三种最广泛使用的生成模型,即生成对抗网络 (GAN)、自动编码器和变分自动编码器 (VAE)。它们独特的功能促进了生成建模的进步。
GAN 借助其对抗性训练框架,可以生成类似于原始训练数据的新复杂输出。我们讨论了 GAN 如何使用其由两个神经网络组成的框架:生成器和鉴别器。
另一方面,自动编码器旨在以无监督的方式学习数据编码。它们通过将高维输入数据解码为低维表示来重建输入数据。
变分自动编码器 (VAE) 引入了概率潜在空间表示。它们通过捕获样本输入数据的底层概率分布来弥合自动编码器和概率建模之间的差距。
无论是生成逼真的图像、学习有意义的数据表示,还是探索概率潜在空间表示,GAN、自动编码器和 VAE 都在塑造 AI 驱动的生成技术的未来。