合成媒体 - Deepfakes

随着人工智能和机器学习技术的进步,合成媒体的创建变得更加容易。这也引发了对安全和道德标准的担忧。在本节中,我们将探讨一种称为 Deepfakes 的技术,它使用人工智能来操纵内容。

什么是 Deepfake?

Deepfake 是一种合成媒体,其中人工智能用于创建与真实人物或事件非常相似的虚假内容,例如照片、视频或音频。例如,在视频中交换面孔,改变嘴唇动作以匹配不同的音频等。如今,Deepfakes 变得如此完美,很难用肉眼识别。

Deepfakes 的类型

  • 换脸视频:这是最常见的 Deepfakes 类型之一。在这里,视频中一个人的脸与另一个人的脸互换,这样看起来就好像他们说了或做了一些他们从未意识到的事情。
  • 语音克隆:这涉及通过训练音频样本复制某人的声音并创建与人的语调、音调和说话模式相匹配的合成语音。
  • 嘴唇同步:这种类型的深度伪造会改变视频中人嘴唇的动作以匹配已插入的另一个音频。这样,看起来这个人说的话与他们最初说的话不同。

如何创建深度伪造?

深度伪造媒体是使用一种称为生成对抗网络 (GAN) 的机器学习算法创建的。下图显示了用于创建深度伪造面孔的 GAN 算法流程图。

deepfake 技术的工作原理

以下是用于伪造人脸的 GAN 神经网络算法的逐步工作原理。

  • 多角度分析:在创建 deepfake 时,GAN 编码器会从各个角度分析目标的照片或视频,以捕捉细节、视角和模式。
  • 潜在人脸表示:分析后,GAN 会创建潜在人脸,这是目标面部特征的矢量表示。
  • 两个神经网络:GAN 使用两个神经网络,一个将生成虚假内容,另一个将尝试检测内容是否为假。生成器网络将潜在表示作为输入并将其转换为合成数据。而鉴别器网络则预测它是否真实。
  • 迭代改进:重复上述过程,这样生成器就会改进创建更逼真的内容,而鉴别器则会更擅长发现错误。生成器使用这种反馈来不断完善其输出。

随着时间的推移,生成网络不断改进并开始创建高度逼真的媒体。结果是一个与真实人物和事件非常相似的合成媒体文件。

检测 Deepfakes 的方法

我们可以通过仔细分析媒体来检测一些 Deepfakes。以下是一些检查视频原创性的技巧。

  • 身体运动违背自然重力和物理规律
  • 面部定位异常
  • 音频不匹配或口型同步错误
  • 不眨眼
  • 即使人移动,眼镜上的眩光也保持在同一角度。

这些是检测虚假内容的自然方式,但如今技术先进,深度伪造技术已近乎完美。因此,人类很难检测到虚假内容。以下是一些可用于检测深度伪造视频的技术。

  • 区块链验证:区块链技术用于通过跟踪媒体文件的来源来验证其真实性。
  • 英特尔 FakeCatcher:英特尔的 FakeCatcher 是一种通过分析视频中的细微迹象(例如人脸血流变化)来检测深度伪造的工具。
  • AI 检测算法:先进的 AI 系统经过训练可以检测深度伪造中的不一致之处,例如不自然的动作、不规则的光线或与现实世界物理不符的面部细节。

对深度伪造的道德担忧

深度伪造引发了许多道德担忧。它们可用于传播虚假信息,使其看起来像人们说了或做了他们从未意识到的事情。这可能导致政治上的错误信息或操纵。 Deepfakes 还可以用于勒索,即有人制作虚假视频来威胁或强迫人们做他们不想做的事情。