了解机器学习中的激活函数

machine learningpythondata science

在机器学习中，激活函数类似于神经网络中的神奇成分。它们是数学公式，根据神经元接收到的信息决定是否应该激活。神经网络学习和表示复杂数据模式的能力主要取决于激活函数。这些函数为网络提供非线性，使其能够处理各种问题，包括复杂的连接和交互。简单来说，激活函数使神经网络能够发现隐藏的模式、预测结果并正确分类数据。在这篇文章中，我们将了解机器学习中的激活函数。

什么是激活函数?

神经网络的一个重要部分是激活函数，它根据接收到的信息选择是否激活神经元。激活函数的主要功能是使网络不那么线性。在线性模型下，网络的输出(其中输入仅被缩放和添加)也将是输入的线性组合。

另一方面，激活函数为神经网络提供了学习和表达复杂函数的能力，这些函数是直接线性连接建模所无法比拟的。由于激活函数的非线性特性，网络可以识别数据中的复杂模式和关系。它使网络能够处理以非线性方式波动的输入，使其能够处理各种现实世界的问题，包括时间序列预测、图片识别和自然语言处理。

非线性的重要性

神经网络成功的一个关键因素是非线性。它是必不可少的，因为现实世界中的许多事件和连接本质上都是非线性的。鉴于它们只能模拟基本的线性连接，线性激活函数在捕捉复杂模式的能力方面受到限制。如果没有非线性，神经网络就只能表示线性函数，这将大大限制其处理复杂问题的能力。另一方面，由于非线性激活函数，神经网络可以估计和表达数据中的复杂关系。它们为网络提供了学习和模拟复杂模式的能力，反映了现实世界中发生的复杂性和非线性关系。

机器学习中的激活函数类型

Sigmoid 激活函数

大多数人选择使用 Sigmoid 激活函数。它具有 S 形曲线，可将输入传输到 0 到 1 之间的范围。当目标是预测两个类别中的哪一个将发生时，它可以用于二元分类问题。通过将输入压缩为概率范围，Sigmoid 函数可产生可理解的输出，该输出可理解为属于某个类别的可能性。

然而，Sigmoid 激活函数容易受到梯度消失问题的影响。随着网络深度的增加，梯度变得非常小，阻碍学习并导致收敛延迟。由于这一限制，研究人员正在寻找解决梯度消失问题并改进深度神经网络训练的新激活函数。

Tanh 激活函数

尽管它将输入转换为 -1 和 1 之间的范围，但双曲正切 (tanh) 激活函数与 S 型函数类似，因为它也具有 S 形曲线。Tanh 有助于解决二元分类问题，就像 S 型函数一样，它会产生可以转换为类概率的概率输出。tanh 函数的优点是可以产生以零为中心的输出，这可能有助于训练特定模型。

然而，它在深度神经网络中的使用受到梯度消失问题的限制。此外，由于梯度更陡，tanh 函数比 S 型函数更容易饱和。因此，它在整个训练过程中可能不太稳定，并且容易受到起始参数设置的影响。然而，在某些情况下，特别是在需要零中心输出或平衡类预测的情况下，tanh 激活函数仍然是一个可行的选择。

整流线性单元 (ReLU)

广泛使用的激活函数称为整流线性单元 (ReLU)，它将所有负输入清零，同时将正输入保持为其原始值。借助这一简单的激活规则，ReLU 可以添加非线性并检测数据中的复杂模式。ReLU 的计算效率是其主要优势之一。与其他函数相比，激活函数更易于计算，因为它只需要简单的操作。不过，ReLU 确实存在一定的困难。

一个潜在问题被称为"ReLU 死亡"，其中某些神经元永久处于休眠状态，并且对于任何输入都输出 0。训练过程可能会受到此事件的负面影响，因为受损的神经元不再用于学习。但是，使用多个 ReLU 或适当的初始化程序等策略可能会降低 ReLU 死亡的可能性并确保深度神经网络训练的成功。