LightGBM - Boosting 算法

在我们了解 LightGBM 中的各种 Boosting 算法之前,让我们先解释一下 Boosting 算法是什么。Boosting 是一种有效的机器学习方法,可以提高模型的准确性。它的工作原理是将多个弱模型(本身表现不佳的基本模型)组合起来,创建一个可以做出更好预测的改进模型。

LightGBM 是一个流行的 Boosting 框架。它包括多种创建强大预测模型的方法。

LightGBM Boosting 算法

LightGBM 支持多种 Boosting 技术。每种技术都有自己的创建模型和进行预测的方法。以下是 LightGBM 中使用的主要 boosting 算法的列表 −

  • 梯度提升决策树 (GBDT)

  • 随机森林 (RF)

  • DART (Dropouts 和多重加性回归树)

  • 基于梯度的单侧采样 (GOSS)

让我们深入了解这些算法 −

梯度提升决策树 (GBDT)

GBDT 是 LightGBM 中默认且最常用的算法。以下是它的工作原理 −

它是如何工作的?

GBDT 分阶段构建模型,每个阶段都会从上一级别寻找正确的错误。它使用决策树进行预测。决策树类似于流程图,因为它可以帮助您根据某些标准做出决策。

GBDT 非常强大且准确。它广泛用于一系列任务,例如分类和回归。

例如 - 在 GBDT 模型中,第一棵树可以预测一个人是否会购买产品。第二棵树将从前一棵树的问题中学习并尝试解决它们,然后循环继续。

GBDT 的优势

以下是 GBDT 算法的优点 −

  • 高精度。

  • 可以处理数值和分类数据。

  • 适用于大型数据集。

随机森林 (RF)

随机森林是另一种可与 LightGBM 一起使用的增强方法。它与 GBDT 略有不同。

工作原理?

随机森林构建许多决策树,每棵都基于不同的随机数据样本。然后,它将所有树组合起来以获得最终预测。目标是尽量减少过度拟合,当模型在训练数据上表现良好但在新的未标记数据上表现不佳时,就会发生过度拟合。

随机森林对于创建一个更稳定、更不容易在新数据上出错的模型很有用。

想象一下由许多棵树组成的森林,每棵树代表一条独特的决策路径。最终的选择取决于所有树的多数票。

随机森林的优势

以下是随机森林算法的优势 −

  • 处理具有高维(许多特征)的大型数据集。

  • 比单个决策树更不容易过度拟合。

  • 在分类和回归挑战中表现良好。

DART(Dropouts 与多重加性回归树相遇)

DART 是 GBDT 的改进版本,具有独特的变化。让我们看看它是如何工作的 −

它是如何工作的?

DART 与 GBDT 类似,但增加了"dropouts"的概念。Dropouts 是在训练期间从模型的树中随机删除的。这减少了模型对单个树的依赖,从而使其更加稳健并且更耐过度拟合。

如果您的 GBDT 模型过度拟合,请考虑升级到 DART。它在模型中添加了正则化,从而提高了模型在新数据上的性能。

假设您正在玩一个游戏,其中您必须回答问题,其中一些问题会被随机淘汰。它可以让您更加关注剩余的问题,从而提高整体表现。

DART 的优势

以下是 DART 算法的优势 −

  • 通过使用 dropout 方法减少过度拟合。

  • 在提升泛化能力的同时保持高精度。

GOSS(基于梯度的单侧采样)

GOSS 是一种为速度和效率而创建的提升算法。GOSS 显示最重要的数据点以加快训练速度。它通过仅选择误差最高的数据点和误差较低的一些数据点来实现这一点。这减少了需要处理的数据量,从而使训练速度更快,同时保持高精度。

GOSS 非常适合快速训练模型,主要是使用大型数据集。

假设您正在准备考试并选择只关注最困难的问题。这可以节省时间,同时完成最具挑战性的地方并确保您的表现。

GOSS 的优势

以下是 GOSS 算法的优势 −

  • 训练速度更快。

  • 通过关注重要数据点来保持准确性。

选择正确的 Boosting 算法

选择正确的 Boosting 算法取决于您的特定要求。

  • 为了获得高精度,请从 GBDT 开始。它是大多数任务的理想默认解决方案。

  • 如果您拥有大型数据集并需要快速训练,请尝试 GOSS。

  • DART 可以帮助您的模型防止过度拟合。

  • 随机森林是一种可靠且直接的模型,具有良好的泛化能力。