CatBoost - 增强过程
CatBoost("分类增强"的缩写)与其他梯度增强方法(如 XGBoost 或 LightGBM)类似,但它具有一些显著的优势,主要是在处理分类数据时。
CatBoost 增强过程中的关键步骤
让我们讨论一下 CatBoost 增强过程的主要特征 −
- 数据准备:CatBoost 使用目标统计数据自动将分类特征转换为数值。这可以最大限度地提高具有大量分类变量的数据集的效率。
- 模型初始化:基本模型(通常是回归目标变量的平均值)是 CatBoost 流程的第一步。
- 梯度计算:在每一步中,此方法都会找到损失函数的梯度。损失函数是预期值与实际值之间的差值。此梯度为构建决策树提供了起点。
- 决策树构建:CatBoost 使用对称树结构,其中树的每一层都有相同数量的节点。这样,我们可以加快流程并缩短预测时间。
- 有序提升:CatBoost 的独特特性之一是有序提升。传统的提升方法存在在训练集上过度拟合的风险,因为它们是在整个数据集的帮助下计算误差的。但是 CatBoost 通过使用一种仅使用数据子集来降低过度拟合可能性的技术来实现这一点。
- 模型更新:当将新树添加到集成中时,先前树的预测将贡献给新树,从而更新其创建的预测。
- 重复:重复该过程,直到模型在验证数据集上的性能停止改善,或达到预先指定的迭代次数。
CatBoost 增强过程的优势
以下是您在使用 CatBoost 增强过程时应该了解的优势 −
有效管理分类特征:与以前的方法不同,CatBoost 不需要独热编码或广泛的特征工程来处理分类功能。
更好的性能:CatBoost 通常在许多类型的数据上效果更好,主要是当有很多类别(如颜色或名称)时。这是因为它使用了有序提升和其他有用的方法。
摘要
CatBoost 逐步构建决策树以做出更好的预测。它非常适合具有类别(如颜色或名称)的数据。它使用有序提升和目标编码等特殊方法来阻止模型因从训练数据中学习过多而犯错误。这有助于模型很好地处理新数据。