H2O - 简介

您是否曾被要求在庞大的数据库上开发机器学习模型?通常,客户会向您提供数据库,并要求您做出某些预测,例如谁将成为潜在买家;是否可以及早发现欺诈案件等。要回答这些问题,您的任务是开发一种机器学习算法,为客户的查询提供答案。从头开始开发机器学习算法并非易事,当市场上有多个现成的机器学习库可用时,您为什么要这样做呢?

如今,您宁愿使用这些库,从这些库中应用经过充分测试的算法并查看其性能。如果性能不在可接受的范围内,您将尝试微调当前算法或尝试完全不同的算法。

同样,您可以在同一个数据集上尝试多种算法,然后选择最能满足客户要求的算法。这就是 H2O 可以拯救您的地方。它是一个开源机器学习框架,具有多种广泛接受的 ML 算法的全面测试实现。您只需从其庞大的存储库中挑选算法并将其应用于您的数据集即可。它包含最广泛使用的统计和 ML 算法。

这里仅举几例,它包括梯度增强机 (GBM)、广义线性模型 (GLM)、深度学习等等。不仅如此,它还支持 AutoML 功能,该功能将对数据集上不同算法的性能进行排名,从而减少您寻找最佳性能模型的努力。全球有超过 18000 个组织使用 H2O,并且与 R 和 Python 很好地交互,方便您进行开发。它是一个提供卓越性能的内存平台。

在本教程中,您将首先学习使用 Python 和 R 选项在您的机器上安装 H2O。我们将了解如何在命令行中使用它,以便您了解它的工作原理。如果您是 Python 爱好者,您可以使用 Jupyter 或您选择的任何其他 IDE 来开发 H2O 应用程序。如果您更喜欢 R,则可以使用 RStudio 进行开发。

在本教程中,我们将考虑一个示例来了解如何使用 H2O。我们还将学习如何更改程序代码中的算法并将其性能与之前的性能进行比较。H2O 还提供了一个基于 Web 的工具来测试数据集上的不同算法。这称为 Flow。

本教程将向您介绍 Flow 的使用。此外,我们将讨论 AutoML 的使用,它将识别数据集上性能最佳的算法。你不兴奋地学习 H2O 吗?继续阅读!