H2O - AutoML
要使用 AutoML,请启动一个新的 Jupyter 笔记本并按照下面显示的步骤操作。
导入 AutoML
首先使用以下两个语句将 H2O 和 AutoML 包导入项目 −
import h2o from h2o.automl import H2OAutoML
初始化 H2O
使用以下语句初始化 h2o −
h2o.init()
您应该在屏幕上看到集群信息,如下面的屏幕截图所示 −
加载数据
我们将使用相同的您在本教程前面使用过的 iris.csv 数据集。使用以下语句 − 加载数据
data = h2o.import_file('iris.csv')
准备数据集
我们需要确定特征和预测列。我们使用与前面案例相同的特征和预测列。使用以下两个语句设置特征和输出列 −
features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width'] output = 'class'
按 80:20 的比例拆分数据以进行训练和测试 −
train, test = data.split_frame(ratios=[0.8])
应用 AutoML
现在,我们已准备好在数据集上应用 AutoML。AutoML 将运行我们设置的固定时间,并为我们提供优化的模型。我们使用以下语句设置 AutoML −
aml = H2OAutoML(max_models = 30, max_runtime_secs=300, seed = 1)
第一个参数指定我们要评估和比较的模型数量。
第二个参数指定算法运行的时间。
我们现在在 AutoML 对象上调用 train 方法,如下所示 −
aml.train(x = features, y = output, training_frame = train)
我们将 x 指定为我们之前创建的特征数组,将 y 指定为输出变量以指示预测值,将数据框指定为 train 数据集。
运行代码,您将需要等待 5 分钟(我们将 max_runtime_secs 设置为 300)直到您获得以下输出 −
打印排行榜
当 AutoML 处理完成时,它会创建一个排行榜,对其评估过的所有 30 种算法进行排名。要查看排行榜的前 10 条记录,请使用以下代码 −
lb = aml.leaderboard lb.head()
执行后,上述代码将生成以下输出 −
显然,DeepLearning 算法获得了最高分。
根据测试数据进行预测
现在,您已经对模型进行了排名,您可以看到排名最高的模型在测试数据上的表现。为此,请运行以下代码语句 −
preds = aml.predict(test)
处理持续一段时间,完成后您将看到以下输出。
打印结果
使用以下语句打印预测结果 −
print (preds)
执行上述语句后,您将看到以下结果 −
打印所有排名
如果您想查看所有测试算法的排名,运行以下代码语句 −
lb.head(rows = lb.nrows)
执行上述语句后,将生成以下输出(部分显示) −
结论
H2O 提供了一个易于使用的开源平台,用于在给定数据集上应用不同的 ML 算法。它提供了几种统计和 ML 算法,包括深度学习。在测试期间,您可以微调这些算法的参数。您可以使用命令行或提供的基于 Web 的界面 Flow 来执行此操作。H2O 还支持 AutoML,它根据几种算法的性能提供排名。H2O 在大数据上也表现良好。对于数据科学家来说,这无疑是一个福音,他们可以将不同的机器学习模型应用于他们的数据集,并选择最好的模型来满足他们的需求。