KNIME - 探索工作流程

如果您查看工作流程中的节点,您会发现它包含以下内容 −

  • 文件阅读器

  • 颜色管理器

  • 分区

  • 决策树学习器

  • 决策树预测器

  • 分数

  • 交互式表格

  • 散点图

  • 统计数据

这些内容在 大纲 视图中很容易看到,如下所示−

Outline

每个节点在工作流中都提供特定的功能。我们现在将研究如何配置这些节点以满足所需的功能。请注意,我们将仅讨论与我们在当前探索工作流的上下文中相关的那些节点。

文件阅读器

文件阅读器节点如下图所示 −

文件阅读器

窗口顶部有一些由工作流创建者提供的描述。它告诉我们这个节点读取成人数据集。从节点符号下方的描述可以看出,文件的名称是 adult.csv文件读取器 有两个输出 - 一个输出到 颜色管理器 节点,另一个输出到 统计信息 节点。

如果右键单击 文件管理器,将显示一个弹出菜单,如下所示 −

文件管理器

配置 菜单选项允许节点配置。执行 菜单运行该节点。请注意,如果节点已运行且处于绿色状态,则此菜单将被禁用。另请注意 编辑注释描述 菜单选项的存在。这样您就可以为节点编写描述。

现在,选择配置菜单选项,它会显示包含 adult.csv 文件中数据的屏幕,如下图所示 −

成人 CSV 文件

执行此节点时,数据将加载到内存中。整个数据加载程序代码对用户隐藏。现在您可以体会到此类节点的实用性 - 无需编码。

我们的下一个节点是颜色管理器

颜色管理器

选择颜色管理器节点,右键单击进入其配置。将出现颜色设置对话框。从下拉列表中选择 收入 列。

您的屏幕将如下所示 −

Color Manager

请注意存在两个约束。如果收入低于 50K,数据点将获得绿色,如果收入高于 50K,数据点将获得红色。当我们在本章后面查看散点图时,您将看到数据点映射。

分区

在机器学习中,我们通常将整个可用数据分成两部分。较大的部分用于训练模型,而较小的部分用于测试。有多种策略可用于对数据进行分区。

要定义所需的分区,请右键单击分区节点并选择配置选项。您将看到以下屏幕 −

分区

在这种情况下,系统建模者使用了相对 (%) 模式,数据以 80:20 的比例分割。在进行分割时,数据点是随机选取的。这可确保您的测试数据不会出现偏差。在线性采样的情况下,用于测试的剩余 20% 数据可能无法正确表示训练数据,因为它在收集过程中可能会完全出现偏差。

如果您确定在数据收集过程中可以保证随机性,那么您可以选择线性采样。一旦您的数据已准备好用于训练模型,请将其提供给下一个节点,即决策树学习器

决策树学习器

顾名思义,决策树学习器节点使用训练数据并构建模型。查看此节点的配置设置,如下面的屏幕截图所示 −

决策树学习器

如您所见,类别收入。因此,树将基于收入列构建,这就是我们试图在此模型中实现的目标。我们希望将收入大于或小于 50K 的人分开。

此节点成功运行后,您的模型就可以进行测试了。

决策树预测器

决策树预测器节点将开发的模型应用于测试数据集并附加模型预测。

Tree Predictor

预测器的输出被馈送到两个不同的节点 - 评分器散点图。接下来,我们将检查预测的输出。

评分器

此节点生成混淆矩阵。要查看它,请右键单击节点。您将看到以下弹出菜单 −

Scorer

单击查看:混淆矩阵菜单选项,矩阵将在单独的窗口中弹出,如下图所示 −

混淆矩阵

这表明我们开发的模型的准确率为 83.71%。如果您对此不满意,您可以在模型构建中尝试其他参数,特别是,您可能希望重新访问和清理数据。

散点图

要查看数据分布的散点图,请右键单击散点图节点并选择菜单选项交互式视图:散点图。您将看到以下图表 −

散点图

该图表以两种不同颜色的点(红色和蓝色)给出了基于 50K 阈值的不同收入群体的分布情况。这些是我们在 颜色管理器 节点中设置的颜色。分布与绘制在 x 轴上的年龄有关。您可以通过更改节点的配置为 x 轴选择不同的特征。

此处显示了配置对话框,我们已选择 婚姻状况 作为 x 轴的特征。

婚姻状况

至此,我们对 KNIME 提供的预定义模型的讨论就结束了。我们建议您自学模型中的其他两个节点(统计和交互表)。

现在让我们进入本教程最重要的部分——创建您自己的模型。