Weka - 文件格式

WEKA 支持大量数据文件格式。以下是完整列表 −

  • arff
  • arff.gz
  • bsi
  • csv
  • dat
  • data
  • json
  • json.gz
  • libsvm
  • m
  • names
  • xrff
  • xrff.gz

它支持的文件类型列在屏幕底部的下拉列表框中。如下面的屏幕截图所示。

下拉列表

您会注意到,它支持多种格式,包括 CSV 和 JSON。默认文件类型为 Arff。

Arff 格式

Arff 文件包含两个部分 - 标题和数据。

  • 标题描述属性类型。
  • 数据部分包含逗号分隔的数据列表。

作为 Arff 格式的示例,从 WEKA 示例数据库加载的 Weather 数据文件如下所示 −

示例数据库

从屏幕截图中,您可以推断出以下几点 −

  • @relation 标签定义数据库的名称。

  • @attribute 标签定义属性。

  • @data 标签启动数据行列表,每个数据行包含逗号分隔的字段。

  • 属性可以采用名义值,如此处显示的 outlook 情况 −

@attribute outlook(晴天、阴天、下雨)
  • 属性可以采用实际值,如本例 −

@attributetemperature real
  • 您可以还设置一个名为 play 的 Target 或 Class 变量,如下所示 −

@attribute play (yes, no)
  • Target 假设两个名义值是或否。

其他格式

Explorer 可以以前面提到的任何格式加载数据。由于 arff 是 WEKA 中的首选格式,因此您可以从任何格式加载数据并将其保存为 arff 格式以供以后使用。预处理数据后,只需将其保存为 arff 格式以供进一步分析即可。

现在您已经了解了如何将数据加载到 WEKA 中,在下一章中,您将学习如何预处理数据。