Weka - 简介

任何机器学习应用程序的基础都是数据 - 不只是少量数据,而是庞大的数据,在当前术语中称为大数据

要训练机器分析大数据,您需要对数据进行一些考虑−

  • 数据必须干净。
  • 它不应包含空值。

此外,并非数据表中的所有列都对您要实现的分析类型有用。在将数据输入机器学习算法之前,必须删除不相关的数据列或机器学习术语中的"特征"。

简而言之,您的大数据需要大量的预处理才能用于机器学习。一旦数据准备就绪,您就可以应用各种机器学习算法(如分类、回归、聚类等)来解决您这边的问题。

您应用的算法类型主要基于您的领域知识。即使在同一类型中,例如分类,也有几种可用的算法。您可能希望在同一类下测试不同的算法,以构建高效的机器学习模型。在这样做的同时,您更喜欢可视化处理后的数据,因此您还需要可视化工具。

在接下来的章节中,您将了解 Weka,这是一款可以轻松完成上述所有操作并让您轻松处理大数据的软件。