敏捷数据科学 - 敏捷数据处理

在本章中,我们将重点讨论结构化、半结构化和非结构化数据之间的区别。

结构化数据

结构化数据涉及以 SQL 格式存储在具有行和列的表中的数据。 它包括一个关系键,映射到预先设计的字段中。 结构化数据的使用规模更大。

结构化数据仅占所有信息学数据的 5% 到 10%。

半结构化数据

Sem 结构数据包括不驻留在关系数据库中的数据。 它们包括一些更容易分析的组织属性。 它包括将它们存储在关系数据库中的相同过程。 半结构化数据库的示例有 CSV 文件、XML 和 JSON 文档。 NoSQL 数据库被认为是半结构化的。

非结构化数据

非结构化数据占数据的 80%。 它通常包括文本和多媒体内容。 非结构化数据的最佳示例包括音频文件、演示文稿和网页。 机器生成的非结构化数据的示例包括卫星图像、科学数据、照片和视频、雷达和声纳数据。

卫星图像

上述金字塔结构特别关注数据量及其分散的比例。

准结构化数据是介于非结构化数据和半结构化数据之间的类型。 在本教程中,我们将重点关注半结构化数据,这有利于敏捷方法论和数据科学研究。

半结构化数据没有正式的数据模型,但具有通过分析开发的明显的、自描述的模式和结构。