Spark SQL - 数据源
DataFrame 接口允许不同的 DataSource 在 Spark SQL 上工作。它是一个临时表,可以作为普通 RDD 进行操作。将 DataFrame 注册为表允许您对其数据运行 SQL 查询。
在本章中,我们将描述使用不同 Spark DataSource 加载和保存数据的一般方法。此后,我们将详细讨论内置数据源可用的特定选项。
SparkSQL 中有不同类型的数据源,其中一些列在下面 −
Sr.否 | 数据源 |
---|---|
1 | JSON 数据集
Spark SQL 可以自动捕获 JSON 数据集的架构并将其加载为 DataFrame。 |
2 | Hive 表
Hive 与 Spark 库捆绑在一起,作为 HiveContext,它继承自 SQLContext。 |
3 | Parquet 文件
Parquet 是一种列式格式,受到许多数据处理系统的支持。 |