PySpark 教程
PySpark 是 Spark 为 Python 开发者提供的 API。
Apache Spark 使用 Scala 编程语言编写。 为了支持 Python 和 Spark,Apache Spark 社区发布了一个工具 PySpark。 使用 PySpark,您还可以使用 Python 编程语言处理 RDD。 正是由于一个名为 Py4j 的库,他们才能够实现这一点。 这是一个介绍性教程,其中涵盖了数据驱动文档的基础知识,并解释了如何处理其各种组件和子组件。
谁适合阅读?
本教程是为那些有志于在编程语言和实时处理框架方面做出一番事业的专业人士准备的。 本教程旨在让读者轻松开始使用 PySpark 及其各种模块和子模块。
需要具备的知识?
在继续介绍本教程中给出的各种概念之前,假定读者已经了解什么是编程语言和框架。 除此之外,如果读者对 Apache Spark、Apache Hadoop、Scala 编程语言、Hadoop 分布式文件系统 (HDFS) 和 Python 有充分的了解,这将非常有帮助。