PySpark - 简介

在本章中,我们将了解什么是 Apache Spark 以及 PySpark 是如何开发的。


Spark – 概述

PySpark 是 Spark 为 Python 开发者提供的 API。

Apache Spark 是一种闪电般快速的实时处理框架。 它执行内存计算以实时分析数据。 它的出现是因为 Apache Hadoop MapReduce 仅执行批处理,缺乏实时处理功能。 因此,Apache Spark 应运而生,因为它可以实时执行流处理,也可以处理批处理。

除了实时和批处理,Apache Spark 还支持交互式查询和迭代算法。 Apache Spark 有自己的集群管理器,它可以在其中托管其应用程序。它利用 Apache Hadoop 进行存储和处理。 它使用 HDFS(Hadoop 分布式文件系统)进行存储,它还可以在 YARN 上运行 Spark 应用程序。


PySpark – 概述

Apache Spark 是用 Scala 编程语言 编写的。 为了支持 Python 和 Spark,Apache Spark 社区发布了一个工具 PySpark。使用 PySpark,您还可以使用 Python 编程语言处理 RDD。 正是因为有一个名为 Py4j 的库,他们才能够实现这一目标。

PySpark 提供 PySpark Shell,它将 Python API 链接到 spark 核心并初始化 Spark 上下文。 由于 Python 丰富的库集,如今大多数数据科学家和分析专家都在使用 Python。 将 Python 与 Spark 集成对他们来说是一个福音。