PySpark - SparkConf 配置
要在本地/集群上运行 Spark 应用程序,您需要设置一些配置和参数,这就是 SparkConf 配置类。 它提供运行 Spark 应用程序的配置。 以下代码块包含 PySpark 的 SparkConf 类的详细信息。
class pyspark.SparkConf ( loadDefaults = True, _jvm = None, _jconf = None )
最初,我们将使用 SparkConf() 创建一个 SparkConf 对象,该对象将从 spark.* Java 系统属性加载值。 现在您可以使用 SparkConf 对象设置不同的参数,它们的参数将优先于系统属性。
在 SparkConf 类中,有 setter 方法,支持链接。 例如,您可以编写 conf.setAppName("PySpark App").setMaster("local")。 一旦我们将 SparkConf 对象传递给 Apache Spark,它就不能被任何用户修改。
以下是SparkConf最常用的几个属性 −
set(key, value) − 设置配置属性。
setMaster(value) − 设置主 URL。
setAppName(value) − 设置应用名称。
get(key, defaultValue=None) − 获取 key 的配置值。
setSparkHome(value) − 在工作节点上设置 Spark 安装路径。
让我们考虑以下在 PySpark 程序中使用 SparkConf 的示例。 在此示例中,我们将 spark 应用程序名称设置为 PySpark App,并将 spark 应用程序的主 URL 设置为 → spark://master:7077。
以下代码块包含这些行,当它们被添加到 Python 文件中时,它会设置运行 PySpark 应用程序的基本配置。
--------------------------------------------------------------------------------------- from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName("PySpark App").setMaster("spark://master:7077") sc = SparkContext(conf=conf) ---------------------------------------------------------------------------------------