06. Spark 3.1.1 使用注意事项 - aliyun/MaxCompute-Spark GitHub Wiki
如何使用Spark 3.1.1提交作业
-
直接使用Yarn-cluster模式在本地提交任务
-
通过DataWorks平台选择Spark 3.x选项。若提交任务报错,则需要提单升级独享资源组版本。
Spark 3.1.1 使用变化
-
如果使用Yarn-cluster模式从本地提交任务,需要新增环境变量 export HADOOP_CONF_DIR=$SPARK_HOME/conf
-
如果使用Yarn-cluster模式提交Pyspark作业,需要添加以下参数使用Python3
spark.hadoop.odps.cupid.resources = public.python-3.7.9-ucs4.tar.gz
spark.pyspark.python = ./public.python-3.7.9-ucs4.tar.gz/python-3.7.9-ucs4/bin/python3
- 如果使用local模式进行调试,需要在类路径下新建odps.conf文件,并添加以下配置:
odps.project.name =
odps.access.id =
odps.access.key =
odps.end.point =
- 如果使用local模式进行调试,需要添加spark.hadoop.fs.defaultFS = file:///
val spark = SparkSession
.builder()
.config("spark.hadoop.fs.defaultFS", "file:///")
.enableHiveSupport()
.getOrCreate()
Spark 3.1.1 参数配置
spark.sql.defaultCatalog
- 配置值
odps
- 配置值
spark.sql.catalog.odps
- 配置值
org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog
- 配置值
spark.sql.sources.partitionOverwriteMode
- 配置值
dynamic
- 配置值
spark.sql.extensions
- 配置值
org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions
- 配置值
spark.sql.catalog.odps.enableVectorizedReader
- 默认值
true
- 配置说明
开启向量化读
- 默认值
spark.sql.catalog.odps.enableVectorizedWriter
- 默认值
true
- 配置说明
开启向量化写
- 默认值
spark.sql.catalog.odps.splitSizeInMB
- 默认值
256
- 配置说明
该配置可以用来调节读Maxcompute表的并发度,默认每个分区为256MB
- 默认值