Spark
数据端配置

- 配置项说明:
name
- 类型: 单行文本
- 必须: 是
连接方式
类型: 单行文本
必须: 是
默认值: 无
说明:
客户端连接Spark服务端可选择以下连接方式之一:
- Amazon EC2: scripts that let you launch a cluster on EC2 in about 5 minutes
- Standalone Deploy Mode: launch a standalone cluster quickly without a third-party cluster manager
- Mesos: deploy a private cluster using Apache Mesos
- YARN: deploy Spark on top of Hadoop NextGen (YARN)
- Kubernetes: deploy Spark on top of Kubernetes
例如,选择Standalone Deploy Mode模式模式,可设置:
spark://192.168.28.201:7077
可选项说明: 可选
Standalone
,Yarn
以下是详细说明:Standalone
- 配置项说明:
master
- 类型: 单行文本
- 必须: 是
- 默认值: 无
- 说明: 无
Yarn
- 配置项说明:
yarnSite
类型: 富文本
必须: 是
默认值: com.qlangtech.tis.config.spark.impl.YarnConnStrategy.dftYarnSiteContent()
说明:
<?xml version="1.0"?>
<configuration>
<!-- Site specific YARN configuration properties -->
<!--RM的主机名 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>192.168.28.200</value>
</property>
<!--RM对客户端暴露的地址,客户端通过该地址向RM提交应用程序、杀死应用程序等-->
<property>
<name>yarn.resourcemanager.address</name>
<value>${yarn.resourcemanager.hostname}:8032</value>
</property>
<!--RM对AM暴露的访问地址,AM通过该地址向RM申请资源、释放资源等-->
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>${yarn.resourcemanager.hostname}:8030</value>
</property>
<!--RM对外暴露的web http地址,用户可通过该地址在浏览器中查看集群信息-->
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>${yarn.resourcemanager.hostname}:8088</value>
</property>
<!--RM对NM暴露地址,NM通过该地址向RM汇报心跳、领取任务等-->
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>${yarn.resourcemanager.hostname}:8031</value>
</property>
<!--RM对管理员暴露的访问地址,管理员通过该地址向RM发送管理命令等-->
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>${yarn.resourcemanager.hostname}:8033</value>
</property>
</configuration>
批量写

- 配置项说明:
hiveserver2
- 类型: 单选
- 必须: 是
- 默认值: 无
- 说明: 无
分区时间戳格式
类型: 单选
必须: 是
默认值: yyyyMMddHHmmss
说明:
每进行一次DataX导入在Hive表中会生成一个新的分区,现在系统分区名称为'pt'格式为开始导入数据的当前时间戳,格式为
yyyyMMddHHmmss
或者yyyyMMdd
fsName
- 类型: 单选
- 必须: 是
- 默认值: 无
- 说明: 描述:Hadoop hdfs文件系统namenode节点地址。格式:hdfs://ip:端口;例如:hdfs://127.0.0.1:9000
分区保留数
类型: 整型数字
必须: 是
默认值: 2
说明:
每进行一次DataX导入在Hive表中会生成一个新的分区,现在系统分区名称为
pt
格式为开始导入数据的时间戳
自动建表
类型: 单选
必须: 是
默认值: on
说明: 解析Reader的元数据,自动生成Writer create table DDL语句
可选项说明: 可选
off
,on
以下是详细说明:
fileType
配置模版
- 类型: 富文本
- 必须: 是
- 默认值: com.qlangtech.tis.plugin.datax.DataXHiveWriter.getDftTemplate()
- 说明: 无特殊情况请不要修改模版内容,避免不必要的错误
writeMode
类型: 单选
必须: 是
默认值: append
说明:
hdfswriter写入前数据清理处理模式:
- append: 写入前不做任何处理,DataX hdfswriter直接使用filename写入,并保证文件名不冲突,
- nonConflict:如果目录下有fileName前缀的文件,直接报错
encoding
- 类型: 单选
- 必须: 否
- 默认值: utf-8
- 说明: 描述:写文件的编码配置。