开启spark日志聚集功能

spark监控应用方式:

1)在运行过程中可以通过web Ui:4040端口进行监控

2)任务运行完成想要监控spark,需要启动日志聚集功能

开启日志聚集功能方法:

编辑conf/spark-env.sh文件,在其中加入如下部分:

SPARK_HISTORY_OPTS=-Dspark.history.provider=org.apache.spark.deploy.history.FsHistoryProvider

SPARK_HISTORY_OPTS=-Dspark.history.fs.logDirectory=hdfs://db02:8020/user/hadoop/evtlogs

编辑spark-default.conf配置文件,在其中加入如下部分:

spark.eventLog.enabled           true

spark.eventLog.dir               hdfs://db02:8020/user/hadoop/evtlogs

spark.eventLog.compress          true

启动spark历史服务器:

sbin/start-history-server.sh

至此,已经成功配置了spark的日志聚集功能,现在可以通过web UI访问以后运行的spark任务历史日志了。

附件:

目前spark-env.sh文件内容:

JAVA_HOME=/opt/java/jdk1.7.0_67

SCALA_HOME=/opt/scala-2.10.4

HADOOP_CONF_DIR=/opt/cdh-5.3.6/hadoop-2.5.0/etc/hadoop

SPARK_MASTER_IP=db02

SPARK_MASTER_PORT=7077

SPARK_MASTER_WEBUI_PORT=8080

SPARK_WORKER_CORES=2

SPARK_WORKER_MEMORY=5g

SPARK_WORKER_PORT=7078

SPARK_WORKER_WEBUI_PORT=8081

SPARK_WORKER_INSTANCES=1

SPARK_WORKER_DIR=/opt/cdh-5.3.6/spark-1.3.0/data/tmp

SPARK_HISTORY_OPTS=-Dspark.history.provider=org.apache.spark.deploy.history.FsHistoryProvider

SPARK_HISTORY_OPTS=-Dspark.history.fs.logDirectory=hdfs://db02:8020/user/hadoop/evtlogs

目前spark-defaults.conf文件内容:

spark.master                     spark://db02:7077

spark.eventLog.enabled           true

spark.eventLog.dir               hdfs://db02:8020/user/hadoop/evtlogs

spark.eventLog.compress          true

 
 
原文地址:https://www.cnblogs.com/liuys635/p/11083676.html