假期学习进度十二

一、安装Spark

  1. sudo tar -zxf ~/下载/spark-1.6.2-bin-without-hadoop.tgz -C /usr/local/
  2. cd /usr/local
  3. sudo mv ./spark-1.6.2-bin-without-hadoop/ ./spark
  4. sudo chown -R hadoop:hadoop ./spark

Shell 命令

安装后,还需要修改Spark的配置文件spark-env.sh

  1. cd /usr/local/spark
  2. cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

配置完成后就可以直接使用,不需要像Hadoop运行启动命令。
通过运行Spark自带的示例,验证Spark是否安装成功。

  1. cd /usr/local/spark
  2. bin/run-example SparkPi

执行时会输出非常多的运行信息,输出结果不容易找到,可以通过 grep 命令进行过滤(命令中的 2>&1 可以将所有的信息都输出到 stdout 中,否则由于输出日志的性质,还是会输出到屏幕中):

  1. bin/run-example SparkPi 2>&1 | grep "Pi is"

二、使用 Spark Shell 编写代码

启动Spark Shell

  1. bin/spark-shell

 加载text文件

spark创建sc,可以加载本地文件和HDFS文件创建RDD。这里用Spark自带的本地文件README.md文件测试。

  1. val textFile = sc.textFile("file:///usr/local/spark/README.md")

加载HDFS文件和本地文件都是使用textFile,区别是添加前缀(hdfs://和file://)进行标识。

 简单的RDD操作:

//获取RDD文件textFile的第一行内容
textFile.first()

//获取RDD文件textFile所有项的计数
textFile.count()

//抽取含有“Spark”的行,返回一个新的RDD
val lineWithSpark = textFile.filter(line => line.contains("Spark"))

//统计新的RDD的行数
lineWithSpark.count()

退出spark shell

原文地址:https://www.cnblogs.com/lover995/p/12299747.html