大数据Hadoop第八周——Wordcount程序的运行+Spark下载解压+Scala语言环境和简介

大数据第8周

1.Wordcount程序的运行

1.1准备数据

上传到hdfs一个英文的文本文件,尽量不要在根目录下。文件内容也不要太多,可以自己数清楚有几个词,方便检查是否正确。

1.2写入运行参数

当前界面显示出要运行的程序,然后点击主菜单的“run”。

并选择“Run Configurations”

双击右侧“Java Appliction”,会自动显示“WordCount”,在“main”标签页,查看相关信息是否正确,

然后选择“Arguments”标签页,写入参数,前面的是输入文件的路径,最后一个是输出文件路径。输出文件路径一定是新路径(就是当前hdfs文件系统中没有的路径)。写好后,点击“Close”,在提示时选择“Save”。

可以选择在菜单中选择“Run As”,或者程序上点击鼠标右键,弹出的快捷菜单里选择“Run As”,“Run on Hadoop”。

运行后的结果如下,“output1”里的文件将会显示程序的结果。

 

2.Spark下载解压及相关信息

下载解压spark2.4.5:tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz。

Spark的开发语言是scala。Scala是运行在jvm虚拟机上的。

在路径/home/user1/spark-2.4.5/bin下运行./spark-shell。

 

3.Scala语言环境

下载解压scala2.11.12:tar -zxvf scala-2.11.12.tgz。

在路径/home/user1/scala-2.11.12/bin下运行./scala。

配置scala路径:vi .bash_profile,添加如下内容:

export SCALA_HOME=/home/caiyishuai/scala-2.11.12

export PATH=$SCALA_HOME/bin:$PATH

然后执行:source .bash_profile。

可以通过env | grep scala命令检查是否配置成功。

再直接执行:scala看是否能运行。

4.scala语言简介

4.1值和变量

值:val

变量:var

“值”类型声明后不可以更改数值,而“变量”类型可以。

声明时可以指定数值类型,也可以不指定,不指定时系统会自动判定。

指定类型方式:用冒号“:”:例如:val c:Float=5

注意对大小写敏感。

原文地址:https://www.cnblogs.com/caiyishuai/p/12744114.html