《OD学spark》20160924scala基础

拓展:

Hadoop 3.0

NameNode HA

NameNode是Active

NameNode是Standby可以有多个

HBase

Cluster

单节点故障?

HBaster -> BackMaster

HRegionServer

WEBUI 60010


Spark 课程安排
分为两个部分:
第一部分:基础篇
SCALA:1天
SparkCore:2天 - MapReduce
SparkSQL:1天 - Hive Shark = Hive on Spark
关键,企业中必用的,必须掌握
SparkStreaming:1天 - Storm
DStream
企业实时数据统计分析
Spark 2.0
StructureStreaming
第二部分:项目篇
基于Spark交互式用户行为分析系统
三天
额外扩展:
Spark MLlib学习 1天

Spark:
加州大学伯克利分校AMPLab
AMP
A:算法
M:机器
P:人类

=============================================================
1、为什么学习SCALA
-1,Spark框架SCALA编程、Kafka
源码
-2,Spark编程
SCALA、Python、JAVA、R
细心:
Spark官方文档、讲义,Spark编程代码都是Python语言

databrick
金砖

JAVA
C阵营(C、C#、C++)
Python - Spark
火的


函数
没有放在类中
方法
放在类中


隐式转换
"偷龙转凤"


大数据框架,”helloworld"程序就WordCount
hadoop -> (hadoop, 1) -> (hadoop, list(11,1,1)) -> (hadoop, 14)

rdd.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
-1,
line.toString().split(" ")

==========================================================
Spark 1.x
Scala 2.10.x 4
Spark 2.x
Scala 2.11.x 8


Scala 语言
交互式编程语言,Shell类似,交互式命令行
正是由于提供交互式命令行,所以使得Spark程序开发、测试,很方便

对于Scala语言来说,IDE工具
The Scala IDE (based on Eclipse),
支持不是很好,提示,编译语法
IntelliJ IDEA with the Scala plugin,
最多,支持很好
NetBeans IDE with the Scala plugin.

DELIMITED FIELDS TERMINATED BY ' '

DELIMITED FIELDS TERMINATED BY char [ESCAPED BY char]]

T => U
表示函数
确定一个方法的两个标准
-1,参数
个数、类型
-2,返回值
(Int, Int) => Int

def map(f: T => U): RDD ={

}

在JAVA中,循环来说,通常有两个关键字
break
跳出整个循环
continue
跳出当前的循环

回顾一下:
JAVA中的FOR循环
for(int index = 1 ; index ++ ; index <= 10){
println(index)
}


for(index <- 1 to 10){
println(index)
}

apply()方法


原文地址:https://www.cnblogs.com/yeahwell/p/5904967.html