大数据学习第一章

备注：从现在开始直到10月份我们要参加省级大数据比赛，在此我会把这期间学习的东西都会在此记录下来，加油吧！！！

1、因为大数据是在Linux系统上运行的，我们有两种选择，下面贴一篇博客

http://dblab.xmu.edu.cn/blog/285/ 这是慕课网上厦门大学林子雨老师讲的一些基本的安装过程

Linux系统建议使用Ubuntu，下面配上下载地址

ubuntu官方网站： http://www.ubuntu.com/ 对应中文地址为 http://www.ubuntu.org.cn/index_kylin

桌面版下载地址： http://www.ubuntu.com/download/desktop

当然也可以完全按照林子雨老师博客里面进行安装，

2、下面贴一些Linux常用的一些命令（下面命令来源于http://www.cnblogs.com/resn/p/5800922.html 可自行参考）

软件管理：

apt-cache search package 搜索包
apt-cache show package 获取包的相关信息，如说明、大小、版本等
sudo apt-get install package 安装包
sudo apt-get install package –reinstall 重新安装包
sudo apt-get -f install 强制安装
sudo apt-get remove package 删除包
sudo apt-get remove package –purge 删除包，包括删除配置文件等
sudo apt-get autoremove 自动删除不需要的包
sudo apt-get update 更新源
sudo apt-get upgrade 更新已安装的包
sudo apt-get dist-upgrade 升级系统
sudo apt-get dselect-upgrade 使用 dselect 升级
apt-cache depends package 了解使用依赖
apt-cache rdepends package 了解某个具体的依赖
sudo apt-get build-dep package 安装相关的编译环境
apt-get source package 下载该包的源代码
sudo apt-get clean && sudo apt-get autoclean 清理下载文件的存档
sudo apt-get check 检查是否有损坏的依赖


apt的配置文件：

/etc/apt/sources.list 设置软件包的获取来源
/etc/apt/apt.conf apt配置文件
/etc/apt/apt.conf.d apt的零碎配置文件
/etc/apt/preferences 版本参数
/var/cache/apt/archives/partial 存放正在下载的软件包
/var/cache/apt/archives 存放已经下载的软件包
/var/lib/apt/lists 存放已经下载的软件包详细信息
/var/lib/apt/lists/partial 存放正在下载的软件包详细信息


修改密码：

# 修改密码的命令
passwd # 默认修改当前用户的密码

passwd username # 修改指定用户的密码，需要管理员权限

备注：权限不够时需要加sudo 获取管理员权限

忘记密码

开始时长按shift键，进入grub菜单--> 按字母e 进入编辑模式 --> 编辑内容--> 启动进入但用户模式，重新设置用户密码，--> 按照F10重启 -- > 使用新密码进入系统

关机/重启/注销：

logout # 注销

reboot # 重启系统：

shutdown # 关机：

shutdown -r now # 现在立即重启
shutdown -r +5  # 三分钟后重启
shutdown -r 12:12    #在12:12时将重启计算机

shutdown -h now # 现在立即关机
shutdown -h +5  “The System will shutdown after 3 minutes”   # 提示使用者将在三分钟后关机
shutdown -h +5   #  5分钟后关机
shutdown -h 12:00  # 12点钟关机
shutdown -c   # 取消关机操作

目录切换：

cd  # 回到当前用户的家目录
# ～  可用于表示用户家目录
cd  /etc # 切换到/etc目录

cd - # 切换到上一次的目录

pwd 查看当前的工作路径

创建目录：

mkdir my_dir创建目录
mkdir a/b/c/d创建多层目录

获取帮助：
-h --help info man

man man  # 查看man命令的手册  
man  cd 
man  pwd 
man 5 passwd
man -k passwd # 模糊查找
man -f  passwd  # 精确查找 

创建文件：
touch ：改变文件或目录时间，文件不存在时会创建一个空文件

touch filel # filel 不存在时被创建
touch -c filel #不创建文件

touch -r ref_file file1  更新file1.txt的时间戳和ref+file相同
touch -t 201210120505.25 file1

删除：
rm

rm -f  file1 # 强制删除文件
rm -r  a/b/file1  # 删除指定目录及其下的所有文件和目录
rm -rf  a/b/file1  #  强制删除指定目录及其下的所有文件和目录

# rm 命令太危险，不建议使用

mv:移动或重命名文件或目录

mv SOURCE DEST  # 
mv test.log test.txt  # 文件改名
mv test1.txt dir1/      #移动文件
mv test1.txt  test2.tx  test3.tx dir1/      #移动多个文件

cp  ：复制

cp SOURCE DEST 复制文件

cp -i  SOURCE DEST  #   如果遇到需要覆盖的情况，则提示
cp -r  dir1  dir2  # 若给出的源文件是一目录文件，此时cp将递归复制该目录下所有的子目录和文件。此时目标文件必须为一个目录名
cp -p  file1 file2  #  此时cp除复制源文件的内容外，还将把其修改时间和访问权限也复制到新文件中。

cp -rp dir1  dir2

star：查看文件详细信息：

stat filename

car:链接文件后输出文件内容到屏幕上，其实就是查看文件内容

cat file1  #显示 file1的文件内容
cat file1 file2   # 显示file1和file2的文件内容 
cat -n file1  #  由1开始对所有输出的行数编号
cat -s file  # 当遇到连续2行以上的空白行，只保留一行空白行

history ： 查看执行过的命令。

history  # 显示最近1000条历史命令
history 5   # 显示最后5条命令
!number# number为history之后命令前的序号：执行该条命令
!cat # 执行最后一条以cat开头的命令

more ：查看文件内容

less ：查看文件内容

head ：输出文件的开始的部分，可以指定行数 , 默认显示10行

格式：ls [选项] [目录名]

-a 用于显示所有文件和子目录(保罗点文件)。

-l 除了文件名之外，还将文件的权限、所有者、文件大小等信息详细列出来。

-r 将目录的内容清单以英文字母顺序的逆序显示。

-t 按文件修改时间进行排序，而不是按文件名进行排序。

-A 同-a，但不列出“.”(表示当前目录)和“..”(表示当前目录的父目录)。

-F 在列出的文件名和目录名后添加标志。例如，在可执行文件后添加“*”，在目录名后添加“/”以区分不同的类型。

-R 如果目标目录及其子目录中有文件，就列出所有的文件。

. 和..

. 表示当前目录

.. 表示父目录

ls  # 列出当前目录下的文件和目录
ls  . # 列出当前目录下的文件和目录
ls ..   # 列出当前目录的父目录下的文件和目录
ls  /etc    # 列出/etc目录下的文件和目录

ls -l  # 以长格式显示文件信息
总用量 76
-rwxrwxrwx 1 will will    78 5月  13 18:11 ss_start.sh

文件类型

- 普通文件

d 目录文件

b 块设备文件

c 字符设备文件

l 链接文件

p 管道文件

s socket文件

文件权限

rwxrwxr-- ：三组rwx 分别表示所有者、所有组、其他人的权限。

r ：表示可读, 可以用数字 4 来表示
w ：标识可写，可以用数字 2 来表示
x ：表示可执行，可以用数字 1 来表示
- ：表示没有相应权限可以用数字 0 来表示

useradd: 添加用户

# -c 备注 加上备注。并会将此备注文字加在/etc/passwd中的第5项字段中         
#  -d 用户主文件夹。指定用户登录所进入的目录，并赋予用户对该目录的的完全控制权        
#  -e 有效期限。指定帐号的有效期限。格式为YYYY-MM-DD，将存储在/etc/shadow         
#  -f 缓冲天数。限定密码过期后多少天，将该用户帐号停用       
#  -g 主要组。设置用户所属的主要组  www.cit.cn           
#  -G 次要组。设置用户所属的次要组，可设置多组         
# -M 强制不创建用户主文件夹         
#  -m 强制建立用户主文件夹，并将/etc/skel/当中的文件复制到用户的根目录下         
#  -p 密码。输入该帐号的密码         
#  -s shell。用户登录所使用的shell         
#  -u uid。指定帐号的标志符user id，简称uid

useradd user1 # 添加用户 user1
useradd  -d /home/userTT user2

userdel : 删除用户

userdel  user1  #
userdel -r user1

#  -r, --remove   用户主目录中的文件将随用户主目录和用户邮箱一起删除。在其它文件系统中的文件必须手动搜索并删除。
#    -f, --force    此选项强制删除用户账户，甚至用户仍然在登录状态。它也强制删除用户的主目录和邮箱，即使其它用户也使用同一个主目录或邮箱不属于指定的用户

usermod : 修改用户信息

#　-c<备注> 　修改用户帐号的备注文字。 
#　-d登入目录> 　修改用户登入时的目录。 
#　-e<有效期限> 　修改帐号的有效期限。 
#　-f<缓冲天数> 　修改在密码过期后多少天即关闭该帐号。 
#　-g<群组> 　修改用户所属的群组。 
#　-G<群组> 　修改用户所属的附加群组。 
#　-l<帐号名称> 　修改用户帐号名称。 
#　-L 　锁定用户密码，使密码无效。 
#　-s<shell> 　修改用户登入后所使用的shell。 
#　-u<uid> 　修改用户ID。 


#　-U 　解除密码锁定。

usermod -G staff user2  # 将 newuser2 添加到组 staff 中 
usermod -l newuser1 newuser  # 修改 newuser 的用户名为 newuser1 
usermod -L newuser1  # 锁定账号 newuser1
usermod -U newuser1  # 解除对 newuser1 的锁定



su  : 切换用户，没有参数时，默认切换为root用户；

su   # 切换为root

## 推荐
su -   # 切换为root 并加载user1的环境配置
su -  user1 # 切换为user1 并加载user1的环境配置

sudo ：让当前用户暂时以管理员的身份root来执行命令。

Ubuntu 默认没有启用root用户，普通用户执行一些特殊的操作时，使用sudo就可以让普通用户以root用户的身份执行命令

sudo有一个配置文件： /etc/sudoers ; 通过修改配置文件可以让指定用户使用sudo命令

关于各个文件的作用域：
（1） /etc/profile： 此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行. 并从/etc/profile.d目录的配置文件中搜集shell的设置。
（2） /etc/bashrc: 为每一个运行bash shell的用户执行此文件.当bash shell被打开时,该文件被读取（即每次新开一个终端，都会执行bashrc）。
（3） ~/.bash_profile: 每个用户都可使用该文件输入专用于自己使用的shell信息,当用户登录时,该文件仅仅执行一次。默认情况下,设置一些环境变量,执行用户的.bashrc文件。
（4） ~/.bashrc: 该文件包含专用于你的bash shell的bash信息,当登录时以及每次打开新的shell时,该该文件被读取。
（5） ~/.bash_logout: 当每次退出系统(退出bash shell)时,执行该文件. 另外,/etc/profile中设定的变量(全局)的可以作用于任何用户,而~/.bashrc等中设定的变量(局部)只能继承 /etc/profile中的变量,他们是"父子"关系。（6） ~/.bash_profile: 也可能是 .profile 是交互式、login 方式进入 bash 运行的~/.bashrc 是交互式 non-login 方式进入 bash 运行的通常二者设置大致相同，所以通常前者会调用后者。

PATH变量的设置

env : 查看当前环境变量

export : 设置或显示环境变量。

source : 在当前bash环境下读取并执行FileName中的命令。该filename文件可以无"执行权限"

tar：

-c ：建立一个压缩文件的参数指令(create 的意思)；
-x ：解开一个压缩文件的参数指令！
-t ：查看 tarfile 里面的文件！
特别注意  c/x/t 同时仅能存在一个，因为不可能同时压缩与解压缩。
-z ：是否同时具有 gzip 的属性？亦即是否需要用 gzip 压缩？
-j ：是否同时具有 bzip2 的属性？亦即是否需要用 bzip2 压缩？
-v ：压缩的过程中显示文件！这个常用，但不建议用在背景执行过程！
-f ：使用档名，请留意，在 f 之后要立即接文件名
-p ：使用原文件的原来属性（属性不会依据使用者而变）
-P ：可以使用绝对路径来压缩！
-N ：比后面接的日期(yyyy/mm/dd)还要新的才会被打包进新建的文件中！


# 将当前目录下所有.txt文件打包并压缩归档到文件this.tar.gz
tar czvf this.tar.gz ./*.txt 
# 将当前目录下的this.tar.gz中的文件解压到当前目录
tar xzvf this.tar.gz ./


# 将整个 /etc 目录下的文件全部打包成为 /tmp/etc.tar
tar -cvf /tmp/etc.tar /etc  # 仅打包，不压缩！
tar -zcvf /tmp/etc.tar.gz /etc  # 打包后，以 gzip 压缩
tar -jcvf /tmp/etc.tar.bz2 /etc  # 打包后，以 bzip2 压缩

# 解压文件
tar -xf  a.tar.gz   # 
tar -xf  a.tar.gz  -C /tmp  # 指定解包路径

grep：

格式：
grep [OPTIONS] PATTERN [FILE...]
grep [OPTIONS] [-e PATTERN]  [FILE...]
参数：
-c    --count   #计算符合样式的列数
-l    --file-with-matches   #列出文件内容符合指定的样式的文件名称。 
-v   --revert-match   #显示不包含匹配文本的所有行。
-i    --ignore-case   #忽略字符大小写的差别。
-o   # 只显示匹配到的关键字
-n  # 现实行号

-E    使用正则表达式

vi/vim

进入vi的命令
vi filename :打开或新建文件，并将光标置于第一行首
vi +n filename ：打开文件，并将光标置于第n行首
vi + filename ：打开文件，并将光标置于最后一行首
vi +/pattern filename：打开文件，并将光标置于第一个与pattern匹配的串处
vi -r filename ：在上次正用vi编辑时发生系统崩溃，恢复filename
vi filename....filename ：打开多个文件，依次进行编辑

移动光标类命令
h ：光标左移一个字符
l ：光标右移一个字符
space：光标右移一个字符
Backspace：光标左移一个字符
k或Ctrl+p：光标上移一行
j或Ctrl+n ：光标下移一行
Enter ：光标下移一行
w或W ：光标右移一个字至字首
b或B ：光标左移一个字至字首
e或E ：光标右移一个字至字尾
) ：光标移至句尾
( ：光标移至句首
}：光标移至段落开头
{：光标移至段落结尾
nG：光标移至第n行首
n+：光标下移n行
n-：光标上移n行
n$：光标移至第n行尾
H ：光标移至屏幕顶行
M ：光标移至屏幕中间行
L ：光标移至屏幕最后行
0：（注意是数字零）光标移至当前行首
$：光标移至当前行尾

屏幕翻滚类命令
Ctrl+u：向文件首翻半屏
Ctrl+d：向文件尾翻半屏
Ctrl+f：向文件尾翻一屏
Ctrl＋b；向文件首翻一屏
nz：将第n行滚至屏幕顶部，不指定n时将当前行滚至屏幕顶部。

插入文本类命令
i ：在光标前
I ：在当前行首
a：光标后
A：在当前行尾
o：在当前行之下新开一行
O：在当前行之上新开一行
r：替换当前字符
R：替换当前字符及其后的字符，直至按ESC键
s：从当前光标位置处开始，以输入的文本替代指定数目的字符
S：删除指定数目的行，并以所输入文本代替之
ncw或nCW：修改指定数目的字
nCC：修改指定数目的行

删除命令
ndw或ndW：删除光标处开始及其后的n-1个字
do：删至行首
d$：删至行尾
ndd：删除当前行及其后n-1行
x或X：删除一个字符，x删除光标后的，而X删除光标前的
Ctrl+u：删除输入方式下所输入的文本

搜索及替换命令
/pattern：从光标开始处向文件尾搜索pattern
?pattern：从光标开始处向文件首搜索pattern
n：在同一方向重复上一次搜索命令
N：在反方向上重复上一次搜索命令
：s/p1/p2/g：将当前行中所有p1均用p2替代
：n1,n2s/p1/p2/g：将第n1至n2行中所有p1均用p2替代
：g/p1/s//p2/g：将文件中所有p1均用p2替换

选项设置
all：列出所有选项设置情况
term：设置终端类型
ignorance：在搜索中忽略大小写
list：显示制表位(Ctrl+I)和行尾标志（$)
number：显示行号
report：显示由面向行的命令修改过的数目
terse：显示简短的警告信息
warn：在转到别的文件时若没保存当前文件则显示NO write信息
nomagic：允许在搜索模式中，使用前面不带“”的特殊字符
nowrapscan：禁止vi在搜索到达文件两端时，又从另一端开始
mesg：允许vi显示其他用户用write写到自己终端上的信息

最后行方式命令
：n1,n2 co n3：将n1行到n2行之间的内容拷贝到第n3行下
：n1,n2 m n3：将n1行到n2行之间的内容移至到第n3行下
：n1,n2 d ：将n1行到n2行之间的内容删除
：w ：保存当前文件
：e filename：打开文件filename进行编辑
：x：保存当前文件并退出
：q：退出vi
：q!：不保存文件并退出vi
：!command：执行shell命令command
：n1,n2 w!command：将文件中n1行至n2行的内容作为command的输入并执行之，若不指定n1，n2，则表示将整个文件内容作为command的输入
：r!command：将命令command的输出结果放到当前行

寄存器操作
"?nyy：将当前行及其下n行的内容保存到寄存器？中，其中?为一个字母，n为一个数字
"?nyw：将当前行及其下n个字保存到寄存器？中，其中?为一个字母，n为一个数字
"?nyl：将当前行及其下n个字符保存到寄存器？中，其中?为一个字母，n为一个数字
"?p：取出寄存器？中的内容并将其放到光标位置处。这里？可以是一个字母，也可以是一个数字
ndd：将当前行及其下共n行文本删除，并将所删内容放到1号删除寄存器中。

一、插入文本
i 　在当前字符前插入文本　　
I 　在行首插入文本　　　　
a 　在当前字符后添加文本　　
A 　在行末添加文本　　　　　
o 　在当前行后面插入一空行　
O 　在当前行前面插入一空行　
R 　以改写方式输入文本　　　

二、移动光标
j或下箭头向下移动一行
k或上箭头向上移动一行
h或左箭头左移一个字符
l或右箭头右移一个字符
w 　　　　右移一个词
W 　　　　右移一个以空格分隔的词
b 　　　　左移一个词
B 　　　　左移一个以空格分隔的词
0 　　　　移到行首
Ctrl-F　　向前翻页
Ctrl-B　　向后翻页
nG　　　　到第n行
G 　　　　到最后一行

三、替换文本
$ 　　　　到行尾
( 　　　　到句子的开头
) 　　　　到句子的末尾
{　　　　到段落的开头
}　　　　到段落的末尾

四、删除文本

r 　　替换一个字符
c 　　修改文本直到按下Esc健
cw　　修改下一个词
cnw　修改接下来的n个词

五、文本编辑
yy　将一行文本移到缺省缓冲区中
yn　将下一个词移到缺省缓冲区中
ynw 将后面的n个词移到缺省缓冲区中
p 　如果缺省缓冲区中包含一行文本，则在当前　　　
　　行后面插入一个空行井将缺省缓冲区中的声　　　
　　容粘贴到这一行中；如果缺省缓冲区中包含　　　
　　多个词，把这些词粘贴到光标的右边．　　　　　

P 　如果缺省缓冲区中包含一行文本，则正当前　　
　行前面插入一个空行井将缺省缓冲区中的内　　
　　容粘贴到这一行中；如果缺省缓冲区中包含　　
　多个词，把这些词粘贴到光标的左边　　

六、保存退出
zz　　　　　　　　　　保存并退出
:w filename　　　　　写入文件
:W　　　　　　　　　　写入文件
:x　　　　　　　　　　保存(如果当前文件修改过)并退出
:q!　　　　　　　　　不保存文件，直接退出
:q　　　　　　　　　　退出vi

vi编辑器的启动与退出
直接进入编辑环境
$ vi

进入编辑环境并打开（新建）文件
$ vi myfile

退出vi编辑环境
输入末行命令放弃对文件的修改，并退出编辑器
:q!

保存文件
保存对vi编辑器中已打开文件的修改
:w

另存为文件
将vi编辑器中的内容另存为指定文件名
:w myfile

退出vi编辑器的多种方法
未修改退出
没有对vi编辑器中打开的文件进行修改，或已对修改进行了保存，直接退出vi编辑器
:q

对vi编辑器中的文件进行保存并退出vi编辑器
:wq

不保存退出
放弃对文件内容的修改，并退出vi编辑器
:q!

光标的移动和翻页操作
h向左移动光标
l向右移动光标
k向上移动光标
j向下移动光标
翻页Ctrl + f向前翻整页
Ctrl + b向后翻整页
Ctrl + u向前翻半页
Ctrl + d向后翻半页

行内快速跳转
^将光标快速跳转到本行的行首字符
$将光标快速跳转到本行的行尾字符
w将光标快速跳转到当前光标所在位置的后一个单词的首字母
b将光标快速跳转到当前光标所在位置的前一个单词的首字母
e将光标快速跳转到当前光标所在位置的后一个单词的尾字母
文件内行间快速跳转

命令功能
:set nu 在编辑器中显示行号
:set nonu 取消编辑器中的行号显示
1G跳转到文件的首行
G跳转到文件的末尾行
#G跳转到文件中的第#行

进入输入模式
i在当前光标处进入插入状态
a在当前光标后进入插入状态
A将光标移动到当前行的行末，并进入插入状态
o在当前行的下面插入新行，光标移动到新行的行首，进入插入状态
O在当前行的上面插入新行，光标移动到新行的行首，进入插入状态
cw删除当前光标到所在单词尾部的字符，并进入插入状态
c$删除当前光标到行尾的字符，并进入插入状态
c^命令删除当前光标之前（不包括光标上的字符）到行首的字符，并进入插入状态

输入模式的编辑键操作
方向键进行上下左右方向的光标移动
Home快速定位光标到行首
End快速定位光标到行尾
PageUp进行文本的向上翻页
PageDown进行文本的向下翻页
Backspace删除光标左侧的字符
Del删除光标位置的字符

删除操作
x删除光标处的单个字符
dd删除光标所在行
dw删除当前字符到单词尾（包括空格）的所有字符
de删除当前字符到单词尾（不包括单词尾部的空格）的所有字符
d$删除当前字符到行尾的所有字符
d^删除当前字符到行首的所有字符
J删除光标所在行行尾的换行符，相当于合并当前行和下一行的内容

替换操作

:s/old/new 将当前行中查找到的第一个字符“old” 串替换为“new”

:s/old/new/g 将当前行中查找到的所有字符串“old” 替换为“new”

:#,#s/old/new/g 在行号“#,#”范围内替换所有的字符串“old”为“new”

:%s/old/new/g 在整个文件范围内替换所有的字符串“old”为“new”

:s/old/new/c 在替换命令末尾加入c命令，将对每个替换动作提示用户进行确认

撤消操作

u取消最近一次的操作，并恢复操作结果

可以多次使用u命令恢复已进行的多步操作

U取消对当前行进行的所有操作

Ctrl + r对使用u命令撤销的操作进行恢复

复制与粘贴操作

yy复制当前行整行的内容到vi缓冲区

yw复制当前光标到单词尾字符的内容到vi缓冲区

y$复制当前光标到行尾的内容到vi缓冲区

y^复制当前光标到行首的内容到vi缓冲区

p读取vi缓冲区中的内容，并粘贴到光标当前的位置（不覆盖文件已有的内容）

字符串查找操作

/word从上而下在文件中查找字符串“word”

?word 从下而上在文件中查找字符串“word”

n定位下一个匹配的被查找字符串

N定位上一个匹配的被查找字符串

快捷键

ctrl-a ：把光标移动到命令行最开始的地方。
ctrl-e ：把光标移动到命令行末尾。
ctrl-u ：清除命令行中光标所处位置之前的所有字符。
ctrl-k ：清除从提示符所在位置到行末尾之间的字符
ctrl-w ：清除左边的字段
ctrl-y ：将会贴上被ctrl-u 或者 ctrl-k 或者 ctrl-w清除的部分。
ctrl-r ：将自动在命令历史缓存中增量搜索后面入的字符。
tab ：命令行自动补全－自动补全当前的命令行。如果启用自动补全脚本命令参数和选项也可以自动补齐。

ctrl-l ：清屏

以上就是常用的操作命令，有一部分没有记录，如要查看，请查看原网址http://www.cnblogs.com/resn/p/5800922.html

3、安装过程

1、在整个安装过程中主要流程是创建Hadoop用户--》赋予管理员权限--》更新apt--》安装vim--》安装SSH、配置SSH无密码登录（SSH clint已默认安装，只需安装SSH server）

--》安装java环境（该处用到vim命令，该篇上面已给出，请自行查找，推荐按照第二种安装JDK方式）--》安装Hadoop2（登录网址进行下载，推荐：下载一个Google浏览器，火狐网址太慢）--》Hadoop单机配置（非分布式，注：执行案例时，Hadoop默认不会覆盖结果文件，再次执行时，需要先将结果文件进行删除）--》Hadoop伪分布式配置（修改配置文件）

4、Hadoop集群基本理解（自行参考）

Hadoop两大核心组件

1、HDFS
主要包含两大核心节点，由一个NameNode和若干个DataNode数据节点组成分布式文件系统

　 NameNode就像一个目录服务器一样，我们应用来取数据的时候首先会去访问NameNode，去获得我们要获取的数据是被分别放到哪个服务器的DataNode上，取完了然后拼接起来就完成了整个分布式文件的访问

2、MapReduce

　 MapReduce也包含两大核心组件一个是JobTracker另一个是TaskTracker

JobTracker相当于一个作业管家，它会对你整个的MapReduce作业进行管理，他会把用户大的作业拆分成很多小的作业，分发到不同的机器上去执行，TaskTracker安装在了不同的机器上，每一个TaskTracker都负责监控和执行JobTracker分配给自己的小作业，JobTracker这个作业管家会协调不同机器上的TaskTracker去完成一个大的作业