hadoop多节点配置，压缩，序列化，快照，回收站

节点的多目录配置：
--------------------------------------
　　namenode：配置两个文件夹为工作目录(容错) //两文件夹数据相同
　　datanode：配置两个文件夹为工作目录(扩容) //两文件夹数据不同

namenode配置：hdfs-site.xml
<property>
<name>dfs.namenode.name.dir</name>
<value>file://${hadoop.tmp.dir}/dfs/name,file://${hadoop.tmp.dir}/dfs/name2</value>
<description>以逗号分隔的路径列表，用于冗余(提供备份) </description>
</property>

datanode配置：hdfs-site.xml
<property>
<name>dfs.datanode.data.dir</name>
<value>file://${hadoop.tmp.dir}/dfs/data,file://${hadoop.tmp.dir}/dfs/data2</value>
</property>

之后将/soft/hadoop/etc文件夹进行分发

格式化文件系统：
　　1、停止所有进程：stop-all.sh
　　2、删除/soft/hadoop/logs
　　3、删除~/hadoop
　　4、hdfs namenode -format

启动：start-dfs.sh

容错和容灾：
------------------------------------
容错：能够容忍故障的发生，正常对外提供服务
容灾：对火灾、断电等一切不可抗因素有恢复能力

配额：
-------------------------------------
目录配额：限定目录能存放的文件个数(限于整个目录树，包括当前目录)
hdfs dfsadmin -setQuota 3 data
hdfs dfsadmin -clrQuota data

空间配额：限定目录能够存放的文件总大小(计算块大小x副本数)
hdfs dfsadmin -setSpaceQuota <quota> <dirname>...<dirname>
hdfs dfsadmin -clrSpaceQuota <dirname>...<dirname>

查看hadoop命令帮助
hdfs dfs -help mkdir
hdfs dfsadmin -help setQuota

hdfs默认最小块大小是1m
配置文件：dfs.namenode.fs-limits.min-block-size

手动设置hdfs文件的块大小，副本数
FSDataOutputStream fos = fs.create(p,true,1024,(short)2,1048576);

快照：
对当前资源的一个快速备份(投影)，快照不会发生改变
hdfs dfs -createSnapshot <snapshotDir> [<snapshotName>]
hdfs dfs -deleteSnapshot <snapshotDir> <snapshotName>
hdfs dfs -renameSnapshot <snapshotDir> <oldName> <newName>

hdfs dfsadmin -allowSnapshot <snapshotDir>
hdfs dfsadmin -disallowSnapshot <snapshotDir>

hdfs dfs -appendToFile 1.sh data/1.txt //将指定文件追加到hdfs文件末尾

1、快照会将当前状态的文件进行快速备份，元数据指向源文件

2、和Linux的硬链接类似，但是快照不会进行改变

3、快照存放的路径在被快照的文件夹路径下的.snapshot文件夹

4、不同文件夹创建的快照可以重名

5、无法删除快照或删除源文件夹

回收站：如果怕删除文件，需要启动回收站机制(core-site.xml)
<property>
<name>fs.trash.interval</name>
<value>1</value>
<description>
默认为0，即禁用回收站；配置文件说明垃圾回收的分钟数；
如果服务端禁用，则需要检查客户端是否启用回收站。
如果服务端启动，则客户端配置就可以忽略
</description>
</property>

<property>
<name>fs.trash.checkpoint.interval</name>
<value>0</value>
<description>
创建检查点间隔，需要小于等于fs.trash.interval
</description>
</property>

hdfs dfs -expunge //清空回收站过期文件

序列化：
将结构化的对象转化为字节流，以便在网络上进行传输或者进行永久存储的过程

序列化经常在两个领域出现：进程间通信，永久存储

hadoop中节点的进程间通信是通过RPC实现

RPC是一种协议，使用的是序列化技术

序列化技术特点：
紧凑：体积小，节省带宽
快速：序列化过程快速
可扩展：新的api完整兼容旧数据格式
支持互操作：跨语言

hadoop的序列化：writable

java writable
----------------------------------------
byte ByteWritable
short ShortWritable
int
long
float
double
char
boolean
String Text

IntWritable
Text

归档：启动yarn

archive
har文件 //hadoop归档文件

创建har文件：
　　hadoop archive -archiveName my.har -p /user/data data1 data2 /

查看归档文件：
　　hdfs dfs -lsr har:///my.har

hdfs性能：
不适合存储海量小文件：
　　　　namenode:在启动的时候将fsimage中的文件索引加载到内存。

　　　　平均一个文件，占用namenode内存150字节。

如果存储海量小文件，namenode内存占用量会特别大

小文件处理：
　　1、归档 //har
　　2、压缩 //
　　3、创建序列文件 //sequenceFile

hadoop的压缩：
压缩格式压缩工具　　算法　　文件扩展名　　是否可切割
DEFLATE　　　　 N/A　　 DEFLATE　　 .deflate 　　　　No
gzip　　　　　　 gzip 　　 DEFLATE　　 .gz　　　　　　 No
bzip2　　　　　　 bzip2　　 bzip2 　　　 .bz2 　　　　　 Yes
LZO　　　　　　 lzop　　　　 LZO　　 .lzo　　　　　　 No
LZ4　　　　　　 N/A　　　　 LZ4　　　　 .lz4　　　　　　 No
Snappy 　　　　 N/A 　　　　 Snappy　　 .snappy　　　　 No

压缩格式　　　　　　　　　　压缩编解码器
DEFLATE　　　　　　　　　　 org.apache.hadoop.io.compress.DefaultCodec √
gzip　　　　　　　　　　　　 org.apache.hadoop.io.compress.GzipCodec √
bzip2　　　　　　　　　　　　 org.apache.hadoop.io.compress.BZip2Codec √
LZO　　　　　　　　　　　　　　 com.hadoop.compression.lzo.LzopCodec
LZ4 　　　　　　　　　　　　　　 org.apache.hadoop.io.compress.Lz4Codec √
Snappy 　　　　　　　　　　　　 org.apache.hadoop.io.compress.SnappyCodec √