HDFS

//IO流 操作HDFS   参考之前博客IO流文章末尾hadoop IO流操作

//上传文件

@Test
public void putFileToHDFS() throws IOException, InterruptedException,
URISyntaxException {
// 1 获取文件系统
Configuration configuration = new Configuration();
FileSystem fs = FileSystem.get(new URI("hdfs://linux121:9000"),
configuration, "root");
// 2 创建输入流
FileInputStream fis = new FileInputStream(new File("e:/lagou.txt"));
// 3 获取输出流
FSDataOutputStream fos = fs.create(new Path("/lagou_io.txt"));
// 4 流对拷
IOUtils.copyBytes(fis, fos, configuration);
// 5 关闭资源
IOUtils.closeStream(fos);
IOUtils.closeStream(fis);
fs.close();
}

//下载文件

// 文件下载
@Test
public void getFileFromHDFS() throws IOException, InterruptedException,
URISyntaxException{
// 1 获取文件系统
Configuration configuration = new Configuration();
FileSystem fs = FileSystem.get(new URI("hdfs://linux121:9000"),
configuration, "root");
// 2 获取输入流
FSDataInputStream fis = fs.open(new Path("/lagou_io.txt"));
// 3 获取输出流
FileOutputStream fos = new FileOutputStream(new
File("e:/lagou_io_copy.txt"));
// 4 流的对拷
IOUtils.copyBytes(fis, fos, configuration);
// 5 关闭资源
IOUtils.closeStream(fos);
IOUtils.closeStream(fis);
fs.close();
}

//seek 定位读取

@Test
public void readFileSeek2() throws IOException, InterruptedException,
URISyntaxException{
// 1 获取文件系统
Configuration configuration = new Configuration();
FileSystem fs = FileSystem.get(new URI("hdfs://linux121:9000"),
configuration, "root");
// 2 打开输入流,读取数据输出到控制台
FSDataInputStream in = null;
try{
in= fs.open(new Path("/lagou.txt"));
IOUtils.copyBytes(in, System.out, 4096, false);
in.seek(0); //从头再次读取
IOUtils.copyBytes(in, System.out, 4096, false);
}finally {
IOUtils.closeStream(in);
}
}

//文件以及文件夹判断
@Test
public void isFile() throws URISyntaxException, IOException,
InterruptedException {final FileStatus[] fileStatuses = fs.listStatus(new Path("/"));
for (FileStatus fileStatus : fileStatuses) {
final boolean flag = fileStatus.isFile();
if (flag) {
System.out.println("文件：" + fileStatus.getPath().getName());
} else {
System.out.println("文件夹：" + fileStatus.getPath().getName());
}
}
}

HDFS下载数据流程:

1.客户端请求 namenode 需要下载文件,namenode检查权限和路径,返回文件的所有块信息

2.客户端根据节点距离最近,找到最近的存储第一块数据的节点,建立连接,读取数据

3.读取数据是以packet为单位,每个packet 64kb

HDFS写文件流程:

1.客户端请求namenode需要上传文件,namenod检查权限和路径

2.客户端创建FileSystem对象,客户端对单个文件进行切块,客户端请求namenode需要上传第一块

3.namenode 返回节点距离最近的节点,另一个机架的随机节点,第二个节点所在机架的随机节点

4.客户端与namenode返回的第一个节点建立连接,传数据也是以packet为单位,每次传数据packet会被同步放入确认队列

NameNode 元数据存储: 内存+磁盘

镜像文件fsimage +日志文件 edits

服务器开机将镜像文件和edits plus 加载到内存
服务器关机镜像文件和edits plus文件合并
2nn 将镜像文件和edits 定期(默认一个小时)合并,或者达到100万次修改合并

合并的流程:
1.创建新的edits plus 文件,用于记录新的操作流程
2.根据旧的edits plus 文件和fsimage 合并生成新的fsimage
3.覆盖原来的fsimage

HDFS文件限额配置:

1.数量限额

hdfs dfs -mkdir -p /user/root/lagou #创建hdfs文件夹
hdfs dfsadmin -setQuota 2 /user/root/lagou # 给该文件夹下面设置最多上传两
个文件，上传文件，发现只能上传一个文件
hdfs dfsadmin -clrQuota /user/root/lagou # 清除文件数量限制

2.空间大小限额

hdfs dfsadmin -setSpaceQuota 4k /user/root/lagou # 限制空间大小4KB
#上传超过4Kb的文件大小上去提示文件超过限额
hdfs dfs -put /export/softwares/xxx.tar.gz /user/root/lagou
hdfs dfsadmin -clrSpaceQuota /user/root/lagou #清除空间限额
#查看hdfs文件限额数量
hdfs dfs -count -q -h /user/root/lagou

hdfs 归档技术解决namenode 内存资源浪费. 一个文件的元数据占用150个字节.

归档:

bin/hadoop archive -archiveName input.har –p
/user/root/input /user/root/output

查看归档:

hadoop fs -lsr har:///user/root/output/input.har

解压归档:

hadoop fs -cp har:/// user/root/output/input.har/*   /user/root