hadoop相关配置文件参数详细说明

由于hadoop配置参数众多，所以只能是一点点的累积，持续更新......

===============================================================

配置conf/core-site.xml

参数取值

fs.default.name　　　　　　　整个Hadoop文件系统的入口，Hadoop系统所有的节点关于这个文件的配置必须是统一的，在主节点当中namenode必须配置成主机名，不能配置成localhost

配置conf/hdfs-site.xml(自定设置hdfs的Configuration)

参数　　　　　　　　　　　　　　　　　　取值

dfs.name.dir　　　　　　　　　　　 NameNode持久存储名空间及事务日志的本地文件系统路径(用于保存NameNode的fsimage和editlog文件)

dfs.data.dir　　　　　　　　　　　　DataNode存放数据的本地文件系统路径，逗号分割的列表(在Hadoop的文件系统中放入一份数据后，Hadoop需要把数据放置到不同的块中，这个配置信息就是记录这些数据分块放置目录的信息)

dfs.replication.num　　　　　　　　HDFS数据块的副本因子，默认为3

dfs.block.size　　　　　　　　　　　设置数据块大小(默认是64MB) value*1024*1024

dfs.read.prefetch.size　　　　　　　设置读取数据块

dfs.write.packet.size 通过DFSOutputStream类中内部类设置每次写packet包时的大小

io.bytes.per.checksum　　　　　　校验数据块的大小复制块的个数

fs.checkpoint.dir　　　　　　　　　用于SecondaryNameNode用于存放fsimage和editlog的目录

df.balance.bandwidthPerSec　　　 Balancer查看节点可用存储的差异性，在达到特定的阀值后尝试执行balance。有很多空闲空间的新节点将被检测到，然后balancer开始从空闲空间很少的Data node拷贝数据到这个新节点。（默认为1MB/S，Balancer通过控制台的命令行启动，通过控制台取消或者关闭balancer）

配置conf/mapred-site.xml(自定设置mapreduce的Configuration)

参数　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　取值

mapred.job.tracker　　　　　　　　　　　　　　　　　　　　　　JobTracker的主机(或IP)和端口，如namenode:9001

mapred.system.dir　　　　　　　　　　　　　　　　　　　　　　MapReduce框架存储系统文件的HDFS路径，如/hadoop/mapred/system/

mapred.local.dir　　　　　　　　　　　　　　　　　　　　　　　 MapReduce临时数据存放的地方，是本地文件系统下逗号分割的路径列表

mapred.tasktracker.{map|reduce}.tasks.maximun 　　　　　　某一tasktracker上可运行的最大MapReduce任务数，这些任务将同时各自运行，默认为2

dfs.hosts/dfs.hosts.exclude　　　　　　　　　　　　　　　　　　许可/拒绝DataNode列表

mapred.hosts/mapred.hosts.exclude　　　　　　　　　　　　　许可/拒绝TaskTracker列表

mapred.queue.names　　　　　　　　　　　　　　　　　　　　　设置作业要提交到哪条队列上去，如果没有指定相关队列名字，则会被提交到default队列中

mapred.acls.enabled　　　　　　　　　　　　　　　　　　　　　　是否启动访问控制列表

io.sort.mb　　　　　　　　　　　　　　　　　　　　　　　　　　　排序map时内存缓冲区大小(默认为100M)

io.sort.spill.percent　　　　　　　　　　　　　　　　　　　　　　缓冲内容阀值(默认为0.8)

io.sort.factor　　　　　　　　　　　　　　　　　　　　　　　　　　控制着一次能最多合并多少流(默认为10)

mapred.submit.replication　　　　　　　　　　　　　　　　　　　jab.jar副本数

io.sort.record.percent　　　　　　　　　　　　　　　　　　　　　用做存储map输出记录边界的io.sort.mb的比例。剩余的空间用来存储map输出记录本身(默认为0.05)

min.num.spills.for.combine　　　　　　　　　　　　　　　　　　运行combine所需的最少溢出写文件数(默认为3)