hadoop is running beyond virtual memory limits问题解决

单机搭建了2.6.5的伪分布式集群，写了一个tf-idf计算程序，分词用的是结巴分词，使用standalone模式运行没有任何问题，切换到伪分布式模式运行一直报错：

hadoop is running beyond virtual memory limits

大概意思就是使用虚拟内存超出了限制。

网上参考了好几篇博客，几乎都是再说更改hadoop-env和mapred-site.xml

hadoop-env直接更改堆大小

export HADOOP_HEAPSIZE=1000

mapred-site.xml 更改opts的大小

<property>
<name>mapred.child.java.opts</name>
<value>-Xmx4000m</value>
</property>

我的机器内存是8G，按理说这个程序运行应该是毫无压力的。。

提示说的虚拟内存，这两个估计是不挂钩，反正改了之后运行依旧报错

既然是虚拟内存不足，那就找虚拟内存的事，google一下找到如下配置

<property>
<name>yarn.nodemanager.vmem-pmem-ratio</name>
<value>15.5</value>
</property>

更改yarn-site.xml

我这之前运行给了5.5G，提示5.7G超过5.5G了，kill掉了container，索性一下给了15G，运行可算是正常了，看来出了问题，还是得从错误日志根源找起。