二叉树之哈夫曼树

一、定义
节点之间的路径长度:在树中从一个结点到另一个结点所经历的分支,构成了这两个结点间的路径上的经过的分支数称为它的路径长度。
树的路径长度:从树的根节点到树中每一结点的路径长度之和。在结点数目相同的二叉树中,完全二叉树的路径长度最短。
结点的权:在一些应用中,赋予树中结点的一个有某种意义的实数。
结点的带权路径长度:结点到树根之间的路径长度与该结点上权的乘积。
树的带权路径长度(Weighted Path Length of Tree:WPL):定义为树中所有叶子结点的带权路径长度之和。

最优二叉树:从已给出的目标带权结点(单独的结点) 经过一种方式的组合形成一棵树.使树的权值最小.。最优二叉树是带权路径长度最短的二叉树。根据结点的个数,权值的不同,最优二叉树的形状也各不相同。它们的共同点是:带权值的结点都是叶子结点。权值越小的结点,其到根结点的路径越长,深度越大。


如,给定4个叶子结点a,b,c和d,分别带权7,5,2和4。构造如上图所示的三棵二叉树(还有许多棵),它们的带权路径长度分别为:
(a)WPL=7*2+5*2+2*2+4*2=36 
(b)WPL=7*3+5*3+2*1+4*2=46 
(c)WPL=7*1+5*2+2*3+4*3=35

可以验证其中(c)树的WPL最小,可以验证,它就是哈夫曼树。

注意: 
    ① 叶子上的权值均相同时,完全二叉树一定是最优二叉树,否则完全二叉树不一定是最优二叉树。 
    ② 最优二叉树中,权越大的叶子离根越近。 
    ③ 最优二叉树的形态不唯一,WPL最小。

二、利用哈夫曼树来进行哈夫曼编码

哈夫曼编码通常用来实现数据压缩,编码时,我们通常希望出现次数最多的字符所占的内存位数最少。但是如果字符位太少又会导致他能够表示的实际字符数不够,因为每一位只有0和1两个状态,n位有2的n次方个状态。所以采用定长编码时数据压缩率不是很高。使用哈夫曼编码可以解决这个问题。

下面是一个编码实例:

原句子为SUSIE SAYS IT IS EASY

句子中每个字符出现次数


相应的哈夫曼编码:


可以看出出现频率越高的字符所用的编码字符数越少。

创建哈夫曼树:

1.设计节点类Node:

Node中包含两个数据项:存储的字符和字符出现的频率(也就是权值)。

2、为每一个字符创建一个相应的Node对象,并把为其创建一个单独的树,树的根就是当前的节点。N个字符就创建N个相应的树。

3、把这些树都插入一个优先级队列中,按照权值排列。权值小的优先级高,排在队列的前方。每次移除队列的一项时,都是移除权值最小的那颗树。

4、从优先级队列中按顺序移除两个树,并将其作为一个新节点的两个子节点。新节点的权值(频率)是这两个子节点的权值和,至于新节点中存储的字符可以设为空。

5、把第四步形成的新树重新插入优先级队列中(自动插入到了相应位置)。

6、重复第四步和第五步,直到队列中只剩一棵树,这棵树就是要创建的哈夫曼树。

图解:


最后将图h中的两个树合并为1个就得到哈夫曼树。

根据哈夫曼树得到哈夫曼编码表:

所有字符在哈夫曼树中都被表示为树中的叶结点。遍历所有叶结点即可得到相应字符的哈夫曼编码,从而形成编码表。编码规则:从根节点到叶结点,记录向左和向右走的顺序,向左走用0表示,向右走用1表示。到达叶结点时的01字符串就是对应的哈夫曼编码。

例如字符U的编码是01111,字符Y的编码是1110。

代码实现:

Node节点代码,此处权值放到了Tree中。

class Node {
	public char cchar;      //存储的字符
	public Node leftChild;         // 左子结点引用
	public Node rightChild;        // 右子节点引用

	public Node() {
	}

	public Node(char c) {
		cchar = c;
	}

	public void displayNode()      // 输出节点信息
	{
		System.out.print('{');
		System.out.print(cchar);
		System.out.print("} ");
	}
} 


Tree代码:

class Tree implements Comparable {
	public Node root;             // 根节点
	public int weight;            // 权重

	// -------------------------------------------------------------
	public Tree()                  // 无参构造函数
	{
		root = null;
	}      

	public String toString() {//转换为字符串
		return root.cchar + "";
	}

	// -------------------------------------------------------------
	public void traverse(int traverseType) { // 三种遍历
		switch (traverseType) {
		case 1:
			System.out.print("
Preorder traversal: ");
			preOrder(root);
			break;
		case 2:
			System.out.print("
Inorder traversal:  ");
			inOrder(root);
			break;
		case 3:
			System.out.print("
Postorder traversal: ");
			postOrder(root);
			break;
		}
		System.out.println();
	}

	// -------------------------------------------------------------
	private void preOrder(Node localRoot) {//先序遍历
		if (localRoot != null) {
			System.out.print(localRoot.cchar + " ");
			preOrder(localRoot.leftChild);
			preOrder(localRoot.rightChild);
		}
	}

	// -------------------------------------------------------------
	private void inOrder(Node localRoot) {//中序遍历
		if (localRoot != null) {
			System.out.print("(");
			inOrder(localRoot.leftChild);
			System.out.print(localRoot.cchar + " ");
			inOrder(localRoot.rightChild);
			System.out.print(")");
		}
	}

	// -------------------------------------------------------------
	private void postOrder(Node localRoot) {//后序遍历
		if (localRoot != null) {
			postOrder(localRoot.leftChild);
			postOrder(localRoot.rightChild);
			System.out.print(localRoot.cchar + " ");
		}
	}

	// -------------------------------------------------------------
	public void displayTree() {               //利用栈输出树
		Stack globalStack = new Stack();
		globalStack.push(root);
		int nBlanks = 32;
		boolean isRowEmpty = false;
		System.out
				.println("......................................................");
		while (isRowEmpty == false) {
			Stack localStack = new Stack();
			isRowEmpty = true;

			for (int j = 0; j < nBlanks; j++)
				System.out.print(' ');

			while (globalStack.isEmpty() == false) {
				Node temp = (Node) globalStack.pop();
				if (temp != null) {
					System.out.print(temp.cchar);
					localStack.push(temp.leftChild);
					localStack.push(temp.rightChild);

					if (temp.leftChild != null || temp.rightChild != null)
						isRowEmpty = false;
				} else {
					System.out.print("--");
					localStack.push(null);
					localStack.push(null);
				}
				for (int j = 0; j < nBlanks * 2 - 2; j++)
					System.out.print(' ');
			}  // end while globalStack not empty
			System.out.println();
			nBlanks /= 2;
			while (localStack.isEmpty() == false)
				globalStack.push(localStack.pop());
		}  // end while isRowEmpty is false
		System.out
				.println("......................................................");
	}  // end displayTree()
		// -------------------------------------------------------------

	@Override
	public int compareTo(Object o) {  //重写比较函数
		if (o == null) {
			return -1;
		}
		return weight - ((Tree) o).weight;
	}
}  // end class Tree
// //////////////////////////////////////////////////////////////
Huffman编码主体:

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;
import java.util.PriorityQueue;
import java.util.Queue;
import java.util.Set;
import java.util.TreeMap;

public class Huffman {
	public static Map<Character, String> map_char_code;//key为字符(Character是char类型的类封装),value为相应的哈夫曼编码
	public static Map<String, Character> map_code_char;//key为哈夫曼编码,value为相应的字符
	static {
		map_char_code = new HashMap<Character, String>(); // 编码用代码表
		map_code_char = new HashMap<String, Character>(); // 解码用代码表
	}

	// 编码分为四步
	// 1.统计字符频率
	// 2.生成Huffman树
	// 3.生成编解码用代码表
	// 4.编码字符串
	
	//编码函数
	public static String encode(String str) {
		char[] cchar = str.toCharArray();//将待编码的字符串转为字符数组。

		// 1.统计字符频率
		TreeMap<Character, Integer> map = new TreeMap<Character, Integer>();
		//TreeMap是有序的,按照key来进行排序。Character类中实现了Comparable接口,该接口中只有一个
		//public int compareTo(T o);方法,对象的大小关系由返回值来确定,返回负整数,零,正整数表示当前对象小于,
		//等于,大于指定对象。这里按照字典顺序排序。
		for (int i = 0; i < cchar.length; i++) {
			if (map.containsKey(cchar[i])) {//map中包含该字符
				map.put(cchar[i], map.get(cchar[i]).intValue() + 1);//统计数加1
			} else {
				map.put(cchar[i], 1);//加入新字符,频率设为1
			}
		}

		// 2.生成Huffman树
		// 先由所有字符生成单节点树
		// 然后根据优先级合成单节点树为一棵树
		Queue<Tree> forest = new PriorityQueue<Tree>();//定义一个队列,存储数据类型为树
		Set<Map.Entry<Character, Integer>> set = map.entrySet();
/*		Set<Map.Entry<Character, Integer>> set = map.entrySet();返回映射所包含的映射关系的Set集合(一个关系就是一个键-值对),就是把(key-value)作为一个整体一对一对地存放到Set集合当中的。entrySet是 键-值对的集合,Set里面的类型是Map.Entry
*/		
		Iterator<Map.Entry<Character, Integer>> it = set.iterator();//转为迭代器
		while (it.hasNext()) {                // 遍历迭代器,生成单节点树
			Map.Entry<Character, Integer> en = it.next();
			Tree temp = new Tree();
			temp.root = new Node(en.getKey());//创建相应节点为树的根
			temp.weight = en.getValue();//设置权重
			forest.add(temp);//加入队列
			//因为Tree实现了Comparable接口,重写了CompareTo的方法,所以在加入队列时,会比较权重。最后形成基于权重的优先级队列。
		}
		while (forest.size() > 1) { // 把单节点树合并为一棵树
			Tree t1 = forest.remove();//移除第一个数据项
			Tree t2 = forest.remove();//移除第二个数据项
			Tree t3 = new Tree();
			t3.root = new Node();
			t3.weight = t1.weight + t2.weight;//新节点的权重是子节点之和
			t3.root.leftChild = t1.root;
			t3.root.rightChild = t2.root;
			forest.add(t3); //重新加入队列
		}
		Tree t = forest.remove(); // 获得队列中最后一棵树,也就是哈夫曼树

		// 3.生成编码和解码用的map
		String code = "";
		preOrder(t.root, code, map_char_code, map_code_char);

		// 4.编码字符串
		StringBuffer output = new StringBuffer();
		for (int i = 0; i < cchar.length; i++) {//获取每个字符的哈夫曼编码
			output.append(map_char_code.get(cchar[i]));//append(String str),连接一个字符串到末尾。
		}
		return output.toString();//转为字符串
	}

	// 遍历Huffman树生成编码和解码代码表
	private static void preOrder(Node localRoot, String code,
			Map<Character, String> map_char_code,
			Map<String, Character> map_code_char) {
		if (localRoot != null) {
			if (localRoot.cchar != '') {//''代表空字符,在哈夫曼树,非叶节点没存储数据,相应的cchar为空。所以程序只操作了叶结点
				map_char_code.put(localRoot.cchar, code);//加入编码表
				map_code_char.put(code, localRoot.cchar);//加入解码表
			}
			preOrder(localRoot.leftChild, code + "0", map_char_code,
					map_code_char);//向左走code末尾加上0
			preOrder(localRoot.rightChild, code + "1", map_char_code,
					map_code_char);//向右走code末尾加上1
		}
	}

	// 解码
	// 根据解码代码表还原信息
	public static String decode(String str) {
		StringBuffer result = new StringBuffer();
		StringBuffer sb = new StringBuffer();
		for (int i = 0; i < str.length(); i++) {
			sb.append(str.charAt(i));
			if (map_code_char.get(sb.toString()) != null) {//获取编码对应的字符
				result.append(map_code_char.get(sb.toString()));
				sb = new StringBuffer();
			}
		}
		return result.toString();
	}

	public static void main(String[] args) {
		String code = encode("SUSIE SAYS IT IS EASY!");
		System.out.println(code);
		String str = decode(code);
		System.out.println(str);
	} 

	// -------------------------------------------------------------

	public static String getString() throws IOException {
		InputStreamReader isr = new InputStreamReader(System.in);
		BufferedReader br = new BufferedReader(isr);
		String s = br.readLine();
		return s;
	}
}
// =============================================================================





原文地址:https://www.cnblogs.com/kangsir/p/6653280.html