Huffman

huffman是非常基础的压缩算法。

实现霍夫曼树的方式有很多种，可以使用优先队列（Priority Queue）简单达成这个过程，给与权重较低的符号较高的优先级（Priority），算法如下：

⒈把n个终端节点加入优先队列，则n个节点都有一个优先权Pi，1 ≤ i ≤ n
⒉如果队列内的节点数>1，则：

⑴从队列中移除两个最大的Pi节点，即连续做两次remove(max(Pi), Priority_Queue)
⑵产生一个新节点，此节点为（1）之移除节点之父节点，而此节点的权重值为（1）两节点之权重和
⑶把（2）产生之节点加入优先队列中
⒊最后在优先队列里的点为树的根节点（root）

而此算法的时间复杂度（ Time Complexity）为O（n log n）；因为有n个终端节点，所以树总共有2n-1个节点，使用优先队列每个循环须O（log n）。
此外，有一个更快的方式使时间复杂度降至线性时间（Linear Time）O(n)，就是使用两个队列（Queue）创件霍夫曼树。第一个队列用来存储n个符号（即n个终端节点）的权重，第二个队列用来存储两两权重的合（即非终端节点）。此法可保证第二个队列的前端（Front）权重永远都是最小值，且方法如下:

⒈把n个终端节点加入第一个队列（依照权重大小排列，最小在前端）
⒉如果队列内的节点数>1，则:

⑴从队列前端移除两个最低权重的节点
⑵将（1）中移除的两个节点权重相加合成一个新节点
⑶加入第二个队列
⒊最后在第一个队列的节点为根节点

虽然使用此方法比使用优先队列的时间复杂度还低，但是注意此法的第1项，节点必须依照权重大小加入队列中，如果节点加入顺序不按大小，则需要经过排序，则至少花了O（n log n）的时间复杂度计算。
但是在不同的状况考量下，时间复杂度并非是最重要的，如果我们今天考虑英文字母的出现频率，变量n就是英文字母的26个字母，则使用哪一种算法时间复杂度都不会影响很大，因为n不是一笔庞大的数字。

  1 #include <iostream>
  2 #include <algorithm>
  3 #include <unordered_map>
  4 #include <vector>
  5 #include <queue>
  6 #include <fstream>
  7 #include <sstream>
  8 #include <string>
  9 
 10 using namespace std;
 11 
 12 class Huffman {
 13     public:
 14         Huffman() {}
 15         ~Huffman() {
 16             freeTree(root);
 17         }
 18 
 19         void init(string filename) {
 20             ifstream in(filename.c_str());
 21             string line; 
 22             while(getline(in, line)) {
 23                 stringstream ss(line);
 24                 char symbol; 
 25                 float p;
 26                 ss >> symbol >> p;
 27                 symbolInfo.push_back(new Node(symbol, p));
 28             }
 29             root = buildTree2();
 30             generateCodes(root, "");
 31         }
 32 
 33         void print() const {
 34             for (auto it = codes.begin(); it != codes.end(); ++it) {
 35                 cout << it->first << ": " << it->second << endl;
 36             }
 37         }
 38 
 39         string encode(string input) {
 40             stringstream ans;
 41             for (int i = 0; i < input.length(); ++i) {
 42                 ans << codes[input[i]];
 43             }
 44             return ans.str();
 45         }
 46 
 47         string decode(string input) {
 48             if (root == NULL) return "";
 49             stringstream ans;
 50             for (int i = 0; i < input.length(); ) {
 51                 Node* p = root;
 52                 for ( ; p != NULL; ++i) {
 53                     if (p->left == NULL && p->right == NULL) {
 54                         ans << p->symbol;
 55                         break;
 56                     }
 57                     if (input[i] == '0') {
 58                         p = p->left;
 59                     } else if (input[i] == '1') {
 60                         p = p->right;
 61                     } else {
 62                         return "";
 63                     }
 64                 }
 65             }
 66             return ans.str();
 67         }
 68     private:
 69         struct Node {
 70             char symbol;
 71             float p;
 72             Node* left;
 73             Node* right;
 74             Node(char s, float p, Node* l = NULL, Node* r = NULL):symbol(s), p(p), left(l), right(r) {}
 75         };
 76         
 77         static bool nodeCompare(Node* n1, Node* n2) {
 78             return n1->p > n2->p;
 79         }
 80     
 81         // O(nlgn)
 82         Node* buildTree() {
 83             if (symbolInfo.empty()) return NULL;
 84             make_heap(symbolInfo.begin(), symbolInfo.end(), nodeCompare);
 85             while (symbolInfo.size() > 1) {
 86                 // get the smallest
 87                 Node* n1 = symbolInfo.front();
 88                 pop_heap(symbolInfo.begin(), symbolInfo.end(), nodeCompare);
 89                 symbolInfo.pop_back();
 90                 // get the second smallest
 91                 Node* n2 = symbolInfo.front();
 92                 pop_heap(symbolInfo.begin(), symbolInfo.end(), nodeCompare);
 93                 symbolInfo.pop_back();
 94                 
 95                 Node* n3 = new Node('@', n1->p + n2->p, n1, n2);
 96                 symbolInfo.push_back(n3);
 97                 push_heap(symbolInfo.begin(), symbolInfo.end(), nodeCompare);
 98             }
 99             return symbolInfo[0];
100         }
101 
102         class Comparator {
103             public:
104             bool operator() (const Node* n1, const Node* n2) const {
105                 return n1->p > n2->p;
106             }
107         };
108 
109         Node* buildTree2() {
110             if (symbolInfo.empty()) return NULL;
111             priority_queue<Node*, vector<Node*>, Comparator> queue(symbolInfo.begin(), symbolInfo.end());
112             while (queue.size() > 1) {
113                 Node* n1 = queue.top(); 
114                 queue.pop();
115                 Node* n2 = queue.top();
116                 queue.pop();
117                 Node* n3 = new Node('@', n1->p + n2->p, n1, n2);
118                 queue.push(n3);    
119             }
120             return queue.top();
121         }
122     
123         void freeTree(Node* p) {
124             if (p == NULL) return;
125             freeTree(p->left);
126             freeTree(p->right);
127             delete p;
128             p = NULL;
129         }
130 
131         void generateCodes(Node* p, string str) {
132             if (p == NULL) return;
133             if (p->left == NULL && p->right == NULL) {
134                 codes[p->symbol] = str;
135             }
136             
137             generateCodes(p->left, str + "0");
138             generateCodes(p->right, str + "1");
139         }
140 
141         vector<Node*> symbolInfo;
142         unordered_map<char, string> codes;
143         Node* root;
144 };
145 
146 int main() {
147     Huffman huffman;
148     huffman.init("input.txt");
149     huffman.print();
150 
151     string str = "abcdabcdab";
152     string encode = huffman.encode(str);
153     cout << str << endl << encode << endl;
154     cout << huffman.decode(encode) << endl;
155     return 0;
156 }

这里用了stl的make_heap之类的函数，也尝试用priority_queue。但是两指重构的比较器的形式不同。注意priority_queue的比较器是作为模板参数传进去的，而且是定义成类。

可以用两个简单队列实现O(n)的算法，前提是一开始频率已经排好序。用vector是可以模拟queue，但是pop_front()的效率比较低。

huffman的正确性证明可以看这篇：http://mindhacks.cn/2011/07/10/the-importance-of-knowing-why-part3/，讲得相当清晰了。