将汉字散列存储

在中文分词构造分词词典的时候需要将汉字进行散列存储,其散列函数是:

H(汉字编码)=(汉字编码高字节-176)*94+(汉字编码低字节-161)

C#实现:

Encoding GB2312 = Encoding.GetEncoding("gb2312");
string t = "汉字";
byte[] arr = GB2312.GetBytes(t[0].ToString());
int GBindex =(arr[0]-176)*94 + arr[1] - 161;

测试:

原文地址:https://www.cnblogs.com/lijingpeng/p/2457250.html