解码百度输入法词库

    最近需要解析下载得到的百度输入法词库,本来尝试利用深蓝词库转换解决,无奈深蓝词库不能对各个路径下的词库分别进行处理,只能进行合并操作,这就丧失了原来路径具有的分类信息。看来这个坑还得自己填。

    声明:下述没有处理拼音,只是简单的提取词库中的中文词。
    需要处理词库,前提条件是了解词库文件内部存放方式。根据深蓝词库转换源码,我们可以推出百度词库编码方式如下:
0x350 :词库存放开始位置
    int len 词语的长度,int数 4字节
    长度2*len字节,对应拼音信息
    长度2*len字节,对应unicode编码的中文词
    所以,取出词库中的中文词,只需首先将文件读指针移动到0x350位置,读取词的长度,然后跳过中间的拼音信息,直接取到中文词unicode编码的字符串,然后对其进行解码即可。取出文件中的所有词语,只需要循环这个过程,直至文件读指针到了文件末尾。在我的需求中,需要把转码的中文词写入到文件中。
    思路说完了,下面上代码:
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.IO;
namespace read_file
{
    class Program
    {
        public static int ReadInt32(Stream fs)
        {
            var temp = new byte[4];
            fs.Read(temp, 0, 4);
            int s = BitConverter.ToInt32(temp, 0);
            return s;
        }
        public static List<String> readWord(string path,List<String>list)
        {
            var fs = new FileStream(path, FileMode.Open, FileAccess.Read);
            fs.Seek(0, SeekOrigin.End);
            long endPosition = fs.Position;
            fs.Position = 0x350;
            do
            {
                int len = ReadInt32(fs);
                fs.Position += len * 2;
                var temp = new byte[len * 2];
                fs.Read(temp, 0, len * 2);
                String word = Encoding.Unicode.GetString(temp);
                list.Add(word);
            } while (fs.Position <endPosition-1);
            fs.Close();
            return list;
        }
        static void transform_txt(string path)
        {
            var files = Directory.GetFiles(path, "*.bdict");
            List<String> list = new List<string>();
            foreach (var file in files)
            {
                list = readWord(file, list);
                Console.WriteLine(file + "文件处理完毕!");
            }
            FileStream fs = new FileStream(path + "dict.txt", FileMode.Append);
            StreamWriter writer = new StreamWriter(fs, Encoding.UTF8);
            foreach (String word in list)
            {
                writer.Write(word + "
");
            }
            writer.Close();
            fs.Close();
        }
        static void Main(string[] args)
        {
            string []paths = { "C:FileRecv\安徽\" };
            foreach (string path in paths)
                transform_txt(path);
        }
    }
}
原文地址:https://www.cnblogs.com/zhoudayang/p/5288165.html