词性标注语料预处理实战

此部分基于词性标注的数学表示后，针对给定的语料，做一些viterbi算法的一些预处理。

给定的语料格式如下所示：

it/PRP
will/MD
introduce/VB
a/DT
new/JJ
incentive/NN
plan/NN
for/IN
advertisers/NNS
./.

其中每行是一个单词和其词性标注，用/分割，每个句子的结尾用./.作为结束标志。则基于上述说明，我们对训练语料进行预处理，代码如下所示：

# 词性与对应id的词典对应关系，比如tag2id={"NNP":0, "VBG":1, ..., } id2tag={0:"NNP", 1:"VBG", ..., }
tag2id, id2tag = {}, {}
# 词与对应id的词典对应关系
word2id, id2word = {}, {}
# 读取训练文件，做预处理
for line in open("traindata.txt"):
    items = line.split("/")
    word, tag = items[0], items[1].rstrip()  # 提取每一行里面的单词和词性
    if word not in word2id:
        word2id[word] = len(word2id)
        id2word[len(word2id)] = word
    if tag not in tag2id:
        tag2id[tag] = len(tag2id)
        id2tag[len(id2tag)] = tag

M = len(word2id)  # 词典的大小， num of words in dictionary
N = len(tag2id)  # 词性的种类个数， num of tags in tag set

# print(tag2id)
# print(id2tag)
#
# print(M)
# print(N)

# 基于上述处理，构建pi、A、B
import numpy as np

pi = np.zeros(N)  # pi标识每个词性出现在句子第一个位置的概率
A = np.zeros((N, M))  # A[i][j]给定tag i，出现单词j的概率
B = np.zeros((N, N))  # B[i][j]词性从状态i转移到j的概率

# 计算pi 、 A 、B
prev_tag = ""
for line in open("traindata.txt"):
    items = line.split("/")
    # 获取单词和词性对应的id
    wordId, tagId = word2id[items[0]], tag2id[items[1].rstrip()]
    if prev_tag == "":    # 意味着句子的开头
        pi[tagId] += 1  # 计算每个开头词性出现的次数，后面再根据次数计算概率值
        A[tagId][wordId] += 1   # 计算该词性对应的单词出现的次数
    else:   # 如果不是句子开头
        A[tagId][wordId] += 1
        B[tag2id[prev_tag]][tagId] += 1 # 计算该词性出现时其上一个词性出现的次数
    if items[0] == ".":
        prev_tag = ""
    else:
        prev_tag = items[1].rstrip()

# normalize
pi = pi/sum(pi)
for i in range(N):
    A[i] /= sum(A[i])
    B[i] /= sum(B[i])

# print(pi)
# print(A)
# print(B)

打印pi结果如下所示：

[1.81324111e-01 0.00000000e+00 1.00049407e-02 3.33498024e-03
 3.95256917e-03 3.68083004e-02 1.11660079e-01 3.66847826e-02
 6.17588933e-04 3.81669960e-02 8.76976285e-03 5.18774704e-02
 6.02766798e-02 2.47035573e-04 2.17267787e-01 0.00000000e+00
 1.48221344e-03 6.05237154e-03 8.64624506e-04 2.47035573e-04
 0.00000000e+00 4.73073123e-02 0.00000000e+00 7.16403162e-03
 1.72924901e-03 2.09980237e-03 7.53458498e-02 6.36116601e-02
 2.59387352e-03 1.85276680e-03 5.92885375e-03 1.97628458e-03
 2.84090909e-03 0.00000000e+00 0.00000000e+00 2.71739130e-03
 5.92885375e-03 5.92885375e-03 9.88142292e-04 3.70553360e-04
 1.23517787e-04 0.00000000e+00 0.00000000e+00 1.85276680e-03
 0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
 0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
 0.00000000e+00 0.00000000e+00]

通过上述处理后，我们可以得到矩阵A、pi、B，及在上节中我们说明的值。其中A是词性为 (t_i)的词(w_i)的概率，(pi)可以解释为开头的词性概率，B可解释为为词性(t_{i-1})到词性(t_i)转移的概率。