分类问题
我们希望我们可以通过某一些的事物特征来判断这一类事物的类别,但这些类别往往不是"非黑即白",可能有多种类别,这些类别之间的关系是离散的,这时我们需要一种模型来区分这一类特征的类别。当然也存在多种相似的类别,它们对于相关属性的反映相似,但是终究是有差距的,所以最终我们往往取的是对其拟合程度最好的一种类别来对其特征进行标记。
预测模型
模型的输入是相关训练集的各个属性,在这里也是以一种线性叠加的方式来进行构建,即:
x
1
ω
1
+
x
2
ω
2
+
.
.
.
.
.
.
.
+
x
n
ω
n
+
b
=
o
x_1 omega_1+x_2 omega_2+.......+x_n omega_n+b=o
x1ω1+x2ω2+.......+xnωn+b=o
ω
omega
ω为相关的权重系数,x为具体的属性值,b为一个相应的偏移量,但是这里与线性回归的不同在于这个
o
o
o不在是一个简单的预测值,其实际的意义产生了变化,其名称代表了一个类别,其值的大小代表了这些属性对于这一类别的匹配程度,值越大,匹配程度越高(含负值,负值的绝对值越大匹配程度越低,这个在后面的评价函数中体现)。
因此对应的我们要实现知道这种分类模型有多少个类别,对每一个类别都建立一个这样的关系,于是有完整的预测模型:
x
1
ω
11
+
x
2
ω
12
+
.
.
.
.
.
.
.
+
x
n
ω
1
n
+
b
1
=
o
1
x_1 omega_{11}+x_2 omega_{12}+.......+x_n omega_{1n}+b_1=o_1
x1ω11+x2ω12+.......+xnω1n+b1=o1
x
1
ω
21
+
x
2
ω
22
+
.
.
.
.
.
.
.
+
x
n
ω
2
n
+
b
2
=
o
2
x_1 omega_{21}+x_2 omega_{22}+.......+x_n omega_{2n}+b_2=o_2
x1ω21+x2ω22+.......+xnω2n+b2=o2
x
1
ω
31
+
x
2
ω
32
+
.
.
.
.
.
.
.
+
x
n
ω
3
n
+
b
3
=
o
3
x_1 omega_{31}+x_2 omega_{32}+.......+x_n omega_{3n}+b_3=o_3
x1ω31+x2ω32+.......+xnω3n+b3=o3
.
.
.
.
.
.
.
.
.
.
..........
..........
x
1
ω
d
1
+
x
2
ω
d
2
+
.
.
.
.
.
.
.
+
x
n
ω
d
n
+
b
d
=
o
d
x_1 omega_{d1}+x_2 omega_{d2}+.......+x_n omega_{dn}+b_d=o_d
x1ωd1+x2ωd2+.......+xnωdn+bd=od
将x进行扩展有
X
=
[
x
1
,
x
2
,
.
.
.
x
n
,
1
]
X=[x_1,x_2,...x_n,1]
X=[x1,x2,...xn,1],同样的对于
ω
omega
ω有
w
i
=
[
w
i
1
,
w
i
2
,
w
i
3
,
.
.
.
w
i
n
,
b
i
]
w_i=[w_{i1},w_{i2},w_{i3},...w_{in},b_i]
wi=[wi1,wi2,wi3,...win,bi]
[
w
11
w
12
.
.
.
.
w
1
d
b
1
w
21
w
22
.
.
.
.
w
2
n
b
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
w
d
1
w
d
2
.
.
.
.
w
d
n
b
d
]
egin{bmatrix}w_{11} & w_{12} &....&w_{1d} & b_1\ w_{21} & w_{22} &....&w_{2n} & b_2\ .... & .... &....&.... & ....\ w_{d1} &w_{d2} &....&w_{dn} & b_dend{bmatrix}
⎣⎢⎢⎡w11w21....wd1w12w22....wd2................w1dw2n....wdnb1b2....bd⎦⎥⎥⎤
[
x
1
x
2
.
.
.
.
1
]
=
[
o
1
o
2
.
.
.
.
o
d
]
egin{bmatrix}x_1 \ x_2\....\ 1end{bmatrix}=egin{bmatrix} o_1 \ o_2\....\ o_dend{bmatrix}
⎣⎢⎢⎡x1x2....1⎦⎥⎥⎤=⎣⎢⎢⎡ o1o2....od⎦⎥⎥⎤
大致如下图,有一个输入层一个输出层,输出层也是一个全连接层,每个输出结果都依赖所有的输入数据。
通过这个模型,我们通过输出层中数值大小来判断具体的类别归属。比如
o
1
,
o
2
,
o
3
o1,o2,o3
o1,o2,o3为1,2,3最大的为
o
3
o3
o3,所以最终的类别为
o
3
o_3
o3对应的类别。
softmax函数
显然在上面的输出中我们对于结果的表示体现不真切,很难具体的描述各个类别的匹配程度,并且
o
i
o_i
oi也可能取到负值,很难对其进行相关的意义描述,所以我们需要对其进行归一化,将其产生的结果映射到0~1之间,来更真切的表示其属性对某一类型匹配的置信度。相关函数如下:
将获得的
o
1
,
o
2
,
.
.
.
.
o
d
o_1,o_2,....o_d
o1,o2,....od转变为指数形式为
e
o
i
e^{o_i}
eoi,这样不论
o
i
o_i
oi的取值如何都将对应到正值,之后再进行一个归一化,即
y
i
^
=
e
o
i
∑
i
=
1
d
e
o
i
hat{y_i}=frac{e^{o_i}}{sum_{i=1}^{d}e^{o_i}}
yi^=∑i=1deoieoi,表示关于某类别预测的置信度。显然对于
∑
i
=
1
d
y
i
^
=
1
sum_{i=1}^{d}hat{y_i}=1
∑i=1dyi^=1,最终的标记类别为
m
a
x
(
y
i
^
)
max(hat{y_i})
max(yi^)。
因此softmax函数只是将对应的输出结果进行一个整合,将其输出数据的意义体现为一个概率分布,并不影响实际的输出类别。
评价模型
实际获得的输出为一个概率分布表示各个类别的置信度,而对于某个测试实例,实际的标签值中只有一个标签为1,其他的标签的值均为0。我们需要使我们的输出数据更加贴近与实际的标签值。
交叉熵损失函数
由于我们实际取的是最大置信度的那个标签,所以我们不需要预测的概率与实际完全相同,所以有交叉熵这样一个评估方法:
H
(
y
i
,
y
i
^
)
=
−
∑
i
=
1
d
y
i
l
o
g
y
i
^
H(y_i,hat{y_i})=-sum_{i=1}^{d}y_iloghat{y_i}
H(yi,yi^)=−∑i=1dyilogyi^
其中
y
i
y_i
yi为实际的标签值,非1即0,而
y
i
^
hat{y_i}
yi^为我们得到的输出参数,即各个标签的概率分布,显然对于
y
i
y_i
yi中为0的值来说
y
i
l
o
g
y
i
^
=
0
y_iloghat{y_i}=0
yilogyi^=0,所以在一个样本一个标签的情况下,我们仅仅考虑标签值
y
i
=
1
y_i=1
yi=1时对于的
y
i
l
o
g
y
i
^
y_iloghat{y_i}
yilogyi^即可,由于
l
o
g
y
i
^
loghat{y_i}
logyi^中
y
i
^
<
0
hat{y_i}<0
yi^<0,所以前面有一个负号为
−
l
o
g
y
i
^
-loghat{y_i}
−logyi^。
对于m个样本训练集来说实际的损失函数为:
ℓ
(
θ
)
=
1
n
∑
i
=
1
m
H
(
y
i
,
y
i
^
)
=
−
1
n
∑
i
=
1
m
l
o
g
y
i
^
ell( heta)=frac{1}{n}sum_{i=1}^{m}H(y_i,hat{y_i})=-frac{1}{n}sum_{i=1}^{m}loghat{y_i}
ℓ(θ)=n1∑i=1mH(yi,yi^)=−n1∑i=1mlogyi^
变换一下有:
e
−
n
ℓ
(
θ
)
=
∏
i
=
1
m
y
i
^
e^{-nell( heta)}=prod_{i=1}^{m}hat{y_i}
e−nℓ(θ)=∏i=1myi^
要使
ℓ
(
θ
)
ell( heta)
ℓ(θ)最小即相应的
∏
i
=
1
m
y
i
^
prod_{i=1}^{m}hat{y_i}
∏i=1myi^取最大。
分类的准确率:实际运行时我们将模型得到的分类结果与实际进行比对,求出预测正确的数量占整个预测数据集的比值。