TensorFlow——深度学习笔记

深度学习与传统机器学习的区别

传统机器学习输入的特征为人工提取的特征，例如人的身高、体重等，深度学习则不然，它接收的是基础特征，例如图片像素等，通过多层复杂特征提取获得。

深度学习、人工智能、机器学习的关系

人工智能是一个非常广泛的问题，机器学习是人工智能的一种手段，深度学习是机器学习的一个分支
人工智能>机器学习>深度学习

深度学习两个重要特征

多层和非线性（激活函数）

WordNet

是开放环境中的一个较大且有影响力的知识图库，它将15W单词整理成11W个近义词集。并定义了近义词集之间的关系。

Wikipedia

谷歌的知识图库就是基于Wikipedia创建的。

perceptron模型的局限性

只能解决线性可分问题
无法解决异或问题
这些问题通过多层网络解决

反向传播算法的意义

大幅降低了训练需要的时间

LSTM(long short-term memory)应用场景

NLP，机器翻译，语音识别，时序预测

90年代末SVM超越NN的原因

计算资源+数据量无法满足深沉神经网络

神经网络权重参数weight的下标

前者为上一层神经单元的个数，后者为下一层神经单元的个数

损失函数——交叉熵

适用：分类问题
egin{equation}
H(p,q) = - sum_{x} p(x) * log{q(x)}
end{equation}
p和q都是概率分布，交叉熵刻画的是p,q两个概率概率分布之间的距离，也就是q表达p的困难程度，交叉熵越小，困难程度越小，q与p的距离越接近。
这里的x，可以理解为，对于某条记录而言，预测值的各种可能结果。H(p,q)相当于对于一条记录而言，预测值与真实值的距离。预测值与真实值不一定是二分类也可能是多分类

softmax回归

将神经网络的输出向量y(one-hot向量)，经过公式（2）转化为概率分布（向量），用于计算交叉熵。
设原始输出单元为(y_1),(y_2),...(y_n),
egin{equation}
softmax(y_i) =frac{e^{{y_i}}{sum_{j=1}}{n} e^{y_j}}
end{equation}

损失函数——MSE(mean squared error)均方误差

适用：单输出节点的回归问题(也是分类问题中常用的一种损失函数)
egin{equation}
MSE(y,y^{{'})=frac{sum_{i=1}}n (y_i-y_i^{'})2}{n}
end{equation}
TensorFlow中一般的实现方式：mse = tf.reduce_mean(tf.square(y_ - y))