概率论基础_七月算法4月机器学习班第2次课程笔记

2016/5/4 星期三 14:19

	定义式	判别式	必要条件	关系	韦恩图
相互独立 # 概率角度的定义	概率的定义 P(XY) = P(X)·P(Y) from 百度百科即：有一个为不可能事件也是相互独立	P(Y\|X) = P(Y)	E(XY) = E(X)·E(Y) Var(X+Y) = Var(X) + Var(Y) cov(X,Y) = 0 #即 E(XY)- E(X)·E(Y)	不一定互斥 # 互不影响，没有斥的作用一定不相关	不好表示
互斥 # 集合角度的定义	集合定义： A∩B = 0 from 百度百科	P(X+Y) = P(X) + P(Y) 且 P(X) + P(Y) <= 1 P(XY) = 0		一定不相互独立 # 因为两者相互影响
对立	特殊的互斥	P(X+Y) = P(X) + P(Y) 且 P(X) + P(Y) = 1
协方差	定义在两个随机变量之间 COV(X, Y) = E(X-E(X))·E(Y-E(Y)) # 这个E 本身带有样本遍历的操作	COV(X, Y)= E(XY) - E(X)E(Y)
相关系数	COV(X,Y)÷ sqrt(Var(X)·Var(Y)) 观点：相关系数是标准化归一化的协方差
不相关	COV(X, Y) = 0	E(XY) = E(X)·E(Y) Var(X+Y) = Var(X) + Var(Y) # 它的证明用到了E(XY)- E(X)·E(Y)		独立一定不相关不相关不一定独立

凸函数

	desc
协方差的应用	建立特征间的协方差矩阵特征维度间的协方差矩阵分析是特征筛选的最常用的方法使用方法：剔除协方差矩阵中绝对值最大的item 不论正相关还是负相关，都是相关
特征工程包括	1. transforming 相乘等等 2. selection筛选
证明： E(XY) = E(X)·E(Y)	证明： E(XY) = E(X)·E(Y) Σ_xy(z_xy·P(XY)) # 其中 z_xy = X·Y， P(XY) = P(X)·P(Y) 带入得到 = Σ_xy(X·Y·P(X)·P(Y)) = Σ_xΣ_y(Y·P(Y)·X·P(X)) = Σ_xE(Y)X·P(X)) = E(Y)(Σ_xX·P(X))) = E(Y)E(X)
证明： Var(X+Y) = Var(X) + Var(Y)	Var(X+Y) = E((X+Y)(X+Y)) - E(X+Y)E(X+Y) # 因为是 E(X+Y) = E(X) + E(Y) 无条件成立 = E((X+Y)(X+Y)) - (E(X)+E(Y))(E(X)+E(Y)) = E(X2+Y2+2XY) - (E(X)+E(Y))(E(X)+E(Y)) = E(X2)+E(Y2) + 2E(XY) - E(X)E(X) - E(Y)E(Y) - 2E(X)E(Y) = E(X2) - E(X)E(X) + +E(Y2)- E(Y)E(Y) + 2E(XY) - 2E(X)E(Y) = Var(X) + Var(Y) + 2E(XY) - 2E(X)E(Y) 也就是应用了第一条规律即：如果独立那么E(XY) = E(X)·E(Y) 上式子可以化为： Var(X) + Var(Y)
相关系数矩阵	有协方差矩阵就有相关系数矩阵
why 不相关不等价于相互独立	因为使用皮尔逊系数的不相关，仅仅是非线性相关如果 X = K·Y，那么：ρ(X,Y) = 1 即：不线性相关可能有其它的函数相关，比如：核函数就是高阶相关
皮尔逊相关系数	其实就是去均值的cos相似度
独立同分布的理解	同分布的概念是指有相同的期望和方差，独立的概念是指P(XY)=P(X)P(Y) 即 X1，X2，X3，……，Xn 独立同分布，那么相当于给你一些工具tool，即： E(Xi) = μ Var(Xi) = Σ2 ------------------------------------ 相互独立表示可以有以下tool： P(Xi·Xj) = P(Xi)·P(Xj) P(Xi\|Xj) = P(Xi) COV(Xi, Xj) = 0 Var(Xi + Xj) = Var(Xi) + Var(Xj) E(Xi·Xj) = E(Xi)·E(Xj)
如何理解切比雪夫不等式	落在期望邻域的概率计算
公式推导过程	落在期望邻域的概率计算————>切比雪夫不等式——（替换）——>大数定律——（替换）——>伯努利定律（即频率替换法）
猜数	就是取概率密度的取峰值
关于数理统计的几个指标	这几个指标都是你要用到的： 2 阶原点距 1 阶中心距变异系数偏度峰度熵个数样本均值样本方差
中心极限定理的观点	许多因素的独立影响的综合反映往往接近正态分布比如观察不到的微小误差的累积，即随机变量的均值，误差的总和等等服从的是正态分布乘性误差是需要取log，后变为加，才是正态分布的
关于极大似然估计函数	Xi 因为是样本，所以可以看成是固定的，而Θ是变量所以对 Θ 求导
一个名词概念	基函数与核函数
基函数	基函数的作用类似于基向量，基向量是集合空间的基基函数是函数空间的基常见的基函数类型有：多项式基傅里叶基拉格朗日基比如：泰勒展开式，傅里叶变换可能就是在用一些基 refer 例如： {1, t, t2} as a basis, 由这个基张开的函数空间为：a·1+b·t+c·t2 refer https://en.wikipedia.org/wiki/Basis_function
SVM的一个说法	低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分这里如果说是映射，那么是让你正门外汉所看不懂无法想象的，其实还是看那个北大的演讲确切的说就是对离线的数据进行扭曲，是的可以线性可分分类只能线性可分，如果线性不可分，那么扭曲空间然后再线性可分