机器学习十讲学习笔记第六讲

机器学习十讲学习笔记第六讲

特征值分解

设

A α = λ α

成立，则称

设方阵
其中
表达式
对
根据实对称矩阵单位化可知
降维
实际中很多数据是高维的，但数据"内在的维度"可能更低
- 通信数据原始有七维：入网时间、套餐价格、每月话费、每月流量、每月通话时长欠费金额、欠费月数
- ”内在维度“可能只有3个：用户忠诚度、消费能力、欠费指数
解决高维数据的维度灾难问题的一种手段
能够作为一种特征抽取的方法
便于对数据进行可视化分析

主成分分析

主成分分析
在人脸识别和图像压缩等领域得到了广泛的应用
基本思想：构造原始特征的一系列线性组合形成的线性无关低维特征，以去除数据的相关性，并使降维后的数据最大程度地保持原始数据的方差信息
数据集
为了便于描述，我们进一步假设每一维特征的均值为零（已做中心化处理），且使用一个
降维后数据的方差为

原始数据集的协方差矩阵

max W

使用拉格朗日乘子法将上述带约束的最优化问题转化为无约束的最优化问题，对应的拉格朗日函数为

L (W, λ) = t r (W T \sum W) - \sum i = 1 l λ i (w T i w i - 1)

其中

对

\sum w i = λ i w i

即我们要求的转换矩阵
由
故
要使上述方差最大，我们只要首先得
算法流程：
- 输入：数据矩阵
- 输出：转换矩阵
- 对于
- 计算协方差矩阵
- 对协方差矩阵
- 取最大的前

自编码器

一种特殊的神经网络，尝试将输入复制到输出，能够表示非线性变换
编码器：将输入
解码器：将隐含表示
优化目标：使得
当隐含层神经元数量小于输入层时，可以当做一种降维算法

深沉编码器

指数级地降低表示某些函数的计算成本
指数级地学习某些函数所需的训练数据量
一些实验结果表明，深层自编码器比浅编码器产生更好的压缩效果

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/52bb/p/14545838.html