机器学习一-三

机器学习一

深度学习是机器学习的一部分,也是AI中的核心技术

有监督学习

数据集中的样本有标签,有明确目标,<x,y> ,回归(线性回归,岭回归等),分类(K近邻,决策树,支持向量机)

无监督学习

样本无标签,没有明确目标,x,排序,聚类(划分客户消费等级),降维

强化学习

智慧决策,AIphaGo,不断学习


前两者需要预先收集数据集,通过模拟生成数据

过度拟合

模型过于复杂,正则化降低误差

模型选取

交叉验证 K折交叉验证

数学结构

度量结构


数据之间的距离

文章相似度:将词作为坐标,词频为坐标值,将文章表现为向量,判断向量相似度

曼哈顿距离(和值) 欧式距离(直线) 极大距离(最大值)

K近邻:最相似的K的样本的标签,确定测试样本的标签

网络结构


数据本身具有网络结构,可利用度量结构增加网络结构

有向图,文章摘要,分成句子,相似度高连一条边,查看节点度数最多(PageRank算法)邻接矩阵,解为转移矩阵特征值的特征向量,网络连通有唯一解

代数结构


将数据看成向量,矩阵,更高阶的张量

几何结构


流形、对称性等

简单工具

Scikit-learn

jieba分词 sklearn机器学习 pandas数据处理 matplotlib绘图 networkx网络分析


机器学习二

大数据的五大特征

**数据量大 种类和来源多样化 速度快 价值密度低 数据真实性 **

信息化:产生、整合数据

大数据:经验,数据的利用到极致,对过去的数据的利用,模仿学习

智能化:数据+模拟+学习,自动生成数据经验,自主学习

数据科学

数据源:语音,视频,文本

模型和计算能力:深度学习 GPU

广泛的应用场景

云计算为大数据提供了技术基础

物联网是大数据的重要来源

云计算为物联网提供数据存储能力

大数据:数据采集,清晰,分析,应用

机器学习:大数据分析的核心内容,找出模型F,关联

深度学习:完成Data到X的转换

image-20210219111133931

大数据应用实践和探索

分子动力学模拟:机器学习+物理模型

自然语言处理

知识图谱,语义搜索,文本挖掘

智能对话系统

image-20210219130655547


矩阵的逆

image-20210220184526127

image-20210220184534919

回归

一元线性回归

求解化目标最小值

(y-wx-w1)的n项平方和,求导=0得w,w1

多元线性回归

y=wx1+.....wdxd+w0

求均方误差,最小值

多维用矩阵表示且,最后一列取值为1,每一行为样本,列为特征

标签,参数记为成列向量

最小化均方误差函数L(w)=(Xw-y)的T次幂*Xw-y

当满秩时对w求偏导=0求得w=X的t次幂*X的倒数 *X的t次幂 *y

过度拟合问题

正则化:线性回归目标函数加上w的惩罚函数

惩罚项不包括w0

根据岭迹选择λ

LASSO的解常用算法:坐标下降法 LARS算法 ISTA算法

λ增大,LASSO特征系数逐个减小,岭回归中同时趋近于0

回归模型评价指标

均方误差

均方根误差

平均绝对误差

决定系数

机器学习三

梯度下降法

image-20210221204743847

image-20210221204830292

最大似然估计

image-20210222082427526

分类


image-20210222083430809

感知机

找到到一条直线将两类数据分开

image-20210222084835701

image-20210222084923990

支持向量机

找到一条直线,不仅将两类数据分类而且还使得数据离直线尽量远

image-20210222085256617

逻辑回归

找到一条直线是的观察得到的训练集的可能性最大

分类模型评估和Sklearn分类模块

原文地址:https://www.cnblogs.com/2506236179zhw/p/14706975.html