机器学习

2019年3月1日14:30:47

2.特征工程

2.1 数据集

  • 目标
    • 知道数据集分为:训练集和测试集
    • 会使用sklearn数据集
  • 应用

2.1.1 可用数据集

  • 公司内部 (比如百度等自己收集资料)
  • 数据接口 (比如第三方的,可能需要花钱)
  • 不开放的机密数据集(自己一般不可用)

 学习阶段可用的数据集:

  • sklearn
  • kaggle(已经被google收购)
  • UCI(加州大学)

Kaggle 网址:https://www.kaggle.com/datasets

UCI 数据集网址:http://archive.ics.uci.edu/ml/

 

scikit-learn 网址:http://scikit-learn.org/stable/datasets/index.html#datasets

 

https://scikit-learn.org/stable/

实现代码量比较少。

2.安装 

pip3 install Scikit-learn==0.19.1

安装之后检查是否安装成功的命令:

import sklearn

  注:安装scikit-learn 需要Numpy,Scipy等库

 

 

https://www.jianshu.com/p/ce85f5bd900f

那么应该怎么解决呢,其实很简单, 编辑 /usr/bin/pip 文件,修改代码

from pip._internal import main

另存为时,提示没有权限保存。

sudo chmod 600 ××× (只有所有者有读和写的权限) 
 
sudo chmod 644 ××× (所有者有读和写的权限,组用户只有读的权限) 
 
sudo chmod 700 ××× (只有所有者有读和写以及执行的权限) 
 
sudo chmod 666 ××× (每个人都有读和写的权限) 
 
sudo chmod 777 ××× (每个人都有读和写以及执行的权限)

若分配给某个文件所有权限,则利用下面的命令:
sudo chmod -R 777 文件或文件夹的名字(其中sudo是管理员权限)
---------------------
作者:langzi7758521
来源:CSDN
原文:https://blog.csdn.net/langzi7758521/article/details/51190425
版权声明:本文为博主原创文章,转载请附上博文链接!

3.Scikit-learn 包含的内容

 

2019年3月1日10:53:24

https://www.bilibili.com/video/av39137333?from=search&seid=10652255103060463445

 

 

 

 1.4 机器学习开发流程

 1>.获取数据

  2>.数据处理(数据判断)

  3>.特征工程(将数据处理成:更能直接被使用的数据 (特征值))

   4>.机器学习算法进行训练---得到---模型。

   5>.模型评估(如果不合适,重新进行(2)数据处理)

1.5 学习框架和资料介绍

学习机器学习时,重点:

(1)算法是核心,数据与计算是基础

(算法的改进、数据的积累、数据进行训练需要硬件设备的支持)

(2)找准定位

大部分复杂模型的算法设计都是算法工程师在做,我们需要

  • 分析很多的数据
  • 分析具体的业务
  • 应用常见的算法
  • 特征工程、调参数、优化

  • 应该怎么做?
    • 下面介绍的1.5.1-1.5.3  一步一步来的话比较稳、基础、周期长,不一定能坚持下去。
    • 为了快速入门的话,可以学习些视频、看些实战类书籍、
      • 机器学习(西瓜书)-周志华(对某一问题产生疑问)、
      • 统计学习方法--李航
      • 深度学习--“花书”。
  • 学会分析问题,使用机器学习算法的目的,想要算法完成何种任务。
  • 掌握算法基本思想,学会对问题用相应的算法解决。
  • 学会利用库或者框架解决问题。

  当前重要的是:掌握一些机器学习算法等技巧,从某个业务领域切入解决问题。

1.5.1 机器学习库与框架

看到这篇博客记录的挺详细    https://blog.csdn.net/u010164190/article/details/79114889

https://blog.csdn.net/u013063153/article/details/54728628

1、scikit-learn

简介: 基于 python 的第三方库,用于数据挖掘与数据分析,简单易用,以统计机器学习为主(深度学习相关框架参考之后的各个框架)。基于 NumPy, SciPy, matplotlib, 免费开源。

开源协议: BSD 2.0

深度学习框架

(1)Google:

2、Tensorflow 

(2)FaceBook:

3、Pytorch

4、Caffe2

(3)

theano  可以看做是TensorFlow的前身

Chainer 可以看做是pytorch的前身

 1.5.2 书籍资料

 1.5.3 提深内功(但不是必须)

2019年2月27日10:01:14

https://www.bilibili.com/video/av39137333?from=search&seid=10652255103060463445

 1.1 人工智能概述

达特茅斯会议(1956年8月)-人工智能的起点

在美国汉诺斯小镇 达特茅斯学院

约翰-麦卡锡(John McCarthy)

马文-闵斯基(Marvin  Minsky,人工智能与认知学专家)

克劳德-香农(Claude Shannon,信息论的创始人)

用机器来模仿人类学习以及其他方面的智能。

1956年,也就成为了人工智能元年。

机器学习和人工智能、深度学习的关系:

  • 机器学习是人工智能的一个实现途径
  • 深度学习是机器学习的一个方法发展而来

 1.2 机器学习、深度学习能做些什么

   机器学习的应用场景非常多,渗透到了各个行业领域中,医疗、航空、教育、物流、电商等领域的各种场景。

  • 挖掘、预测领域:
    • 应用场景:店铺销量预测、量化投资、广告推荐、企业客户分类、SQL语句安全检测分类...
  • 图像识别
    • 应用场景:街道交通标志检测人脸识别...
  • 自然语言处理
    • 应用场景:文本分类、情感分析自动聊天、文本检测等
    • 南方都市报的“小南”,广州日报的“阿同”机器人

 当前重要的是掌握一些机器学习算法等技巧,从某个业务领域切入解决问题

1.1.3 人工智能阶段课程安排

 1.2 什么是机器学习

1.2.1 定义

机器学习是从数据自动分析获得模型,并利用模型对未知数据进行预测

1.2.2 解释

 

机器识别猫和狗。从数据(大量的猫和狗的图片)中自动分析获得模型(辨别猫和狗的规律),

从而使机器拥有识别猫和狗的能力。

预测房屋价格。从(房屋的各种信息)中自动分析获得模型(判断房屋价格的规律),从而使机器拥有预测房屋价格的能力。

从历史数据当中获得规律? 这些历史数据是怎样的格式?

1.2.3 数据集构成

通常把机器学习的数据叫做:数据集。

  • 结构:特征值+目标值
  • 注:
    • 每一行数据我们可以称之为样本。
    • 有些数据集可以没有目标值。

 1.3 机器学习算法分类

 学习目标

  • 机器学习算法:监督学习与无监督学习
  • 监督学习的分类、回归特点。

(1)目标值:类别- 分类问题。

猫和狗的区别。就属于分类问题。

(2)目标值:连续型的数据-回归问题。

房屋价格。连续型数据。

  (3)当没有目标值时,=无监督学习。

人物的各个属性信息。

 

1.3.3 机器学习算法分类

  •  监督学习(supervised learning)(预测)
    • 分类:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归
    • 回归: 线性回归、岭回归
  • 无监督学习(unsupervised learning)
    • 聚类 k-means

 1.4 机器学习开发流程

2019-01-22 19:47

该笔记摘自:慕课网-深度学习的某一篇课程。

深度学习是以神经网络为基础的。

讲述神经网络学习入门。

神经网络是机器学习的一种算法。

机器学习是将无序数据转换为价值的方法。从数据中抽取规律,并预测未来。

机器学习应用案例

  • 分类问题:

    • 图像识别、垃圾邮件识别。回归问题:房价预测、股价预测。
  • 排序问题:

    • 点击率预估、推荐。
  • 生成问题:

    • 图像生成、图像风格转换、图像文字描述生成(世界杯:通常是一些有经验的人来讲述,点评。现在根据图片就可以生成图片的描述,进而取代这类行业)。

机器学习应用流程

训练数据,定义目标函数(找到要优化的方面),选择相应的机器学习算法,训练得到模型,并应用到线上服务。最后形成循环。

机器学习岗位职责

数据处理(采集+去噪)
模型训练(特征+模型)
模型评估与优化(MSE、F1-score、AUC+调参)
模型应用(A/B测试)

 深度学习简介

深度学习与机器学习

  • 机器学习是实现人工智能的方法
  • 深度学习是实现机器学习算法的技术
原文地址:https://www.cnblogs.com/liyanli-mu640065/p/10305741.html