机器学习入门介绍

机器学习入门介绍

学习并整理从 Machine learning basics

机器学习是一种数据科学技术,它允许计算机使用现有的数据来预测未来的行为、结果和趋势。使用机器学习,不需要为计算机显式编程而让它自己学习。

机器学习的预测可以使应用程序和设备更加智能化。当你网上购物时,机器学习会帮你根据所购买的产品推荐你可能喜欢的其他产品。当您的信用卡被刷卡时,机器学习将交易与交易数据库进行比较,并帮助检测欺诈行为。当你的真空吸尘器机器人清洁房间时,机器学习有助于它决定是否完成了工作。

数据科学可以解答的问题

数据科学只可解答以下五种问题:

  1. 是A还是B?
  2. 是否异常?
  3. 多少?
  4. 怎么组织?
  5. 接下来该怎样做?

以上每个问题都由一系列的机器学习方法(称为算法)回答。

将算法视为配方,数据视为材料, 算法告知如何组合以及混合数据以获取答案。 计算机如同搅拌机, 它们可快速完成算法的大部分繁琐工作。

问题1:是A还是B?使用分类算法
image
是A还是B使用二元分类算法,对于任何仅有两种可能答案的问题很有用。 例如:

  • 此轮胎是否会在下一千英里中出现故障:是或否?
  • 以下哪种方案可吸引更多顾客:5美元优惠券或25%折扣?

此问题还可进行扩展为两个以上的选项:这是 A、B、C 还是 D,等等。这称为多元分类,对于有多个或数千个可能的答案时很有用。 多元分类选择可能性最大的那个答案。

问题2:这是否很奇怪?使用异常检测算法
image
如果你有信用卡,那么已从异常检测中获益。 信用卡公司会分析购买模式去提醒用户可能的被欺诈行为。 “异常”消费可能是在一家通常不会去购物的商店购物时,或着购买非常昂贵的物品。此问题在很多方面都很有用。 例如:

  • 如果汽车上配有压力表,可能会想知道:此压力表读数是否正常?
  • 如果正在监控 Internet,就会想知道:此消息是否是来自 internet 的典型消息?

异常检测标志意外或异常事件或行为。 它会提供在何处查找问题的线索。

问题3:多少?使用回归算法
image
回归算法进行数字预测,例如:

  • 下周二的气温是多少?
  • 第四季度销售额有多少?

它们可帮助回答任何寻求数字答案的问题。

问题4:怎么组织?使用聚类分析算法
image
有时希望了解数据集的结构 - 组织方式为何? 对于此问题,并没有已经知道结果的示例。
可通过多种方法梳理出数据结构。 其中一种方法就是聚类分析。 为方便解释,该方法将数据分成多个自然“群”。
使用聚类分析,不会存在正确答案。

聚类分析问题的常见示例有:

  • 哪些观众喜欢同类型的电影?
  • 哪些打印机型号出现故障的方式相同?

通过了解数据的组织方式,可以更好地了解并预测行为和事件。

问题5:应该做什么?使用强化学习算法
image
强化学习的灵感来自于老鼠和人类的大脑对惩罚和奖励的反应。 这些算法从结果中学习,并决定下一步操作。
通常,强化学习适用于自动系统,这些自动系统需要在没有人工指导的情况下做出大量小决策。
算法总是用于回答此类问题:(通常指计算机或机器人)应采取何种操作。 示例如下:

  • 如果是房子的温度控制系统:调整温度或保持其原温度?
  • 如果是自动驾驶汽车:黄灯时,刹车或加速?
  • 对于机器人吸尘器:继续吸尘或返回充电站?

强化学习算法在执行过程中收集数据,从试验和错误中学习。

准备数据

必须先提供一些优质原材料(数据)供数据科学分析,它才能提供你所需的答案。就像做披萨一样,制作前准备的原料越好,最终的产品也会越好。
数据要素:

数据是否相关?
image
左侧表格列出了在波士顿酒吧外测试的七个人的血液酒精含量、红袜队最后一场比赛的击球率以及最近的便利店中的牛奶价格。
此数据完全准确。 唯一的问题是它们不相关。 这些数字之间没有明显的关系。

然后观察右侧的表。这一次,我们测量了每个人的体重以及他们饮酒的量。
现在,每行中的数字彼此相关。如果提供体重和喝的玛格丽塔数量,便可猜测血液酒精含量。

数据是否连贯?
image
以下是一些关于汉堡质量的相关数据:烤制的温度、肉饼的重量和以及在用户评价等级。
但请注意左侧表中的空白处。其实大多数数据集都缺少某些值。这样的空白很常见,是可以解决的。
但是如果值缺失过多,就很难找出烤制温度和肉饼重量之间存在的关系。

但是,右侧表数据很完整,是连贯数据的示例。

数据是否精确?
image
以上是四个要命中的靶子。

看看右上角的靶子。在靶心附近有一组紧密聚集的数据。当然,这是准确的。奇怪的是,在数据科学中,右下方靶子所呈现的数据也被视为准确数据。

如果标出这些箭支的中心点,会发现它非常靠近靶心。箭支分散在靶子四周,因此认为其不精确。但它们都是以靶心为中心围绕分布,所以认为其是准确的。

现在看看左上方靶子。这里的箭射得很近,在这个靶子上,箭支击中的点非常集中,形成一个紧密集聚的组。它们是非常精确的,但因其中心远离靶心,所以他们所反应的数据是错误数据。左下方靶子中的箭支是错误且不精确的。 这名弓箭手需多加练习。

数据是否足够?
image
将表中的每个数据点视为画作中的每一笔触。如果只有少许几笔,则这幅画会模糊,很难分辨它是什么。
添加的笔触越多,画的轮廓就越清晰。
随着添加的数据增多,图片变得更为清晰,可以进行一些更具体的判断。

有了相关、连贯、准确且充足的数据,就有了进行优质数据科学分析所需的全部要素。

提出问题

提出清晰具体的问题。

如果问它一个模糊的问题,比如“我的股票接下来如何?”,它可能会回答,“价格会改变”。这是一个正确的答案,但不是非常有帮助。

但是,如果提出一个清晰具体的问题,如“下周,我的股票售价如何?”,它便只能给出具体的回答,并预测售价。

示例答案

制定问题时,检查数据中是否有示例答案。
如果问题是“下周,我的股票售价如何?”,则必须确保数据包括股票价格历史记录。
如果问题是“车队中的那辆车会首先出现故障?”,则必须确保数据包括以前故障的相关信息。
这些示例答案被称为目标数据,若没有目标数据,则无法回答问题。

重新制定问题

问题“此数据是 A 还是 B?”,预测事物类别。若要回答此问题,请使用分类算法。
问题“多少?” 或着“数量?” 可对量进行预测。若要回答此问题,请使用回归算法。
若要了解如何转换这些问题,让我们来看看这个问题:“读者最感兴趣的是哪个新闻故事?” 这要求从多种可能性中预测某个单一选择 - 换句话说,“这是 A 还是 B 或 C 或 D?” - 这将使用分类算法。
但是,如果将问题改写为“读者对该列表中每个故事的感兴趣度为多少?”,则这个问题可能更容易回答。 现在,可以给每篇文章一个分数,并可轻松确定最高分的文章。 这是将分类问题改写为回归问题。
可以通过重新制定问题,从而使用能提供最佳答案的算法。

使用简单模型预测答案

假如我们想预测一个1.35 克拉的钻石的价格。我首先来到珠宝店,并记下当场所有钻石的价格和重量(以克拉为单位)。 然后绘制一个坐标,X轴为重量,Y轴为价格。接下来绘制数据并将其转换为散点图。连接数据点绘制模型并使用模型找出答案。
image
我们完成了需要聘请数据科学家才能完成的工作,完成方法仅是通过绘制:

  • 提出可使用数据回答的问题
  • 使用线性回归构建模型
  • 进行预测,并借助置信区间完成

而且没有使用数学计算或计算机。
现在假设我们有更多信息,例如钻石的切割、颜色差异(钻石的颜色与白色的接近程度)、钻石中杂质量...那么我们会有更多列。
在这种情况下,数学计算就很有用。
如果有两个以上的列,则很难在纸上描点。数学计算能使线或平面与数据很好地对应。
此外,如果不是只有少量钻石,而是有两千颗或两百万颗,那么使用计算机能更快完成此工作。

学习他人成果

Microsoft 拥有一项基于云的服务,名为 Azure 机器学习工作室,可以免费进行试用。
它提供了一个工作区,可在其中使用不同的机器学习算法进行试验。

此服务的一部分被称为 Azure AI 库。 它包含资源,包括 Azure 机器学习试验或模型(由用户生成并贡献给他人使用)的集合。 这些试验是利用他人的想法和工作成果,开始自己的解决方案的绝佳方式。

原文地址:https://www.cnblogs.com/royzshare/p/9155796.html