转文峰——读《大数据时代》有感

我在大数据领域已经工作五年多了,可如果一个外行朋友让我给他解释一 下什么是大数据,我还真不好讲。我能说就是海量数据的格式化、传输、存储、查询、展示吗?还是过于抽象。我能说数据量大就叫大数据吗?其实也不一定,一台 机器上的传感器收集到的数据可能每天都有几个TB,但也仅仅是监控了一个机器的状态。而全国各个市一天的苹果价格,可能也只是几MB大小,但它就是一个大 数据的例子。
  
  这本书的观点很鲜明。首先是样本等于总体。在大数据时代以前,如果想要了解某个市场的情况,一般是采用抽样调查的方式,这种方式难免出现偏 差,比如配合调查的人群,可能本身就有倾向性。但在大数据时代,我们直接面向的是总体样本,能够直接分析总体的真实情况,更加客观。过去有两个条件不具 备,一个是数据的采集代价很大,现在通过网络可能直接拿到。比如全国人民今天都关心什么,会在搜索引擎的查询记录里体现出来。第二是计算和存储能力不具 备,成千上万台的高性能服务器才能迅速计算出结果,在以前的计算器年代是搞不定的。
  
  第二个观点是要关联关系而不关心因果性。买了A东西的人很有可能买B东西,可能这两者看似没有什么关联,但尽管把它们放在一起就是了,我们最 关心的是销量,不是吗?弄清楚是怎么一个表象可能比较容易,但是想弄清楚背后的缘由,就需要很大的代价了,在这种快速变化的时代,不妨先利用这种关联性去 产生价值,剩下的慢慢去分析。
  
  我在读这本书的时候,也在思考大数据到底是有什么样的特征?和以前的时代到底有何不同?我觉得是在地域上要具有广泛性,比如开始我说的全国各 个市苹果价格的例子,如果有了这样的信息,你就可以确定苹果运送到哪里能赚更多的钱,考虑的更长远一点是在哪里种苹果最划算。书中还列举了一个所有航班票 价的例子,也是类似的。
  
  在大数据时代,我预测传感器领域会有十足的发展,也许以后传感器无处不在,我们通过传感器获取到各种的数据,基于这些数据能实现一些新的价 值。现在流行的可穿戴设备,只是传感器的一个基本应用。Google的无人驾驶汽车也是一个应用的例子。但传感器时代我相信还没有到来,现在是一个酝酿 期。

原文地址:https://www.cnblogs.com/end/p/4158942.html