大数据时代-散记

大数据时代: 生活、工作和思维的大变革

一书写的相当不错,深入浅出,实例丰富。

不过读的时候,常让人迷恋于各种小故事,而无法一下子把握整本书的想阐述的思想脉络。所以,自己列个提纲,记录一下书内的一些闪光点。


第一部分:思维变革

一共三章,这三章其实是一个整体,联系起来理解其实会更深刻。

抽样、精确、因果三者之间的关系是什么?在解决经典统计问题,三者的作用是什么?

而针对大数据状况下,全部、混杂、相关的作用是什么?

1. 抽样vs全部

抽样在数据收集时效性不能保证时采取的办法。

而采用全部数据模式,是因为信息收集技术的进步。


而全部数据模式会比抽象数据更能反映 问题的本质。

因为抽样数据需要保证随机性,而不是数量。而抽样技术本身就会存在一定偏差,并且对子类别或小样本的数据,随机采样的错误率会增大。


2. 精确vs混杂

抽样,会要求精确性,因为对于抽样的少量数据,任何的不精确会影响最终的结果。


而混杂性,是利用数据的高频模式来弥补混杂性带来的不精确。


全部的数据模式,也基本无法实现精确性。


3. 因果vs相关

发现相关关系,目的就是帮助人们捕捉现在和发现未来。

因果关系其实是相关关系的一部分,是相关关系的一种特例。


相关关系的重要性来源:更准确、更快、不易受偏见影响。

而因果关系的证明,就没这么简单了。


对于产业而言,是什么,建立快速反应机制,比为什么重要的多。


其实书中的因果关系,是指人大脑的系统1,快速思维,看待周围的一切,利用假说来建立因果联系。

这与事物之间真正的因果联系还是有一定区别的。


第二部 商业变革

大数据与商业的关系是什么?或者说大数据会给商业带来什么?

新的商业机会

冲击旧的商业模式


4. 数字化vs数据化

数字化仅仅是将文本类的、图片类的等等其他形式的东西转化为计算机能表达的东西,如扫描的图书等等。

数据化:不仅仅停留在计算机表示层面,而且将文本、图片转化其他形式,用于挖掘其背后的价值,发现新的模式,新的数据,等等。

除了,将现有的文本、图片数据化,还可以收集新的各种各样的数据,采用各种各样的传感器,如GPS、与健康安全相关的传感数据。


另外一个重要的领域就是,收集与人沟通、交互相关的数据。从中可以发现各种行为数据背后蕴含的价值。

社交图谱、消费习惯、情感分析等等。


其实,这部分的内容就是描述数据化给人们带来的影响,而且数据化的需求和程度还会大大的增加,技术层面应该已经不是问题。


5. 价值

技术层面已经不是问题,那么大数据发展的重要动力就大数据内在的价值。

这一部分,作者举了大量的实例,来说明大数据内在的价值,而且都是大公司对数据收集和挖掘的成功案例。


并且数据可以被重复的、在不同领域和层面被应用。

重组数据、扩展数据都可以说明数据的整体价值大于各子部分数据的价值。

一些数据噪声、废气,不要轻易的放弃,因为它若与人的习惯相关,会有另外的价值,作为产品反馈、提高的重要手段。


数据的折旧:需要利用一套评价方法,来评估数据是否还有用途。除去基本用途,数据的潜在价值依然存在。


数据的价值在于 如何使用、挖掘它,而不是占有。


6. 角色:思维vs技术vs数据

在大数据价值链上,可以将公司分为三类:

1. 基于数据的公司; 2. 基于技术、技能的公司;3. 基于思维的公司

思维、技术、数据,三者在大数据时代哪个最重要?哪个更重要?

其实三者相互依存,都很重要,但都不是企业或公司如鱼得水的关键,因为随着时间的迁移,三者在一个公司内的地位在不断变化。

如思维:

对于一个小公司有一个良好的思维,会迅猛发展,成长为一个大数据公司,但是随着时间推移,其他公司也学会了同类的思维,同质化的产品就会不断出现,影响这个公司的竞争力。


如技术:

一个公司或个人,拥有大数据的技术,在开始,这种人才或能力比较缺乏,技术能力或人才会非常抢手,而随时间推移,新的工具和人力不断投入到这个领域,技术优势最终会变得不那么明显。


又如数据:

一个公司可以轻松的收集到数据,但是鉴于公司专注的业务领域有限,数据潜在的数据却不能提取出来。


也有一些三者兼备的公司, 如google,amazon.

而且作者预测的一个趋势是:

大公司会占有数据,能收集大量的数据是大公司的优势,这也会让大公司收益;

而小公司拥有充分的灵活性,能快速的开发相应的大数据产品,这是它们存活的关键,而且成功的产品可以被大公司收购;

最后中等规模的公司,两者都不太具备,会逐渐的消亡。


第三部分 管理变革

大数据的收集、使用会带来潜在的风险和管理上的变革。

7. 风险

现在来看,大数据有两个风险:一个是隐私问题,另外一个是对大数据预测的不当使用。

隐私问题,这是数据收集带来的最大的问题。

而技术上的解决方案有:

1. 告知许可。但是收集的数据可能会被二次利用,从而侵犯用户的隐私。

2. 模糊化。如街景图片的模糊

3. 匿名化。个人信息如名字、生日、住址、卡号等


但是,结合多种数据源,上述的保护方案都大部分情况都会失效。

结合现有的各种公司或国家在侵犯用户隐私的丑闻,如各种流氓网络大户、棱镜门等等,隐私问题不是一个虚幻的问题。


对大数据预测的不当使用,利用预测结果,很容易让人惩罚未发生的想法,而不是依据实际行为。伤害了人的自由选择的意志。过分依赖数据,会使人们做出错误的决策。


8. 掌控

针对以上风险,应该对数据的管理做出变革,如

1. 个人隐私保护,从个人许可到让数据使用者承担责任

2. 对公正的评价,仍依赖于个人动因,而不是数据的预测分析

3. 反对数据垄断的使用。


作者使用了大量的实例使本书看起来比较有意思,但是也容易让本书的脉络不那么明显,需要看过,自己再回头总结下,想一想。

真正的大数据应用已经有了,但真正的大数据时代在中国还有点远,需要加油呀。



原文地址:https://www.cnblogs.com/riskyer/p/3343347.html