大数据不仅仅是海量数据

大数据如果仅仅是海量的结构性数据,那么解决的办法就比较单一,用户可以通过购买更多的存储设备,提高存储设备的效率等解决此类问题。然而,问题似乎没有那么简单。曾经听到过一个对于大数据所下的定义我觉得比较到位:“大数据其实是海量高维度数据的相关性分析”。什么意思呢?我们慢慢说。

量的积累

当类型复杂的数据汹涌袭来,那么对于用户IT系统的冲击会是另外一种处理方式。有调查发现,这些复杂数据中有85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。

如今大数据的概念也存在着很多的炒作和大量的不确定性。有人将很多TB的数据集也称作”大数据”。据市场研究公司IDC统计,数据使用预计将增长44倍,全球数据使用量将达到大约35.2ZB(1ZB=10亿TB)。但是单个数据集的文件尺寸也将增加,导致对更大处理能力的需求以便分析和理解这些数据集。

对大企业而言,大数据的兴起部分是因为计算能力可用更低的成本获得,各类系统如今已能够执行多任务处理。其次,内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据,另外是把计算机聚合成服务器集群越来越简单。IDC认为,这三大因素的结合便催生了大数据。同时,IDC还表示,某项技术要想成为大数据技术,首先必须是成本可承受的,其次是必须满足IBM所描述的三个”V”判据中的两个:多样性(variety)、体量(volume)和速度(velocity)。

l 多样性是指,数据应包含结构化的和非结构化的数据;

l 体量是指聚合在一起供分析的数据量必须是非常庞大的;

l 速度则是指数据处理的速度必须很快。

Garter表示,全球信息量正在以59%以上的年增长率增长,而量是在管理数据、业务方面的显著挑战,IT领袖必须侧重在信息量、种类和速度上。

量:企业系统内部的数据量的增加是由交易量、其它传统数据类型和新的数据类型引发的。过多的量是一个存储的问题,但过多的数据也是一个大量分析的问题。

种类:IT领袖在将大量的交易信息转化为决策上一直存在困扰:现在有更多类型的信息需要分析,主要来自社交媒体和移动(情景感知)。种类包括表格数据(数据库)、分层数据、文件、电子邮件、计量数据、视频、静态图像、音频、股票行情数据、金融交易和其它更多种类。

速度:这涉及到数据流、结构化记录的创建,以及访问和交付的可用性。速度意味着正在被生成的数据有多快,数据必须被多快地处理以满足需求。

综上所述,大数据的基础是多样的,包括结构和非结构的数据,而软硬件架构的进化使得这样规模的数据处理变成了可能。那么能力有了,怎么来很好的利用能力实现价值呢?

质的变化

虽然大数据是一个重大问题,Gartner分析师表示,真正的问题是让大数据更有意义,在大数据里面寻找模式帮助组织机构做出更好的商业决策。尽管”BigData”可以翻译成大数据或者海量数据,但大数据和海量数据是有区别的。在刚才提到的对于大数据的定义中,海量数据以及处理海量数据的能力目前已经满足,那么什么是高纬度数据的相关性分析呢?

著名的奢侈品品牌Prada在其欧洲门店做过这样一个业务改进,他们在衣服的衣架上安装一个电磁芯片,并在试衣间中安装一套传感器装置,每当衣物被带进试衣间试穿就会被相应计数一次。这样一个简单的改进在于,它使得管理人员能够从数据中找到那些试穿多但是购买少的产品,之所以试穿多购买少说明这种产品一定是看上去不错,但是试穿后会发现一些设计上的瑕疵或者不合理的地方,那么设计人员就会有针对性的修改相关产品,这样做明显提高了门店的销售业绩。

从上面的例子看出,prada的管理人员创造性的创立了一个新的描述产品属性的维度,这就属于维度的提升和创新,这样创新出的维度就是高维度,高维度可能是传统维度汇总后更高粒度的维度,有的可能是创造出来的描述事物的新角度。而把这些维度关联起来进行分析,将事物不同的维度作为因,将因和果关联起来分析,就能更好的了解事物属性。

因此可见,硬件性能的提升,价格的下降,以及高扩展性软件架构的应用,使得企业高效的从更多角度,更高频度的收集并分析业务数据变成了可能。作为技术人员,在大数据时代,我们将应用更加高效的软硬件架构构建我们的平台,而要真正的发挥大数据的威力,从业务方面增强创新和创造能力、创新分析方法,提高分析多样性就显得更加至关重要。

原文地址:https://www.cnblogs.com/Lonelydancer/p/6219562.html