大数据学习（一）基本概念

　　大数据凭借其数据量大数据类型多样产生与处理速度块价值高的4V特性成为学术界和工业界的研究热点由于传统软件难以在可接受的时间范围内处理大数据所以学术界和工艺界研发了许多分布式的大数据系统来解决大规模数据的存储梳理分析和挖掘等问题
比如社交网站脸书每天要处理约25亿条消息所以数据量大(Volume) 除了消息还有视频啊什么的数据类型多样(Variety) 而且需要实时的去分析和应对这些消息所以说产生与处理的速度快(Velocity) 我们可以通过这些数据分析用户的喜好啊浏览什么的就可以给对应的用户提供潜在的服务所以这个价值高(Value) 这就是大数据的4V特性
大数据的处理框架 Hadoop和Apache Spark两者都是大数据框架，但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，意味着您不需要购买和维护昂贵的服务器硬件。同时，Hadoop还会索引和跟踪这些数据，让大数据处理和分析效率达到前所未有的高度。Spark，则是那么一个专门用来对那些分布式存储的大数据进行处理的工具，它并不会进行分布式数据的存储

　　目前在学习Spark