大数据与Hadoop先导知识

大数据简述

 大数据概念

 

概念

大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

 

数据是实施或观察的结果、是对客观事物的逻辑归纳、是用于表示客观事物的未经加工的原始素材

 

数据的存储单位

1Byte = 8bit
1K = 1024Byte
1MB = 1024K
1G = 1024M
1T = 1024G
1P = 1024T
1E = 1024P
1Z = 1024E
1Y = 1024Z
1B = 1024Y
1N = 1024B
1D = 1024N

 

大数据时代

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,其称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。"

国内首部大数据产业题材纪录片,节目细致而生动地讲述了大数据技术在政府治理、民生服务、数据安全、工业转型、未来生活等方面给我们带来的改变和影响。

 

 

那么面临大数据时代的到来,我们也会遇到各种问题。思考:大数据场景下:

  • 海量数据如何存储

  • 海量数据如何计算

 

大数据特点

 

Volume

数据体量大:

采集数据量大

存储数据量大

计算数据量大

TB、PB级别起步

 

Variety

种类来源多样化:

  • 种类:结构化、半结构化、非结构化

  • 来源:日志文本、图片、音频、视频、地理位置等信息

 

Value

低价值密度:

1、信息海量但是价值密度低

2、深度复杂的挖掘分析需要机器学习参与

 

Velocity

速度快:

1、数据增长速度快

2、获取数据速度快

3、数据处理速度快

 

Veracity

数据的质量:

1、数据的准确性

2、数据的可信赖度

 

大数据应用场景

电商领域

  • 精准广告位

  • 个性化推荐

  • 大数据杀熟

传媒领域

  • 精准营销

  • 猜你喜欢

  • 交互推荐

金融领域

  • 信用评估

  • 风险管控

  • 客户细分

  • 精细化营销

交通领域

  • 拥堵预测

  • 智能红绿灯

  • 导航最优规划

电信领域

  • 基站选址优化

  • 舆情监控

  • 客户用户画像

安防领域

  • 犯罪预防

  • 天网监控

医疗领域

  • 智慧医疗

  • 疾病防控

  • 病源追踪

 

分布式技术

在科学技术发展推动下,应用和系统架构的变迁从单机单一架构迈向多级分布式架构。

数据大爆炸时代,海量数据处理场景面临着如何存储、如何计算的问题。单机存储有瓶颈,可以多台机器分布式存储;单机计算能力有限,可以多台机器分布式计算。

 

分布式系统概述

分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统。它使用一群相互独立计算机集合共同对外提供服务,而对用户来说就像是一台计算机在提供服务。

 

分布式与集群

分布式与集群是两个不同的概念:

分布式(Distributed):多台机器,每台机器上部署不同的组件

集群(Cluster):多台机器,每台机器上部署相同的组件

 

分布式技术

 

负载均衡

将负载(工作任务)进行平衡、分摊到多个操作单元上进行运行,解决了单个无法处理所有任务,多个一起处理的问题。

 

故障转移

当活动的服务或应用意外终止时,快速启用冗余或备用的服务器、系统、硬件或者网络接替它们工作。故障转移系统也称之为容错系统,所谓容错指的是可以容忍错误的发生。故障转移的核心是设置备份,出现故障时主备切换。主备切换的前提是数据状态保持一致。

备份个数越多,容错能力越强,但冗余和成本浪费越多。

 

伸缩性

伸缩性也叫做弹性,可扩展性,是指系统可以根据需求动态的扩容、缩容。

 

Apache Hadoop概述

Hadoop介绍

概念

狭义上Hadoop指的是APache的一款Java语言实现的开源软件,允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。

Hadoop具有的核心组件:

  • HDFS,分布式文件存储系统,解决海量数据存储

  • YARN,集群资源管理和任务调度框架,解决资源任务调度

  • MapReduce,分布式计算框架,解决海量数据计算

广义上Hadoop指的是围绕Hadoop打造的大数据生态圈

 

 

Hadoop特性

扩容能力

Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计的节点中。

成本低

通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。

可靠性

Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。

效率高

能自动维护数据的多份复制,并且在任务失败后能自动地重新部署( redeploy )计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

 

3.3 Hadoop发行版本

开源社区版:http://hadoop.apache.org/

Apache开源社区发行,也是官方发行版本

商业发行版:https://www.cloudera.com/

商业公司发行,基于Apache开源,某些服务需要收费

原文地址:https://www.cnblogs.com/Gazikel/p/15091218.html