开源大数据利器汇总

http://blog.csdn.net/aquester/article/details/23340027

类别 名称 官网 备注
查询引擎 Phoenix http://phoenix.incubator.apache.org/

Apache HBase之上的一个SQL中间层,完全

使用Java编写

Stinger http://hortonworks.com/labs/stinger/

原叫Tez,下一代Hive,Hortonworks主导开

发,运行在YARN上的DAG计算框架

Presto http://prestodb.io/ Facebook开源
Shark http://shark.cs.berkeley.edu/ Spark上的SQL执行引擎
Pig http://pig.apache.org/ 基于Hadoop MapReduce的脚本语言
Cloudera Impala http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html 参照Google Dremel实现
Apache Drill http://incubator.apache.org/drill/ 参照Google Dremel实现
Apache Tajo http://tajo.incubator.apache.org/ 一个运行在YARN上支持SQL的分布式数据仓库
Hive http://hive.apache.org/ 基于Hadoop MapReduce的SQL查询引擎
流式计算 Facebook Puma   实时数据流分析
Twitter Rainbird   分布式实时统计系统,如网站的点击统计
Yahoo S4 http://incubator.apache.org/s4/

Java开发的一个通用的、分布式的、可扩展的、

分区容错的、可插拔的无主架构的流式系统

Twitter Storm http://storm.incubator.apache.org/ 使用Java和Clojure实现
迭代计算 Apache Hama https://hama.apache.org/

建立在Hadoop上基于BSP(Bulk Synchronous Parallel)的

计算框架,模仿了Google的Pregel。

Apache Giraph https://giraph.apache.org/

建立在Hadoop上的可伸缩的分布式迭代图处理

系统,灵感来自BSP(bulk synchronous parallel)和Google的Pregel

HaLoop https://code.google.com/p/haloop/ 迭代的MapReduce
Berkeley Spark http://spark.incubator.apache.org/
http://shark.cs.berkeley.edu/

使用Scala语言实现,和MapReduce有较大

的竞争关系,性能强于MapReduce

Twister http://www.iterativemapreduce.org/ 迭代的MapReduce
离线计算 Hadoop MapReduce http://hadoop.apache.org/ 经典的大数据批处理系统
键值存储 Apache Accumulo https://accumulo.apache.org/

可靠的、可伸缩的、高性能、排序分布式的键值

存储解决方案,基于单元访问控制以及可定制的

服务器端处理。

Redis http://redis.io/  
表格存储 Amazon SimpleDB http://aws.amazon.com/cn/simpledb/

一个可大规模伸缩、用 Erlang 编写的高可用

数据存储

Dynamo https://github.com/dynamo/dynamo P2P架构
Cassandra http://cassandra.apache.org/ P2P架构
HyperTable http://hypertable.org/ Bigtable的C++开源实现
HBase http://hbase.apache.org/ Bigtable在Hadoop中的实现
文件存储 CouchDB http://couchdb.apache.org/ 面向文档的数据存储
MongoDB https://www.mongodb.org/ 文档数据库
Tachyon http://tachyon-project.org/
https://github.com/amplab/tachyon

加州大学伯克利分校的AMPLab基于Hadoop的

核心组件开发出一个更快的版本Tachyon,

它从底层重构了Hadoop平台。

KFS http://code.google.com/p/kosmosfs/ GFS的C++开源版本
HDFS http://hadoop.apache.org/ GFS在Hadoop中的实现
资源管理 Twitter Mesos http://mesos.apache.org/ Google Borg的翻版
Hadoop Yarn http://hadoop.apache.org/ 类似于Mesos
日志收集系统 Facebook Scribe https://github.com/facebook/scribe  
Cloudera Flume http://flume.apache.org/  
消息系统 Kafka http://kafka.apache.org/  
分布式服务 ZooKeeper http://zookeeper.apache.org/

分布式锁服务,PoxOS算法的实现,对应

Google的Chubby

RPC Apache Avro http://avro.apache.org/ Hadoop中的RPC
Facebook Thrift http://thrift.apache.org/ RPC,支持C++/Java/PHP等众多语言
集群管理 Nagios http://www.nagios.org/ 监视系统运行状态和网络信息的监视系统
Ganglia http://ganglia.sourceforge.net/

UC Berkeley发起的一个开源集群监视项目,

设计用于测量数以千计的节点。

Apache Ambari http://ambari.apache.org/ 管理和监视Apache Hadoop集群的开源框架
基础设施 LevelDB http://code.google.com/p/leveldb/

Google开发的单机版键值数据库,具有

非常高的写性能

SSTable   Sorted String Table
RecordIO    
Protocol Buffers http://code.google.com/p/protobuf/

Google公司开发的一种数据描述语言,

类似于XML能够将结构化数据序列化,

可用于数据存储、通信协议等方面。

它不依赖于语言和平台并且可扩展性极强。

搜索引擎 Nutch https://nutch.apache.org/

开源Java 实现的搜索引擎,诞生

Hadoop的地方。

Lucene http://lucene.apache.org/

一套信息检索工具包,但并不包含搜索引擎

系统,它包含了索引结构、读写索引工具、

相关性工具、排序等功能。

Solr https://lucene.apache.org/solr/ Solr是基于Lucene的搜索。



原文地址:https://www.cnblogs.com/DjangoBlog/p/3698222.html