开源大数据利器汇总

http://blog.csdn.net/aquester/article/details/23340027

类别	名称	官网	备注
查询引擎	Phoenix	http://phoenix.incubator.apache.org/	Apache HBase之上的一个SQL中间层，完全使用Java编写
	Stinger	http://hortonworks.com/labs/stinger/	原叫Tez，下一代Hive,Hortonworks主导开发，运行在YARN上的DAG计算框架
	Presto	http://prestodb.io/	Facebook开源
	Shark	http://shark.cs.berkeley.edu/	Spark上的SQL执行引擎
	Pig	http://pig.apache.org/	基于Hadoop MapReduce的脚本语言
	Cloudera Impala	http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html	参照Google Dremel实现
	Apache Drill	http://incubator.apache.org/drill/	参照Google Dremel实现
	Apache Tajo	http://tajo.incubator.apache.org/	一个运行在YARN上支持SQL的分布式数据仓库
	Hive	http://hive.apache.org/	基于Hadoop MapReduce的SQL查询引擎
流式计算	Facebook Puma		实时数据流分析
	Twitter Rainbird		分布式实时统计系统，如网站的点击统计
	Yahoo S4	http://incubator.apache.org/s4/	Java开发的一个通用的、分布式的、可扩展的、分区容错的、可插拔的无主架构的流式系统
	Twitter Storm	http://storm.incubator.apache.org/	使用Java和Clojure实现
迭代计算	Apache Hama	https://hama.apache.org/	建立在Hadoop上基于BSP（Bulk Synchronous Parallel）的计算框架，模仿了Google的Pregel。
	Apache Giraph	https://giraph.apache.org/	建立在Hadoop上的可伸缩的分布式迭代图处理系统，灵感来自BSP（bulk synchronous parallel）和Google的Pregel
	HaLoop	https://code.google.com/p/haloop/	迭代的MapReduce
	Berkeley Spark	http://spark.incubator.apache.org/ http://shark.cs.berkeley.edu/	使用Scala语言实现，和MapReduce有较大的竞争关系，性能强于MapReduce
	Twister	http://www.iterativemapreduce.org/	迭代的MapReduce
离线计算	Hadoop MapReduce	http://hadoop.apache.org/	经典的大数据批处理系统
键值存储	Apache Accumulo	https://accumulo.apache.org/	可靠的、可伸缩的、高性能、排序分布式的键值存储解决方案，基于单元访问控制以及可定制的服务器端处理。
键值存储	Redis	http://redis.io/
表格存储	Amazon SimpleDB	http://aws.amazon.com/cn/simpledb/	一个可大规模伸缩、用 Erlang 编写的高可用数据存储
	Dynamo	https://github.com/dynamo/dynamo	P2P架构
	Cassandra	http://cassandra.apache.org/	P2P架构
	HyperTable	http://hypertable.org/	Bigtable的C++开源实现
	HBase	http://hbase.apache.org/	Bigtable在Hadoop中的实现
文件存储	CouchDB	http://couchdb.apache.org/	面向文档的数据存储
	MongoDB	https://www.mongodb.org/	文档数据库
	Tachyon	http://tachyon-project.org/ https://github.com/amplab/tachyon	加州大学伯克利分校的AMPLab基于Hadoop的核心组件开发出一个更快的版本Tachyon，它从底层重构了Hadoop平台。
	KFS	http://code.google.com/p/kosmosfs/	GFS的C++开源版本
	HDFS	http://hadoop.apache.org/	GFS在Hadoop中的实现
资源管理	Twitter Mesos	http://mesos.apache.org/	Google Borg的翻版
资源管理	Hadoop Yarn	http://hadoop.apache.org/	类似于Mesos
日志收集系统	Facebook Scribe	https://github.com/facebook/scribe
日志收集系统	Cloudera Flume	http://flume.apache.org/
消息系统	Kafka	http://kafka.apache.org/
分布式服务	ZooKeeper	http://zookeeper.apache.org/	分布式锁服务，PoxOS算法的实现，对应 Google的Chubby
RPC	Apache Avro	http://avro.apache.org/	Hadoop中的RPC
RPC	Facebook Thrift	http://thrift.apache.org/	RPC，支持C++/Java/PHP等众多语言
集群管理	Nagios	http://www.nagios.org/	监视系统运行状态和网络信息的监视系统
	Ganglia	http://ganglia.sourceforge.net/	UC Berkeley发起的一个开源集群监视项目，设计用于测量数以千计的节点。
	Apache Ambari	http://ambari.apache.org/	管理和监视Apache Hadoop集群的开源框架
基础设施	LevelDB	http://code.google.com/p/leveldb/	Google开发的单机版键值数据库，具有非常高的写性能
	SSTable		Sorted String Table
	RecordIO
	Protocol Buffers	http://code.google.com/p/protobuf/	Google公司开发的一种数据描述语言，类似于XML能够将结构化数据序列化，可用于数据存储、通信协议等方面。它不依赖于语言和平台并且可扩展性极强。
搜索引擎	Nutch	https://nutch.apache.org/	开源Java 实现的搜索引擎，诞生 Hadoop的地方。
	Lucene	http://lucene.apache.org/	一套信息检索工具包，但并不包含搜索引擎系统，它包含了索引结构、读写索引工具、相关性工具、排序等功能。
	Solr	https://lucene.apache.org/solr/	Solr是基于Lucene的搜索。