Cassandra在Windows上安装及使用方法

http://archive.apache.org/dist/cassandra/2.1.2/

http://docs.datastax.com/en/landing_page/doc/landing_page/archivedDocuments.html

http://pimin.net/archives/388

http://pimin.net/topics/tech/nosql/page/4

一、基本介绍

DataStax，是一家位于加州的初创公司，提供了一个商业版本的Apache Cassandra NoSQL数据库，近日该公司获得了4500万美元的D轮融资，该轮融资由Scale Ventures引导，这是一位新投资者，同时还有DFJ Growth和Next World Capital，现有的投资者Lightspeed Venture Partners、Crosslink Capital以及Meritech Capital Partners也进行了参投。从2010年发布产品以来，DataStax已经获得了总计8370万美元的风险投资。

Cassandra目录结构

由于ＮｏＳＱＬ中没有像传统数据库那样定义数据的组织方式为关系型的，所以只要内部的数据组织采用了非关系型的方式，就可以称之为ＮｏＳＱＬ数据库。
目前，可以将众多的ＮｏＳＱＬ数据库按照内部的数据组织形式进行如下分类：

Ｋｅｙ／Ｖａｌｕｅ的ＮｏＳＱＬ数据库
面向文档的ＮｏＳＱＬ数据库
面向列的ＮｏＳＱＬ数据库
面向图的ＮｏＳＱＬ数据库

不同的数据组织适合于不同的应用场景，后面将进行介绍。

ＳＱＬ语言和关系型数据库（ＭｙＳＱＬ、ＰｏｓｔｇｒｅＳＱＬ、Ｏｒａｃｌｅ等）是通用的数据解决方案，占有绝大多数的市场。不过在最近兴起的ＮｏＳＱＬ运动中，涌现出一批具备高可用性、支持线性扩展、支持Ｍａｐ／Ｒｅｄｕｃｅ操作等特性的数据产品，它们具有如下特性：

频繁的写入操作、相对较少的读取统计信息的操作（如网站访问计数器），应该使用基于内存的Ｋｅｙ／Ｖａｌｕｅ（键／值）存储系统（如Ｒｅｄｉｓ）或者是具备本地更新特性的文档存储系统（如ＭｏｎｇｏＤＢ）。
海量数据（如数据仓库中需要分析的数据）适合存储在一个结构松散、分布式的文件存储系统中，如Ｈａｄｏｏｐ。
存储二进制文件（如ｍｐ３或者ｐｄｆ文档）并且能够直接为用户的浏览器提供下载功能，可以使用ＡｍａｚｏｎＳ３。
临时性的数据（如网站的ｓｅｓｓｉｏｎ、缓存ＨＴＭＬ页面信息等）适合存储在Ｍｅｍｃａｃｈｅ中。
如果希望数据具备高可用性，并且能够将数据丢失的风险降到最低，同时整个系统具备线性扩展的能力，可以考虑使用Ｃａｓｓａｎｄｒａ和ＨＢａｓe。

4. Cassandra单节点安装

首先确保安装了JDK。

然后，修改配置文件，cassandra-0.7.6-2的conf下有以下几个配置文件：

(1) access.properties：设置每个数据库或者表的访问权限

(2) cassandra.yaml：主配置文件，包括日志路径，数据存放路径，各种参数配置等

(3) cassandra-topology.properties：配置网络的拓扑结构

(4) log4j-server.properties：log4j的配置选项

(5) passwd.properties：配置用户密码，与access.properties配合使用

对于简单的使用，只需配置cassandra.yaml文件:

(1) 集群名称cluster_name：同一个集群中的集群名称应该一样。

(2) 数据存放路径data_file_directories：可以根据情况配置一个有写权限的路径

(3) commit log路径commitlog_directory：同上

(4) saved cache路径saved_caches_directory：同上

(5) 日志文件路径log4j.appender.R.File：同上（这个选项在log4j-server.properties文件中）

此外，还需要修改服务监听的地址和thrift访问地址，即ListenAddress和ThriftAddress，配置文件默认监听的都是localhost：

<!-- Cassandra节点之间通信的监听地址，这里设置所在节点的ip-->
 
<ListenAddress>100.200.3.1</ListenAddress>
 
<!-- 这个是Thrift监听的地址，建议设置为0.0.0.0 -->
 
<ThriftAddress>0.0.0.0</ThriftAddress>

经过上面的配置就可以启动节点了：

进入bin目录，直接执行：./cassandra

5. Cassandra多个节点安装

首先，在各节点上，按照第4节方法配制各自对应文件。

然后，配制seeds。Cassandra没有传统集群的中心节点，各个节点地位都是平等的，通过Gossip协议维持集群中的节点信息。为了使集群中的各节点在启动时能发现其他节点，需要指定种子节点（seeds），各节点都先和种子节点通信，通过种子节点获取其他节点列表，然后和其他节点通信。种子节点可以指定多个，通过在 conf/ cassandra.yaml中的seeds属性配置。

seeds:

- 100.200.3.81

- 100.200.3.78

6. Cassandra附带工具使用方法介绍

bin目录下自带了很多工具，可以帮助用户很方便地进行一些操作。常用的工具有nodetool，cassandra-cli，sstable2json等

(1) nodetool

nodetool是一个cassandra集群管理工具，这里只简单介绍一些简单的命令，详细的命令可以参见工具的帮助信息。

ring命令

ring命令用于查看集群的节点信息，ring来源于consistent hash，在consistent hash中，各个节点组成一个环，通常称为ring。

Info命令

info可以参看某个节点负载，内存使用情况：

cfstats命令

cfstats命令可以查看各个CF的详细统计信息，包括读写次数、响应时间、memtable信息等。

(2) cassandra-cli

cassandra-cli是一个命令行工具，可以用于对数据库进行数据查询和检索。具体可参见这篇文章：

(3) sstable2json

将sstable中的数据转化为json格式，使用方法为：

Usage: sstable2json [-f outfile] <sstable> [-k key [-k key [...]]]

===============================================

一、安装

1、安装cassandra

1.1 下载安装程序

在http://cassandra.apache.org/下载Cassandra的安装程序;

1.2 安装配置

1)解压下载后的程序apache-cassandra-2.2.6-bin.tar.gz到某个目录，如d:cassandra；

2)修改conf目录下配置文件

A)使用记事本打开cassandra.yaml文件，修改如下参数：

data_file_directories:

- /var/lib/cassandra/data

为 - d:cassandradata

注意：-后面需要有空格

commitlog_directory: /var/lib/cassandra/commitlog

为：commitlog_directory: d:cassandracommitlog

saved_caches_directory: /var/lib/cassandra/saved_caches

为：saved_caches_directory: d:cassandrasaved_caches

B)使用记事本打开log4j-server.properties文件，修改如下参数：

log4j.appender.R.File=/var/log/cassandra/system.log

为：log4j.appender.R.File=D:Cassandralogs

2、安装JRE

2.1 下载安装程序

在http://www.oracle.com/technetwork/java/javase/downloads/index.html上下载jre的安装程序；

jre和jdk区别：jre只是java环境，jdk包含了开发工具和jre；

2.2 直接双击执行jre-6u25-windows-i586.exe进行安装，默认安装在C:Program FilesJavajre6目录即可；

3、配置环境变量

3.1 打开windows的环境变量配置窗口

鼠标右键点击我的电脑，选择属性，在弹出界面点击【高级】页签，再点击【环境变量】按钮；

3.2 配置JAVA_HOME环境变量

在“系统变量”添加JAVA_HOME，点击【系统变量】下方的【新建】按钮，输入

变量名:JAVA_HOME

变量值:C:Program FilesJavajre6

3.3 配置Cassandra_HOME环境变量

在“系统变量”添加Cassandra_HOME，点击【系统变量】下方的【新建】按钮，输入

变量名:Cassandra_HOME

变量值:D:EBOOKNoSQLapache-cassandra-2.2.6

4、启动Cassandra

开始运行中敲入cmd回车打开命令窗口，敲入cd D:EBOOKNoSQLapache-cassandra-2.2.6in回车，敲入d:回车，转到D:EBOOKNoSQLapache-cassandra-2.2.6in目录后，直接敲入cassandra就可以启动cassandra服务了，如下：

D:EBOOKNoSQLapache-cassandra-2.2.6in>cassandra

D:EBOOKNoSQLapache-cassandra-2.2.6in>cassandra
WARNING! Powershell script execution unavailable.
   Please use 'powershell Set-ExecutionPolicy Unrestricted'
   on this user-account to run cassandra with fully featured
   functionality on this platform.
Starting with legacy startup options
Starting Cassandra Server
INFO  14:02:03 Node configuration:[authenticator=AllowAllAuthenticator; authorizer=AllowAllAuthorizer; auto_bootstrap=true; auto_snapshot=true; batch_size_fail_threshold_in_kb=50; batch_size_warn_threshold_in_kb=5; batchlog_replay_throttle_in_kb=1024; broadcast_address=null; broadcast_rpc_address=null; cas_contention_timeout_in_ms=1000; client_encryption_options=<REDACTED>; cluster_name=Test Cluster; column_index_size_in_kb=64; commit
...
...
artition":"NONE"},defaultTimeToLive=0,minIndexInterval=128,maxIndexInterval=2048,speculativeRetry=99.0PERCENTILE,droppedColumns={},triggers=[],isDense=false]
INFO  14:02:14 Initializing system_auth.role_members
INFO  14:02:15 Netty using Java NIO event loop
INFO  14:02:15 Using Netty Version: [netty-buffer=netty-buffer-4.0.23.Final.208198c, netty-codec=netty-codec-4.0.23.Final.208198c, netty-codec-http=netty-codec-http-4.0.23.Final.208198c, netty-codec-socks=netty-codec-socks-4.0.23.Final.208198c, netty-common=netty-common-4.0.23.Final.208198c, netty-handler=netty-handler-4.0.23.Final.208198c, netty-transport=netty-transport-4.0.23.Final.208198c, netty-transport-rxtx=netty-transport-rxtx-4.0.23.Final.208198c, netty-transport-sctp=netty-transport-sctp-4.0.23.Final.208198c, netty-transport-udt=netty-transport-udt-4.0.23.Final.208198c]
INFO  14:02:15 Starting listening for CQL clients on localhost/127.0.0.1:9042...
INFO  14:02:15 Not starting RPC server as requested. Use JMX (StorageService->startRPCServer()) or nodetool (enablethrift) to start it
INFO  14:02:25 Created default superuser role 'cassandra'

验证有没有启动,用要确认Cassandra有没有再跑，可以用nodetool.bat这个工具进行确认。

bin>nodetool -h 127.0.0.1 ring

结果：

D:EBOOKNoSQLapache-cassandra-2.2.6in>nodetool -h 127.0.0.1 ring
Starting NodeTool

Datacenter: datacenter1
==========
Address    Rack        Status State   Load            Owns                Token
                                                                          9177302928968051776
127.0.0.1  rack1       Up     Normal  97.06 KB        100.00%             -9165356309934760118
127.0.0.1  rack1       Up     Normal  97.06 KB        100.00%             -9134459597765889899
127.0.0.1  rack1       Up     Normal  97.06 KB        100.00%             -9066115578285445066
127.0.0.1  rack1       Up     Normal  97.06 KB        100.00%             -9026304759784057275
127.0.0.1  rack1       Up     Normal  97.06 KB        100.00%             -8878071990522880873
...
...
127.0.0.1  rack1       Up     Normal  97.06 KB        100.00%             8623942122364639506
127.0.0.1  rack1       Up     Normal  97.06 KB        100.00%             8714309346994183881
127.0.0.1  rack1       Up     Normal  97.06 KB        100.00%             8719119404383607089
127.0.0.1  rack1       Up     Normal  97.06 KB        100.00%             8725585482200212568
127.0.0.1  rack1       Up     Normal  97.06 KB        100.00%             8765208445410304904
127.0.0.1  rack1       Up     Normal  97.06 KB        100.00%             8809038993346282672
127.0.0.1  rack1       Up     Normal  97.06 KB        100.00%             8962288472837700908
127.0.0.1  rack1       Up     Normal  97.06 KB        100.00%             8999197537072308487
127.0.0.1  rack1       Up     Normal  97.06 KB        100.00%             9045901750664612483
127.0.0.1  rack1       Up     Normal  97.06 KB        100.00%             9154510419811999586
127.0.0.1  rack1       Up     Normal  97.06 KB        100.00%             9177302928968051776

  Warning: "nodetool ring" is used to output all the tokens of a node.
  To view status related info of a node use "nodetool status" instead.



D:EBOOKNoSQLapache-cassandra-2.2.6in>

二、使用

1、连接Cassandra服务

　　从cassandra2.x之后，就没有了Cassandra CLI 的工具，而是CQL替代。开始运行中敲入cmd回车进入命令窗口，敲入cd D:EBOOKNoSQLapache-cassandra-2.2.6in后，在敲入d:回车转到bin目录中敲入cqlsh.bat命令回车，直接敲入如下命令可以连接到本机已经启动的cassandra数据

D:EBOOKNoSQLapache-cassandra-2.2.6in>cqlsh.bat

WARNING: console codepage must be set to cp65001 to support utf-8 encoding on Windows platforms.
If you experience encoding problems, change your console codepage with 'chcp 65001' before starting cqlsh.

Connected to Test Cluster at 127.0.0.1:9042.
[cqlsh 5.0.1 | Cassandra 2.2.6 | CQL spec 3.3.1 | Native protocol v4]
Use HELP for help.
WARNING: pyreadline dependency missing.  Install to enable tab completion.
cqlsh>

2、创建keyspace

create keyspace keyspace1;

use keyspace1;

3、创建column family

create column family Standard1 with column_type = 'Standard' and comparator = 'BytesType';

describe keyspace keyspace1;

list standard1;

drop column family standard1;

--必须指定column_type和comparator

create column family cf1 with column_type = 'Standard' and comparator = 'BytesType';

create column family cf2 with column_type = 'Standard' and comparator = 'UTF8Type' and rows_cached = 10000;

create column family Super1 with column_type=Super and comparator=BytesType;

--设置列值

set cf1['key_1']['column_1']='value_1';

set cf1['key_1']['column_2']='value_2';

set cf1['key_2']['column_1']='value_3';

set cf1['key_2']['column_2']='value_4';

--设置列值

set cf2['key_1']['column_1']='value_1';

set cf2['key_1']['column_2']='value_2';

set cf2['key_2']['column_1']='value_3';

set cf2['key_2']['column_2']='value_4';

set super1['key_1']['column_1']='value_1';

get cf2['key_2']['column_2']; --提示错误Column family Super1 may only contain SuperColumns

--取列值

get cf1['key_1'];

--计数

count cf1['key_1'];

count cf1['key_2'];

--取列值

get cf1['key_1']['column_1'];

--删除列值

del cf1['key_1']['column_1'];

list cf2[key_1:];

---二级索引的使用

1、定义：在Cassandra中，对列值(column values)的索引叫做"二级索引"，它与列簇(column families)中对key的

索引不同。二级索引允许我们对列值进行查询，并且在读取和写入的时候不会引起操作阻塞。

2、使用方法：

create keyspace demo;

use demo;

--注意大小写,索引birth_date

create column family users with comparator=UTF8Type and column_metadata=

[{column_name:full_name,validation_class:UTF8Type},

{column_name:birth_date,validation_class:LongType,index_type:KEYS}];

--插入数据：

set的语法大概长的像下面这样：

01.set Keyspace1.Standard1['geffzhang']['blog'] = 'http://www.dotnetting.cn'  
02.                                                 
03.                             \_ key             \_ value   
04.                                       \_ column   
05.          \_ keyspace  \_ column family  
就按照上面的语法来加几个数据进去，然后用get把数据拉出来看看

set users[a][full_name]='a';

set users[a][birth_date]=1977;

set users[b][full_name]='b';

set users[b][birth_date]=1978;

set users[c][full_name]='c';

set users[c][birth_date]=1979;

set users[d][full_name]='d';

set users[d][birth_date]=1977;

--查询birth_date=1977的数据：

get users where birth_date=1977;

--查询结果如下：

[default@demo] get users where birth_date=1977;

-------------------

RowKey: a

=> (column=birth_date, value=1977, timestamp=1306733443578000)

=> (column=full_name, value=a, timestamp=1306733438406000)

-------------------

RowKey: d

=> (column=birth_date, value=1977, timestamp=1306733577125000)

=> (column=full_name, value=d, timestamp=1306733572687000)

2 Rows Returned.

--多个二级索引使用

set users[a][card_no]='111';

--更新列簇users设置card_no和birth_date都索引

update column family users with comparator=UTF8Type and column_metadata=

[{column_name:full_name,validation_class:UTF8Type},

{column_name:birth_date,validation_class:LongType,index_type:KEYS},

{column_name:card_no,validation_class:UTF8Type,index_type:KEYS}];

--查询证件号码为111的列

get users where card_no='111';

get users where card_no='111' and birth_date=1977;

--虽然full_name没有索引，但是也能够查出结果

get users where card_no='111' and birth_date=1977 and full_name='a';

get users where card_no='111' and full_name='a';

get users where birth_date=1977 and full_name='a';

--如果仅仅通过full_name查询则出错

get users where full_name='a';

--结果如下：

[defualt@demo] get users where full_name='a';

No indexed columns present in index clause with operator EQ

--退出

quit;

Cassandra在设计的时候，就是支持Thrift的，这意味着我们可以使用多种语言开发。对于Cassandra的开发本身而言，这是使用Thrift的好处：支持多语言。坏处也是显而易见的：Thrift API功能过于简单，不具备在生产环境使用的条件。

Cassandra 建议用户在它们的程序内用高阶API与Cassandrar进行通信，以C#来说，像是FluentCassandra 或 Aquiles。但是你也可以用官方出的最低阶API - Thrift 来与Cassandra沟通。

Thrift这个是Cassandra自带的最简单的一类API，这个文件在apache-cassandra-0.5.1.中包含了。可以直接使用。我们也可以自己安装一个Thrift，然后通过cassandra.thrift文件自动生成。如果你要使用Cassandra，那么我们必须要了解Thrift API，毕竟所有的其他更加高级的API都是基于这个来包装的。

准备运行环境
1.1 cassandra可以安装在windows和linux下，本例子安装在centos6.7的环境下。
1.2 关闭防火墙。或者开放9042（默认的CQL本地服务端口）、9160（默认的Cassandra服务端口）、7000（Cassand集群内节点间通讯端口）、7199端口（Cassandra JMX 监控端口）
　　关闭防火墙：

1 service iptables stop
2 chkconfig iptables off

开放端口：

1 vi /etc/sysconfig/iptables
2 -A INPUT -m state –state NEW -m tcp -p tcp –dport 3306 -j ACCEPT（仿照这个写）
3 /etc/init.d/iptables restart

1.3 安装JDK，配置环境变量
下载JDK：

yum -y install wget     //安装wget插件
wget –P /usr http://download.oracle.com/otn/java/jdk/8u60-b15/jdk-8u60-linux-i586.rpm?AuthParam=1467614887_3fe640855a43a439fb5f5fec1f5045e2
rpm -ivh jdk-8u60-linux-i586.rpm

配置环境变量：

1 vi /etc/profile
2     JAVA_HOME=/usr/java/jdk1.8.0_60
3     JRE_HOME=/usr/java/jdk1.8.0_60/jre
4     PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
5     CLASSPATH=:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
6     export JAVA_HOME JRE_HOME PATH CLASSPAH
7 source /etc/profile

安装
2.1 下载并解压cassandra安装包，本例子用的版本是2.1.14（这个镜像不行的话去官网找别的镜像）

1 wget http://mirrors.cnnic.cn/apache/cassandra/2.1.14/apache-cassandra-2.1.14-src.tar.gz
2 tar -zxvf apache-cassandra-2.1.14-bin.tar.gz  -C /opt/cassandra

2.2 新建cassandra数据存放的文件夹（用安装包的方式就需要这一步）。

1 //可以根据磁盘情况设置这3个文件夹，但是要和cassandra.yaml里的想对应
2 mkdir /var/lib/cassandra/data
3 mkdir /var/lib/cassandra/commitlog
4 mkdir /var/lib/cassandra/saved_caches

2.3 打开解压后的/opt/apache-cassandra-2.1.14/cassandra/conf的目录，修改其中的cassandra.yaml中的一些参数

1 cluster_name: 'xxx'  //集群名称。同一个集群要使用同一名称
2 data_file_directories:
3     - /var/lib/cassandra/data  //数据文件存放路径。打开这个注释，注意不要合并成一行，合并成一行好像会出问题，这里要与前面新建的文件夹对应。
4 commitlog_directory: /var/lib/cassandra/commitlog //操作日志文件存放路径。打开注释，与前面新建的文件夹对应。
5 saved_caches_directory: /var/lib/cassandra/saved_caches  //缓存文件存放路径。打开注释，与前面新建的文件夹对应。
6 - seeds: "192.168.x.x"  //集群种子节点ip,新加入集群的节点从种子节点中同步数据。可配置多个，中间用逗号隔开。
7 listen_address: 127.0.0.1  //需要监听的IP或主机名。改成本机IP
8 rpc_address: 127.0.0.1  //用于监听客户端连接的地址。建议设置成IP或0.0.0.0。若设置0.0.0.0，则要放开broadcast_rpc_address: 1.2.3.4的注释。

2.4 进入到bin目录下

1 ./cassandra

如果提示没有权限什么的

1 ./cassandra -R //用root用户启动

如果没有报什么奇奇怪怪的ERROR然后看到 Node /x.x.x.x state jump to NORMAL，这样cassandra就算安装完成了，也可以在在bin目录下使用./nodetool status 查看集群信息确认一下。

UN 表示的是该服务器的状态，UN是运行中，DN是宕机。
Note: xxxxxxx 这个问题是因为同一个键空间里存在不同复制策略的表，不影响使用，但是最好建表和修改表的时候注意一下。