Laxcus大数据管理系统2.0（5）- 第二章数据组织

第二章数据组织

　　在数据的组织结构设计上，Laxcus严格遵循数据和数据描写叙述分离的原则，这个理念与关系数据库全然一致。在此基础上，为了保证大规模数据存取和计算的须要，我们设计了大量新的数据处理技术。同一时候出于兼顾用户使用习惯和简化数据处理的目的，继续沿用了一些关系数据库的设计和定义，当中不乏对SQL做适量的修订。

在这些变化中，核心仍然是以关系代数的理念去处理数据，以及类自然语言风格的数据描写叙述。所以用户在使用体验上。和关系数据库相比。不会感觉到有太多的差异。

　　本章将介绍Laxcus数据结构的组成，并对当中的一些修订和修订原因做出说明。

2.1 基础

　　Laxcus沿袭了关系数据库的用户模型、逻辑模型、存储模型的三层结构。对于逻辑模型。遵循用户账号、数据库、表的结构序列，即用户账号下能够建立多个数据库。数据库下能够建立多个表，在表之下是数据文件。

由于Laxcus的多集群架构，支持表跨节点跨集群存在。

在逻辑描写叙述上。表是行的集合。行由多列构成，每一列相应一个数据值。实体的行，最多容纳32767列（0x7FFF），这个尺寸足以满足各种数据应用须要。

在列的基础上，能够建立索引，通过索引实现对表的高速检索。

用户的配置数据经过加密后。会保存到Top节点的数据字典里。

　　在兼容SQL方面，SQL的管理控制语句、数据定义语句、数据操作语句，以及运算符、keyword、大部分SQL函数。被完整继承下来。

用户依旧能够依照SQL标准进行操作。被支持的还有“空值”，包含NULL和EMPTY。二者的差别是，NULL表示数据值没有定义或者不知道。适用于全部数据类型；EMPTY仅仅用在字符或者字节数组上，表示数据值确定且是0长度。做为SQL核心的4个操作语句也得到支持，并在此基础上扩展了SELECT嵌套语句、ORDER BY、GROUP BY子句，另外也能够使用LIKEkeyword进行模糊检索。

管理语句	说明
CREATE USER	建立一个用户账号和password
ALTER USER	改动用户账号的password
DROP USER	删除一个用户账号及其下的全部数据资料
GRANT	对用户账号下的某个操作授权
REVOKE	收回用户账号下的某个操作权利

表2.1.1 管理语句

数据定义	说明
CREATE DATABASE	建立一个数据库
DROP DATABASE	删除一个数据库及其下的全部表
CREATE TABLE	建立一个表
DROP TABLE	删除一个表和其下的全部数据

表2.1.2 数据定义语句

数据操作	说明
INSERT	写入记录
DELETE	删除记录
UPDATE	更新记录
SELECT	查询记录
JOIN	连接查询

表2.1.3 数据操作语句

运算符类型	运算符	说明
比較运算符	=	等于
	>	大于
	<	小于
	>=	大于等于
	<=	小于等于
	<> !=	不等于
逻辑运算符	not	非
	and	与
	or	或
	between ... and	在某些数据范围内
	in	满足多个条件之中的一个
	like	模糊查询。匹配特定符串
赋符运算符	=	对变量赋值

表2.1.4 运算符

2.2 数据类型

　　眼下各种关系数据库上的数据类型，由于产品和版本号原因。数量也不尽同样。在实际应用中，最经常使用到的大约10余个。依据这样的现状。我们在设计数据类型时做了简化处理，取消了当中大部分比較少用的数据类型，保留了一批基础数据类型，另外考虑到网络应用需求，新添加了一批数据类型，同一时候对某些数据类型进行了合并。最后把它们分为两大类：固定长的数值类型、可变长的数组类型。见表2.2所看到的。

数值类型在不同操作系统平台上都是统一的，数组类型的长度范围在0 - 2G字节之间，能够随输入数据自己主动调整。这个尺寸足以容纳当前各种文本、图片、视频、音频等多媒体内容。由于这个尺寸对用户来说已经足够大，用户在输入数据时，能够忽略列长度问题。在字符选择上，为了适用于多语言的混合环境，字符类型内码统一採用Unicode编码，因此就避免了乱码现象。Laxcus字符定义是。单字节的Char相应UTF8编码，双字节的WChar相应UTF16 Big Endian编码，四字节的HChar相应UTF32编码。

用户在设计表的时候能够依据须要选择。比如英文环境应该使用Char，东亚语系内码和西里尔文字都是双字节，採用WChar更合适。

数据类型				标识	字长	范围
数组类型	字节	原始类型		RAW(BINARY)	8	0 - 2G
	媒体	文档		DOCUMENT	8
		图像		IMAGE
		音频		AUDIO
		视频		VIDEO
	字符		单字符	CHAR	8
			宽字符	WCHAR	16
			大字符	HCHAR	32
数值类型	数值		短整型	SHORT (SMALLINT)	16	-32768 - 32767
			整型	INT	32	-2147483648 - 2147483647
			长整型	LONG (BIGINT)	64	-9223373036854775808 - 9223373036854775807
			单浮点	FLOAT	32	-3.40E+38 - 3.40E+38
			双浮点	DOUBLE	64	-1.79E+308 - 1.79E+308
	时间日期		日期	DATE	32	1年1月1日 - 9999年12月31日
			时间	TIME	32	0时0分0秒0毫秒 - 23时59分59秒999毫秒
			时间戳	TIMESTAMP	64	1年1月1日0时0分0秒0毫秒 - 9999年12月31日23时59分59秒999毫秒

表2.2 数据类型

2.3 全局数据库

　　在Laxcus大数据系统里，数据库被定义成“全局”的。

这个“全局”意味着每个数据库的名称，在整个主域集群里都是唯一的。不同意出现重叠现象，即使分属两个用户也不能够。比方,当A用户建立一个名为“Product”的数据库后。B用户再建立“Product”数据库将被系统拒绝。

　　採用全局数据库是出于简化系统设计和降低操作环节的考量。

这样节点在执行过程中，由于数据库不存在同名歧义的可能性，系统能够非常easy推断每个数据库和用户的相应关系，能够降低很多不必要的作业流程。

2.4 跨数据库操作

　　我们在进行数据结构规划设计时。经常须要定义一个或者几个数据库，再这些数据库之下，又定义不同需求的表，然后录入不同性质的数据。同一时候。我们还须要设置一些公共參数，把它们放在一个或者几个表里，为了便于管理和使用，又经常希望放在一个数据库里。在数据处理时。能够给分散在不同数据库下的数据表共同使用。

　　出于这种考虑，Laxcus大数据系统支持跨数据库的数据表操作。这样就形成了在一个用户账号下。在数据操作时。全部表与表之间。不用事先声明。就能够实现全然的互通互调用。在精简了系统设计和集中数据资源的同一时候，也降低了数据处理过程中非常多不必要的麻烦。方便了用户高速处理数据，提高了数据处理的灵活性和效率。

　　在实际应用中。这项功能对数据检索很有利，诸如连接查询 (Join)和嵌套查询（Sub select）这种操作。跨数据库操作不会出现数据混乱，由于它们都要接受Aid节点的管理，被Aid节点有序地依照所属条件分别运行。

2.5 固定表

　　在关系数据库里，表结构是能够随时改动变化的，可是在Laxcus，这项功能被停止使用。表结构一旦定义禁止改动。禁止的原因在于大数据所处的现实环境。试想一下，在一个由上千台计算机组成的集群环境里，假设同意改动表结构，会有什么反应？所有正在执行和关联的任务将被迫停止，新的任务将转入队列中堆积和等待。所有数据内容将依照新的表结构又一次组织和排列。

这样的变化和等待的过程，是不论什么一个大数据集群所不能承受的。囿于这样的现实情况。Laxcus规定，表的结构一旦正式确定不同意改动。

　　因为表的不可改动。同一时候被改变的还有对索引的定义。依照SQL规范。“CREATE INDEX”是在“CREATE TABLE”之后进行的操作。

如今将它们合并到一起，在定义列的时候，指定这个列是否成为索引。

　　对索引的解释，Laxcus也做了调整。

新的规定是，一个表中仅仅能有一个列成为主索引（Prime Index）和随意多个列的副索引（Slave Index）。副索引概念与SQL没有区别，主索引除了具有副索引的功能。主要用于指示数据排列位置，即将有同样值的列组织到一起。

例外的是，对于列存储模型，全部列成员，即使用户不定义索引，其列值也可以自己主动做为索引使用，同一时候不添加磁盘和内容开销。可是两种存储模型都须要定义一个主索引。由于涉及到数据内容在磁盘和内存上的排列。

　　另外。为适应大数据处理须要。在建表命令中添加了一批新的内容，这些參数主要在“Create Table”和“数据库名.表名”之间声明，列声明中也有新的定义。

这些參数都是可选的，不声明的时候。系统将使用默认值。

请參见图2.5和表2.5。

图2.5 数据库建表命令语句

keyword	说明
SM	存储模型。NSM：行存储模型；DSM：列存储模型
CLUSTERS	子域集群，一个或多个Home地址，或者指定数字
CHUNKSIZE	数据块尺寸，以兆为单位
CHUNKCOPY	同质数据块数据，包含一个主块和随意个从块
HOSTMODE	表对节点全部权。SHARE：共享主机；EXCLUSIVE：独亨主机
HOSTCACHE	数据块缓存，依据热度由节点选择是否自己主动载入
PRIMEHOSTS	表初始拥有的Data主节点数量，以后随数据诸量自己主动添加
NULL\|NOT NULL	支持空值或者否（适用全部数据类型）
EMPTY\|NOT EMPTY	支持这值或者否（仅仅限字符串和字节数组）
CASE\|NOT CASE	字符串大写和小写敏感或者否
LIKE\|NOT LIKE	字符串同意模糊查询或者否
DEFAULT	列的默认值。依据类型支持数值、数组、字符串、SQL函数
PRIME KEY\|SLAVE KEY	主/从索引。如是数组类型，指定从0下标開始的索引长度
PACKING	数组列内容的加密、压缩，若加密提供password

表2.5 数据库建表keyword

2.6 取消视图

　　在SQL的定义中，视图是一个虚拟表。是对实体表和其他视图的关联和映射，做为一个数据描写叙述存在于系统中，被视为用户和实体表之间的过渡而存在。视图具有向用户屏蔽实体表数据结构的作用，也具有在改变表数据结构时，不用改变上层描写叙述的能力。

仅仅是在数据处理时，视图才将数据操作又一次定位到实体表上，然后向用户返回经过它处理重组后的新的数据集合。

　　假设遵守SQL这套定义，把视图转移到大数据环境，它在处理海量数据时，就要进行视图和表之间的关联和转换，这无疑将添加执行开销。减少处理效率，同一时候也加大了系统设计难度，与我们追求简单、快捷的设计初衷相悖。另外Laxcus为代替视图提供了一套新的技术方案：数据构建。这项技术提供了对一个表或者多个表的分析、组合能力。而且具有比视图更大的灵活性和高效率。另外一个更重要的原因是：在Laxcus体系里，用户、数据之间的概念和关系已经与关系数据库大不一样。关系数据库提供视图的初衷是向部分用户屏蔽表数据结构，或者改变表数据结构而不用改变上层表述，而Laxcus的用户拥有对自己数据的所有管理权和使用权。表的数据结构也是固定的。这种设计假设移植到Laxcus显然有悖常理。鉴于这些原因，综合比較之后，Laxcus取消了视图。

2.7 带Where子句的Select检索

　　在关系数据库上，SELECT检索不带WHERE语句将返回表下的所有记录。按此推理，计算机集群上的操作也应该返回一样的结果。可是这种操作转移大数据环境下。面对巨大的数据压力将导致灾难性的后果：计算机会由于瞬间暴发的庞大数据量，在还来不及处理时。就造成内存溢出和软件系统崩溃；网络也会由于这些瞬间涌现的巨大流量。出现数据风暴，造成网络堵塞。接下来的可能是大面积故障和连带的波及影响扩大化，造成整个集群的故障，从而被迫中断数据处理业务,造成不可挽回的损失。这种情况显然是不可接受的。另外，在现实的应用环境里，全网络全数据的检索操作事实上并没有太多实际意义。

　　由于上述原因。Laxcus对数据检索提出这种规定，主要的数据检索操作必须是“SELECT-FROM-WHERE”语句块，否则将视为非法。拒绝运行。这项检查工作将在Front节点上分析运行，然后在集群里还有进一步的推断。

2.8 数组列的压缩和加密

　　我们在使用非常多网络应用的时候，常常会在当中保存一些敏感和关键的内容，比方银行卡password、电子邮件账号、手机电话、家庭地址等私密性非常强的信息。这些信息，一般是不希望被别人知道的，包含网络管理人员。另一些内容，比如像网页或者文档这种文本数据，一般会非常长。假设採用明文的方式保存会占用大量磁盘空间，将其压缩再保存就能有效降低空间占用量，况且文本数据的压缩比率都是非常高的。

　　Laxcus提供了这样一个选项。能够对这类信息进行加密和压缩。见图2.5和表2.5，这里对格式进行说明。“Packing”是对数组列内容进行压缩和加密的keyword。压缩和加密能够同一时候声明，也能够任选其一声明，假设仅仅声明当中一种。要去掉连接它们的“AND”keyword。做加密声明时，同一时候须要提供password。password能够是不论什么语种的和不定长的字符串，在建表时会转换为UTF8码保存。压缩和加密的算法名称是固定的。已经支持的压缩算法有：GZIP、ZIP，以及加密算法：AES、DES、3DES、BLOWFISH。

　　数组列的压缩和加密由用户定义，在建表时输入。

在此后的处理过程中，算法和password也仅仅对用户可见。

　　特别声明：不管数组列是否被压缩和加密。都不影响其做为索引的使用。

2.9 事务

　　事务在2.0版本号是一个重要的模块，以管理器的形式运行在Aid网站上。

全部数据处理工作都被默认要求运行事务处理流程。就是它们在运行数据操作前，须要通过事务管理器的审核才干实施。事务申请是一个同步串行操作过程，採用队列的“先到先得”原则，总是由排在最前面的申请获得优先使用权。申请成功后的事务会被记录到管理器队列，作为兴许事务申请时的推断比較根据，直到它的数据处理工作完毕后。才从管理器队列中撤销。没有申请成功的事务将被挂起，直到前面的事务从队列中撤销后才被唤醒。

　　我们在兼顾大数据并发效率、平衡事务申请要求、保证事务操作精度这几个方面需求考虑下，依照事务操作范围，把事务分为三种类型：用户型事务、数据库型事务、表型事务。

用户型事务拥有操纵账号下所有资源的权力，数据库事务可以操作一个或者几个数据库以及下属所有表，表事务仅仅能操作一个或者几个详细的表。

三种事务在管理器上的地位是平等的，没有隶属关系。

使它们产生关联的是它们所绑定的资源。这是决定一个事务可以获得申请通过、还是被拒绝挂起的根据。

　　事务另外一个属性是操作状态。事务操作状态被分成“读”和“写”两种。

不论什么一个"写“事务生效。即表示和它关联的资源对象被锁定，不同意再申请，直到这个事务完毕，这些资源被解锁。兴许“写”申请才干生效。假设是“读”操作事务生效，被关联的资源仅仅做标记，供兴许全部事务參考，其他“写”事务仍然拥有锁定这些资源的权力。

　　综上所述，结合图2.9。在系统执行过程中。事务申请依照例如以下规则处理：

　　1.全部类型的"读"事务都能够共享存在。

　　2.假设队列都是“读”事务，兴许一个“写”事务能够获得批准。

　　3.假设队列中有“写”事务，兴许一个“写”事务仅仅要不与它们存在资源冲突，就能够获得批准。否则被拒绝挂起。

　　4.为了进一步提高数据库事务和表事务的并发效率，在它们之间有一个“数据库名称”比較。当这种两个"写“事务发生”数据库名称“冲突时。兴许“写”事务被挂起，即同名相互排斥。

　　5.假设一个事务同一时候存在“读写”两种状态时，将依照“写”事务规则处理。

图2.9 Laxcus事务处理

2.10 分布描写叙述语言

　　分布描写叙述语言（简称DDL）開始于Laxcus 0.1版本号，经过0.x、1.x版本号加强后，在2.0版本号又得到进一步完好。分布描写叙述语言由大量命令组成。使用者在操作界面上输入字符语句命令语句，通过语法解释器解释后，转换成计算机指令，分发到集群上运行。分布描写叙述语言经过这几个版本号的完好，如今已经与Laxcus大数据管理系统高度集成，提供了全方位的管理、操纵集群能力，而且贯穿到集群的每个环节。我们设计分布描写叙述语言的目的在于简化操作人员的工作，希望实现“仅仅须要操作人员通知集群做什么。而不须要去知道集群怎么做”。经过这几个版本号的使用调查证明，分布描写叙述语言所带来的效果，已经成为Laxcus大数据管理系统简单、高效处理的基本保证。

　　下面我们对分布描写叙述语言的基本面貌做些简单的介绍。

　　2.10.1 三层结构模型

　　如图2.10.1所看到的。分布描写叙述语言是一个三层结构模型。命令从Front或者Watch节点发出。来自Front节点的命令属于用户命令，来自Watch节点的命令属于集群管理命令。不管是Front还要Watch，它们的命令都须要经过语法解释器翻译成计算机指令，才干发往集群。

用户命令在进入集群运行操作前，首先要通过网关节点（Aid、Call）的检查。在推断是正确而且有效后，网关节点会把这个命令分配给兴许相关节点，去运行数据处理和数据管理工作。

Watch节点由于位于集群内部。命令被翻译成计算机指令后。会直接发给与命令关联的节点去处理。

图2.10.1 三层结构模型

2.10.2 命令分类

　　如上所述。分布描写叙述语言中的命令分为两大类：集群管理命令、用户命令。

集群管理命令由管理员从Watch节点发出，用来控制、检查集群和节点的工作状态、分布资源。

用户命令由用户从Front节点发出，主要是运行数据操纵和数据管理。

由于分布描写叙述语言兼容SQL，SQL中的全部命令被划入用户命令队列里。

集群管理命令和用户命令在系统中是全然平行的，没有交集，也不同意互相使用。在权限等级上，全部集群管理命令都拥有比用户命令更高的操作权限。这体如今命令的被调用过程中。比方当两类命令同一时候出如今一个节点时，集群管理命令总是比用户命令优先获得运行的权力。

只是在系统实际运行时，在集群中工作的基本都是用户命令，集群管理命令偶尔出现，并且也不会产生太多计算压力，所以这样的优先权并不easy体现出来。

图2.10.2 集群管理命令和用户命令

2.10.3 自己定义參数

　　在过去几个版本号的演进过程中，有越来越多的用户要求系统提供一种在命令中存在、不须要系统理解、由用户自行处理的数据。这些数据的表现上。有时候可能是一个数字，有时候是一个字符串。也可能是一张图片。或者其他经过格式化处理的信息。

它们成为命令的一部分，參与到用户的数据处理工作中。

　　顺应这一项发展需求。同一时候也为了规范化数据样式，提高数据处理效率。在2.0版本号中，分布描写叙述语言正式支持自己定义參数。而且对自己定义參数做出这种规定：參数格式由Laxcus提供，内容由用户自己解释。如图2.10.3所看到的，自己定义參数被分解成三部分：名称、类型、数值。当中名称由用户自由定义，类型是系统规定，类型在名称之后。被括号包围。

类型分为数字型和数组型两组。

数字类型包含bool、short、int、long、ushort、uint、ulong、float、double，数组类型包含string(char)、byte、image、object。为保证传输过程时的内码一致，用户输入的string数值会被转为UTF8编码。假设自己定义參数是一个数组类型。那么数值须要被单括号包围，假设自己定义是数字类型则不须要。这种样式的自己定义參数被语法解释器解释后，将存入到命令的自己定义參数队列。随命令一起分发到集群上，在须要它发挥作用的位置參与数据处理工作。

图2.10.3 分布描写叙述语言自己定义參数

Laxcus大数据管理系统2.0（5）- 第二章 数据组织

第二章 数据组织

2.1 基础

2.2 数据类型

2.3 全局数据库

2.4 跨数据库操作

2.5 固定表

2.6 取消视图

2.7 带Where子句的Select检索

2.8 数组列的压缩和加密

2.9 事务

2.10 分布描写叙述语言

2.10.1 三层结构模型

2.10.2 命令分类

2.10.3 自己定义參数

Laxcus大数据管理系统2.0（5）- 第二章数据组织

第二章数据组织

　　2.10.1 三层结构模型