集算器如何优化SQL计算（4）字串与日期

字串

对于一般不涉及到集合的字串拆分合并运算，各数据库的SQL都有较丰富的支持，甚至包括正则表达式等复杂分析功能。当然，这些功能集算器也都有，作为动态语言，集算器还提供将字串作为表达式计算的功能。

在SQL中比较麻烦的字串处理主要和分组逆运算相关。字串由分隔符分成若干段，需要拆开形成多条记录或构成集合进一步运算，SQL没有显式集合，这类操作就很困难。

相对来讲，分组汇总时将字段值合并成一个串要容易一些，MySQL有group_concat函数完成这一功能，其它数据库一般也有形式略复杂的相关函数。

先看简单的拼串任务。设有学生表结构为：班级、姓名、性别；现要按班级分组后将男生和女生分别列成逗号分隔的串，串成员按姓名排序。

	A
1	=db.query("select * from 学生表")
2	=A1.group(班级; ~.select(性别==’男’).(姓名).sort().string():男生,~.select(性别==’女’).(姓名).sort().string():女生)

集算器有集合数据，无需专门针对分组的拼串函数，可以随意组合出各种运算。

常规的拆串将伴随生成多记录，如上例的逆运算，要将结构为：班级、男生、女生的班级表再计算成结构为班级、姓名、性别的学生表：

	A
1	=db.query("select * from 班级表")
2	=create(班级,姓名,性别)
3	>A1.run(A2.insert(0:男生.array(),A1.班级,~,”男”),A2.insert(0:女生.array(),A1.班级,~,”女”))

将串拆成集合后再据此生成记录就可以，不需要象SQL那样要用递归查询或与基准表JOIN的复杂方案。

有时拆串的目标是为了做集合运算。设有图书表结构为：书名、作者；其中作者是由逗号分隔的多人。现要找出同一组作者写过两本或以上书的数据，作者串中人名次序不确定。

	A
1	=db.query("select * from 图书表")
2	=A1.group(作者.array().sort()).select(~.len()>1).conj()

拆串成集合后排序，就可以用来作为分组键值了，剩下都是常规动作了。

日期

与字串类似，数据库对常规的单值日期处理能力也没问题，但同样在碰到日期拆分或日期序列生成时就会比较麻烦。其实根本上的原因还是SQL的集合化不够彻底。

设有旅行记录表结构为：人员、开始日、结束日、…；现在要统计这批记录中哪5天正在旅行的人数最多。

这个问题需要将开始日和结束日之间的日期拆成单个的日期集合再分组统计即事。

	A
1	=db.query("select 开始日,结束日 from 旅行表")
2	=A1.conj(periods(开始日,结束日)).groups(~:日期,count(1):人次)
3	=A2.sort(人次:-1).to(5)

集算器可以基于集合数据类型提供日期拆分方法，完成这个问题就很轻松。

日期序列生成的复杂度则主要由日期本身特点造成，在伴随逆分组运算时就更麻烦。

设有事件发生表T结构为：I（事件）、S（开始日期）、E（结束日期）；现在要将两个日期之间的时段按月拆开多条，头月、尾月份分别以S、E为开始日和结束日，中间的月份是完整月。

	A
1	=db.query("select I,S,E from T")
2	=A1.news(interval@m(a=S,b=E)+1;I, max(a,pdate@m(after@m(a,~-1))):S,min(b,pdate@me(after@m(a,~-1))):E)

pdate@m和@me可分别计算出每月的头尾日期。after@m将生成某日期几个月后的日期，这个函数会自动针对月末，在生成月区间时非常有用。