数据处理发展简史

数据管理技术是随着存储介质的发展而逐渐发展的技术，其实早在电子计算机发明之前就有数据自动处理的技术了。1890年，美籍德裔统计学家Herman Hollerich将穿孔卡片的想法运用于美国人口普查的数据制表，并创办了一家公司(后来渐渐成为IBM)，将穿孔卡片用于制表机。

　　　　图1：穿孔纸带

在进入电子计算机时代后，存储介质经过了三个时代，数据库管理系统模型也随之有明显的特征。二十世纪五、六十年代，使用磁带作为主要的存储介质，这个磁带跟平时听音乐用的磁带是类似的，可以认为是一维的存储系统，只支持向前和向后两个方向访问数据，所以访问数据效率很低，这个时候数据管理系统使用的数据模型是网状模型和层次模型，它们被统称为引导模型，引导信息类似于在图中或树的从一个节点到另一个节点所经过的路径；二十世纪六十年代末七十年代初，磁盘系统出现了，在磁盘上磁头可以在磁道上高速访问数据，也可以在磁道间移动，可以认为这是一个二维的存储系统，只要知道数据的访问坐标便可以快速访问到该数据，无需在一条路径上折返，在磁盘的访问特点下，引导模型显得不合时宜了，尤其是这类数据模型的限制变得越来越突出：不能表示多对一和多对多的这类关系；程序员需要知道太多底层的存储细节等。1970年E.F Codd 1970发表了一篇跨时代的论文【1】，标志着关系模型的出现，关系模型简单易用，程序员不必关心数据存储的底层细节，但关系模型产生初期，由于实现上的原因，关系模型系统性能还无法与层次模型和网状模型的成熟数据库相比，直到System R出现之后，出现一批的商业系统如Oracle、DB2，Ingres等推动了关系数据库的成熟，关系型数据库在主流应用中完全取代了层次模型和网状模型，数据库技术正式进入关系时代。SQL语言本身就是为了决策支持系统设计，但关系数据库最开始的应用是处理交易类的应用，有很多的插入更新删除的操作，由于关系模型和主程序的阻抗失谐问题（impedance mismatch，关系模型的主要问题之一，主要是关系模型的存储方式与应用程序数据在主存的组织方式是不一致的，从数据库读入和向数据库写入时都需要做转换），无法由上层应用保证关系模型系统的ACID，作为成熟的系统还必须支持事务，所以直到现在我们基本上把关系模型数据库和支持事务处理的数据库划了等号。二十世纪九十年代后随着数据规模的增长，商业领域对分析类的需求增多，数据库领域的技术创新主要集中在OLAP方向上：充分利用多核的SMP技术、数据分区、降低IO的列式存储技术、利用多台设备进行并行处理的MPP技术；第三个时代是二十一世纪直到现在，互联网技术的兴起，PC普及，每个人都成为数据的主动生产者，尤其是紧接着到来的移动互联网时代，每个人和移动设备合一，成为了数据的被动生产者，每时每刻都会产生大量的数据，而且数据的形式多样，大数据时代到来了。在大数据时代，传统的商业系统由于封闭的原因，难以跟上大数据处理的需求。被誉为Google三驾马车的三篇论文，奠定了大数据处理的基础，但Google的内部系统并不开源，但马上Yahoo的开发者就根据Google论文而“山寨”的开源大数据处理平台Hadoop，MapReduce成为大数据处理的主要工具、基于KV存储的HBase受到了追捧，与此同时是对关系数据库的质疑，NoSQL运动兴起，也出现了一些其他基于KV存储的新型数据库：MongoDB、Cassandra、Couchbase等。最开始NoSQL的口号是“No SQL”，也就是放弃SQL语言、放弃关系模型，但很短的时间后人们发现，关系模型数据库在很多关键的领域还是无法替代的，尤其是SQL语言，具有广泛的群众基础，也比KV的CRUD接口更容易使用，所以后来很多的KV引擎上也支持了类SQL的语法，最具代表性的是在Hadoop系统中有Hive提供简单的SQL访问接口，即Hive将SQL的关系运算转换成了MR算子。于是后来NoSQL又变成了NOSQL，也就是“Not Only SQL”。关系数据库领域的泰斗们并没有被大数据处理的狂热所动，Michael Stonebraker 就一直对MapReduce报怀疑态度，认为完全是用一种暴力计算的方式解决问题。没过多久就由UC Berkeley的学生在Hadoop基础上推出了Spark，Spark借鉴了传统关系数据库的一些技术，在计算效率上远超MR，很快Spark系统与Hadoop系统进行了融合，成为新的大数据处理平台。当然传统的关系数据库圈也不甘落后，也一直也在进行着创新，近十几年间Vertica、Greenplum、Vectorwise、VoltDB等新兴的关系数据库也逐步成熟，致力于解决大数据中高价值的关系数据分析领域的性能问题，这个趋势被称为NewSQL，并且几乎每个分析型关系数据库都会将自己的SQL引擎架设在HDFS之上，形成融合的解决方案。

今天，对于数据处理领域来说既是最好的时代也是最坏的时代，因为创新每天都在发生，颠覆也是。