初识mongodb

MongoDB（来自于英文单词“Humongous”，中文含义为“庞大”）是可以应用于各种规模的企业、各个行业以及各类应用程序的开源数据库。作为一个适用于敏捷开发的数据库，MongoDB的数据模式可以随着应用程序的发展而灵活地更新。与此同时，它也为开发人员提供了传统数据库的功能：二级索引，完整的查询系统以及严格一致性等等。 MongoDB能够使企业更加具有敏捷性和可扩展性，各种规模的企业都可以通过使用MongoDB来创建新的应用，提高与客户之间的工作效率，加快产品上市时间，以及降低企业成本。
MongoDB是专为可扩展性，高性能和高可用性而设计的数据库。它可以从单服务器部署扩展到大型、复杂的多数据中心架构。利用内存计算的优势，MongoDB能够提供高性能的数据读写操作。 MongoDB的本地复制和自动故障转移功能使您的应用程序具有企业级的可靠性和操作灵活性。
mongoDB的重要功能特性：
1.支持特别查询：在MongoDB中，可以通过字段，范围查询进行搜索，并且还支持正则表达式搜索。
2.索引：可以索引文档中的任何字段。
3.复制：MongoDB支持主从复制。主机可以执行读写操作，从机从主机复制数据，只能用于读取或备份(不写入)
4.复制数据：MongoDB可以在多台服务器上运行。复制数据以保持系统正常运行，并在硬件故障的情况下保持其运行状态。
5.负载均衡：由于数据放在碎片中，因此具有自动负载平衡配置。
6.支持映射缩减和聚合工具
7.使用JavaScript而不是Procedure
8.它是一个用C++编写的无模式数据库
9.提供高性能
10.轻松存储任何大小的文件，而不会使您的堆栈复杂化
11.在故障的情况下易于管理
12.它还支持：
具有动态模式的JSON数据模型
自动分片用于水平可扩展性
内置复制高可用性
13支持多存储引擎¶
mongoDB的应用场景：
1.大而复杂的数据
2.移动和社会基础设施数据
3.内容管理和交付
4.用户数据管理
5.数据中心
MongoDB和RDBMS的性能分析：
1. 在关系数据库(RDBMS)中，表用作存储元素，而在 MongoDB 中使用的是集合。
2. 在RDBMS中有多个模式，在每个模式中，可创建用于存储数据的表，而 MongoDB 是面向文档的数据库，数据是以类似JSON格式的BSON格式编写的存储的。
3.MongoDB几乎比传统数据库系统快100倍
MongoDB将数据记录存储为BSON文档。BSON是JSON文档的二进制表示，但它包含的数据类型多于JSON。

        >>Memcached
                Memcached的优点：
                     Memcached可以利用多核优势，单实例吞吐量极高，可以达到几十万QPS（取决于key、value的字节大小以及服务器硬件性能，日常环境中QPS高峰大约在4-6w左右）。适用于最大程度扛量。
                     支持直接配置为session handle。
               Memcached的局限性：
                   只支持简单的key/value数据结构，不像Redis可以支持丰富的数据类型。
                   无法进行持久化，数据不能备份，只能用于缓存使用，且重启后数据全部丢失。
                   无法进行数据同步，不能将MC中的数据迁移到其他MC实例中。
                   Memcached内存分配采用Slab Allocation机制管理内存，value大小分布差异较大时会造成内存利用率降低，并引发低利用率时依然出现踢出等问题。需要用户注重value设计。

          >>Redis
               Redis的优点：
                    支持多种数据结构，如 string（字符串）、 list(双向链表)、dict(hash表)、set(集合）、zset(排序set)、hyperloglog（基数估算）
                    支持持久化操作，可以进行aof及rdb数据持久化到磁盘，从而进行数据备份或数据恢复等操作，较好的防止数据丢失的手段。
                    支持通过Replication进行数据复制，通过master-slave机制，可以实时进行数据的同步复制，支持多级复制和增量复制，master-slave机制是Redis进行HA的重要手段。
                   单线程请求，所有命令串行执行，并发情况下不需要考虑数据一致性问题。
                   支持pub/sub消息订阅机制，可以用来进行消息订阅与通知。
                   支持简单的事务需求，但业界使用场景很少，并不成熟。

             Redis的局限性：
                    Redis只能使用单线程，性能受限于CPU性能，故单实例CPU最高才可能达到5-6wQPS每秒（取决于数据结构，数据大小以及服务器硬件性能，日常环境中QPS高峰大约在1-2w左右）。
                   支持简单的事务需求，但业界使用场景很少，并不成熟，既是优点也是缺点。
                   Redis在string类型上会消耗较多内存，可以使用dict（hash表）压缩存储以降低内存耗用。

        >>mongoDB 
                  mongoDB 是一种文档性的数据库。先解释一下文档的数据库，即可以存放xml、json、bson类型系那个的数据。这些数据具备自述性（self-describing），呈现分层的树状数据结构。redis可以用hash存放简单关系型数据。
                  mongoDB 存放json格式数据。

1.mongodb持久化原理
mongodb与mysql不同，mysql的每一次更新操作都会直接写入硬盘，但是mongo不会，做为内存型数据库，数据操作会先写入内存，然后再会持久化到硬盘中去，那么mongo是如何持久化的呢
mongodb在启动时，专门初始化一个线程不断循环（除非应用crash掉），用于在一定时间周期内来从defer队列中获取要持久化的数据并写入到磁盘的journal(日志)和mongofile(数据)处，当然因为它不是在用户添加记录时就写到磁盘上，所以按mongodb开发者说，它不会造成性能上的损耗，因为看过代码发现，当进行CUD操作时，记录(Record类型)都被放入到defer队列中以供延时批量（groupcommit）提交写入，但相信其中时间周期参数是个要认真考量的参数，系统为90毫秒，如果该值更低的话，可能会造成频繁磁盘操作，过高又会造成系统宕机时数据丢失过。
2.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？
NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟度；支持；分析和商业智能；管理及专业性等问题时，应优先考虑关系型数据库。
3.MySQL和MongoDB之间最基本的区别是什么？
关系型数据库与非关系型数据库的区别，即数据存储结构的不同。
4.MongoDB的特点是什么？
（1）面向文档（2）高性能（3）高可用（4）易扩展（5）丰富的查询语言
5.MongoDB支持存储过程吗？如果支持的话，怎么用？
MongoDB支持存储过程，它是javascript写的，保存在db.system.js表中。
6.如何理解MongoDB中的GridFS机制，MongoDB为何使用GridFS来存储文件？
GridFS是一种将大型文件存储在MongoDB中的文件规范。使用GridFS可以将大文件分隔成多个小文档存放，这样我们能够有效的保存大文档，而且解决了BSON对象有限制的问题。
7.为什么MongoDB的数据文件很大？
MongoDB采用的预分配空间的方式来防止文件碎片。
8.当更新一个正在被迁移的块（Chunk）上的文档时会发生什么？
更新操作会立即发生在旧的块（Chunk）上，然后更改才会在所有权转移前复制到新的分片上。
9.MongoDB在A:{B,C}上建立索引，查询A:{B,C}和A:{C,B}都会使用索引吗？
不会，只会在A:{B,C}上使用索引。
10.如果一个分片（Shard）停止或很慢的时候，发起一个查询会怎样？
如果一个分片停止了，除非查询设置了“Partial”选项，否则查询会返回一个错误。如果一个分片响应很慢，MongoDB会等待它的响应。

Redis、Memcache和MongoDB的区别
从以下几个维度，对redis、memcache、mongoDB 做了对比，

                   1、性能：都比较高，性能对我们来说应该都不是瓶颈总体来讲，TPS方面redis和memcache差不多，要大于mongodb
                   2、操作的便利性：memcache数据结构单一，edis丰富一些，数据操作方面，redis更好一些，较少的网络IO次数，mongodb支持丰富的数据表达，索引，最类似关系型数据库，支持的查询语言非常丰富
                   3、内存空间的大小和数据量的大小
                                 redis在2.0版本后增加了自己的VM特性，突破物理内存的限制；可以对key value设置过期时间（类似memcache）
                                 memcache可以修改最大可用内存,采用LRU算法
                                 mongoDB适合大数据量的存储，依赖操作系统VM做内存管理，吃内存也比较厉害，服务不要和别的服务在一起
                   4、可用性（单点问题）对于单点问题，redis，依赖客户端来实现分布式读写；主从复制时，每次从节点重新连接主节点都要依赖整个快照,无增量复制，因性能和效率问题，所以单点问题比较复杂；不支持自动sharding,需要依赖程序设定一致hash 机制。一种替代方案是，不用redis本身的复制机制，采用自己做主动复制（多份存储），或者改成增量复制的方式（需要自己实现），一致性问题和性能的权衡Memcache本身没有数据冗余机制，也没必要；对于故障预防，采用依赖成熟的hash或者环状的算法，解决单点故障引起的抖动问题。mongoDB支持master-slave,replicaset（内部采用paxos选举算法，自动故障恢复）,auto sharding机制，对客户端屏蔽了故障转移和切分机制。
                   5、可靠性（持久化）

对于数据持久化和数据恢复，redis支持（快照、AOF）：依赖快照进行持久化，aof增强了可靠性的同时，对性能有所影响
memcache不支持，通常用在做缓存,提升性能；MongoDB从1.8版本开始采用binlog方式支持持久化的可靠性
6、数据一致性（事务支持）
Memcache 在并发场景下，用cas保证一致性edis事务支持比较弱，只能保证事务中的每个操作连续执行mongoDB不支持事务
7、数据分析:ongoDB内置了数据分析的功能(mapreduce),其他不支持
8、应用场景
redis：数据量较小的更性能操作和运算上
memcache：用于在动态系统中减少数据库负载，提升性能;做缓存，提高性能（适合读多写少，对于数据量比较大，可以采用sharding）
MongoDB:主要解决海量数据的访问效率问题