Redis查询_Tips

基础知识——介绍

Redis简介

REmote Dictionary Server(Redis) 是一个由Salvatore Sanfilippo写的key-value存储系统。

Redis是一个完全开源免费的，使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、高性能的Key-Value数据库，并提供多种语言的API。

通常被称为数据结构服务器，因为值（value）可以是字符串(String), 哈希(Hash), 列表(list), 集合(sets) 和有序集合(sorted sets)等类型

Redis的应用

Redis 与其他 key - value 缓存产品有以下三个特点：

Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。
Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。
Redis支持数据的备份，即master-slave模式的数据备份。

Redis 优势

性能极高 – Redis能读的速度是110000次/s,写的速度是81000次/s 。
丰富的数据类型 – Redis支持二进制案例的 Strings, Lists, Hashes, Sets 及 Ordered Sets 数据类型操作。
原子 – Redis的所有操作都是原子性的，意思就是要么成功执行要么失败完全不执行。单个操作是原子性的。多个操作也支持事务，即原子性，通过MULTI和EXEC指令包起来。
丰富的特性 – Redis还支持 publish/subscribe, 通知, key 过期等等特性。

Redis与其他key-value存储有什么不同？

Redis有着更为复杂的数据结构并且提供对他们的原子性操作，这是一个不同于其他数据库的进化路径。Redis的数据类型都是基于基本数据结构的同时对程序员透明，无需进行额外的抽象。
Redis运行在内存中但是可以持久化到磁盘，所以在对不同数据集进行高速读写时需要权衡内存，因为数据量不能大于硬件内存。在内存数据库方面的另一个优点是，相比在磁盘上相同的复杂的数据结构，在内存中操作起来非常简单，这样Redis可以做很多内部复杂性很强的事情。同时，在磁盘格式方面他们是紧凑的以追加的方式产生的，因为他们并不需要进行随机访问。

Redis的服务器

Redis支持多个数据库，并且每个数据库的数据是隔离的不能共享，并且基于单机才有，如果是集群就没有数据库的概念。

Redis是一个字典结构的存储服务器，而实际上一个Redis实例提供了多个用来存储数据的字典，客户端可以指定将数据存储在哪个字典中。这与我们熟知的在一个关系数据库实例中可以创建多个数据库类似，所以可以将其中的每个字典都理解成一个独立的数据库。

每个数据库对外都是一个从0开始的递增数字命名，Redis默认支持16个数据库（可以通过配置文件支持更多，无上限），可以通过配置databases来修改这一数字。客户端与Redis建立连接后会自动选择0号数据库，不过可以随时使用SELECT命令更换数据库：

然而这些以数字命名的数据库又与我们理解的数据库有所区别。

首先Redis不支持自定义数据库的名字，每个数据库都以编号命名，开发者必须自己记录哪些数据库存储了哪些数据。
另外Redis也不支持为每个数据库设置不同的访问密码，所以一个客户端要么可以访问全部数据库，要么连一个数据库也没有权限访问。
最重要的一点是多个数据库之间并不是完全隔离的，比如FLUSHALL命令可以清空一个Redis实例中所有数据库中的数据。

综上所述，这些数据库更像是一种命名空间，而不适宜存储不同应用程序的数据。比如可以使用0号数据库存储某个应用生产环境中的数据，使用1号数据库存储测试环境中的数据，但不适宜使用0号数据库存储A应用的数据而使用1号数据库B应用的数据，不同的应用应该使用不同的Redis实例存储数据。

由于Redis非常轻量级，一个空Redis实例占用的内在只有1M左右，所以不用担心多个Redis实例会额外占用很多内存。

指定日志记录级别，Redis 总共支持四个级别：debug、verbose、notice、warning，默认为 notice

Redis数据结构

Redis 键(key)

用于管理 redis 的键。

Redis 字符串(String)

用于管理 redis 字符串值
是 redis 最基本的类型，你可以理解成与 Memcached 一模一样的类型，一个 key 对应一个 value
是二进制安全的。
可以包含任何数据。比如jpg图片或者序列化的对象。
是 Redis 最基本的数据类型，string 类型的值最大能存储 512MB。

Redis 哈希(Hash，散列)

一个string类型的field和value的映射表，
hash特别适合用于存储对象，并且可以像数据库中update一个属性一样只修改某一项属性值(Memcached中需要取出整个字符串反序列化成对象修改完再序列化存回去)
- 存储、读取、修改用户属性
每个 hash 可以存储 2³² - 1 键值对（40多亿）
是一个键值(key=>value)对集合,即编程语言中的Map类型

Redis 列表(List)

简单的字符串列表，按照插入顺序排序。
链表(双向链表)
可以添加一个元素到列表的头部（左边）或者尾部（右边）
一个列表最多可以包含 2³² - 1 个元素 (4294967295, 每个列表超过40亿个元素)。
增删快,提供了操作某一段元素的API
- 最新消息排行等功能(比如朋友圈的时间线)
- 消息队列

Redis 集合(Set)

是 String 类型的无序集合
集合成员是唯一的，这就意味着集合中不能出现重复的数据。
集合是通过哈希表实现的，所以添加，删除，查找的复杂度都是 O(1)。哈希表实现,元素不重复
集合中最大的成员数为 2³² - 1 (4294967295, 每个集合可存储40多亿个成员)。
为集合提供了求交集、并集、差集等操作
- 共同好友
- 利用唯一性,统计访问网站的所有独立ip
- 好友推荐时,根据tag求交集,大于某个阈值就可以推荐

Redis 有序集合(sorted set，zset)

有序集合和集合一样也是string类型元素的集合，且不允许重复的成员。
不同的是每个元素都会关联一个double类型的分数。redis正是通过分数来为集合中的成员进行从小到大的排序。将Set中的元素增加一个权重参数score,元素按score有序排列
有序集合的成员是唯一的,但分数(score)却可以重复。
集合是通过哈希表实现的，所以添加，删除，查找的复杂度都是O(1)。
集合中最大的成员数为 2³² - 1 (4294967295, 每个集合可存储40多亿个成员)。
数据插入集合时,已经进行天然排序
- 排行榜
- 带权重的消息队列

Redis命令执行

Redis 命令

用于在 redis 服务上执行操作
要在 redis 服务上执行命令需要一个 redis 客户端。

Redis 连接

连接命令主要是用于连接 redis 服务。

Redis 服务器

服务器命令主要是用于管理 redis 服务。

Redis特性

Redis 发布订阅

发布订阅(pub/sub)是一种消息通信模式：发送者(pub)发送消息，订阅者(sub)接收消息。
客户端可以订阅任意数量的频道。
- 频道 channel1 ，以及订阅这个频道的三个客户端 —— client2 、 client5 和 client1 之间的关系
- 当有新消息通过 PUBLISH 命令发送给频道 channel1 时，这个消息就会被发送给订阅它的三个客户端：

Redis 事务

事务可以一次执行多个命令，并且带有以下三个重要的保证：
- 批量操作在发送 EXEC 命令前被放入队列缓存。
- 收到 EXEC 命令后进入事务执行，事务中任意命令执行失败，其余的命令依然被执行。
- 在事务执行过程，其他客户端提交的命令请求不会插入到事务执行命令序列中。
一个事务从开始到执行会经历以下三个阶段：
- 开始事务。
- 命令入队。
- 执行事务。
单个 Redis 命令的执行是原子性的，但 Redis 没有在事务上增加任何维持原子性的机制，所以 Redis 事务的执行并不是原子性的。
- 事务可以理解为一个打包的批量执行脚本，但批量指令并非原子化的操作，中间某条指令的失败不会导致前面已做指令的回滚，也不会造成后续的指令不做。
- It's important to note that even when a command fails, all the other commands in the queue are processed – Redis will not stop the processing of commands.

Redis 脚本

使用 Lua 解释器来执行脚本。 Redis 2.6 版本通过内嵌支持 Lua 环境。执行脚本的常用命令为 EVAL。

Redis高级

Redis 数据备份与恢复

Redis SAVE 命令用于创建当前数据库的备份。
- 将在 redis 安装目录中创建dump.rdb文件。
- 创建 redis 备份文件也可以使用命令 BGSAVE，该命令在后台执行。
如果需要恢复数据，只需将备份文件 (dump.rdb) 移动到 redis 安装目录并启动服务即可。
- 获取 redis 目录可以使用 CONFIG 命令

Redis 安全

通过 redis 的配置文件设置密码参数，这样客户端连接到 redis 服务就需要密码验证，这样可以让你的 redis 服务更安全。
- 设置密码后，客户端连接 redis 服务就需要密码验证，否则无法执行命令。

Redis 性能测试

性能测试是通过同时执行多个命令实现的。
- 该命令是在 redis 的目录下执行的，而不是 redis 客户端的内部指令。

Redis 客户端连接

Redis 通过监听一个 TCP 端口或者 Unix socket 的方式来接收来自客户端的连接，当一个连接建立后，Redis 内部会进行以下一些操作：
- 首先，客户端 socket 会被设置为非阻塞模式，因为 Redis 在网络事件处理上采用的是非阻塞多路复用模型。
- 然后为这个 socket 设置 TCP_NODELAY 属性，禁用 Nagle 算法（Nagle算法是以他的发明人John Nagle的名字命名的，它用于自动连接许多的小缓冲器消息；这一过程（称为nagling）通过减少必须发送包的个数来增加网络软件系统的效率）
- 然后创建一个可读的文件事件用于监听这个客户端 socket 的数据发送
在 Redis2.4 中，最大连接数是被直接硬编码在代码里面的，而在2.6版本中这个值变成可配置的。
- maxclients 的默认值是 10000，你也可以在 redis.conf 中对这个值进行修改。

Redis 管道技术

是一种基于客户端-服务端模型以及请求/响应协议的TCP服务。这意味着通常情况下一个请求会遵循以下步骤：
- 客户端向服务端发送一个查询请求，并监听Socket返回，通常是以阻塞模式，等待服务端响应。
- 服务端处理命令，并将结果返回给客户端。
管道技术可以在服务端未响应时，客户端可以继续向服务端发送请求，并最终一次性读取所有服务端的响应。
- 多命令一次性向 redis 服务提交，并最终一次性读取所有服务端的响应
最显著的优势是提高了 redis 服务的性能。
- 开启了管道操作后，往返延时已经被改善得相当低了。

Redis 分区

分区是分割数据到多个Redis实例的处理过程，因此每个实例只保存key的一个子集。
分区的优势
- 通过利用多台计算机内存的和值，允许我们构造更大的数据库。
- 通过多核和多台计算机，允许我们扩展计算能力；通过多台计算机和网络适配器，允许我们扩展网络带宽。
分区的不足：redis的一些特性在分区方面表现的不是很好：
- 涉及多个key的操作通常是不被支持的。举例来说，当两个set映射到不同的redis实例（？？？）上时，你就不能对这两个set执行交集操作。
- 涉及多个key的redis事务不能使用。
- 当使用分区时，数据处理较为复杂，比如你需要处理多个rdb/aof文件，并且从多个实例和主机备份持久化文件。
- 增加或删除容量也比较复杂。redis集群大多数支持在运行时增加、删除节点的透明数据平衡的能力，但是类似于客户端分区、代理等其他系统则不支持这项特性。然而，一种叫做presharding的技术对此是有帮助的。
分区类型
- Redis 有两种类型分区。假设有4个Redis实例 R0，R1，R2，R3，和类似user:1，user:2这样的表示用户的多个key，
  - 对既定的key有多种不同方式来选择这个key存放在哪个实例中。也就是说，有不同的系统来映射某个key到某个Redis服务。
  - 范围分区：最简单的分区方式是按范围分区，就是映射一定范围的对象到特定的Redis实例。
    - 比如，ID从0到10000的用户会保存到实例R0，ID从10001到 20000的用户会保存到R1，以此类推。
    - 这种方式是可行的，并且在实际中使用，不足就是要有一个区间范围到实例的映射表。这个表要被管理，同时还需要各种对象的映射表，通常对Redis来说并非是好的方法
  - 哈希分区：另外一种分区方法是hash分区。
    - 这对任何key都适用，也无需是object_name:这种形式，像下面描述的一样简单：
    - 用一个hash函数将key转换为一个数字，比如使用crc32 hash函数。对key foobar执行crc32(foobar)会输出类似93024922的整数。
    - 对这个整数取模，将其转化为0-3（取决于redis实例的个数）之间的数字，就可以将这个整数映射到4个Redis实例中的一个了。93024922 % 4 = 2，就是说key foobar应该被存到R2实例中。
      - 注意：取模操作是取除的余数，通常在多种编程语言中用%操作符实现。

Redis应用过程中的问题、解决

问题：

使用redis的sortlist，使用唯一的key来存储大量（上千条）的list数据，使用getAll来获取全部数据=》响应速度慢

分析：

数据量大，getAll的查找的复杂度都是 O(n)=》响应慢
因为唯一的key，对应大量数据的value，造成数据量【只能存在一个redis数据库中中（分布式情境下，容易造成负载不均：内存、cpu，影响稳定性、响应性）
- 支持多个数据库，并且每个数据库的数据是隔离的不能共享；
- 实际上一个Redis实例提供了多个用来存储数据的字典，客户端可以指定将数据存储在哪个字典中。这与我们熟知的在一个关系数据库实例中可以创建多个数据库类似，所以可以将其中的每个字典都理解成一个独立的数据库

如果redis是基于单机，则一旦一个命令执行时间过长，后续所有的命令都必须等待，影响系统中的其他查询

解决方案：

将value分拆，形成多层次查询，减少单个查询带来的响应速度慢
且数据存储可以分布在多个redis服务器上，负载更加均衡，避免单个节点（数据库）性能瓶颈（内存、cpu）
可以使用管道技术，多个命令一次性向 redis 服务提交，并最终一次性读取所有服务端的响应，减少了网络延迟（有效的避免网络带来的响应时延）

反思：

　　唯一key对应的value数据的大小衡量：

取决于数据量的大小
- 数据量大：应该考虑数据拆分，多层级查询
- 数据量小：直接查询即可
取决于数据访问的频率：
- 例如：1次/天；100次/分钟
- 访问频繁高：唯一key对应的value数据量，应该越小。应该考虑数据拆分，多层级查询
- 访问频率低：可以考虑多级缓存（例如：使用Memcached做redis的二级缓存）
具体情况具体分析，两者结合起来考虑

扩展知识：

Memcached：分布式内存对象缓存系统。

MongoDB：一个基于分布式文件存储的数据库