redis原理(一)

1.数据是存储在文件中的

2.linux读取方式: grep、awk

3.程序读取方式：java

4.常识

常识：
磁盘：
1，寻址：ms
2，带宽：G/M

内存：
1，寻址：ns
2，带宽：很大
秒>毫秒>微秒>纳秒  磁盘比内存在寻址上慢了10W倍

I/O buffer：成本问题
磁盘与磁道，扇区，一扇区 512Byte带来一个成本变大：索引
4K  操作系统，无论你读多少，都是最少4k从磁盘拿

所以一次I/O 就是4K

5.所以随着文件变大，速度变慢，因为硬盘I/O成为瓶颈

6.所以数据库出现了

7.所以当数据库数据很大时，不建立索引也会很慢

8.关系型数据库

关系型数据库建表：必须给出schema
类型：字节宽度
存：倾向于行级存储

数据库：表很大，性能下降？
如果表有索引
增删改变慢
查询速度呢？
1，1个或少量查询依然很快
2，并发大的时候会受硬盘带宽影响速度

9.开始使用关系型内存数据库，例如HANA，报价贼贵，2T，2个亿(数据在内存和磁盘的体积不一样，内存小，因为不维护索引和B+T)

10.折中，取缓存 memached、redis

2个基础设施
1，冯诺依曼体系的硬件
2，以太网，tcp/ip的网络

比如网络不稳定 会造成数据丢失，数据不一致 等一系列问题

11.为什么不用redis memcached 也是key，value，因为value没有类型的概念。

12.memcached 可以使用json呀。

clinet需要从 缓存k,v型 取回v中的某一个元素
1.memcache
返回value所有的数据到clientserver  
网卡IO 
client要有你实现的代码去节码

2.类型不是很重要
redis的server中对每种类型都有自己的方法
index()
lpop

问题：redis是单进程，单线程，单实例，并发很多的请求，如何变得很快的呢？

因为linux内核(kernel)使用了epoll, 在redis启动的进程中可以看到

内核五图解析

一、线程/进程轮询，socket在这个时期是阻塞的所以是BIO，有阻塞问题,线程多了调度成本CPU浪费、内存成本大
二、单线程处理，轮询发生在用户空间，同步非阻塞 NIO,有用户进程轮询问题
三、单线程处理，select批量处理，轮询发生在内核，多路复用NIO，有fd数据拷贝来拷贝去问题
四、单线程处理，select更换epoll，多路复用NIO，有共享空间。

五、零拷贝：是不同系统之间的调用，用的是sendfile(out, in)方法，看kafka图，文件存在kafaka,其他的调用全部走方法用的是sendfile。

man 2 read
man 2 select 
man epoll
man 2 sendfile

网卡到内核是一个sockert I/O
文件file到内核是一个文件I/O

man 有8类文档
1类是man ls 可以看帮助文档
2类是系统调用