CDN技术之--内容缓存工作原理

有CDN前的网站服务技术
–硬件扩展：高成本，灵活性和可扩展性比较差
–镜像技术（mirroring）：
镜像服务器安装有一个可以进行自动远程备份的软件，每隔一定时间，各个镜像服务器就会到网站的源服务器上去获取最新的内容
–缓存技术（caching）：缓存代理缓存被访问过的内容，后续的相同内容访问直接通过缓存代理获得服务
–CDN：是缓存技术的基础上发展起来的，是缓存的分布式集群实现

从技术层面看，Web架构的精华有三处：
–超文本技术HTML实现信息与信息的连接；
–统一资源标志符URI实现全球信息的精确定位
–应用层协议HTTP实现分布式的信息共享

TCP连接在每一次HTTP（HTTP 1.0）请求和响应完成后就关闭，如果客户端还要请求其他对象，需要重新为每个对象建立TCP连接。
当一个Web页面内包含多个对象并全部显示时，客户端需要与服务器建立的TCP连接数较多，对整个时延和网络流量造成了较大的影响

HTTP1.1采用了效率更高的持续连接机制，即客户端和服务器端建立TCP连接后，
后续相关联的HTTP请求可以重复利用已经建立起来的TCP连接，
不仅整个Web页面（包括基本的 HTML文件和其他对象）可以使用这个持续的TCP连接来完成HTTP请求和响应，
而且同一个服务器内的多个Web页面也可以通过同一个持续TCP连接来请求和响应。
通常情况下，这个持续的TCP连接会在空闲一段特定的时间后关闭，而这个最大空闲时间时可以设置的（连接复用）。

HTTP协议中的缓存技术：新鲜度（时间值）和验证（验证信息如ETag或last-modified）时确定内容可否直接提供服务的最重要依据。
如果缓存内容足够新鲜，缓存的内容就能直接满足HTTP访问的需求了；
如果内容过期，而经源服务器验证后发现内容没有发生变化，缓存服务器也会避免将内容从源服务器重新传输一遍。
如果要通过META标签来控制页面不缓存，
一般情况下会在Web页面的<head>区域中增加”pragma:no-cache”验证的目的就是检验缓存内容是否可用。
当中间缓存存在一个过期的缓存内容，并且对应的访问请求到达时，
缓存应该首先向源服务器或者其他保存有未过期的缓存服务器请求验证来确定本地的缓存内容是否可用。
（缓存内容过期，但源服务器没有更新内容，即缓存内容仍可用）

HTTP1.1介绍了cache-control显示指令来让网站发布者可以更全面地控制他们的内容，并对过期时间进行限制（控制是否缓存，怎么缓存）
HTTP gzip压缩：大多数情况需要压缩的文件时网页中出现最频繁的HTML、CSS、javascript、XML等文件，
这类本身是没有经过压缩的文本文件，可以取得较好的压缩效果
Web缓存代理软件：Squid
负载均衡软件：Nginx
DNS服务器软件：BIND