20145338 《信息安全系统设计基础》第13周学习总结

教材学习内容总结

学习目标
掌握三种并发的方式：进程、线程、I/O多路复用
掌握线程控制及相关系统调用
掌握线程同步互斥及相关系统调用

第11章网络编程学习资源

11.1 客户端-服务器编程模型

1.每个网络应用都是基于客户端-服务器模型的。采用这个模型，一个应用是由一个服务器户端提供某种服务。服务器管理某种资源，并且通过操作这种资源来为它的客户端提供某种服务。—个FTP服务器就管理了一组磁盘文件，它为客户端进行它会为客户端进行存储和检索。相似地一个电子邮件服务器管理了一些文件，它为客户端进行读和更新。

2.客户端-服务器模型中的基本操作是事务

3.事务由四步组成

1）当一个客户端需要服务时，它向服务器发送一个请求，发起一个事务。例如，当Web览器需要一个文件时，它就发送一个请求给Web服务器

2）服务器收到请求后，解释它，并以适当的方式操作它的资源。例如，当Web服务器收到浏览器发出的请求后，它就读一个磁盘文件

3）服务器给客户端发送一响应，并等待下一个请求。例如，Web服务器将文件发送回客户端；

4）客户端收到响应并处理它。例如，当Web浏览器收到来自服务器的一页后，它就在屏幕上显示此页。

11.2 网络

客户端和服务器通常运行在不同的主机上，并且通过计算机网络的硬件和软件资源来通信。网络是复杂的系统，在这里我们只想了解一点皮毛。我们的目标是从程序员的角度给你一个可工作的思考模型。对于一个主机而言，网络只是又一种I/O设备，作为数据源和数据接收方，如图所示。一个插到I/O总线扩展槽的适配器提供了到网络的物理接口。从网络上接收到的数据从适配器经过I/O和存储器总线拷贝到存储器，典型地是通过DMA（译者注：直接存储器存取方式）传送。相似地，数据也能从存储器拷贝到网络。

1.一个以太网段，包括电缆和集线器；每根电缆都有相同的最大位带宽；集线器不加分辩地将一个端口上收到的每个位复制到其他所有的端口上。因此，每台主机都能看到每个位。

2.每个以太网适配器都有—个全球唯一的48位地址，它存储在这个适配器的非易失性存储器上。每个主机适配器都能看到这个帧，但是只有目的主机实际读取它。

3.桥接以太网由电缆和网桥将多个以太网段连接起来，形成的较大的局域网。连接网桥的电缆传输速率可以不同（例：网桥与网桥之间1GB/S, 网桥与集线器之间100MB/S）。

4.网桥作用：连接不同网段。同一网段内A向B传输数据时，帧到达网桥输入端口，网桥将其丢弃，不予转发。A向另一网段内C传输数据时，网桥才将帧拷贝到与相应网段连接的端口上。从而节省了网段的带宽

（1）协议软件的基本能力：

命名机制为每台主机至少分配一个互联网地址，从而消除不同主机地址格式的差异，是每台主机能被识别。传送机制不同格式的数据进行封装，使其具有相同的格式。

11.3 全球ip因特网

全球IP因特网是最著名和最成功的互联网络实现。从1969年起，它就以这样或那样的形式存在了。虽然因特网的内部体系结构复杂而且不断变化，但是自从20世纪80年代早期以来，客户端-服务器应用的组织就一直保持相当的稳定。下图展示了一个因特网客户端-服务器应用程序的基本硬件和软件组织。每台因特网主机都运行实现TCP/TP协议的软件，几乎每个现代计算机系统都支持这个协议。因特网的客户端和服务器混合使用套接字接口函数和Unix I/O函数来进行通信。套接字函数典型地是作为会陷入内核的系统调用来实现的，并调用各种内核模式的TCP/IP函数。

11.3.1 ip地址
1.一个IP地址就是一个32位无符号整数。

2.网络程序将IP地址存放在下图所示的IP地址结构中。

11.3.2 因特网域名
1.因特网客户端和服务器互相通信时使用的是IP地址。然而，对于人们而言，大整数是很难记住的，所以因特网也定义了一组更加人性化的域名，以及一种将域名映射到IP地址的机制。域名是一串用句点分隔的单词（字母、数字和破折号）。

2.域名集合形成了一个层次结构，每个域名编码了它在这个层次中的位置。通过一个示例你将很容易理解这点。下展示了域名层次结构的一部分。层次结构可以表示为一棵树。树的节点表示城名，反向到根的路径形成了域名。子树称为子域。层次结构中的第一层是个未命名的根节点。下一层是一组一级域名由非赢利组织（因特网分酒名字数字协会)定义。常见的第一层域名包括com、edu、gov、org、net，这些域名是由ICANN的各个授权代理按照先到先服务的基础分配的的。一旦一个组织得到了一个二级域名，那么它就可以在这个子域中创建任何新的域名了。

11.3.3 因特网连接
1.因特网客户端和服务器通过在连接上发送和接收字节流来通信。从连接一对进程的意义上而言，连接是点对点的。从数据可以同时双向流动的角度来说，它是全双工的。并且从（除了一些如粗心的耕锄机操作员切断了电缆引起灾对性的失败以外）由源进程发出的字节流最终被目的进程以它发出的顺序收到它的角度来说，它也是可靠的。

2.一个套接字是连接的一个端点。每个套接字都有相应的套接字地址，是由一个因特网地址和一个16位的整数端口组成的，用“地址：端口”来表示。当客户端发起一个连接请求时，客户端套接字地址中的端口是由内核自动分配的，称为临时端口。然而，服务器套接字地址中的端口通常是某个知名的端口，是和这个服务相对应的。例如，web服务器通常使用端口80，电子邮件服务器使用端口25。

11.4 套接字接口

11.4.2 socket函数
Socket函数客户端和服务器使用函数来创建一个套接字描述符.

其中，AF_INET表明我们正在使用因特网，而SCKET_STREAM表示这个套接字是因特网连接一个端点。Socket返回的clientfd描述符仅是部分打开的，还不能用于读写。如何完成打开套接字的工作，取决于我们是客户端还是服务器。
11.4.3 connect函数
客户端通过connect函数来建立和服务器的连接。
11.4.4 open_clientfd函数
将socket和connect包装
11.4.5 bind函数
bind函数
11.4.6 listen函数
listen函数将sockfd从一个主动套接字转化为一个监听套接字。该套接字可以接受来自客户端的连接请求。backlog参数暗示了内核在开始拒绝连接请求之前，该放入队列中等待的未完成连接请求的数量
11.4.6 listen函数
listen函数将sockfd从一个主动套接字转化为一个监听套接字。该套接字可以接受来自客户端的连接请求。backlog参数暗示了内核在开始拒绝连接请求之前，该放入队列中等待的未完成连接请求的数量
11.4.7 open_listenfd函数
11.4.8 accept函数

11.5 web服务器

1.Web客户端和服务器之间的交互用的是一个基于文本的应用级协议，叫做HTTP。

2.HTTP是一个简单的协议。一个web客户端（即浏览器）打开一个到服务器的因特网连接。浏览器读取这些内容，并请求某些内容。服务器响应所请求的内容，然后关闭连接。浏览器读取并把它显示在屏幕内

3.主要的区别是Web内容可以用HTML来编写。一个HTML程序（页）包含指令（标记）它们告诉浏览器如何显示这页中的各种文本和图形对象。

Web服务器以两种不同的方式向客户端提供内容：
1.取一个磁盘文件，并将它的内容返回给客户端。
2.运行一个可执行文件，并将它的输出返回给客户端。

第12章并发编程

12.1.1基于进程的并发编程
构造并发服务器的自然方法就是，在父进程中接受客户端连接请求，然后创建一个新的子进程来为每个新客户端提供服务。
因为父子进程中的已连接描述符都指向同一个文件表表项，所以父进程关闭它的已连接描述符的拷贝是至关重要的，而且由此引起的存储器泄露将最终消耗尽可用的存储器，使系统崩溃。
基于进程的并发echo服务器的重点内容：
需要一个SIGCHLD处理程序，来回收僵死子进程的资源。
父子进程必须关闭各自的connfd拷贝。对父进程尤为重要，以避免存储器泄露。
套接字的文件表表项中的引用计数，直到父子进程的connfd都关闭了，到客户端的连接才会终止。
进程的模型：共享文件表，但不是共享用户地址空间。
12.1.2关于进程的优劣：
优点：一个进程不可能不小心覆盖两一个进程的虚拟存储器。
缺点：独立的地址空间使得进程共享状态信息变得更加困难。进程控制和IPC的开销很高。
Unix IPC是指所有允许进程和同一台主机上其他进程进行通信的技术，包括管道、先进先出（FIFO）、系统V共享存储器，以及系统V信号量。

12.2 基于i/o多路复用的并发编程

echo服务器必须响应两个相互独立的I/O时间：
网络客户端发起连接请求
用户在键盘上键入命令行

12.2.1 i/o多路复用技术的优劣
1.事件驱动设计的一个优点是，它比基于进程的设计给了程序员更多的对程序行为的控制。例如我们可以设想编写一个事件驱动的并发服务器，为某些客户提供他们需要的服务，而这对于新进程的并发服务器来说，是很困难的

2.另一个优点是，一个基于I/O多路复用的事件驱动器是运行在单一进程上下文中的，因此每个逻辑流都能访问该进程的全部地址空间。这使得在流之间共享数据变得很容易，一个与作为单个进程运行相关的优点是，你可以利用熟悉的调试工具，例如GDB，来调试你的并发服务器，就像对顺序程序那样。最后，事件驱动设计常常比基于进利的设计要高效得多，因为它们不需要进程上下文切换来调度新的流。

3.事件驱动设计的一个明显的缺点就是编码复杂，我们的事件驱动的并发服务器需要的代度是指每个逻辑流每个时间片执行的指令数量。基于事件的设计的另一个重大缺点是它们不能充分利利用多核处理器

12.3 基于线程的并发编程

线程：运行在进程上下文中的逻辑流。
线程有自己的线程上下文，包括一个唯一的整数线程ID、栈、栈指针、程序计数器、通用目的寄存器和条件码。所有运行在一个进程里的线程共享该进程的整个虚拟地址空间。

12.3.1 线程执行模型
线程执行的模型。线程和进程的执行模型有些相似。每个进程的声明周期都是一个线程，我们称之为主线程。但是大家要有意识：线程是对等的，主线程跟其他线程的区别就是它先执行。
-12.3.2 posix线程
线程例程：线程的代码和本地数据被封装在一个线程例程中。每一个线程例程都以一个通用指针作为输入，并返回一个通用指针。
12.3.3 创建线程
线程通过调用pthread_create函数来创建其他进程。
12.3.4 终止线程
一个线程是以下列方式之一来终止的。

当顶层的线程例程返回时，线程会隐式地终止

通过调用pthread_exit函数，线程会显它会等待所有其他对等线程终止，然后再终止式地终止。

某个对等线程调用Unix的e×it函数，该函数终止进程以及所有与该进程相关的线程

12.3.5 回收已终止线程的资源

12.4 多线程程序中的共享变量

线程存储器模型
每个线程和其他线程一起共享进程上下文的剩余部分。包括整个用户虚拟地址空间，是由只读文本、读/写数据、堆以及所有的共享库代码和数据区域组成的。线程也共享同样的打开文件的集合。
任何线程都可以访问共享虚拟存储器的任意位置。寄存器是从不共享的，而虚拟存储器总是共享的。

12.4.2 将变量映射到存储器
线程化的C程序中变量根据它们的存储类型被映射到虚拟存储器：

1.全局变量。全局变量是定义在函数之外的变量，在运行时，虚拟存储器的读／写区域域只包含每个全局变量的一个实例，任何线程都可以引用。例如第5行声明的全局变量ptr在虚拟存储器的读／写区域中有个运行时实例，我们只用变量名（在这里就是ptr）来表示这个实例。

2.本地自动变量，本地自动变量就是定义在函数内部但是没有static属性的变量，在运行时，每个线程的栈都包含它自己的所有本地自动变量的实例。即使当多个线程执行同一个线程例程时也是如此。例如，有个本地变量tid的实例，它保存在主线程的栈中。我们用tid.m来表示这个实例

3.本地静态变量，定义在函数内部并有static属性的变量。

12.4.3 共享变量
我们说一个变量V是共享的，当且仅当它的一个实例被一个以上的线程引用。

12.5 用信号量同步线程

信号量通常称之为PV操作，虽然它的思想是将临界代码保护起来，达到互斥效果。这里面操作系统使用到了线程挂起。

将线程i的循环代码分解成五个部分：

12.5.1 进度图
进程图将n个并发进程的执行模型化为一条n维笛卡尔空间中的轨迹线。
12.5.2 信号量
当有多个线程在等待同一个信号量时，你不能预测V操作要重启哪一个线程。
信号量不变性：一个正在运行的程序绝不能进入这样一种状态，也就是一个正确初始化了的信号量有一个负值
12.5.3 使用信号量来实现互斥
信号量提供了一种很方便的方法来确保对共享变量的互斥访问。基本思想是将每个共享变量（或者一组相关的共享变量）与一个信号量联系起来。以这种方式来保护共享变量的信号量叫做二元信号量，因为它的值总是0或者1。以提供互斥为目的的二元信号量常常也称为互斥锁。在一个互斥锁上执行P操作称为对互斥锁加锁。类似地，执行V操作称为对互斥锁解锁。对一个互斥锁加了锁但是还没有解锁的线程称为占用这个互斥锁。一个被用作一组可用资源的计数器的信号量称为计数信号量。
关键思想是这种P和V操作的结合创建了一组状态，叫做禁止区。因为信号量的不变性，没有实际可行的轨迹线能够包含禁止区中的状态。
12.5.4 利用信号量来调度共享资源
生产者-消费者问题。
12.5.5 综合:基于预线程化的并发服务器
对等线程的赋值语句和主线程的accept语句之间引入了竞争。

12.6 使用线程提高并行性

到目前为止，在对并发的研究中，我们都假设并发线程是在单处许多现代机器具有多核处理器。并发程序通常在这样的机器上运理器系统上执行的。然而，在多个核上并行地调度这些并发线程，而不是在单个核顺序地调度，在像繁忙的Web服务器、数据库服务器和大型科学计算代码这样的应用中利用这种并行性是至关重要的。

12.7.1 线程安全

我们编程过程中，尽可能编写线程安全函数，即一个函数当且仅当被多个并发线程反复调用时，它会一直产生正确的结果。
如果做不到这个条件我们称之为线程不安全函数。
下面介绍四类线程不安全函数：
不保护共享变量的函数。解决办法是PV操作。
保持跨越多个调用的状态函数。比如使用静态变量的函数。解决方法是不要使用静态变量或者使用可读静态变量。
返回指向静态变量的指针的函数。解决方法是lock-and-copy(枷锁-拷贝)
调用线程不安全函数的函数死锁。

12.7.4 竞争
当一个程序的正确性依赖于一个线程要在另一个线程到达y点之前到达它的控制流中的X点时，就会发生竞争。
通常发生竞争是因为程序员假定线程将按照某种特殊的轨迹正确工作忘记了另一条准则规定：线程化的程序必须对任何可行的轨迹线都正确工作。
消除方法：动态的为每个整数ID分配一个独立的块，并且传递给线程例程一个指向这个块的指针
12.7.5 死锁
1.信号量引入了一种潜在的令人厌恶的运行时错误，叫做死锁。它指的是一组线程被阻塞了，等待一个永远也不会为真的条件。进度图对于理解死锁是一个无价的工具。

2.关于死锁的重要知识：

程序员使用P和V操作漏序不当，以至于两个信号量的禁止区域重叠。

重叠的禁止区域引起了一组称为死锁区域的状态。轨迹线可以进入死锁区域，但是它们不可能离开。

死锁是个相当困难的问题，因为它不总是可预测的。

学习进度条

	代码行数（新增/累积）	博客量（新增/累积）	学习时间（新增/累积）
目标	5000行	30篇	400小时
第一周	200/200	2/2	20/20
第二周	300/500	2/4	18/38