网络编程基础

说明：只供学习交流，转载请注明出处

一，套接字编程基础

套接字，英文为socket，是一种双向的通信端口。位于网络中的主机通过连接的套接字提供的接口进行数据传输。套接字是一种使用标准UNIX文件描述符（file descriptor）与其他程序通信的方式。套接字可以看作是处于不同主机之间的两个程序的通信连接端点。一方面程序将要传输的信息写入套接字中，而另一方面则通过读取套接字的数据来获得传输的信息。

上图为使用套接字进行通信的示意图。假设存在两台主机A和B，在主机A中存在进程C，主机B中存在进程D，当进程C需要将数据送到进程D中的时候，首先将数据写到套接字中，而进程D通过读取套接字来获得进程C发送的消息。

在网络中不同计算机是通过IP地址来区分的，也就是说，要将数据由主机A发送到主机B，只要知道主机B的IP地址就可以确定数据要发送的目的地。但是在主机A和B中不可能只有进程C和进程D两个进程。主机B在收到数据主机A发送来的数据之后，如何才能确定该数据是发送给进程D？因此，还需要某种标识信息，用于描述网络通信数据发送的进程。TCP/IP协议提出了协议端口概念，用于标识通信的进程。

当进程与某个端口绑定后，操作系统会将收到给该端口的数据送往该进程。与文件描述符类似，每个端口都有被称为端口号的整数类型的标识符，该标识符用于区分不同的端口。不同协议可以使用相同的端口号进行数据传输。例如，TCP使用了344的端口号，UDP同样可以使用344端口号进行数据传输。

端口号为一个16位的无符号整数，其取值范围为0~65535。低于256的端口被作为操作系统的保留端口号，主要用于系统进程的通信，不在这一范围的端口号被称为自由端口号，可以由进程自由的使用。

二，套接字编程相关的数据结构

在开发使用套接字进行通信的程序时，常会用到sockaddr数据结构或sockaddr_in数据结构。sockaddr数据结构用于保存套接字的地址信息，具体定义如下：

struct sockaddr {

sa_family_t sa_family; /*address family, AF_xxx */

char sa_data[14]; /* 14 bytes of protocol address */

};

sa_family：用于指定地址族，如果是TCP/IP通信，该值取PF_INET。

sa_data：用于保存套接字的IP地址和端口号信息。

而sockaddr_in数据结构与sockaddr类似，该结构体的定义如下：

struct sockaddr_in {

sa_family_t sin_family; /* Address family */

__be16 sin_port; /* Port number */

struct in_addr sin_addr; /* Internet address */

unsigned char sin_zero[8];

};

sin_family：用于指定地址族。

sin_port：套接字通信的端口号。

sin_addr：通信的IP地址。

sin_zero[8]：用于填充0，保存于structsockaddr同样大小。

由于sockaddr数据结构与sockaddr_in数据结构的大小是相同的，指向sockaddr_in的指针可以通过强制转换，转换成指向sockaddr结构的指针。

三，套接字类型

常用的TCP/IP协议的3中套接字类型如下所示：

（1）：流套接字（SOCK_STREAM）：流套接字用于提供面向连接、可靠的数据传输服务。该服务将保证数据能够实现无差错、无重复发送，并按顺序接收。流套接字之所以能够实现可靠的数据服务，原因在于其使用了传输控制协议，即TCP（TheTransmission Control Protocol）协议。

（2）：数据报套接字（SOCK_DGRAM）：数据报套接字提供了一种无连接的服务。该服务并不能保证数据传输的可靠性，数据有可能在传输过程中丢失或出现数据重复，且无法保证顺序的接收到数据。数据报套接字使用UDP（User DatagramProtocol）协议进行数据的传输。由于数据报套接字不能保证数据传输的可靠性，对于有可能出现的数据丢失情况，需要在程序中做相应的处理。

（3）：原始套接字（SOCK_RAW）：原始套接字与标准套接字（流套接字和数据报套接字）的区别在于：原始套接字可以读写内核没有处理的IP数据包，而流套接字只能读取TCP协议的数据，数据报套接字只能读取UDP协议的数据。因此，如果要访问其他协议发送数据必须使用原始套接字。

四，big_endian和little_endian

不同体系的CPU在内存中的数据存储往往存在着差异。例如Intel的X86系列处理器将低序字节存储在起始地址，而一些RISC架构的处理器，如IBM的370主机使用的PowerPC或Motorola公司生产的CPU，都将高序字节存储在起始位置。这两种不同的存储方式被称为little-endian和big-endian。

little-endian是X86系列CPU的数据存储方式，即将低序的部分存储在前面。而big-endian是将高序部分存储在前面。例如，要存储0xF432，little-endian将以32F4存储，而使用big-endian与此相反，将存储为F432，如下图所示：

下面我们将用两种方法来查看我们所使用的处理器是big-endian还是little-endian：

（1）：利用联合的特点：联合中的数据成员是共享存储空间的，所分配的空间为数据成员中最大所需的内存数。程序定义了名为endian_un的联合体，其中包含两个数据成员，一个是short类型的数据成员（在32位系统上，short类型的长度是2个字节），一个是字符类型的字符数组，字符数组的元素个数为short类型的字节数。程序将var赋值为0x0102。由于联合结构的特点，bits字符串数组中同样存储了0x0102这一数值。通过判断字符串中的低位和高位存储的内容，就可以知道系统是little-endian还是big-endian的。

（2）：通过强制类型转换实现：程序中通过取flag变量的地址，获得起始空间的存储内容。如果起始空间存储的数据的低位内容，则表示存储方式little-endian，否则为big-endian。

程序如下：

#include <stdio.h>

int is_little_endian(void)
{
    unsigned short flag = 0x4321;
    
    if (*(unsigned char *)&flag == 0x21)
    {
        return (1);
    }    
    else
    {
        return (0);
    }    
}    

int main(void)
{
    union endian_un
    {
        short var;
        char bits[sizeof(short)];
    };
    
    union endian_un flag;
    
    flag.var = 0x0102;
    
    if (sizeof(short) == 2)
    {
        if (flag.bits[0]==1 && flag.bits[1]==2)
        {
            printf("Judged by first method, big-endian\n");
        }    
        else if(flag.bits[0]==2 && flag.bits[1]==1)
        {
            printf("Judged by first method, little-endian\n");
        }    
        else
        {
            printf("Cannot determine the type\n");        }    
    }    
    
    
    if (is_little_endian())
    {
        printf("Judged by second method, little-endian\n");
    }    
    else
    {
        printf("Judged by second method, big-endian\n");
    }    
    
    system("PAUSE");
    return (0);
    
}    

运行结果：
Judged by first method, little-endian
Judged by second method, little-endian
请按任意键继续. . .

之所以介绍big-endian和little-endian，是因为这一数据存储方式不仅影响程序在不同硬件平台中的移植，而且在网络中也要考虑字节顺序的问题。为了避免兼容性的问题，网络中的数据传输都使用了从高到底的顺序存储的方式。因此，如果要将数据从低位字节优先（little-endian）的机器上发往网络，必须首先进行转换。而big-endian的机器是不需要转换的。

Linux系统提供了htons、htonl、ntohs、ntohl这4个函数用于进行字节顺序的转换。其中，h是host的缩写，n表示network。最后一个字符如果是s，表示short类型，如果是l，表示为long类型。4个函数的具体定义如下：

uint32_t htonl(uint32_t hostlong);

uint16_t htons(uint16_t hostshort);

uint32_t ntohl(uint32_t netlong);

uint32_t ntohs(uint16_t netshort);

htonl/htons：表示主机字节顺序转换成网络字节顺序，htonl函数和htons函数的区别在于参数长度存在差异。

ntohl/ntohs：表示网络字节顺序转换成主机字节顺序，ntohl函数和ntohs函数的区别在于参数长度存在差异。