数据结构18：数据结构中的字符串

数据结构中的字符串
字符串BF算法(普通模式匹配算法) 
数据结构中提到的串，即字符串，由 n 个字符组成的一个整体（ n >= 0 ）。这 n 个字符可以由字母、数字或者其他字符组成。

例如，S = ”BEIJING” ，S 代表这个串的串名，BEIJING 是串的值。
双引号不是串的值，作用只是为了将串和其他结构区分开。
特殊的串
空串：含有零个字符的串。例如：S = “”（双引号中没有任何东西），一般直接用 Ø 表示。

空格串：只包含空格的串。注意和空串区分开，空格串中是有内容的，只不过包含的是空格，且空格串中可以包含多个空格。例如，a = ”   ”（包含3个空格）。

子串与主串：串中任意个连续字符组成的字符串叫做该串的子串，包含子串的串称为主串。
例如：a = ”BEI”，b = ”BEIJING”，c = ”BJINGEI” 。对于字符串 a 和 b 来说，由于 b 中含有连续的字符串 a ，所以可以称 a 是 b 的子串，b 是 a 的主串；而对于 c 和 a ，虽然 c 中也含有 a 的全部字符，但不是连续的 “BEI” ，所以串 c 和 a 没有任何关系。

子串在主串中的位置：对于串 a = ”BEI” 来说，首字符 ‘B’ 在串 b 的位置为 1 ，所以子串 a 在主串 b = “BEIJING” 中的位置是 1。
子串在主串中的位置和字符在数组中的存放位置不同，子串在主串的位置从 1 开始数。
两个串相等的标准：如果两个串的串值完全相同，那么这两个串相等。
串的三种存储结构
存储串的结构有三种：1 定长顺序存储；2 堆分配存储； 3 块链存储。
定长顺序存储
采用固定长度的数组（即静态数组）存储串。

例如：char a[7] = "abcdfg";

此方式存储串时，需要预估串的长度提前申请足够的存储空间。目标串如果超过了数组申请的长度，超出部分会被自动舍弃（称为“截断”）。

例如：char a[3] = "abcdfg";　　//实际上数组中只存储了 “ab” ，后边的被截断。
堆分配存储
采用动态数组存储串。
在C语言中，存在着一个被称之为“堆”的自由存储区，用 malloc 函数和 free 函数管理，malloc 函数负责申请空间，free 函数负责释放空间。
例如：char * a = (char*)malloc(5*sizeof(char));//创建 a 数组，动态申请5个 char 类型数据的存储空间

使用堆分配存储的优势在于：当发现申请的空间不够用时，可以通过 realloc() 函数重新申请更大的存储空间。

例如：a = (char*)realloc(a, 10*sizeof(char));//前一个参数指申请空间的对象；第二个参数，重新申请空间的大小

使用 malloc 函数申请的存储空间，不会自动释放，需要程序员调用 free() 函数手动释放。如果不手动释放，当程序执行彻底结束，由操作系统进行回收。

例如：free(a);//释放动态数组a申请的空间

举一个完整的例子，连接串 “abc” 和 “defg” 变为 “abcdefg” ；

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

int main()
{
    char *a1 = NULL;
    char *a2 = NULL; 
    a1 = (char*)malloc(3*sizeof(char));
    strcpy(a1, "abc");　　//将字符串“abc”复制给a1
    a2 = (char*)malloc(3*sizeof(char));
    strcpy(a2, "defg");
    int lengthA1 = strlen(a1);
    int lengthA2 = strlen(a2);
    if (lengthA1 < lengthA1+lengthA2) 
　　 {
        a1 = (char*)realloc(a1, (lengthA1+lengthA2)*sizeof(char));
    }
    for (int i=lengthA1; i<lengthA1+lengthA2; i++) 
　　 {
        a1[i] = a2[i-lengthA1];
    }
    printf("%s", a1);
    free(a1);
    free(a2);

    return 0;
}


输出结果：
abcdefg

注：在程序中，我们给 a1 和 a2 赋值的时候，使用了 strcpy 复制函数。在这里不能直接用：a1 = ”abc”这种方式，如果你这样做，程序编译会出错，告诉你，没有 malloc 的空间不能 free 。

原因是： strcpy 函数是将字符串复制到申请的存储空间中，而直接赋值是字符串存储在别的内存空间（本身是一个常量，放在常量区）中，更改了指针 a1 和 a2 的指向，也就是说，之前动态申请的存储空间虽然申请了，结果还没用呢就丢了。
块链存储
块链存储，其实就是借用链表的存储结构来存储串。一般情况下使用单链表就足够了，而且不需要增设头结点。

在构建链表时，每个结点可以存放一个字符，也可以存放多个字符。

图1 块链存储
 
链表中最后一个结点的数据域不一定全被串值占满，通常会补上 “#” 或者其他特殊的字符和字符串中的字符区分开。

每个结点设置字符数量的多少和存储的串的长度、可以占用的存储空间以及程序实现的功能相关。

如果串包含数据量很大，但是可用的存储空间有限，那么就需要提高空间利用率，相应地减少结点数量（因为多一个节点，就多申请一个指针域的空间）。

而如果程序中需要大量地插入或者删除数据，如果每个节点包含的字符过多，操作字符就会变得很麻烦，为实现功能增加了障碍。
总结
在平时编写程序，经常会用到例如：char *a = ”abcd”;这种方式表示字符串，和上面三种存储方式最主要的区别是：这种方式用于表示常量字符串，只能使用，不能对字符串内容做修改（否则程序运行出错）；而以上三种方式都可以对字符串进行删改的操作。

例如：
#include <stdio.h>
int main() 
{
    char* a="abcd";
    a[1]='b';
    return 0;
}

程序编译可以通过，运行失败，改成下面堆分配存储的方式就对了：

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

int main() 
{
    char * a = (char*)malloc(4*sizeof(char));
    strcpy(a, "abcd");
    a[1] = 'e';
    printf("%s", a);
    return 0;
}


输出结果：

aecd

三种存储表示方式中，最常用的是堆分配存储，因为它在定长存储的基础上通过使用动态数组，避免了在操作串时可能因为申请存储空间的不足而丢失字符数据；
和块链存储方式相比，结构相对简单，更容易操作。
数据结构18： 数据结构中的字符串

数据结构18：数据结构中的字符串