FSM有限状态机运用分析系列一 —— INI解析器

上面我们看了只有中间两个状态的状态机,现在我们来看一个稍微复杂一点的状态机。

INI文件是Windows下常用的一种配置文件。它由多个分组组成,每个组有多个配置项,每个配置项又由名称和值组成。文件里还可以包含注释,注释通常以‘;’(或‘#’)开始,直到当前行结束。如XP下的win.ini:

 1 ; for 16-bit app support
 2 [fonts]
 3 [extensions]
 4 [mci extensions]
 5 [files]
 6 [MCI Extensions.BAK]
 7 aif=MPEGVideo
 8 aifc=MPEGVideo
 9 aiff=MPEGVideo
10 asf=MPEGVideo
11 asx=MPEGVideo
12 au=MPEGVideo
13 m1v=MPEGVideo
14 m3u=MPEGVideo
15 mp2=MPEGVideo
16 mp2v=MPEGVideo
17 mp3=MPEGVideo
18 [annie]
19 CaptureFile=
20 VideoDevice=0
21 AudioDevice=0
22 FrameRate=333333
23 UseFrameRate=1
24 CaptureAudio=1
25 WantPreview=1
26 MasterStream=-1
27 [SciCalc]
28 layout=0

第一行是注释,后面有fonts、extensions和mci extensions三个空的分组,MCI Extensions.BAK、annie和SciCalc三个分组包含有一个或多个配置项。

对于这样一个文件,我们应该怎样去解析它呢?按照前面的方法,先把数据读入到一个缓冲区中,让一个指针指向缓冲区的头部,然后移动指针,直到指向缓冲区的尾部。在这个过程中,指针可能指向的注释、分组的组名、配置项的名称、配置项的值或者一些如换行符之类的格式信息。

由此,我们可以这样来定义INI的状态机:

状态集合:
1. 分组的组名状态
2. 注释状态
3. 配置项的名称状态
4. 配置项的值状态
5. 空白状态

状态转换函数:
1. 初始状态为“空白”状态。
2. 在“空白”状态下,读入字符‘[’,进入“分组组名”状态。
3. 在“分组组名”状态下,读入字符‘]’,分组组名解析成功,回到“空白”状态。
4. 在“空白”状态下,读入字符‘;’,进入“注释”状态。
5. 在“注释”状态下,读入换行字符,结束“注释”状态,回到“空白”状态。
6. 在“空白”状态下,读入非空白字符,进入“配置项的名称”状态。
7. 在“配置项的名称”状态下,读入字符‘=’, 配置项的名称解析成功,进入“配置项的值”状态。
8. 在“配置项的值”状态下,读入换行字符,配置项的值解析成功,回到“空白”状态。

INI状态机可以用下图来表示:


现在我们来看看程序实现:

  1 static void ini_parse (char* buffer, char comment_char, char delim_char)
  2 {
  3     char* p = buffer;
  4     char* group_start = NULL;
  5     char* key_start = NULL;
  6     char* value_start = NULL;
  7     /*定义INI解析器的状态,初始状态为“空白”状态。*/
  8     enum _State
  9     {
 10         STAT_NONE = 0,
 11         STAT_GROUP,
 12         STAT_KEY,
 13         STAT_VALUE,
 14         STAT_COMMENT
 15     }state = STAT_NONE;
 16 
 17     for(p = buffer; *p != '/0'; p++)
 18     {
 19         switch(state)
 20         {
 21             case STAT_NONE:
 22             {
 23                 if(*p == '[')
 24                 {
 25                     /*在“空白”状态下,读入字符‘[’,进入“分组组名”状态。*/
 26                     state = STAT_GROUP;
 27                     group_start = p + 1;
 28                 }
 29                 else if(*p == comment_char)
 30                 {
 31                     /*在“空白”状态下,读入字符‘;’,进入“注释”状态。*/
 32                     state = STAT_COMMENT;
 33                 }
 34                 else if(!isspace(*p))
 35                 {
 36                     /*在“空白”状态下,读入非空白字符,进入“配置项的名称”状态。*/
 37                     state = STAT_KEY;
 38                     key_start = p;
 39                 }
 40                 break;
 41             }
 42             case STAT_GROUP:
 43             {
 44                 /*在“分组组名”状态下,读入字符‘]’,分组组名解析成功,回到“空白”状态。*/
 45                 if(*p == ']')
 46                 {
 47                     *p = '/0';
 48                     state = STAT_NONE;
 49                     strtrim(group_start);
 50                     printf("[%s]/n", group_start);
 51                 }
 52                 break;
 53             }
 54             case STAT_COMMENT:
 55             {
 56                   /*在“注释”状态下,读入换行字符,结束“注释”状态,回到“空白”状态。*/
 57                 if(*p == '/n')
 58                 {
 59                     state = STAT_NONE;
 60                     break;
 61                 }
 62                 break;
 63             }
 64             case STAT_KEY:
 65             {
 66                 /*在“配置项的名称”状态下,读入字符‘=’, 配置项的名称解析成功,进入“配置项的值”状态。*/
 67                 if(*p == delim_char || (delim_char == ' ' && *p == '/t'))
 68                 {
 69                     *p = '/0';
 70                     state = STAT_VALUE;
 71                     value_start = p + 1;
 72                 }
 73                 break;
 74             }
 75             case STAT_VALUE:
 76             {
 77                 /*在“配置项的值”状态下,读入换行字符,配置项的值解析成功,回到“空白”状态。*/
 78                 if(*p == '/n' || *p == '/r')
 79                 {
 80                     *p = '/0';
 81                     state = STAT_NONE;
 82                     strtrim(key_start);
 83                     strtrim(value_start);
 84                     printf("%s%c%s/n", key_start, delim_char, value_start);
 85                 }
 86                 break;
 87              }
 88               default:break;
 89           }
 90       }
 91 
 92       if(state == STAT_VALUE)
 93       {
 94           strtrim(key_start);
 95           strtrim(value_start);
 96           printf("%s%c%s/n", key_start, delim_char, value_start);
 97       }
 98 
 99       return;
100 }

ini文件有几个变种:
1. 支持默认分组,如果只有一个分组,省略分组的组名,linux下不少配置文件采用这种方式。
2. 注释符号,有的用‘;’,有的用‘#’,前者多用于Windows下,后面多用于Linux下。
3. 名称和值之间的分隔,有的用空格,有的用‘=’,有的‘:’。

不管哪种格式,它们的解析方法是一样的,在上面的程序中,我们使用了comment_char和 delim_char两个参数,分别表示注释符号和分隔符号。

原文地址:https://www.cnblogs.com/dylan2011/p/2688541.html