HTML批量修改——正则表达式实践

1.问题描述
2.初步研究
3.进一步研究
参考资料

1.问题描述

如下所示的一段HTML代码：

...
<h2 align="justify"><span style="background-color: #99ccff;">2.1.<span style="font-family: 宋体;">从文件系统级理解</span><span style="font-family: Calibri;">ROS</span><span style="font-family: 宋体;">架构 &nbsp; &nbsp;&nbsp; <br></span></span></h2>
...

想将其整体转换为Markdown的标题格式：
#1.从文件系统级理解

2.初步研究

使用正则表达式<h2.*>，检索结果为：

<h2 align="justify"><span style="background-color: #99ccff;">2.1.<span style="font-family: 宋体;">从文件系统级理解</span><span style="font-family: Calibri;">ROS</span><span style="font-family: 宋体;">架构 &nbsp; &nbsp;&nbsp; <br></span></span></h2>

这样可以做到检索到所需要的代码段，但是还没能做到将所需的文字提取并缓存，以供替换。

3.进一步研究

3.1提取2.中的序号

若要提取出2.*中的序号*，需要使用到子表达式()。另外，由于*是贪婪的，必须使用?使表达式实现最小匹配。
使用正则表达式<h2.*?>，检索结果为：<h2 align="justify">。由于表达式非贪婪，只检索到第一个'>'便结束了。为了检测到第二个'>'，我们将'.*?>'作为子表达式，条件为检索到2次。由于此结果我们不会使用，因此加上'?:'使之忽略对此匹配的捕捉。
使用<h2(?:.*?>){2}，检索结果为：<h2 align="justify"><span style="background-color: #99ccff;">。此时，只需要加入对'2.'的检索，即可将定位在2.*中的*处。由于.是特殊字符，加上''进行检索。
使用<h2(?:.*?>){2}2.，检索结果为：<h2 align="justify"><span style="background-color: #99ccff;">2.。此时，使用对数字的检索'[1-9]'并加以限定为检索到1次，再加上子表达式并缓存其结果即可。
使用<h2(?:.*?>){2}2.([1-9]){1}.，检索结果为：<h2 align="justify"><span style="background-color: #99ccff;">2.1.，同时'2.1'中的'1'已被缓存为'1'。

3.2提取标题

标题是第二个需要提取的内容，也即HTML代码中的”从文件系统级理解“。上文中已经提到的内容不会重复。
首先，定位到汉字之前。使用正则表达式<h2(?:.*?>){2}2.([1-9]){1}..*?>，检索结果为：<h2 align="justify"><span style="background-color: #99ccff;">2.1.<span style="font-family: 宋体;">。
然后，提取汉字内容。使用正则表达式<h2(?:.*?>){2}2.([1-9]){1}..*?>(w*?)<，检索结果为：<h2 align="justify"><span style="background-color: #99ccff;">2.1.<span style="font-family: 宋体;">从文件系统级理解，同时标题被缓存为'2'。
注意：'w'在某些操作系统/环境的作用下，不支持检索汉字。因此也可以使用<h2(?:.*?>){2}2.([1-9]){1}..*?>(.*?)<。

3.3选取全文

选取全文只需要在之前正则表达式的基础之上，加入对标题后字符的检索即可。
使用正则表达式<h2(?:.*?>){2}2.([1-9]){1}..*?>(w*?)<.*>即可。

3.4替换

替换同样不复杂，按照Markdown格式，替换为##1.2。替换结果：##1.从文件系统级理解。
注意：在部分软件/语言中，可能需要使用##$1.$2。

参考资料

正则表达式——看的最远的地方