Regular expressions in lexing and parsing（翻译）

词法分析和语法分析中的正则表达式

（英文原文来自rob pike 的博客 https://commandcenter.blogspot.jp/2011/08/regular-expressions-in-lexing-and.html）

从代码审查中提取的注释。我被要求更广泛传播他们。

我应该讲一些关于词法分析和语法分析中的正则表达式。正则表达式很难写，很难写好，而且相对于其他技术来说可能是昂贵的。（即使当它们在N*M时间内被正确实现，它们有显著的开销，特别是如果它们必须捕获输出）。词法分析器，另一方面，很容易地正确写（如果不是紧凑的），并且非常容易测试。考虑找字母数字标识符。写这个正则表达式不太难（像”[a-zA-Z][a-zA-Z_0-9]*”），但是写作一个简单的循环真的不难。然而，循环的性能将会更高，并且涵盖的代码要少得多。正则表达式库是一个大东西。使用一个解析标识符就像使用一辆麦克卡车去商店买牛奶。并且当我们要调整我们的lexer来允许其他字符类型，如Unicode标识符，并规范化出来，等等，手写循环可以很容易地处理，但正则表达式的方法就会有问题。

类似的论点也适用于语法分析。使用正则表达式来探索解析状态以找到前向的方法是昂贵的，过度的，容易出错的。标准的词法分析、语法分析很容易编写，因此一般而言，适应性很强，没有理由使用正则表达式。他们还导致更快、更安全、更紧凑的实现。

以另一种方式来看，词法分析和语法分析是匹配静态定义的模式，但是正则表达式的特长是提供一种动态表达模式的方式。他们在文本编辑器和搜索工具中非常出色，但是，当你在编译时就知道所有要查找的内容时，正则表达式提供了远远比你需要的更多的通用性和灵活性。

最后，关于写好（write well）这一点上。根据我的经验，正则表达式是被广泛误解和滥用的。当我做涉及正则表达式的代码审查时，我修改了大量的在代码中的正则表达式部分，远高于做正常语句的审查。这是一个误用的标志：大多数程序员（没有手指指向这里，只是观察一般性）只是不知道它们是什么或如何正确使用它们。鼓励将正则表达式作为所有文本处理问题的灵丹妙药，不仅是懒惰而且差的工程，而且强化了不应该使用它们的人使用正则表达式。

所以不要用正则表达式来编写词法分析器和语法分析器作为起点。你的代码将更快，更干净，更容易理解和维护。