C# 正则表达式 —— 中文/英文空格（全角/半角空格）处理

1. 匹配中文（全角）空格

Regex.IsMatch("　", "u3000");

u3000是全角空格的16进制Unicode编码。

2. 匹配英文（半角）空格

Regex.IsMatch(" ", "u0020")

u0020是半角空格的16进制Unicode编码。

3. 去除中文字符之间的英文（半角）空格

string text = "<p>　测 试 test1. 一下</p>";
var result = Regex.Replace(text, "(?<=[u4e00-u9fa5])(u0020)(?=[u4e00-u9fa5])", string.Empty);
Console.WriteLine(result);
//结果是：<p>　测试 test1. 一下</p>

(?=[u4e00-u9fa5]) 表示“正向预搜索”一个中文字符，判断u0020的右侧是否为中文字符。

(?<=[u4e00-u9fa5]) 表示“反向预搜索”一个中文字符，判断u0020的左侧是否为中文字符。

4. 在中文字符与英文字符之间增加空格

string text = "<p>　test测试test1. 一hello下</p>";            
text = Regex.Replace(text, @"(?<=[u4e00-u9fa5])([a-zA-Z])(?=[a-zA-Z])", " $1");
text = Regex.Replace(text, @"(?<=[a-zA-Z])([a-zA-Z])(?=[u4e00-u9fa5])", "$1 ");
Console.WriteLine(text);
//输出结果：<p>　test 测试 test1. 一 hello 下</p>

第一个正则表达式是针对“左中文，右英文”的情况。

第二个正则表达式是针对“左英文，右中文”的情况。

有关中文的正则表达式

1、判断字符串是否为连续的中文字符(不包含英文及其他任何符号和数字)：
Regex.IsMatch("中文","^[u4e00-u9fa5]+$")；
2、判断字符串是否为中文字符串(仅不包含英文但可以包含其他符号及数字)：
！Regex.IsMatch("中文",@"[a-zA-Z]")；