.Net高级技术

本次课程中讲的有的东西都是根据初学者的认知规律进行了调整，并不是严谨的，比如很多地方在多AppDomain条件下很多说法就不对了，但是说严谨了大家就晕了，因此继续不严谨的讲吧。

很多面试题都在这阶段的课程中。

.Net高级技术属于拔高内容，根据自己的基础决定学习深度。

参考教材：《C#高级编程》《C#图解教程》《CLR Via C#》

正则表达式前奏：地狱

需求1：“192.168.10.5[port=8080]”,这个字符串表示IP地址为192.168.10.5的服务器的8080端口是打开的，请用程序解析此字符串，然后打印出“IP地址为***的服务器的***端口是打开的”。

需求2：“192.168.10.5[port=21,type=ftp]”，这个字符串表示IP地址为192.168.10.5的服务器的21端口提供的是ftp服务，其中如果“,type=ftp”部分被省略，则默认为http服务。请用程序解析此字符串，然后打印出“IP地址为***的服务器的***端口提供的服务为***”

需求3：判断一个字符串是否是Email？必须含有@和.、不能以@或者.开始或者结束、@要在最后一个.之前

需求4：从一个文本中提取出所有的Email：我有全部333M的照片，要的给我发email:me@wo.com。我也要you@you.com，123456@163.com，楼主好人：888888@qq.cn。需求5：提取网页中的所有图片、超链接。

正则表达式入门：天堂

正则表达式是用来进行文本处理的技术，是语言无关的，在几乎所有语言中都有实现。javascript中还会用到。

一个正则表达式就是由普通字符以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。

就像通配符“*.jpg”、“%ab%”，它是对字符串进行匹配的特殊字符串正则表达式是非常复杂的，不要希望一次都掌握，理解正则表达式能做什么（字符串的匹配、字符串的提取、字符串的替换），掌握常用的正则表达式用法，以后用到再查就行。

找工作的亮点。后面项目中的敏感词过滤、Validator等也会涉及到正则表达式。

元字符1

要想学会正则表达式，理解元字符是一个必须攻克的难关。不用刻意记

.：匹配除之外的任何单个字符。例如正则表达式“b.g”能匹配如下字符串：“big”、“bug”、“b g”，但是不匹配“buug”，“b..g”可以匹配“buug”。

[ ] ：匹配括号中的任何一个字符。例如正则表达式“b[aui]g”匹配bug、big和bag，但是不匹配beg、baug。可以在括号中使用连字符“-”来指定字符的区间来简化表示，例如正则表达式[0-9]可以匹配任何数字字符，这样正则表达式“a[0-9]c”等价于“a[0123456789]c”就可以匹配“a0c”、“a1c”、“a2c”等字符串；还可以制定多个区间，例如“[A-Za-z]”可以匹配任何大小写字母，“[A-Za-z0-9]”可以匹配任何的大小写字母或者数字。

( ) ：将 () 之间括起来的表达式定义为“组”(group)，并且将匹配这个表达式的字符保存到一个临时区域,这个元字符在字符串提取的时候非常有用。把一些字符表示为一个整体。改变优先级、定义提取组两个作用。

| ：将两个匹配条件进行逻辑“或”运算。'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。

元字符2

*：匹配0至多个在它之前的子表达式，和通配符*没关系。例如正则表达式“zo*”能匹配 “z” 、“zo”以及 “zoo”；因此“.*”意味着能够匹配任意字符串。"z(b|c)*"→zb、zbc、zcb、zccc、zbbbccc。"z(ab)*"能匹配z、zab、zabab（用括号改变优先级）。

+ ：匹配前面的子表达式一次或多次，和*对比（0到多次）。例如正则表达式9+匹配9、99、999等。 “zo+”能匹配 “zo”以及 “zoo” ，不能匹配"z"。

? ：匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 。一般用来匹配“可选部分”。

{n} ：匹配确定的 n 次。"zo{2}"→zoo。例如，“e{2}” 不能匹配“bed”中的“e”，但是能匹配“seed”中的两个“e”。

{n,} :至少匹配n次。例如，“e{2,}”不能匹配“bed”中的“e”，但能匹配 “seeeeeeeed”中的所有“e”。

{n,m} ：最少匹配 n 次且最多匹配 m 次。“e{1,3}”将匹配“seeeeeeeed”中的前三个“e”。

元字符3

^（shift+6）：匹配一行的开始。例如正则表达式“^regex”能够匹配字符串“regex我会用”的开始，但是不能匹配“我会用regex”。 ^另外一种意思：非！（暂时不用理解）

$ ：匹配行结束符。例如正则表达式“浮云$” 能够匹配字符串“一切都是浮云”的末尾，但是不能匹配字符串“浮云呀”

简写表达式

注意这些简写表达式是不考虑转义符的，这里的就表示字符，而不是C#字符串级别的，在C#代码中需要使用@或者双重转义。区分C#级别的转移和正则表达式级别的转移，恰好C#的转义符和正则表达式的转义符都是而已。正则表达式的转移是在C#之后的（层层盘剥）。把C#的转义符想成%就明白了。在C#看来@"-"就是-这个普通的字符串，只不过在正则表达式分析引擎看来他有了特殊含义。

"\d"或者@"d"

d：代表一个数字，等同于[0-9]

D：代表非数字，等同于[^0-9]

s：代表换行符、Tab制表符等空白字符

S：代表非空白字符

w：匹配字母或数字或下划线或汉字，即能组成单词的字符

W：非w ，等同于[^w]

d：digital；s：space、w：word。大写就是“非”