C#正则表达试抓取网页内容。

  1. 了解正则表达示基础,能够编写常用的正则表达示。学习地址【http://deerchao.net/tutorials/regex/regex.htm】
  2. 下载编写工具RegExBuilder,个人觉得很不错的工具
  3. 完成C#代码:
        static void Main(string[] args)
        {
            string pattern = "<(a|A)\\s*(href|HREF)\\s*=\\s*(['\"])(?'LinkUri'[^']+)\\3[^>]*>\\s*(?'LinkTitle'[^\\<]+)\\s*</\\1>";
            string source = @"<li>
                    <a href='http://163.com'> 网易 </a>
                    </li>
                    <li>
                    <a href='http://www.google.com'>Google </a>
                    </li>
";

            Regex reg = new Regex(pattern, RegexOptions.Compiled);
            Match m = reg.Match(source);
            while (m.Success)
            {
                string linkUri = m.Groups["LinkUri"].Value;
                string LinkTitle = m.Groups["LinkTitle"].Value;
                m = m.NextMatch();
            }
        }
原文地址:https://www.cnblogs.com/sgciviolence/p/2303069.html