C#反爬虫之爬取未加载js的html

转自：C# 写个小爬虫，实现爬取js加载后的网页_zjl1353911的博客-CSDN博客_c#实现爬虫

有个业务是爬取网页中的某一组数

查看页面源代码时发现是一堆未加载的html,有两种办法可以获取，一个是在茫茫代码中拼接获取数据的接口，另一个是用第三方的库加载获得数据；这里用的是后者：

第一：安装第三方组件：

注意中间这个库的版本要求;

用法:

public static string GetWebHtmlManage(string url)
        {
            PhantomJSDriverService driverService = PhantomJSDriverService.CreateDefaultService();
            driverService.IgnoreSslErrors = true;
            ChromeOptions options = new ChromeOptions();
            options.AddArgument("--headless");
            options.AddArgument("--nogpu");
            List<String> tagNmaeList = new List<string>();
            using (driver = new ChromeDriver(options))
            {
                try
                {
                    driver.Manage().Window.Maximize();
                    driver.Navigate().GoToUrl(url);
                    Thread.Sleep(5000);
                    var docStr = driver.PageSource;
                    return docStr;
                }
                catch (NoSuchElementException ex)
                {
                    throw ex;
                }
            }
        }

View Code

获取的是字符串类型的Html，可用解析Html的组件转为Html文档再解析；

结果：