scrapy抓取js动态生成页面

scrapy 本身不能作为js engine

可以利用splash项目动态解析js:

使用docker启动scrapinghub/splash项目并且监听8050端口, 命令如下:

docker run -p 8050:8050 scrapinghub/splash

POST参数{"url": url, 'lua_source': 'function+main(splash)'}到url virtualbox_ip:8050/render.html将得到动态解析过的html,手动添加POST参数到splash(可以将参数构造在URL中,解决获取response的url问题)

原文地址:https://www.cnblogs.com/leaf-7/p/5509230.html