爬虫踩坑总结

1. 抓不到接口,不要着急提取页面信息,先搜索下网络资源,没准就有人分享对应的接口信息。

2 抓取页面信息,一定先用导出curl 相关命令,一般情况下能正常返回页面信息,尽量不要selenium启动页面抓取

3. url中包含#,要去掉

4. requests请求一定要带着user-agent,否则大概率返回不了正常信息,被当成爬虫处理了。

原文地址:https://www.cnblogs.com/shining5/p/12879517.html