爬虫

以下内容纯自己理解的

爬网站时要是内容能被ctrl f 找到那就是静态网页就可以直接进行爬取，
要是没有就是动态网页，要分析json等响应最后转换成python能懂得语言，解析数据字典

scrapy框架步骤

例子

循环的代码提取内容

book = []
for name,author in zip(name,author):
book.append({'name': name,'author':author})
return book

scrapy crawl 项目名称（qd）-o book.csv/xml/json能拿到这些格式

setting 里面要开启好多东西包括pipelines
PIPELINES的介绍。。。
yield的使用，数据的操作

xpath('内容提取信息的规则').extract（）是获取数据前面的是返回来的响应

另一个爬虫框架 crawlscrapy
scrapy genspider -t crawl 爬虫名字域名

和scrapy的区别是多了一个rules规则这里是获取响应并且回传到parse_item 就相当于parse那个函数，同时可以进行多次的rules，响应返回来再做处理

图片的便捷取出方法
image

middlewares 动态的ua
动态代理