python爬虫

爬虫

以下内容纯自己理解的

爬网站时要是内容能被ctrl f 找到那就是静态网页就可以直接进行爬取,
要是没有就是动态网页,要分析json等响应最后转换成python能懂得语言,解析数据 字典

scrapy框架步骤

  1. scrapy startproject 项目名称
  2. scrapy genspider 爬虫名字 域名 爬虫名字不能是数字开头的最好是英文的
  3. 编写爬虫(敲代码)
  4. 运行爬虫 scrapy crawl 爬虫名字

例子

  1. 创建项目框架scrapy startproject jobspider
  2. 创建爬虫scrapy genspider job 51job.com
  3. 编写爬虫
  4. 运行爬虫 scrapy crawl job

循环的代码提取内容

book = []
for name,author in zip(name,author):
book.append({'name': name,'author':author})
return book

scrapy crawl 项目名称(qd)-o book.csv/xml/json能拿到这些格式

setting 里面要开启好多东西 包括pipelines
PIPELINES的介绍。。。
yield的使用,数据的操作

xpath('内容提取信息的规则').extract()是获取数据 前面的是返回来的响应

另一个爬虫框架 crawlscrapy
scrapy genspider -t crawl 爬虫名字 域名

和scrapy的区别是多了一个rules规则 这里是获取响应并且回传到parse_item 就相当于parse那个函数,同时可以进行多次的rules,响应返回来再做处理

图片的便捷取出方法
image

middlewares 动态的ua
动态代理

原文地址:https://www.cnblogs.com/wkjava/p/12860216.html