前端html, css, js 相关知识
数据库运用
http协议的了解
前后台联动
蜘蛛中间件、下载中间件
下载中间件的地方可以写各种反爬的策略
1、使用pip安装, pip3 install scrapy
2、下载whl文件 , http://www.lfd.uci.edu/~gohlke/pythonlibs
进入这个网站去下载lxml pip install “文件名”
基本的爬虫,包括spider, pipeline
item管理主要负责处理从网页中抽取出来的item, 主要任务是清洗、验证和存储数据
scrapy startproject hello_world
按照cmd中的提示信息,继续往下操作
在spider中,入口是 start_urls 查到要爬去的网站的url
name属性决定了去启动哪个爬虫
allow_domain决定了只爬取哪个域名的
函数请求的结果自动调用默认的parse函数(解析函数)
或者可以重写start_requests方法,定义自己的启动方法
如何启动一个爬虫,应该创建一个文件
from scrapy import cmdline
cmdline.execute("scrapy crawl 爬虫名字".split())
scrapy的选择器的用法:
css, xpath , re , pyquery
beautifulsoup , lxml, css ,xpath , re , pyquery
response.xpath().extract_first()
from pyquery import PyQuery
scrapy 的项目管道
item pipeline