Scrapy中的反反爬、logging设置、Request参数及POST请求

常用的反反爬策略

通常防止爬虫被反主要有以下几策略:

动态设置User-Agent（随机切换User-Agent，模拟不同用户的浏览器信息。）
禁用cookies（也就是不启用cookies middleware，不向server发送cookies，有些网站通过cookies的使用发现爬虫，可以通过COOKIES_ENABLED控制cookies middleware的开启和关闭）
设置延迟下载（防止访问过于频繁，设置为2s甚至更高）
Google Cache和Baidu Cache:如果可能的话，使用谷歌或百度等搜索引擎服务器页面缓存的页面数据。
使用IP池：VPN和IP代理。

scrapy中Log Levels分为五个级别：

CRITICAL:----严重错误

ERROR:------一般错误

WARNNING---警告信息

INFO------------一般信息

DEBUG--------调试信息

通过setting.py文件，可以进行一下设置，用来配置logging：

LOG_ENABLED:默认为True，启用logging

LOG_ENCODING:默认为utf-8，logging使用编码

LOG_FILE:默认为None,在当前目录下创建logging输出文件的文件名

LOG_LEVEL:默认为DEBUG，log的最低级别

LOG_STDOUT：默认为False，如果为True时，进程所有标准输出（及错误）都将被重定向到log中，例如，执行print("hello")，将会在scrapy的log中显示。

一般情况下，实际设置以下内容就足够：

LOG_FILE=“文件名.log”

LOG_LEVEL="INFO"

Request中的主要参数：

url: 就是需要请求，并进行下一步处理的url

callback: 指定该请求返回的Response，由哪个函数处理

method: 请求一般不需要指定，默认为GET方法，可以设置为“GET”，“POST”,"PUT"等，且保证字符串大写。

headers:请求时，包含的头文件。一般不需要。

meta: 比较常用。在不同请求之间传递数据时使用，字典dict类型。

encoding: 使用默认的utf-8就行。

dont_filter: 表明该请求不由调度齐齐过滤。这是当你想使用多次执行相同请求时，忽略重复的过滤。默认为False.

Response中的重要参数：

status: 响应码

_set_body(body): 响应体

_set_url(url):响应url

scrapy中一般使用如下方法发送POST请求：

yield scrapy.FormRequest(url, formdata, callback)

　如果希望程序执行一开始就发送POST请求，可以重写Spider类的start_requests(self)方法，并且再调用start_url中的url

使用FormRequest.from_response()方法，模拟用户登录。

通常网站通过实现对某些表单字段（如数据或登录界面中的认证令牌等）的预填充。使用scrapy抓取网页时，如果需要预填充或重写用户名、用户密码等表单字段时，

可以使用FormRequest.from_response()方法实现。