爬虫基本原理1

爬虫基本原理
1. request请求方式：主要有GET; POST；另外还有HEAD, PUT,DELETE,OPTIONS等；
请求URL：又称资源定位符，类似网页文档，图片，视频都可以用URL唯一来确定；
请求头：包含USER-AGENT,HOST,COOKIES等信息
请求体：请求时额外携带的数据
2. response：先判断状态码，然后拿出响应体
响应状态STATUS_CODE：有多重响应状态码
响应头HEADERS：如内同类型，内容长度，服务器信息，设置cookies等：如内同类型，内容长度，服务器信息，设置cookies等
响应体：最主要的部分，包含请求资源的内容，如网页，图片，二进制数据等。
3. 爬虫抓取的数据:
网页文本：如HTML,JSON格式文本等
图片或视频信息：多为二进制流： response.content，然后写入：
with open('保存路径/保存文件名','wb') as f
f.write(response.content)
f.close()
4. 解析方式：
直接处理：适合比较的内同
json解析：
正则表达式：
beautifulSoup:
PyQuery:
XPath:
5.解决JavaScript渲染的问题：
分析ajax请求
使用Selenium、WebDriver驱动浏览器：其实是做自动化的工作，模拟浏览器的请求
Splash：模拟js的渲染
PyV8.Ghost.py等
6. 保存数据：
文本：纯文本，Json，Xml等。
关系型数据库： MySQL, Oracle， SQL Server
非关系型数据库： MongoDB，redis等
二进制文件：如图片，视频，音频等直接报春成特定格式即可。