爬虫1：概述

安装各种可能需要的库

pip3 install requests selenium lxml beautifulsoup4 pyquery pymysql pymango redis flask django jupyter

一。爬虫基本原理讲解

1. 抓网页

import requests

response=requests.get("http://www.baidu.com")

print(response.text)

print(response.headers)

print(response.status_code) //返回状态码

头信息可要可不要

headers={}

headers={'User-Agent' : '网页上查看的请求头信息'}

response=requests.get('http://www.baidu.com', headers=headers)

2. 抓图片，视频等

import requests

response=requests.get('https://www.baidu.com/img/1.gif')

print(response.content) //响应体的2进制格式

with open('/var/1.gif', 'wb') as f:

f.write(response.content)

f.close()

3. 解析方式

直接处理

json解析

正则

beautifulsoup

pyquery

xpath

二. 怎么解决javascript渲染看不到真实源代码的问题

1. 使用selenium/webdriver

安装方法如下

$ unzip chromedriver_linux64.zip

$ sudo mv chromedriver /usr/bin/

$ sudo chmod +x chromedriver

windows中是把chromedirver解压包放在python目录下

测试代码如下

from selenium import webdriver

driver=webdriver.Chrome()

driver.get('http://m.weibo.com')

print(driver.page_source)

2. splash (github上搜索)

三. 怎么保存数据

1. 文本

2. 关系型数据库

3. 非关系型数据库

4. 二进制文件