爬虫1:概述

安装各种可能需要的库
pip3 install requests selenium lxml beautifulsoup4 pyquery pymysql pymango redis flask django jupyter
 
 
一。爬虫基本原理讲解
 
1. 抓网页
import requests
response=requests.get("http://www.baidu.com")
print(response.text) 
print(response.headers)
print(response.status_code) //返回状态码
 
头信息可要可不要
headers={}
headers={'User-Agent' : '网页上查看的请求头信息'}
response=requests.get('http://www.baidu.com', headers=headers)
 
2. 抓图片,视频等
import requests
response=requests.get('https://www.baidu.com/img/1.gif')
print(response.content) //响应体的2进制格式
with open('/var/1.gif', 'wb') as f:
    f.write(response.content)
    f.close()
 
 
3. 解析方式
 
直接处理
json解析
正则
beautifulsoup
pyquery
xpath
 
 
二.  怎么解决javascript渲染看不到真实源代码的问题
 
1. 使用selenium/webdriver
安装方法如下
$ unzip chromedriver_linux64.zip
$ sudo mv chromedriver /usr/bin/
$ sudo chmod +x chromedriver
 
windows中是把chromedirver解压包放在python目录下
 
测试代码如下
from selenium import webdriver
driver=webdriver.Chrome()
driver.get('http://m.weibo.com')
print(driver.page_source) 
 
 
2. splash (github上搜索)
 
 
 
三. 怎么保存数据
1. 文本
2. 关系型数据库
3. 非关系型数据库
4. 二进制文件
原文地址:https://www.cnblogs.com/regit/p/9243488.html