爬虫 --通用篇

概述

爬虫是合法的吗?

是的,它是一个计算机的学科!一个工具

什么是爬虫?

通过编写程序,模拟浏览器上网,然后让其去互联网上爬取/获取数据的过程.爬虫爬取的也就是服务端的响应数据

爬虫使用场景的分类

- 通用爬虫 : 爬取一整张页面数据."抓取系统"

- 聚焦爬虫 : 爬取页面中指定的内容,建立在通用爬虫的基础上,爬到数据后,进行局部数据解析筛选

- 增量式爬虫 : 用来检测网站数据更新的情况.只爬取网站最新更新的数据.

反扒机制

网站指定了相关的技术手段或者策略阻止爬虫程序进行网页数据的爬取

- 机制一 : robots协议:一个文本协议,防君子不防小人的协议(哈哈),只是让你主观遵从,但也可以忽略直接爬取!

- 机制二 : UA检测,检测请求载体是否基于某一款浏览器

反反扒策略

爬虫破解网站指定的反扒策略

机制一 : 直接忽略

机制二 : UA伪装

http/https协议

客户端和服务器端进行数据交互的一种形式

- 请求头信息 :

- User-Agent : 请求载体身份标识

- Connection : close (请求成功后马上断开)

- 响应头信息

-Content-Type : json...

- https : 安全

- 加密方式 :

　　- 对称秘钥加密 : 浏览器将秘钥和密文一起发送给服务器,极度不安全

- 非对称秘钥加密 : 客户端没有保障秘钥是服务器发送的,可能被拦截替换,也不安全

- 证书秘钥加密 : 安全

Jupyter

编写爬虫程序的环境

编写程序

什么是动态加载的数据?

页面加载的时候,通过ajax提交的post数据.

相关模块

-urllib    #比较古老,用法繁琐被requests模块代替

requests:网络请求的一个模块.
requests的作用: 模拟浏览器发请求。进而实现爬虫
requests的编码流程:
　　- 1.指定url
　　- 2.发起请求
　　- 3.获取响应数据
　　- 4.持久化存储

示例1 搜狗首页页面数据

#简单通用爬虫
import requests
#指定url
url = "https://www.sougou.com/"
#发起请求:get的返回值就是一个响应对象
response = requests.get(url=url)
#获取响应数据,返回字符串形式的响应数据
page_text = response.text 
#持久化存储
with open("./sougou.html","w",encoding="utf-8") as fp:
    fp.write(page_text)

示例2 爬取搜狗自定词条搜索后的页面数据

import requests

url = "https://www.sogou.com/web"
content = input(">>> ").strip()
param = {"query":content}
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
}

response = requests.get(url=url,params=param,headers = headers)
response.encoding = "utf-8"
page_text = response.text
name = content + ".html"
with open(name,'w',encoding="utf-8") as f:
    f.write(page_text)
    print("爬取成功")

示例3 破解百度翻译

#破解百度翻译爬取想要的信息  动态加载数据,
import requests
content = input("输入一个单词: ")
url = "https://fanyi.baidu.com/sug"
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
}
data = {"kw":content}
response = requests.post(url=url,headers=headers,data=data)
obj_json = response.json()
print(obj_json)

示例4 爬取豆瓣电影中的电影详情数据

#爬取豆瓣上的电影,注意,页面上可能存在动态页面
import requests,json
url = "https://movie.douban.com/j/chart/top_list"
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
}
param = {
    "type": "5",
    "interval_id": "100:90",
    "action": "",
    "start": "0",
    "limit": "200"
}
response = requests.get(url=url,params=param,headers=headers)
movie_json = response.json()
name = "dz_movie"+".json"
print(len(movie_json))
with open(name,"w",encoding="utf-8") as f:
    json.dump(movie_json,f)
    print("爬取写入完成")

示例5 爬取任意城市肯德基的餐厅位置信息

import requests,json
all_data = []
url = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword"
content = input("请输入城市名称: ").strip()
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
}
for i in range(1,8):
    data = {
        "cname":"",
        "pid": "",
        "keyword": content,
        "pageIndex": str(i),
        "pageSize": "10"
    }
    json_obj = requests.post(url=url,headers=headers,data=data).json()
    for i in json_obj['Table1']:
        all_data.append(i)
name = 'KFC.json'
with open (name,"w",encoding="utf-8")as f:
    json.dump(all_data,f)
    print("KFC data is ok")

爬取KFC门店

示例6.化妆品企业

#查看国家药监总局中基于中华人民共和国化妆品生产许可证相关数据
import requests,json
id_lst = []  #获取所有企业UUID
all_data = [] #存储所有企业的详情信息
post_url = "http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList"

headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
}
for i in range(1,10):
    data = {
        "on": "true",
        "page": str(i),
        "pageSize": "15",
        "productName": "",
        "conditionType": "1",
        "applyname": "",
        "applysn": ""
    }
    json_obj = requests.post(url=post_url,headers=headers,data=data).json()
    for dic in json_obj["list"]:
        ID = dic["ID"]
        id_lst.append(ID)
for id in id_lst:
    detail_post_url = "http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById"
    data = {"id":id}
    detail_dic = requests.post(url=detail_post_url,data=data).json()
    all_data.append(detail_dic)
name = "hzpqy"+".json"
with open(name,"w",encoding="utf-8") as fb:
    json.dump(all_data,fb)
    print("data is ok!")

爬取化妆品企业信息

...