爬虫初始

一.爬虫概念

1.什么是爬虫？

爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。

2.哪些语言可以实现爬虫？

(1)php：可以实现爬虫。php被号称是全世界最优美的语言（当然是其自己号称的，就是王婆卖瓜的意思），但是php在实现爬虫中支持多线程和多进程方面做的不好。

(2)java：可以实现爬虫。java可以非常好的处理和实现爬虫，是唯一可以与python并驾齐驱且是python的头号劲敌。但是java实现爬虫代码较为臃肿，重构成本较大。

(3)c、c++：可以实现爬虫。但是使用这种方式实现爬虫纯粹是是某些人（大佬们）能力的体现，却不是明智和合理的选择。

(4)python：可以实现爬虫。python实现和处理爬虫语法简单，代码优美，支持的模块繁多，学习成本低，具有非常强大的框架（scrapy等）且一句难以言表的好！没有但是！

3.爬虫的分类

(1)通用爬虫：通用爬虫是搜索引擎（Baidu、Google、Yahoo等）“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备分，在对这些网页做相关处理(提取关键字、去掉广告)，最后提供一个用户检索接口。

* 搜索引擎如何抓取互联网上的网站数据？

* 门户网站主动向搜索引擎公司提供其网站的url

* 搜索引擎公司与DNS服务商合作，获取网站的url

* 门户网站主动挂靠在一些知名网站的友情链接中

(2）聚焦爬虫：聚焦爬虫是根据指定的需求抓取网络上指定的数据。例如：获取豆瓣上电影的名称和影评，而不是获取整张页面中所有的数据值

4.反爬虫

- 门户网站通过相应的策略和技术手段，防止爬虫程序进行网站数据的爬取。

反爬虫技术一般有六种：

（1）robots.txt协议

- 如果自己的门户网站中的指定页面中的数据不想让爬虫程序爬取到的话，那么则可以通过编写一个robots.txt的协议文件来约束爬虫程序的数据爬取。robots协议的编写格式可以观察淘宝网的robots（访问www.taobao.com/robots.txt即可）。但是需要注意的是，该协议只是相当于口头的协议，并没有使用相关技术进行强制管制，所以该协议是防君子不防小人。但是我们在学习爬虫阶段编写的爬虫程序可以先忽略robots协议。

（2）UA反爬机制：对UA进行伪装操作

(3) 图片懒加载模式

* 图片懒加载概念：

* 图片懒加载是一种网页优化技术。图片作为一种网络资源，在被请求时也与普通静态资源一样，将占用网络资源，而一次性将整个页面的所有图片加载完，将大大增加页面的首屏加载时间。为了解决这种问题，通过前后端配合，使图片仅在浏览器当前视窗内出现时才加载该图片，达到减少首屏图片请求数的技术就被称为“图片懒加载”。

* 网站一般如何实现图片懒加载技术呢？

* 在网页源码中，在img标签中首先会使用一个“伪属性”（通常使用src2，original......）去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中，会动态将伪属性替换成src属性，完成图片的加载。

(4)对数据进行加密

5.反反爬虫

- 爬虫程序通过相应的策略和技术手段，破解门户网站的反爬虫手段，从而爬取到相应的数据。

6.爬虫相关了解：

* http：超文本传输协议。客户端和服务器端进行数据交互的一种交互形式。

* https：安全超文本传输协议。SSL加密层。

https加密方式: 1.对称密钥加密

2.非对称密钥加密

3.证书加密

* User-Agent：请求载体的身份标识

* Content-Type：响应的数据类型

去

二. 朱皮特常用快捷键和指令

1.jupyter notebook常用快捷键

(1)a 在上面插入一行cell

(2)b 在下面插入一行cell

(3)x 删除本行

(4)tab 自动补全

(5)esc 切换到命令模式

(6)esc+o 隐藏执行结果

(7)shift + enter 运行

(8)shift + tab 弹出帮助文档

(9)m 切换到markdown模式

(10)y 切换到code模式

2.jupyter notebook常用指令

(1)%time 计算出当前行运行的时间

(2)%%time 计算多行代码的运行时间

(3)%run 运行外部的一个源文件

三. 爬虫基本步骤

1.检查页面数据是否为动态加载出来的

(1)通过ajax发送请求动态加载,通过Network中的XHR查看

(2)js动态加载

2.获取页面源数据.

3.对源数据进行处理

4.进行持久化储存

例子:

## 爬取站长素材网站上面的图片

import requests

import re

import os

from urllib import request,

url = 'http://sc.chinaz.com/tupian/rentiyishu.html'

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"

}

respons = requests.get(url=url, headers=headers)

content = respons.content.decode("UTF-8")

##print(content)

ex = '<div class="box picblock col3".*?<a target="_blank".*?<img src2="(.*?)".*?</div>'

img_url_list = re.findall(ex, content, re.S)

ex_name = '<div class="box picblock col3".*?<a target="_blank".*?<img src2=.*? alt="(.*?)"></a>.*?</div>'

img_name = re.findall(ex_name, content, re.S)

print(img_url_list)

print(img_name)

if not os.path.exists('Boby_Artsss'):

os.mkdir('Boby_Artsss')

for index,img_url in enumerate(img_url_list):

imgPath = f'Boby_Artsss/{img_name[index]}.jpg'

##content = requests.get(url=img_url, headers=headers).content

##with open(f'{imgPath}.jpg', 'wb') as f:

## f.write(content)

request.urlretrieve(url=img_url,filename=imgPath)

print(imgPath+'下载成功!!!')