【大数据】理解爬虫原理

作业要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851

1. 简单说明爬虫原理

(1)首先选取一部分精心挑选的种子URL；

(2)将这些URL放入待抓取URL队列；

(3)从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。

(4)分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。

2. 理解爬虫开发过程　　

　　（1）发起请求

　　使用http库向目标站点发起请求，即发送一个Request

　　Request包含：请求头、请求体等

　　Request模块缺陷：不能执行JS 和CSS 代码

　　（2）获取响应内容

　　如果服务器能正常响应，则会得到一个Response

　　Response包含：html，json，图片，视频等

　　（3）解析内容

　　解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery等

　　解析json数据：json模块

　　解析二进制数据:以wb的方式写入文件

　　（4）保存数据

　　数据库（MySQL，Mongdb、Redis）

　　文件

1).简要说明浏览器工作原理；

　　浏览器内核分成两部分：渲染引擎和js引擎，由于js引擎越来越独立，内核就倾向于只指渲染引擎，负责请求网络页面资源加以解析排版并呈现给用户

　　默认情况下，渲染引擎可以显示html、xml文档及图片，它也可以借助插件显示其他类型数据，例如使用PDF阅读器插件，可以显示PDF格式

2).使用 requests 库抓取网站数据；

requests.get(url) 获取校园新闻首页html代码

import requests
from bs4 import BeautifulSoup
url='http://news.gzcc.cn/html/xiaoyuanxinwen'
res = requests.get(url)
res.encoding = 'utf-8'
res.text

3).了解网页

写一个简单的html文件，包含多个标签，类，id

<html>

<head>
<title>一个 HTML 页面</title>
</head>

<body>
<div class='nav'>
    <p id='header'>header</p>
    <p id='body'>body</p>
    <p id='end'>end</p>
</div>
<div class='nav'>
    <p id='header2'>header2</p>
    <p id='body2'>body2</p>
    <p id='end2'>end2</p>
</div>
</body>

</html>

4).使用 Beautiful Soup 解析网页；

通过BeautifulSoup(html_sample,'html.parser')把上述html文件解析成DOM Tree

select（选择器）定位数据

soup = BeautifulSoup(res.text,'html.parser')

找出含有特定标签的html元素

找出含有特定类名的html元素

找出含有特定id名的html元素

3.提取一篇校园新闻的标题、发布时间、发布单位

url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'

获取html文本

import requests
from bs4 import BeautifulSoup
url='http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'
res = requests.get(url)
res.encoding = 'utf-8'
res.text

使用 Beautiful Soup 解析网页

soup = BeautifulSoup(res.text,'html.parser')

获取指定信息

title = soup.select('.show-title')[0].text

info = soup.select('.show-info')[0].text
list = info.split()
del list[-1]
for i in list:
    print(i)