【大数据】理解爬虫原理

 作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851

1. 简单说明爬虫原理

    (1)首先选取一部分精心挑选的种子URL;

    (2)将这些URL放入待抓取URL队列;

    (3)从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。

    (4)分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。

2. 理解爬虫开发过程  

  (1)发起请求

  使用http库向目标站点发起请求,即发送一个Request

  Request包含:请求头、请求体等 

  Request模块缺陷:不能执行JS 和CSS 代码

  (2)获取响应内容

  如果服务器能正常响应,则会得到一个Response

  Response包含:html,json,图片,视频等

  (3)解析内容

  解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等

  解析json数据:json模块

  解析二进制数据:以wb的方式写入文件

  (4)保存数据

  数据库(MySQL,Mongdb、Redis)

  文件

1).简要说明浏览器工作原理;

  浏览器内核分成两部分:渲染引擎和js引擎,由于js引擎越来越独立,内核就倾向于只指渲染引擎,负责请求网络页面资源加以解析排版并呈现给用户

  默认情况下,渲染引擎可以显示html、xml文档及图片,它也可以借助插件显示其他类型数据,例如使用PDF阅读器插件,可以显示PDF格式

2).使用 requests 库抓取网站数据;

requests.get(url) 获取校园新闻首页html代码

import requests
from bs4 import BeautifulSoup
url='http://news.gzcc.cn/html/xiaoyuanxinwen'
res = requests.get(url)
res.encoding = 'utf-8'
res.text

3).了解网页

写一个简单的html文件,包含多个标签,类,id

<html>

<head>
<title>一个 HTML 页面</title>
</head>

<body>
<div class='nav'>
    <p id='header'>header</p>
    <p id='body'>body</p>
    <p id='end'>end</p>
</div>
<div class='nav'>
    <p id='header2'>header2</p>
    <p id='body2'>body2</p>
    <p id='end2'>end2</p>
</div>
</body>

</html>

4).使用 Beautiful Soup 解析网页;

通过BeautifulSoup(html_sample,'html.parser')把上述html文件解析成DOM Tree

select(选择器)定位数据

soup = BeautifulSoup(res.text,'html.parser')

找出含有特定标签的html元素

找出含有特定类名的html元素

找出含有特定id名的html元素

3.提取一篇校园新闻的标题、发布时间、发布单位

url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'

  • 获取html文本
import requests
from bs4 import BeautifulSoup
url='http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'
res = requests.get(url)
res.encoding = 'utf-8'
res.text
  • 使用 Beautiful Soup 解析网页
soup = BeautifulSoup(res.text,'html.parser')
  • 获取指定信息
title = soup.select('.show-title')[0].text

info = soup.select('.show-info')[0].text
list = info.split()
del list[-1]
for i in list:
    print(i)

原文地址:https://www.cnblogs.com/Richard-V/p/10594078.html