python语言实现网络爬虫---requests库、BeautifulSoup4库

一、引入问题

    python语言的简洁性以及脚本特点十分适合连接和网页处理,因此在python的计算生态中,与url和网页处理有关的第三方库有很多。这些库的作用不同,使用方法不同,用户的体验也不同。其中我们今天就先来了解requests库、BeautifulSoup库。

二、requests库的使用

(一)requests库的概述

    requests库是一个简洁且简单处理HTTP请求的第三方库,它的最大优点是程序编写过程更接近正常URL访问过程。这个库建立在python语言的urlib3库的基础上,类似这种在其他函数库之上再封装功能,提供更友好函数的方式在python语言中十分常见。在python生态圈里,任何人都有通过技术创新或体验创新发表意见和展示才华的机会。

(二)介绍requests库的一些函数

1、get()获取网页

import requests
#使用get方法打开淘宝连接
r = requests.get('http://ip.taobao.com/service/getIpInfo2.php?ip=111.174.77.14')
print(type(r))

结果:

 2、requests的一些基本方法

import requests
r = requests.get('http://ip.taobao.com/service/getIpInfo2.php?ip=111.174.77.14')

print(r.status_code)#打印get请求的状态码
print(r.encoding)#打印编码
print(r.text)#打印请求到的内容
print(r.cookies)
print(r.json())#输出json格式数据

结果:

 3、根据以上内容进行实际操作

import requests
r = requests.get('http://ip.taobao.com/service/getIpInfo2.php?ip=111.174.77.14')
result = r.json()
country = result['data']['country']
area = result['data']['area']
region = result['data']['region']
print(country+area+region)

 结果:

 三、BeautifulSoup4库的使用

(一)BeautifulSoup4库的概述

 BeautifulSoup是一种专门用于进行HTML/XML数据解析的一种描述语言,可以很好的分析和筛选HTML/XML这样的标记文档中的指定规则数据。在数据筛选过程中其基础技术是通过封装HTML DOM树实现的一种DOM操作,通过加载网页文档对象的形式,从文档对象树模型中获取目标数据。

(二)介绍BeautifulSoup4库的一些使用函数

import requests
from bs4 import BeautifulSoup
r = requests.get('http://www.baidu.com')
r.encoding = None
result = r.text
bs = BeautifulSoup(result,'html.parser')
print(bs.title)
print(bs.title.text)

 结果:

原文地址:https://www.cnblogs.com/CJR-QYF/p/11810637.html