python爬虫从小白到高手 Day0 综述

 
大家好,博主最近学习python,有疑惑也有感悟,之前有过VC、IOS等开发经验,在此将自己的学习系统的整理下来,如果大家有兴趣学习python爬虫,可以将这些文章作为参考,也欢迎大家分享学习经验,请跟随我一起踏上爬虫学习的打怪升级之路吧!
 
开始之前,从我的学习经历来看,有必要先给大家做一些名词解释
 
爬虫是什么?
 
网络爬虫:(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
 
为什么我们需要学习爬虫?
 
google、百度等搜索引擎已经帮我们抓取了互联网上的大部分信息了,为什么还要自己写爬虫呢?这是因为,需求是多样的。比如在企业中,爬取下来的数据可以作为数据挖掘的数据源。比如有人为了炒股,专门抓取股票信息;有人为了分析房价,抓取房产中介的数据;有人为了欣赏美女图片,抓取美女图片网站。。。。。。(其他用途,自行脑补)
 
为什么选择python3?
 
python版本主要为3.6,主要是python3发展迅速,各种库及时跟进,而且python2在不久的将来就要停止维护了,所以大家还是把学习的重心放在python3上。
 
好多没听过的名词和库?
 
学习python之前,大家可能是零基础,也可能有过其他语言、平台等的开发经验,python一个很大的优点就是有各种成熟的库可以使用,先介绍一下用的比较多的库、框架等。
 
Selenium:是一个强大的网络数据采集工具,其最初是为网站自动化测试而开发的。近几年,它还被广泛用于获取精确的网站快照,因为它们可以直接运行在浏览器上。Selenium 库是一个在WebDriver 上调用的API。WebDriver 有点儿像可以加载网站的浏览器,但是它也可以像BeautifulSoup对象一样用来查找页面元素,与页面上的元素进行交互(发送文本、点击等),以及执行其他动作来运行网络爬虫。
安装方式与其他Python第三方库一样。
$pip3 install Selenium
 
Selenium 自己不带浏览器,它需要与第三方浏览器结合在一起使用。例如,如果你在Firefox 上运行Selenium,可以直接看到一个Firefox 窗口被打开,进入网站,然后执行你在代码中设置的动作。虽然这样可以看得更清楚,但不适用于我们的爬虫程序,爬一页就打开一页效率太低,所以我们用一个叫PhantomJS的工具代替真实的浏览器。
 
PhantomJS:是一个“无头”(headless)浏览器。它会把网站加载到内存并执行页面上的JavaScript,但是它不会向用户展示网页的图形界面。把Selenium和PhantomJS 结合在一起,就可以运行一个非常强大的网络爬虫了,可以处理cookie、JavaScript、header,以及任何你需要做的事情。PhantomJS并不是Python的第三方库,不能用pip安装。它是一个完善的浏览器,所以你需要去它的官方网站下载,然后把可执行文件拷贝到Python安装目录的Scripts文件夹。
 
BeautifulSoup:是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。Beautiful Soup会帮你节省数小时甚至数天的工作时间。
安装比较简单:
$pip3 install beautifulsoup4
 
headless firefoxchrome:以前都用PhantomJS来进行无界面模式的自动化测试,或者爬取某些动态页面。但是最近selenium更新以后,'Selenium support for PhantomJS has been deprecated, please use headless '提示不支持PhantomJs,请使用headless模式。HeadLess模式因为没有图形化界面(GUI),所以加载速度是非常快的,相同场景下,可以运行很多个浏览器,这是其中的一个优势,而另一个优势,就是浏览器本身提供了一个官方的标准接口,让市场上所有的工具或者第三方库都有了标准,而不是各家一套标准,同时由于有了这些接口,我们自己可以利用接口写自动化测试工具了,比如调用浏览器提供的接口(打开URL)就能够将这个URL内容抓取到并且获取里面的数据。
 
XPath:全称为XML Path Language 一种小型的查询语言,XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。
说XPath是门语言,不得不说它所具备的优点:
1) 可在XML中查找信息
2) 支持HTML的查找
3) 通过元素和属性进行导航
python开发使用XPath条件: 由于XPath属于lxml库模块,所以首先要安装库lxml,安装方式:
pip3 install lxml
 
urllib:urllib库是Python内置的HTTP请求库,也就是说不需要额外安装即可使用。
它包含如下4个模块。
1)request:它是最基本的HTTP请求模块,可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样,只需要给库方法传入URL以及额外的参数,就可以模拟实现这个过程了。
2)error:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止。
3)parse:一个工具模块,提供了许多URL处理方法,比如拆分、解析、合并等。
4)robotparser:主要是用来识别网站的robots.txt文件,然后判断哪些网站可以爬,哪些网站不可以爬,它其实用得比较少。
 
正则表达式:正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的部分。
 
这些只是为了让你对python爬虫有个最初步的认知,以后各种库、框架的使用我们会一步一步共同学习。
最后,通过一个小例子感受一下:
 
抓取csdn侧边栏导航
 
#导入urllib中的urlopen函数
from urllib.request import urlopen
#导入BeautifulSoup对象
from bs4 import BeautifulSoup
#解决ssl报错
import ssl

ssl._create_default_https_context = ssl._create_unverified_context
#打开url 获取网页内容
html = urlopen('https://www.csdn.net')
#将网页内容传给BeautifulSoup对象
bs_obj = BeautifulSoup(html.read(), 'html.parser')
#找出id=nav的侧边栏中的所有a标签
text_list = bs_obj.find(id="nav").find_all("a")

for text in text_list:
    #打印标签中的文本
    print(text.get_text())

html.close()


'''在python3中当用urllib.request.urlopen或者urllib.request.urlretrieve打开一个 https 的时候会验证一次 SSL 证书, 
当目标使用的是自签名的证书时就会爆出一个
URLError: urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:749)的错误消息;
解决方法:

import ssl
ssl._create_default_https_context = ssl._create_unverified_context
'''
 
 
 
 
 
 
 
原文地址:https://www.cnblogs.com/dmpang/p/9194491.html