网络爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。常见的爬虫工具有：正则表达式、Selenuim、Beautifulsoup等。本例将利用selenium库做一个很简单的例子-爬区百度首页、输出标题、截屏保存、输出百度新闻栏。本实验在LUbuntu16.10上运行。
1.安装selenium库：

# pip install selenium

如果没有pip工具，可先安装apt install pip。另外安装selenium，pip需要的版本为9.0.1，所以对pip进行升级。
2.安装相应浏览器：
selenium库支持谷歌、Firefox、IE等。
3.例子代码如下：

from selenium import webdriver
driver = webdriver.Firefox()
driver.get("http://www.baidu.com")
data = driver.title
print (data)
driver.save_screenshot('baidu.png')
word = driver.find_element_by_id("u1")
print word.text

4.运行程序：

# Python *.py

如果系统没有安装geckodriver，会报错：Geckodriver executable needs to be in PATH。这是因为geckodriver是一原生态的第三方浏览器，对于selenium3.x版本都会使用geckodriver来驱动firefox。Geckodirver的下载地址：https://github.com/mozilla/geckodriver/releases，根据系统选择相应的版本。解压完毕之后，可将geckodriver拷贝至/usr/bin下，或者在PATH环境变量中加入geckodriver的路径：
export PATH=/your geckodriver’s path:$PATH
重新执行即可。