网络爬虫中进行数据抓取

以下内容是《用python写网络爬虫》的读书笔记

一、安装firebug lite

firebug lite是一个用于在网站中查看调试html，css和javascript的有效工具。它现在可以安装在chrome和firefox浏览器上。chrome浏览器的安装教程。firefox浏览器的安装教程。

二、三种页面抓取方式

（1）正则表达式

正则表达式是我们进行数据获取的最基本的方式，不了解正则表达式的，可以参看正则表达式的基本用法。

我们可以先下载html数据，然后用正则表达式对html中的数据进行匹配。以下是一个简单的用法样例：

url = "http://www.cnblogs.com/xudong-bupt/p/3586889.html"
html = download(url)
list = re.findall('<div class="BlogStats">(.*?)</div>', html)
print list[0]

这个样例的作用是能够打印出html文件中第一个<div class = "BlogStats"></div>之间的内容。

用正则表达式来获取数据，优点是形式简单，缺点是很难获得健壮的正则表达式，当页面发生细微变化时，正则表达式可能就不起作用了。

（2）Beautiful Soup

在开始之前内，首先我们需要在python中安装beautifulsoup模块，我使用 pip install beautifulsoup4，来进行模块的安装。它的相关方法可查阅其官方文档

现在我们来执行一个小样例：

from bs4 import BeautifulSoup
from Chapter1.Background_Research import *
def tes_example():
    '''
    use a broken_html to test the beautiful soup
    :return:
    '''
    broken_html = "<url class=country><li>Area <li>Population</url>"
    # use beautiful soup to parse the broken_html
    soup = BeautifulSoup(broken_html, 'html.parser')
    fixed_html = soup.prettify()
    print fixed_html

def find_text(url, id_name):
    '''
    find the lable text which id is equal to id_name
    :param url: the url of the html
    :param id_name: locate the special id
    :return: the text between the special label
    '''
    html = download(url)
    soup = BeautifulSoup(html, "html.parser")
    tr = soup.find(attrs={'id': id_name})
    text = tr.text
    return text
text = find_text("http://www.cnpythoner.com/post/300.html", 'title')
print text

（3）Lxml

Lxml 是基于libxml2这个xml解析库的python封装。该模块使用c语言编写，解析速度比beautiful soup更快，不过安装教程也更为复杂，附上最新的安装说明。

Lxml和beautiful soup相比有一个明显的优点就是它能够使用css选择器进行数据抽取。它已经能够实现大部分的css3属性，但是还有一部分是不支持的。具体可参看它的说明文档。

下面是Lxml使用的一个小样例：

import lxml.html
from Chapter1.Background_Research import download

def test_lxml():
    '''
    use a broken_html to test the beautiful soup
    :return:
    '''
    broken_html = "<url class="country"><li>Area <li>Population</url>"
    # use beautiful soup to parse the broken_html
    parse_html = lxml.html.fromstring(broken_html)
    fixed_html = lxml.html.tostring(parse_html, pretty_print=True)
    print fixed_html
test_lxml()

def find_text(url, id_name):
    '''
    it can get all text of label a under the div which id is id_name

    :param url: given a url
    :param id_name: define the special id name
    :return: all text
    '''
    html = download(url)
    tree_html = lxml.html.fromstring(html)
    td = tree_html.cssselect('div#'+id_name+'> a')
    values = []
    for d in td:
        values.append(d.text_content())
    return values

values = find_text("http://www.cnpythoner.com/post/300.html", 'bdshare')
for value in values:
    print value