python简单页面爬虫入门 BeautifulSoup实现

本文可快速搭建爬虫环境，并实现简单页面解析

1、安装 python

下载地址：https://www.python.org/downloads/

选择对应版本，常用版本有2.7、3.4

安装后，将安装目录加入到环境变量path中，可在dos窗口查看版本，以检查是否安装正常

python -V

2、安装 pip

pip是python包管理工具，该工具提供了对Python 包的查找、下载、安装、卸载的功能

目前如果你在 python.org 下载最新版本的安装包，则是已经自带了该工具。

Python 2.7.9 + 或 Python 3.4+ 以上版本都自带 pip 工具。

下载地址：https://pypi.org/project/pip/#files ，

你可以通过以下命令来判断是否已安装：

pip --version

选择对应版本，下载后解压，在文件目录执行安装命令：

python setup.py install

3、安装 BeautifulSoup

执行命令：

pip install beautifulsoup4

4、代码

#-*- coding:utf-8 -*-
import urllib2
import urllib
from bs4 import BeautifulSoup

#设置字符编码格式
import sys
reload(sys)
sys.setdefaultencoding('utf8')

#打开保存结果的txt
txtfile = open('data.txt','w') 

#请求网页
url = "www.baidu.com"
html=urllib2.urlopen(url).read()

#解析网页和数据
soup = BeautifulSoup(html, "html.parser")
html_name = soup.findAll(attrs={"class":"f_l zi"})
html_five = soup.findAll(attrs={"class":"co_666"})
surname = html_name[0].text

#保存结果
txtfile.write(surname )

一个简单的爬虫就完成了,欢迎留言交流