python爬虫实战1

转载于:http://blog.csdn.net/dongnanyanhai/article/details/5552431

首先推荐一个网站：中医世家，这个网站上有很多关于中医的资料，光是提供的中医书籍就有３１７Mb，全都是CHM格式，资料非常全面。
　　正因为这个网站有这么多的好东西，但是我又懒得一本书一本书的下载，所以，我就……用Python直接解析了几个书籍下载页面的地址，把所有的书籍的下载地址都弄到手，顺便还下载了，呵呵呵，省得一个页面一个页面的打开！
　

#!/usr/bin/env python
#coding=utf-8
#这段代码是用来下载“中医世家”网站上的书籍的，很不好意思了！
import urllib2,urllib,os
from BeautifulSoup import BeautifulSoup
#定义书籍链接列表
mainbooklink = ["http://www.zysj.com.cn/lilunshuji/1index.html",
        "http://www.zysj.com.cn/lilunshuji/5index.html",
        "http://www.zysj.com.cn/lilunshuji/20index.html",
        "http://www.zysj.com.cn/lilunshuji/25index.html"]
bookdir = [u"d://book//中医教材//",u"d://book//中医著作//",u"d://book//实用手册//",
            u"d://book//西医备考//"]
chmname = [] #chm电子书中文名字
chmbooklink = [] #对应chm的下载地址
#该函数实现获取一个地址后马上下载该书籍
def getbooklink(url):
    #检测url地址——暂时略了！
    
    #获取url地址的网页,并使用BeautifulSoup进行解析
    page = urllib2.urlopen(url)
    soup = BeautifulSoup(page)
    
    #处理url，取得其前部地址，用以确定下面得到的地址的完全地址
    #urllen = len(url)
    
    
    for i in soup('li'):
        #print i.a.string.encode('gb2312'),i.a['href']
        chmfilename = i.a.string
        bookfilelink = "http://www.zysj.com.cn"+i.a['href']
        
        page = urllib2.urlopen(bookfilelink)
        soup =BeautifulSoup(page)
        ti = u"下载电子书："+chmfilename+".chm"
        for k in soup('a',title = ti):
            chmname.append(chmfilename+'.chm')
            downlink = "http://www.zysj.com.cn"+k['href']
            chmbooklink.append(downlink)
            print chmfilename.encode('gb2312')+'.chm',downlink
def downbook(filename,url,dirn):
    #urllib.urlretrieve(url, filename)
    if not os.path.exists(bookdir(dirn)):
        os.makedirs(bookdir(dirn))
        
    print "开始下载：".decode('utf-8').encode('gb2312'),filename.encode('gb2312')
    filename = bookdir[dirn]+filename
    urllib.urlretrieve(url,filename)
    print "下载完成！".decode('utf-8').encode('gb2312')

if __name__=="__main__":
    dirn = 0
    for i in mainbooklink:
        getbooklink(i)
        for j in range(0,len(chmname)):
            downbook(chmname[j],chmbooklink[j],dirn)
        chmname = []
        chmbooklink = []
        dirn = dirn+1
    
    
    
"""
这一小段代码是用来学习查找字符串里面出现的某个字符的呃位置，我把所有的位置都取出来了，接下来想怎样就能怎样了！
a ="http://www.zysj.com.cn/lilunshuji/1index.html"
b = 0
c = len(a)
while 1:
    b = a.find('/',b,c)
    print b
    b = b + 1
    if b == 0:
        break
"""

这段代码中缺了对空格的检测，所以好几部关于中医的字典是没有被解析出来的，只能手工下了，不多！