python网络数据采集(低音曲)

废话不多说,马上开始。

上次我们说到遍历单个域名,今天我们来写一个爬对应词条的脚本,他会遍历整个网址直到爬完对应词条。

代码:

from urllib.request import urlopen

from bs4 import BeautifulSoup

import re

import random

import datetime

random.seed(datetime.datetime.now())

def geturl(gdfc):

  html=urlopen("http://wikipedia.org")

  bosj=BeautifulSoup(html)

  return bosj.find("div",{"id":"bodyContent"}).findAll(a,htrf=re.compile("^(/wiki/)(?!:).")*?))

links=geturl("/wiki/anonymous")

while len(links)>0:

  newArtice=links[random.randint(0,len(links)-1)]/attrs["href"]

    print(newArtice)

links=geturl(newArtice)

原文地址:https://www.cnblogs.com/haq5201314/p/7356259.html