[python脚本]爬blackhat官网的paper

都知道blackhat上的人很牛X,自己参加不了,也只能找点人家的paper看看了。

反正没有找到有集中打包下载的地方。都是这样的https://www.blackhat.com/html/bh-eu-12/bh-eu-12-archives.html要想下载就要一个个点好麻烦。所以写个虫子,让它自己爬。没啥技术含量,直接在[python脚本]一个简单的web爬虫(1)这个上面改的·····想看paper的,自己爬吧。爬完后直接复制到迅雷下载就ok了。

eg:

  python spider.py -u https://www.blackhat.com/html/bh-eu-12/bh-eu-12-#-------coding:utf-8-------

#-------author:Scr@t-------
#----filename:spider.py----
import sys import urllib2 import re import HTMLParser class myparser(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) def handle_starttag(self,tag,attrs): if (tag == 'a'): URL = '' for name,value in attrs: if (name == 'href'):
       for xx in ['pdf','ppt','pptx','zip','rar']:
        val
= value.find(xx)#所要下载的文件类型--------这个地方有问题啊,为什么只匹配pdf,后面的不匹配呢,请大神指点下  if val != -1: fp.write(value + '\n') #下面是爬sebug上的paper时,用的 # URL = value[2:] # fp.write(sys.argv[2] + URL + '\n') if sys.argv[1] == '-u': content = (urllib2.urlopen(sys.argv[2])).read()#打开网址并读取内容 fp = open("URL.list",'w') con = myparser() con.feed(content)#把content的内容,传给myparser分析 else: print 'Usage:%s -u url'%sys.argv[0]
----------------------------------------------在穷无非讨饭,不死终会出头。
原文地址:https://www.cnblogs.com/scrat/p/2752374.html