Python --- 实战一

提取网页源代码

import urllib.request
print(urllib.request.urlopen("http://edu.csdn.net").read())

快捷键

Ctrl+F 搜索

自动提取课程页面的QQ群

import urllib.request
import re
data = urllib.request.urlopen("网址").read().decode("utf-8")
pat = "<em>QQ:(d*?)</em>"
print(re.compile(pat).findall(data))

爬取书名

这个没爬到现在，还要伪装一下~

import urllib.request
import re
data = urllib.request.urlopen("https://read.douban.com/provider/all").read().decode()
pat = '<div class="name">(.*?)</div>'
res = re.compile(pat),findall(data)
fh = open("F://giao//书名大全","w")
for i in range(0,len(res)):
	print(res[i])
	fh.write(res[i]+"
")
fh.close()