Python 爬虫 1 (转)

1、import urllib2

 
response = urllib2.urlopen("http://www.baidu.com")
print response.read()
2、POST方式:
import urllib
import urllib2
 
values = {"username":"1016903103@qq.com","password":"XXXX"}
data = urllib.urlencode(values)
url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()
3、GET方式:
直接把参数写到网址上面,直接构建一个带参数的URL出来即可
geturl = url + "?"+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print response.read()
 
print geturl,打印输出一下url,发现其实就是原来的url加?然后加编码后的参数

2. Proxy(代理)的设置

urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。假如一个网站它会检测某一段时间某个IP 的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理,网站君都不知道是谁在捣鬼了,这酸爽!

原文地址:https://www.cnblogs.com/lhq8998/p/7397340.html