知乎登录设计思考

验证码

　　2种方式：

　　　　1）我们在浏览器输入正确的账号和密码、验证码后。登录成功，记住我的登录信息是这个。我们接下来，写代码访问的时候在cookie中提交这个就可以了。过期时间是1个月。这个cookie中包含的信息是加密的，我们可以看到有个时间戳，保存的是登陆成功的时间。导致的问题，知乎后端肯定是会检查这个时间戳的，因此1个月后我们还要去正确登陆一下获取正确的cookie。这是值得我们学习的技巧，防爬策略，如果没有这个时间戳，就可以一直访问了，不用再登录。

　　　　2）类似，只是这次我们使用代码来，获取验证码，然后人工识别，输入正确的验证码，登录。同样1个月后我们还要去重新获取一下正确的cookie值。

# coding=utf-8
import sys
import urllib
import urllib2
import cookielib
import time

reload(sys)
sys.setdefaultencoding('utf-8')

# 创建一个cookie实例
cookie = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
headers = {'User-Agent':
           'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.25 Safari/537.36'
           }

picture = opener.open(
    'https://www.zhihu.com/captcha.gif?r=%s&type=login' % int(round(time.time() * 1000))).read()
local = open('captcha.gif', 'wb')
local.write(picture)
local.close()

captcha = raw_input('请输入验证码：')

data = {'_xsrf': '你的xsrf，可以在浏览器cookie中找到，不知道干吗用的',
        'password': 'xxxx',
        'captcha': captcha,
        'phone_num': 'xxxxx'
        }
req = urllib2.Request(
    'https://www.zhihu.com/login/phone_num', urllib.urlencode(data), headers)
res = opener.open(req)
print(res.read().decode('unicode-escape').encode('utf-8'))
for c in cookie:
    print('%s--%s' % (c.name, c.expires))
    c.expires = 1995962843
for c in cookie:
    print('%s--%s' % (c.name, c.expires))

req = urllib2.Request('https://www.zhihu.com/', headers=headers)
res = opener.open(req)
print(res.read())