python登录网易163邮箱,爬取邮件



 1 from common import MyRequests,LoggerUntil,handle_exception
 2 
 3 myRequests.update_headers({ 'Accept':'text/javascript',})    ##这个地方加入accept了,主要是在邮件提取那里,不加入这个返回的是xml格式,加入后返回json格式,这样在提取方面更容易一些。
 4 url = 'https://mail.163.com/entry/cgi/ntesdoor?funcid=loginone&language=-1&passtype=1&iframe=1&product=mail163&from=web&df=email163&race=-2_262_-2_hz&module=&uid={0}&style=-1&net=t&skinid=null'.format('13148804507@163.com')
 5 datax = {
 6     'username':'13148804507@167.com',
 7 'url2':'http://email.163.com/errorpage/error163.htm',
 8 'savalogin':'0',
 9 'password':'123456789abcd',
10 }
11 
12 text= myRequests.post(url,data = datax)
13 #到这一步已经登录ok了,可以打印cookie看看就能知道了。
14 
15 
16 抓取邮件,
17 请求完成后,打印text 得到
19 <html><head><script type="text/javascript">top.location.href = "http://mail.163.com/js6/main.jsp?sid=iCApYbICzSWVFIFqHTCCdtntXqDYrVhB&df=email163";</script></head><body></body></html>
20 
21 sid =re.search('sid=(.*?)&',resp.text).group(1)   #使用正则把sid取出来
22 url = 'http://mail.163.com/js6/s?sid={sid}&func=mbox:listMessages&LeftNavfolder1Click=1&mbox_folder_enter=1'.format(sid=sid)
23 datax = {'var':'<?xml version="1.0"?><object><int name="fid">1</int><string name="order">date</string><boolean name="desc">true</boolean><int name="limit">20</int><int name="start">0</int><boolean name="skipLockedFolders">false</boolean><string name="topFlag">top</string><boolean name="returnTag">true</boolean><boolean name="returnTotal">true</boolean></object>'}
24 print myRequests.post(url, data=datax)
25 
26 #这样就打印出所有邮件了。然后筛选邮件,找出与信用卡相关的邮件,做征信风控用。
其中myrequests是从MyRequests类实例化的,因为经常要进行网络请求,所以里面封装了 请求 重试 日志打印 异常处理 下载验证码 验证码重命名 cookiejar和cookie dict的相互转换 更新headers 网页编码格式处理 和内容检查这些实例方法或者静态方法。读者可以自己用requests的session类来代替我这个。

MyRequests大概就是这样。


然后还要鄙视一下有的人,他做好了这个163登录,叫他发出来,我已经表示愿意掏100元作为报酬,他居然想讹诈1000元。那就让他发霉吧,如果是一个新东西,你没做过给更多的钱,这还差不多,自己做好了不分享还不是发霉。
本人分享这个方法,简单直接,登录只用请求一次。今天是2017年11月8日,可以用这登录163邮箱,给怕过期的网友说明下代码的时间。

重点说明一下,我这使用的是email163.com登录的。
不是使用mail163.com登陆的,一定要注意这个,千万不要用这个mail163.com登录,弄了好几个小时还没登陆上,加上有网易网盾验证码。
原文地址:https://www.cnblogs.com/ydf0509/p/7804028.html