爬虫:备份人人网状态

一点碎碎念

话说周围还在用人人网的人真是越来越少了,有一天闲来无事打开人人,发现最新的状态还是2013年12月的,好多好友也已经不怎么联系了,真是物是人非啊。翻了翻自己的状态,都是大学本科时发的,感觉挺有纪念意义的,就想着有空写个爬虫把自己的状态抓下来做个备份,万一哪天人人挂了,还能给自己的大学生活留个念想……

成果

断断续续花费了几晚上的时间(真的是太慢了,orz……),写出了代码,并成功抓取了自己的所有人人状态,代码放在 GitHub https://github.com/kngxscn/backup-renren-status 上,欢迎大家提建议。运行该代码后,状态信息会保存到文件中,样式如下

过程

前期学习

由于抓取人人状态需要登录,我参考了 http://xlzd.me/2016/01/12/python-crawler-08http://www.jianshu.com/p/5c9855ca6474 这两篇文章。又由于状态信息不是直接写在 html 文件中,而是使用 XMLHttpRequest 请求服务器得到 json 数据后再对网页进行局部更新,我阅读了 http://xlzd.me/2015/12/19/python-crawler-04 这篇文章对该种情况下的抓取方式进行学习,在此感谢两位作者。

模拟登录

使用 Chrome 的开发者工具抓取登录过程中的 XHR 类型的数据包,如下图,可以看到 Request URL: http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=201604193796 ,以及请求的方式:POST。URL 最后是uniqueTimestamp,从字面意思理解是时间戳。根据参考的第二篇文章,知道它的组成为“年(2016),月(0,范围为0~11),星期(4,范围为0~6),时(19,范围为0~23),秒(37,范围为0~59),毫秒(96,范围为0~999)”,接下来就只需用 Python 中对应的时间函数表示出来,详见代码 login 函数部分。根据自己的测试,感觉人人的服务器没有对时间戳进行校验,也就是说,自己任意生成的时间戳(不一定是当前时间)也能登录成功。

请求的方式为 POST ,那么发送请求的时候需要携带登录相关的信息,如下图所示。emal 就是你的邮箱/手机/用户名,password 是经过处理的密码,但是我也没有找到进行该处理的 js 代码,后来发现直接使用密码原文即可登录成功,r_key的值貌似跟 token 有关,但不使用也能登录,最后发现,只需要 email 和 password 两个字段就好了。然后可以根据 Response 的 Headers 是狗含有 id 信息判断是否登录成功(可能还有其他方法判断)。

抓取状态信息

同样使用 Chrome 的开发者工具,抓取跳转到状态页( http://status.renren.com/status/v7/$id号 )的数据包,如下图所示。可以看到 Request URL 以及请求方式,由于 Request URL 中有很多参数,我将它复制下来在新的标签页里打开,然后不断删除参数,最后发现只有“userId”及“curpage”两个参数是必须的,这样就可以将 Request URL 构造出来。

该请求的 Response 是 json 数据,通过 Preview 标签可以清楚的看到其结构,其中状态在 doingArray 中,然后,使用 Python 的 json 库可以很方便的提取自己想要的信息。我主要提取了 dtime(发表时间)、content(状态内容);如果是转发的状态,还会有 rootDoingUserName(发表原状态的用户名)、rootContent(原状态内容);如果有评论(这时 comment_count > 0),则再抓取评论,抓取方式跟状态的抓取方式类似,也是跳转到评论页时抓包得到 Request URL,然后写代码对不同的状态构造相应的评论的 Request URL 提取 Response 的 json 数据中的信息,如 authorName(评论者用户名)、time(评论时间)、content(评论内容)。

原文地址:https://www.cnblogs.com/renzongxian/p/5166745.html