一个知乎重度用户眼中的知乎

http://xlzd.me/2015/09/12/zhihu

  玩知乎很久了,在知乎上学到不少知识,也学到不少抖机灵的技巧,知乎带给我最大的回忆,xwx。作为一个知乎重度用户兼技术宅,简单抓取了一下知乎的一点数据,力求看到一个尽可能真实的知乎社区。


数据抓取

  知乎没有可以一页一页翻取用户资料的列表页,而且用户首页URL也没有规律可循,完全是用户自定义的。考虑到我不准备拿下全部知乎用户,只希望 取到一批质量不错的优质用户,我的抓取策略是这样的:用一个知乎大牛入手,抓取他的关注列表,然后进入他的关注列表,抓取每个人的资料后再抓取这这些人关 注的列表,依次走下去。

  这里我选取的入口是大名鼎鼎的轮子哥,轮子哥对我影响很深,甚至我的昵称xlzd也是模仿他的vczh而来的。令我欣慰的是,从轮子哥的关注列表出去,几分钟之后就抓到了我自己的信息。
程序运行了3天,一共抓取了1,008,071用户的数据,从他/她们的详情页获取到每个人的信息之后,又接入了FacePlusPlus的API,对每个人的头像进行了人脸识别。
  对于数据抓取,刚好前几天得到一台阿里云的免费试用VPS,用来当做数据库服务器,然后在我的树莓派和洛杉矶用来翻墙的VPS上分别部署了一个单线程的爬虫。至于为什么是单线程的爬虫,原因有二:

  • 情怀:知乎提供一个免费的优质社区平台,我不想占用它太多的资源。
  • 技术:知乎的robots.txt禁止抓取/people下的数据,爬取太快容易被封。

  到今天下班前,阿里云的机器马上到期了,我停掉了所有爬虫,从阿里云导出了数据。现在先是一些简单的统计信息。

知乎top榜

  • 知乎话题关注度top10:

    1. 电影
    2. 旅行
    3. 互联网
    4. 创业
    5. 科技
    6. 健身
    7. 设计
    8. 美食
    9. 自然科学
    10. 经济学
  • 知乎粉丝最多top3:

    1. 李开复
    2. 黄继新(知乎联合创始人)
    3. 周源(知乎CEO/001号员工)

知乎的用户怎么样

  从知乎的用户地域分布开始吧,下面是知乎的大概地理分布信息:

  北上广深是知乎用户最集中的地区了,大概是由于知乎用户大多是计算机行业,而这几个城市又是中国计算机行业最繁荣的城市了。

  接着是知乎用户的公司分布情况:

  除了学生群体,知乎用户的重要聚集地就是各大互联网公司了。当然不难想象,学生群体中,计算机相关专业也有着非常大的占比。

  下面的图是知乎用户职业TOP20:

  很难想象,知乎用户中的产品经理占比竟然如此之高!!!是程序猿没有时间刷知乎,还是当今互联网已经发展到了一个程序猿接受N个产品经理的摧 残,还请产品经理站出来说点什么。另一个令人意外的是,知乎竟然有接近1.03%的用户是CEO,1.407%的用户是创始人或者联合创始人,知乎作为无 数国内社区中逼格最高的社区,当之无愧~~~剩下的TOP20榜中,几乎被互联网从业群体包揽了。

  然后接下来的这张图是知乎用户大学学校分布图:

  由图知,知乎用户的受教育水平相当高,这也进一步夯实了其作为逼格最高的中国互联网社区。可是,在下这种没有上过大学的互联网搬砖民工,拿什么跟你们一起愉快的玩(zhuang)耍(bi)~~~

  还有就是知乎用户的专业分布情况:

  计算机科学与技术和软件工程稳稳地将其他专业甩在了在可预见的将来无法超越的远方。壮哉~~~

  最后是知乎用户的性别分布:

  总体来看,知乎用户男性居多,一小部分用户没有填写性别。

总结

  废话就不赘述啦,还要去喂熊呢。从上面的信息结合日常生活经验,我的一些想法:

    • 理论基础:
      1. 互联网从业人群男女比例97:3。
      2. 知乎大致男女比例5:4(不算那6.6%没有标注性别的)。
      3. 知乎男性用户群体中,互联网从业人员比例相当高。
      4. 知乎整体用户受教育水平相当高。
    • 结论:
      1. 在中国所有社区中,知乎的逼格无人能出其右。这里没有不转不是中国人,这里何炅韩庚也没有与韩国人打赌。这里大家都在认真讨论问题或者假装认真讨论问题。
      2. 作为先现实生活工作中接触异性比较少的互联网从业者,可以考虑来知乎试试。尤其是考虑到这里的互联网从业人员数量,对技术宅有兴趣的女同学们也可 以来碰碰运气。所以建议我周围还没有女朋友的同胞们,去知乎试试,要知道90后男性已经比女性少了1/6(以及由于男女比例失衡带来的影响王尼玛这期大事 件已经算过了),知乎的比例已经很不错了,一般人我不告诉他。
      3. 在知乎,找工作/招人/找女朋友/找男朋友都是不错的(我收到过至少5个工作邀约,虽然或礼貌或粗鲁的回绝了)。
      4. 由于知乎开放注册的缘故,用户质量已经大大降低(很多0回答0赞0感谢用户)了。
      5. 这里每100人中就有2.4个人左右是CEO/创始人/联合创始人,不多说意味着什么。
      6. 感谢知乎,在这里我学到了如何学习,如何假装学习,如何变成计算机大神,如何假装计算机大神,如何抖机灵,......。
原文地址:https://www.cnblogs.com/timssd/p/5171475.html