知乎数据可视化

前段时间不知道从哪里弄来的一份知乎数据，数据量不多，只有二十万的样子，今天就以这二十万数据来进行一次简单地数据可视化，主要的工具就是两个：pandas和matplotlib。
以下相关的代码和示例数据在文末有相应的下载链接，你可以下载数据自己尝试。

实际上，你也可以使用BI软件进行分析，速度和可视化效果很好，最主要的是操作相对容易，但是我们拿到的这份示例数据并不规整，也就是有部分内容是乱的，爬虫爬下来的数据有错位的情况，因此对于数据的清洗需要一定的时间，为了方便，我们就直接编程实现。

导入数据

我们使用jupyter notebook作为我们的ide工具
首先来看一下我们的原始数据的样子。

我们习惯于使用英文作为我们的列索引，因此我们在导入数据的时候指定索引的名称，如下所示。

其中，%matplotlib inline指定我们的plt做的图嵌入在ide之中，而不是弹窗显示。
其结果如下所示，后面还有数据列，只是截图容不下了。

知乎用户高校分布情况

我们首先来看一下哪些高校的知乎用户数量最多，核心思路就是我们对高校进行计数，然后按照数量进行降序排序，选择选取前十位进行绘图表示。在实际操作的过程总，我发现了一个问题，计数结果排名比较靠前的数据中有一些是诸如”大学“， ’大学本科‘这样的数据，显然我们需要先将其去掉。
我们自定义一个函数，如果其学校填写的是某一些特定的数据，我们就将其置为空。
因为我们只需要排名靠前的大学，那些名字更加奇葩的我们就不管了，毕竟我们用不到。