[网页采集实战]使用Excel催化剂趴一下公众号里的各种软文,越是大号越没底线

相信大家关注的公众号里,都有不少软文掺杂其中,软文不同于硬广,是笔者比较讨厌的,相比文章内的插播广告,带有明显的广告字样可分辨。

软文是非常隐蔽的,有点类似名人做P2P广告一样,出卖粉丝对其的信任度来谋取经济利益。

一些较为邪恶的软文甚至误导人一生,本以为跟了个指引正路的良师,却最终是消费你信任的收割者。

一个号主拿自己的信用去兑换银钱,大家讨厌百度的同时不妨讨厌一下某些没底线出卖自己信用的号主人设,取关是不错的行动。

熟读唐诗三百首,不妨也采集玩玩,熟悉下这些软文标题套路,再次遇见时可以避开,节省自己时间也少收不少智商税。

数据来源

本篇采集内容为二十次幂的【广告文案找号】里的内容,具体网址为:https://www.ershicimi.com/search/ad。

可能因为二十次幂的站主规模有限,收录的公众号初看起来是不多的,作为教学案例,也不妨玩玩,

image-20200917203844083

Excel催化剂的网页采集功能,贵在方便轻量,笔者自己也经常使用,对不是采集太极端大量数据时,特别好用,采集过程也没被各种反爬虫技术太多封杀。

采集方法

首先简单抓包下,得到最终的内容数据json网址,使用http下载的方式进行采集,构造下采集的网址,如下图所示,最后也输入下入口网址,让google浏览器先打开入口网址,收集到cookie,再来进行http提交访问json网址下载内容。

因本接口数据量不大,页面数总共才500页,日后采集新数据还不用采集这么多,所以暂停时长可以调大一些无所谓,更不会被反爬虫盯上。

采集到的数据是json格式的,有了json文件,下一步也是很轻松, 用Excel自带的PowerQuery文件夹合并数据功能即可将所有json文件合并在一起并以Excel表格清单方式导出至Excel工作表中。

或者直接用Excel催化剂的json转Excel表格功能,更简单,小小缺点时文件夹内文件增减要重新重做一次,不像Powerquery可以一键刷新。

做完后,可以使用Excel的筛选排序,找到自己想看的内容,感觉被收割得太厉害建议取关就好。

透视表简单去重下,开始熟读软文标题三百遍,找到语感,下次见到类似的就可以避开。

希望没有那些专写软文的人来看到本文,好功能用到动机不妥的人身上,也是一种灾难。

结语

每个人都可以有立场,笔者立场是坚决远离这些所谓的商务合作的软文推广,保留自己公众号一片纯净之地,对Excel催化剂的粉丝们负责。虽然这样的作法已经越来越边缘化不正常。

出淤泥而不染,大家共勉!

原文地址:https://www.cnblogs.com/ExcelCuiHuaJi/p/13712880.html