痛定思痛!几个空行引起的重大失误!

由于一个文件的末尾多出了几个空行,导致抓取链接的网页重复,再加上数据量大,各种原因吧!

20万数据洗成了两万,不完全统计某些数据重复数高达100条,爬虫这一天是白跑了,痛定思痛,

这种错误以后可不能再犯了。这不仅耽误自己时间,也对不起人家网站呐。

原文地址:https://www.cnblogs.com/AbsolutelyPerfect/p/8284103.html