爬虫实现原理与实现技术

原理知识小结

1、聚焦网络爬虫,由于其需要有目的地进行爬去,所以对于通常网络爬虫来说,必须要增加目标的定义和过滤机制,具体来说,此时,其执行原理和过程需要比通常网络爬虫多出3步,即目标的定义、无关连接的过滤、下一步要爬取得url地址的选取。

2、常见的网页更新主策略主要有3种:用户体验策略历史数据策略聚类分析策略

3、聚类分析可以依据商品之间的共性进行相应的处理,将共性较多的商品聚为同一类。

4、在爬虫对网页爬去的过程中,爬虫必须需要访问对应的网页,此时,正规的爬虫一般会告诉对应网页的网站站长其爬虫的身份。网站的管理员则可以通过爬虫告知的身份信息对爬虫的身份进行识别,我们称这个过程为爬虫的身份识别过程。

5、开发网络爬虫的语言有很多,常见的语言有:Python、Java、PHP、Node.JS、C++、Go语言等。

原文地址:https://www.cnblogs.com/MaGnet/p/10108526.html