4.0 爬虫

1.爬虫:
抓取某个网站或应用的内容,并提取有用的价值。

2.爬虫可划分为3种类型:
批量型爬虫:有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。
增量型爬虫:保持不断的抓取,对于抓取到的网页,要定期更新。处于持续不断的抓取过程中,不是在抓取新网页,就是在更新已有网页。通用的商业搜索引擎爬虫基本都属此类。
垂直型爬虫:关注特定主题内容或属于特定行业的网页。垂直型爬虫一个最大的特点和难点就是:如何识别网页 内容是否属于指定行业或者主题。需要爬虫在抓取 阶段就能够动态识别某个网址是否与主题相关,并尽量不去抓取无关页面,

3.优秀爬虫的特性
高性能:主要指爬虫下载网页的抓取速度,高效的数据结构对于爬虫的性能影响很大
可扩展性
健壮性:爬虫能够正确处理各种异常情况
友好性:一是保护网站的部分私密性,二是减少被抓取网站的网络负载

4.爬虫指标:

吞吐量,分辨能力, 抓取的深度和广度。

5.

robots.txt

搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

robots.txt文件应该放在网站根目录下。robots访问一个网站(比如http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

非结构化的数据处理中:html文本 需要解析一些常见的元素,提取一些关键的信息

原文地址:https://www.cnblogs.com/ericazy/p/6289831.html