吐槽一下jsoup

  网络爬虫的本质就是通过域名加上特定的路由方式与远程资源建立一个短暂的连接,然后通过io流的方式读取。然后说一下jsoup,jsoup可以说是目前的爬虫工具包里面对java底层的工具类封装最简单的一种了,轻便很好用,但是有一些莫名奇妙的限制,用jsoup请求网络资源时,默认读取的最大长度是1024*1024,当时读的时候,发现少了东西,看了一下源码发现,其他的爬虫工具就没限制,有点僵硬了!

原文地址:https://www.cnblogs.com/shirandedan/p/9830010.html