pyquery的问题

在使用pyquery时发现一些问题,

1.爬取的html中如果有较多的错误时,不能很好的补全。

2.如果要获取某个class中的内容时,如果内容太多不能取完整!只能取一部分。

这个在现在的最新版本中还没有很好的解决吧!

所以我就换回beautifulsoup,就没有这两个问题了!

使用lxml HTML 解析器:

BeautifulSoup(markup,"lxml")

速度也不会差到哪里去,html容错能力比pyquery好的多!

附上bs文档>>>

原文地址:https://www.cnblogs.com/feng18/p/6104636.html