crawler_解析之_jquery_语法选择器使用方法

爬虫解析一般使用 正则或者给予样式的 jquery语法选择器

正则是根本,类比jsoup基于dom,底层也有部分是基于正则实现的,linux操作系统

文本处理也是借助强大的正则体现的 。关于正则 请参考 《正则指引》书 。

正则基本语法 :http://cphmvp.diandian.com/post/2012-07-31/40032077081

搜索爬虫常用正则:http://cphmvp.diandian.com/post/2012-11-10/40041792417

正则的调试工具有很多,推荐个 RegexBuddy 。 这里就不多做介绍了或者后续补充 。

今天着重讲下 jsoup,近期做了一千多个站点,主要依靠jsoup,jquery的语法选择器恶补了下(其实用到的也不多)

跟xpath 相似,写时可以借助 firefox的插件自动生成 。

个人写了个 cssQuery语法选择器的帮助工具 :下载地址:http://pan.baidu.com/s/1eQ1NfrW 

1:支持自动生成下一页query 规则生成 

2: 支持源码获取 ,自动刷新支持

3: 匹配结果查看 

原文地址:https://www.cnblogs.com/cphmvp/p/3606293.html