【转】44款Java 网络爬虫开源软件

原帖地址 http://www.oschina.net/project/lang/19?tag=64&sort=time

极简网络爬虫组件 WebFetch

WebFetch 是无依赖极简网页爬取组件，能在移动设备上运行的微型爬虫。 WebFetch 要达到的目标：没有第三方依赖jar包减少内存使用提高CPU利用率加快网络爬取速度简洁明了的api接口能在Android设备上稳定运行小巧灵活可以方便集成的网页抓取组件使用...更多WebFetch信息

开源爬虫框架 GuozhongCrawler

guozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。其设计灵感来源于多个爬虫国内外爬虫框架的总结。采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、...更多GuozhongCrawler信息

网络爬虫 kamike.collect

Another Simple Crawler 又一个网络爬虫，可以支持代理服务器的翻墙爬取。 1.数据存在mysql当中。 2.使用时，先修改web-inf/config.ini的数据链接相关信息，主要是数据库名和用户名和密码 3.然后访问http://127.0.0.1/fetch/install 链接，自动创建数据库表...更多kamike.collect信息

spider-web 是爬虫的网页版，使用xml配置，支持大部分页面的爬取，支持爬取内容的保存、下载等。其中配置文件格式为： <?xml version="1.0" encoding="UTF-8"?> <content> <url type="simple"> <url_head>http://www.oschina....更多spider-web信息

丑牛迷你采集器

丑牛迷你采集器是一款基于Java Swing开发的专业的网络数据采集/信息挖掘处理软件，通过灵活的配置，可以很轻松迅速地从网页上抓取结构化的文本、图片、文件等资源信息，可编辑筛选处理后选择发布到网站架构说明系统是基于 Swing+Spring-3.2.4+Mybatis-3...更多丑牛迷你采集器信息

JAVA爬虫 WebCollector

爬虫简介： WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。爬虫内核： WebCollector致力于维护一个稳定、可扩的爬虫内核，便于开发者进行灵活的二次开发。内核具有很强的...更多WebCollector信息

Web 数据抽取客户端 webStraktor

webStraktor 是一个可编程的 WWW 数据抽取客户端，提供一个脚本语言用于收集、抽取和存储来自 Web 的数据，包括图片。脚本语言使用正则表达式和 XPath 语法。标准输出为 XML 格式，支持 ASCII、UTF-8 和 ISO885_1 。提供日志记录和跟踪信息。...更多webStraktor信息

网络数据抓取框架 TinySpider

TinySpider是一个基于Tiny HtmlParser的网络数据抓取框架。 Maven引用坐标： <dependency> <groupId>org.tinygroup</groupId> <artifactId>org.tinygroup.spider</artifactId> <version>0.1.0-SNAPSHOT</version> </dependency> 网络爬虫，一般用在全文检...更多TinySpider信息

脚本编程语言 CrawlScript

JAVA平台上的网络爬虫脚本语言 CrawlScript 网络爬虫即自动获取网页信息的一种程序，有很多JAVA、C++的网络爬虫类库，但是在这些类库的基础上开发十分繁琐，需要大量的代码才可以完成一个简单的操作。鉴于这个问题，我们开发了CrawlScript这种脚本语言，程...更多CrawlScript信息

基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件 nutch-htmlunit

Nutch Htmlunit Plugin 项目简介基于Apache Nutch 1.8和Htmlunit组件，实现对于AJAX加载类型页面的完整页面内容抓取解析。 According to the implementation of Apache Nutch 1.8, we can't get dynamic HTML information from fetch pages including AJ...更多nutch-htmlunit信息

最近更新： Nutch-Htmlunit 1.8 发布：基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件发布于 10个月前

网络爬虫 goodcrawler

goodcrawler(GC) 网络爬虫 GC是一个垂直领域的爬虫，同时也是一个拆箱即用的搜索引擎。 GC基于httpclient、htmlunit、jsoup、elasticsearch。 GC的特点： 1、具有DSL特性的模板。 2、分布式、可扩展。 3、辛亏有htmlunit，它能较好地支持javascript。 5、合...更多goodcrawler信息

垂直爬虫 WebMagic

webmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。以下是爬取oschina博客的一段代码： Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*"))....更多WebMagic信息

最近更新： WebMagic 0.5.2发布，Java爬虫框架发布于 1年前

检索爬虫框架 heyDr

heyDr是一款基于java的轻量级开源多线程垂直检索爬虫框架，遵循GNU GPL V3协议。用户可以通过heyDr构建自己的垂直资源爬虫，用于搭建垂直搜索引擎前期的数据准备。更多heyDr信息

opm-server-mirror

代码更新 2009-11-25：加入反爬虫功能。直接Web访问服务器将跳转到Google。使用方法下载index.zip 解压index.zip得到index.php 将index.php传到支持php和cURL的国外服务器上打开 http://www.your_website.com/your_folder_if_any/ ，如果页面跳转到Goo...更多opm-server-mirror信息

Java网络蜘蛛/网络爬虫 Spiderman

Spiderman - 又一个Java网络蜘蛛/爬虫 Spiderman 是一个基于微内核+插件式架构的网络蜘蛛，它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。主要特点 * 灵活、可扩展性强，微内核+插件式架构，Spiderman提供了多达 ...更多Spiderman信息

web 搜索和爬虫 Leopdo

用JAVA编写的web 搜索和爬虫，包括全文和分类垂直搜索，以及分词系统更多Leopdo信息
OWASP AJAX Crawling Tool

OWASP AJAX Crawling Tool (FuzzOps-NG) OWASP出品的ajax爬虫，java编写，开放源代码。更多OWASP AJAX Crawling Tool信息
Ajax爬虫和测试 Crawljax

Crawljax: java编写，开放源代码。 Crawljax 是一个 Java 的工具用于自动化的爬取和测试现在的 Ajax Web 应用。更多Crawljax信息

Common Crawl

commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现。 Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java (位于 org.commoncrawl.samples) 用来配置 InputFormat。...更多Common Crawl信息

数据收集系统 Chukwa

什么是 Chukwa，简单的说它是一个数据收集系统，它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。Chukwa 本身也提供了很多内置的功能，帮助我们进行数据的收集和整理。为了更加简单直观的展示 ...更多Chukwa信息

简易HTTP爬虫 HttpBot

HttpBot 是对 java.net.HttpURLConnection类的简单封装，可以方便的获取网页内容，并且自动管理session，自动处理301重定向等。虽然不能像HttpClient那样强大，支持完整的Http协议，但却非常地灵活，可以满足我目前所有的相关需求。...更多HttpBot信息

Web挖掘工具包 Bixo

Bixo 是一个开放源码的Web挖掘工具包，基于 Hadoop 开发和运行。通过建立一个定制的级联管总成，您可以快速创建Web挖掘是专门为特定用例优化的应用程序。更多Bixo信息

Web爬虫程序 CrawlZilla

crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體，有了它，你就不用依靠商業公司的收尋引擎，也不用再煩惱公司內部網站資料索引的問題由 nutch 專案為核心，並整合更多相關套件，並開發設計安裝與管理UI，讓使用者更方便上手。 crawlzilla 除了爬取基本...更多CrawlZilla信息

网页爬虫 Ex-Crawler

Ex-Crawler 是一个网页爬虫，采用 Java 开发，该项目分成两部分，一个是守护进程，另外一个是灵活可配置的 Web 爬虫。使用数据库存储网页信息。更多Ex-Crawler信息

网页抓取工具 PlayFish

playfish是一个采用java技术，综合应用多个开源java组件实现的网页抓取工具，通过XML配置文件实现高度可定制性与可扩展性的网页抓取工具应用开源jar包包括httpclient(内容读取),dom4j（配置文件解析）,jericho（html解析），已经在 war包的lib下。这个项...更多PlayFish信息

web爬虫 jcrawl

jcrawl是一款小巧性能优良的的web爬虫,它可以从网页抓取各种类型的文件,基于用户定义的符号,比如email,qq.更多jcrawl信息

Java多线程Web爬虫 Crawler4j

Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。示例代码： import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr...更多Crawler4j信息

Web爬虫框架 Smart and Simple Web Crawler

Smart and Simple Web Crawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始，提供两种遍历模式：最大迭代和最大深度。可以设置过滤器限制爬回来的链接，默认提供三个过滤器ServerFilter、BeginningPathFilter和 RegularE...更多Smart and Simple Web Crawler信息

根据URL生成PDF的工具 h2p

根据批量URL生成一个有书签的pdf文档的解决方案。h2p-file是一个xml文件，该xml文件主要描述url的信息和url的层次结构，h2p-tool根据h2p-file生成有书签的pdf文档。还可以通过xsl直接展示url的层次结构，而且合作网站对h2p的支持也将变得简单...更多h2p信息

网页搜索爬虫 BlueLeech

BlueLeech是一个开源程序，它从指定的URL开始，搜索所有可用的链接，以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。更多BlueLeech信息

招聘信息爬虫 JobHunter

JobHunter旨在自动地从一些大型站点来获取招聘信息，如chinahr,51job,zhaopin等等。JobHunter 搜索每个工作项目的邮件地址，自动地向这一邮件地址发送申请文本。更多JobHunter信息

Java网页爬虫 JSpider

JSpider是一个用Java实现的WebSpider，JSpider的执行格式如下： jspider [URL] [ConfigName] URL一定要加上协议名称，如：http://，否则会报错。如果省掉ConfigName，则采用默认配置。 JSpider 的行为是由配置文件具体配置的，比如采用什么插件，结果存储方...更多JSpider信息

ItSucks

ItSucks是一个java web spider（web机器人，爬虫）开源项目。支持通过下载模板和正则表达式来定义下载规则。提供一个swing GUI操作界面。更多ItSucks信息

Web-Harvest

Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。更多Web-Harvest信息

JoBo

JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如：自动登录)和使用cookies来处理session。JoBo还有灵活的下载规则(如：通过网页的URL，大小，MIME类型等)来限制下载。...更多JoBo信息

LARM

LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件，数据库表格建立索引的方法和为Web站点建索引的爬虫。更多LARM信息

Arachnid

Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用...更多Arachnid信息

Spindle Spider

spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。...更多Spindle Spider信息

Arale Spider

Arale主要为个人使用而设计，而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。更多Arale Spider信息

WebLech

WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。更多WebLech信息

WebSPHINX

WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成：爬虫工作平台和WebSPHINX类包。更多WebSPHINX信息

web爬虫 Heritrix

Heritrix是一个开源，可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。 Heritrix是一个爬虫框架，其组织结...更多Heritrix信息

网页爬虫 YaCy

YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引网络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等.更多YaCy信息

最近更新： YaCy 1.4 发布，分布式Web搜索引擎发布于 2年前

搜索引擎 Nutch

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting，他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月，是Apache旗下的一个用Java实现...更多Nutch信息

最近更新： Apache Nutch 1.10 发布，搜索引擎发布于 1个月前