eclipse启动Heritrix

首先下载heritrix-1.14.4-src源码。可以在http://sourceforge.net/projects/archive-crawler/files/archive-crawler (heritrix 1.x)/1.14.4/,下载解压后。

在eclipse新建java project,命名为MyHeritrix,右键MyHeritrix-->properties-->java bulid path-->libraries查看jre system library是否是jdk的,不是的话将其remove掉,然后点击右边的add library-->jre system library选择系统安装的jdk,因为jdk包含了jre。创建lib文件夹,将源码里lib下的jar包复制到工程的lib下,选择所要的jar文件,右键-->bulid path,将jar文件添加进工程。

复制源码里src/java下的com、org、st文件夹到MyHeritrix工程的src下,复制源码里src下的conf文件夹到MyHeritrix的根目录下,复制源码里src下的webapps文件夹到MyHeritrix的根目录下,复制conf下的jmxremote.password.template文件到MyHeritrix的根目录下,并改名为jmxremote.password。修改该文件最后两行的内容,

monitorRole admin
controlRole admin

复制源码src esourcesorgarchiveutil下的tlds-alpha-by-domain.txt到MyHeritrix工程的org.archive.util下,修改MyHeritrix工程conf下的heritrix.properties。heritrix.cmdline.admin = admin:admin  用户名和密码是用冒号隔开  heritrix.cmdline.port默认是8080,可以改为别的端口号。

右键MyHeritrix工程-->run as-->Run Configurations,双击Java Application创建新的java应用,Main现在的Project选择MyHeritrix,Main class选择org.archive.crawler.Heritrix,点击上面的Classpath-->User Entries-->Advanced-->Add Folders 选择MyHeritrix工程下的conf文件夹,点击ok,点击apply,再点击run。最后控制台打印类似下面的信息,说明启动成功了。

06:37:32.957 EVENT Starting Jetty/4.2.23
06:37:33.040 EVENT Started WebApplicationContext[/,Heritrix Console]
06:37:33.072 EVENT Started SocketListener on 127.0.0.1:8080
06:37:33.072 EVENT Started org.mortbay.jetty.Server@1b65d9bd
Heritrix version: 1.14.4

然后在浏览器输入:http://localhost:8080  进入登录界面,用户名:admin  密码:admin 可以进入管理页面了。

原文地址:https://www.cnblogs.com/hjy9420/p/4402390.html