Windows, Eclipse下开发Heritrix 3.1 (一)环境搭建

国内私募机构九鼎控股打造APP,来就送 20元现金领取地址:http://jdb.jiudingcapital.com/phone.html
内部邀请码:C8E245J (不写邀请码,没有现金送)
国内私募机构九鼎控股打造,九鼎投资是在全国股份转让系统挂牌的公众公司,股票代码为430719,为“中国PE第一股”,市值超1000亿元。 
------------------------------------------------------------------------------------------------------------------------------------------------------------------

原文地址:http://hj-learning.iteye.com/blog/1757275

花费了大半天时间在Window系统中搭建Heritrix 3.1的Eclipse开发环境。走了些弯路,但最终都搞定。将其中的经验跟大家分一下。 

  • 相关软件准备

(1)安装JDK1.6, 做java开发的都会,不罗嗦了。 
(2)安装Maven2,版本2.2.1,具体步骤参考:待写教程 
(3)安装Git,具体步骤参考:待写教程 
(4)安装Eclipse,版本eclipse-jee-indigo-SR2-win32 

  • 进入正题


(1)克隆Git源码库 

Java代码  收藏代码
  1. cd C:UsersjHanDeveloperHeritrix3source //需修改为自己本地实际的路径  
  2. git clone git://github.com/internetarchive/heritrix3.git  


或者使用TortoiseGit克隆源码仓库 

(2)获取项目相关依赖包 
进入Command, 

Java代码  收藏代码
  1. cd C:UsersjHanDeveloperHeritrix3sourceheritrix3  //heritrix3的源码目录  
  2. mvn -Dmaven.test.skip=true install  



(3)修改.classpath文件--需要注意的地方 
源码中自带的.classpath有些问题,缺少一些依赖的jar包。具体如下: 

Java代码  收藏代码
  1. 增加依赖包libidn-1.15.jar和archive-commons-1.0-SNAPSHOT.jar:  
  2. <classpathentry kind="var" path="M2_REPO/org/gnu/inet/libidn/1.15/libidn-1.15.jar"/>  
  3. <classpathentry kind="var" path="M2_REPO/org/archive/archive-commons/1.0-SNAPSHOT/archive-commons-1.0-SNAPSHOT.jar"/>  
  4.   
  5. 删除依赖的工程archive-commons:  
  6. <classpathentry combineaccessrules="false" kind="src" path="/archive-commons"/>  



(3)导入项目 
打开Eclipse, 

Java代码  收藏代码
  1. 选择File / Import... / Existing Projects Into Workspace,选择C:UsersjHanDeveloperHeritrix3sourceheritrix3  



(4)Eclipse中设置M2_REPO变量 

Java代码  收藏代码
  1. 选择 Project > Properties > Java Build path >   
  2. 选择 Libraries 标签 > Add variable > Configure variables > New  
  3.   Name: M2_REPO  
  4.   Path: C:/Users/jHan/.m2/repository //路径修改为自己本地maven仓库的实际位置  



(5)创建Debug/Run Configuration 

Java代码  收藏代码
    1. 打开 Run / Debug Configurations...  
    2. 双击 Java Applications 创建一个新的  
    3. 选择 Main class: org.archive.crawler.Heritrix  
    4. 在Arguments标签中操作:  
    5. 在Program arguments中输入: -a admin:admin -l dist/src/main/conf/logging.properties  
    6. 在VM arguments中输入: -Dheritrix.development  
原文地址:https://www.cnblogs.com/AloneSword/p/3353405.html