这是Joysearch的网页解析基础部件。
JoyHTML的目的是解析HTML文本当中的链接和正文,利用超链接密度法为主要判断依据的标记窗算法,采用DOM树解析模式。
我们的第二个发布版本,0.20系列
这个版本中,我们添加了关键词提取的功能,并且最终实现了一个文档分析模型,便于实现不同的文档分析算法。为接下来的信息检索,信息抽取工作打好基础。
我们接下来的工作将集中于更加具体的信息抽取工作。
如果您对HTML解析有经验,欢迎您继续修改我们的HTML解析部分代码。
有关分词系统的说明
立刻体验
下载完整注释的源代码
整个工程是一个Netbeans项目。