joyhtml JoyHTML JoySearch的HTML解析程序

这是Joysearch的网页解析基础部件。

JoyHTML的目的是解析HTML文本当中的链接和正文，利用超链接密度法为主要判断依据的标记窗算法，采用DOM树解析模式。

我们的第二个发布版本,0.20系列

这个版本中，我们添加了关键词提取的功能，并且最终实现了一个文档分析模型，便于实现不同的文档分析算法。为接下来的信息检索，信息抽取工作打好基础。

我们接下来的工作将集中于更加具体的信息抽取工作。

如果您对HTML解析有经验，欢迎您继续修改我们的HTML解析部分代码。

有关分词系统的说明

立刻体验

下载完整注释的源代码

整个工程是一个Netbeans项目。

立即了解！

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/lexus/p/2504462.html