Lucene简介(理论篇)

    Lucene 是一个软件程序的库或者说是一个工具套件,而不是一个完全的具有搜索特性的应用程序。它关注于自己的文本检索和搜索功能,提供API来完成商业中所涉及到的搜索功能。在搜索功能中,Lucene的功能如图深色框所示。


    


外围的功能组要主要由一些比较流行的框架来实现,比如Solr、ElasticSearch、Sphinx等

      说道Lucene,不得不提它的创始人Dong Cutting。他是一位在信息检索(IR,Information Retrieval)领域中重要的理论与实践者,也在IR领域发表过许多研究论文。Doug Cutting曾经就职于Excite、Apple、Grand Central和Yahoo。在2004,他开发完成了一个开源万维网搜索引擎—Nutch,这个框架能够爬行检索,搜索到几亿个频繁更新web网站。不要惊奇,Nutch的核心其实是Lucene。令人振奋的是,他也参与并领导了Hadoop项目。Hadoop的核心功能之一就是能够实现分布式存储和计算的Map/Reduce 框架。

      Lucene的官网已经对其做了阐述,以下是来至官方的中文翻译。

      Apache LuceneTM工程开发开源搜索软件,包括:

  • Lucene Core,我们的旗舰子工程,提供了基于Java建立索引和搜索技术,同样也有拼写检测,匹配highlighting和高级分析/标识化的能力。
  • SolrTM 是一个使用Lucene核的高性能搜索器,拥有XML/HTTP和JSON/Python/Ruby APIs、匹配highlighting、 侧面搜索(Faceted Search)、缓存、重复(replication)以及Web admin界面。
  • Open Relevance Project开放有关工程是一个聚集和贡献免费性能测试原料为主旨的子工程。
  • PyLucene 是一个Python核心工程的一部分。
    

原文地址:https://www.cnblogs.com/jiangu66/p/3201290.html