数据查询方法

1.顺序扫描法

  算法描述:
    所谓顺序扫描,例如要找内容包含一个字符串的文件,就是一个文档一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件。
  优点:
    查询准确率高
  缺点:
    查询速度会随着查询数据量的增大, 越来越慢
  使用场景:
    数据库中的 like关键字模糊查询
    文本编辑器的 Ctrl + F 查询功能

2.倒排索引

  先举一个例子:
    例如我们使用新华字典查询汉字,新华字典有偏旁部首的目录(索引),我们查字首先查这个目录,找到这个目录中对应的偏旁部首,就可以通过这个目录中的偏旁部首找到这个字所在的位置(文档)。
  Lucene会对文档建立倒排索引
  1、 提取资源中关键信息, 建立索引 (目录)
  2、 搜索时,根据关键字(目录),找到资源的位置
  算法描述:
    查询前会先将查询的内容提取出来组成文档(正文), 对文档进行切分词组成索引(目录), 索引和文档有关联关系, 查询的时候先查询索引, 通过索引找文档的这个过程叫做全文检索。

  为什么倒排索引比顺序扫描快?
    理解 : 因为索引可以去掉重复的词, 汉语常用的字和词大概等于, 字典加词典, 常用的英文在牛津词典也有收录.如果用计算机的速度查询, 字典+词典+牛津词典这些内容是非常快的. 但是用这些字典, 词典组成的文章却是千千万万不计其数. 索引的大小最多也就是字典+词典. 所以通过查询索引, 再通过索引和文档的关联关系找到文档速度比较快. 顺序扫描法则是直接去逐个查询那些不计其数的文章,就算是计算的速度也会很慢.
  优点:
    查询准确率高
    查询速度快, 并且不会因为查询内容量的增加, 而使查询速度逐渐变慢
  缺点:
    索引文件会占用额外的磁盘空间, 也就是占用磁盘量会增大。
  使用场景:
    海量数据查询

全文检索技术应用场景:

  1、 站内搜索 (baidu贴吧、论坛、 京东、 taobao)
  2、 垂直领域的搜索 (818工作网)
  3、 专业搜索引擎公司 (google、baidu)

原文地址:https://www.cnblogs.com/roadlandscape/p/12545275.html